* [devel] В каком формате хранить словарную базу для переводчика?
@ 2006-06-27 8:44 Slava Dubrovskiy
2006-06-27 9:07 ` Kirill Maslinsky
0 siblings, 1 reply; 10+ messages in thread
From: Slava Dubrovskiy @ 2006-06-27 8:44 UTC (permalink / raw)
To: ALT Devel discussion list
[-- Attachment #1: Type: text/plain, Size: 1077 bytes --]
Здравствуйте.
Есть переводчик который использует для хранения словарных форм Berkeley DB.
Есть исходник словарей в текстовом формате и программа которая читает
этот файл и создает базу данных.
Так же есть дамп базы.
Вопрос:
1. В каком формате лучше представлять srpm? Дамп или текстовый файл?
Дамп на ~30% меньше по объему.
2. Когда собирается rpm то как поступить: во время сборки создавать DB?
(тогда при обновлении libdb необходимо будет пересобирать словари)
или во время установки в %post производить создание базы из
дампа/исходника?
или что-то другое?
--
С уважением,
Дубровский Вячеслав.
[-- Attachment #2: S/MIME Cryptographic Signature --]
[-- Type: application/x-pkcs7-signature, Size: 3237 bytes --]
^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика?
2006-06-27 8:44 [devel] В каком формате хранить словарную базу для переводчика? Slava Dubrovskiy
@ 2006-06-27 9:07 ` Kirill Maslinsky
2006-06-27 9:32 ` Slava Dubrovskiy
0 siblings, 1 reply; 10+ messages in thread
From: Kirill Maslinsky @ 2006-06-27 9:07 UTC (permalink / raw)
To: ALT Devel discussion list
[-- Attachment #1: Type: text/plain, Size: 1299 bytes --]
Добрый день!
> Есть переводчик который использует для хранения словарных форм Berkeley DB.
> Есть исходник словарей в текстовом формате и программа которая читает
> этот файл и создает базу данных.
А можно полюбопытствовать, что там в этих словарях?
> Так же есть дамп базы.
> Вопрос:
> 1. В каком формате лучше представлять srpm? Дамп или текстовый файл?
> Дамп на ~30% меньше по объему.
Вопрос в том, кому ещё информация из этих словарей может быть
полезна, кроме этого переводчика. Может быть
другим программам (например, нельзя ли их интегрировать, скажем, в dict)
или просто людям (grep по текстовому словарю ведь тоже можно сделать).
Если так, возможно, имеет смысл паковать словари вообще отдельно, и там уж
смотреть, в каком виде.
> 2. Когда собирается rpm то как поступить: во время сборки создавать DB?
> (тогда при обновлении libdb необходимо будет пересобирать словари)
> или во время установки в %post производить создание базы из
> дампа/исходника?
> или что-то другое?
>
> --
> С уважением,
> Дубровский Вячеслав.
>
> _______________________________________________
> Devel mailing list
> Devel@lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/devel
--
Kirill Maslinsky
ALT Linux Documentation Team
[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]
^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика?
2006-06-27 9:07 ` Kirill Maslinsky
@ 2006-06-27 9:32 ` Slava Dubrovskiy
2006-06-27 9:47 ` Kirill Maslinsky
0 siblings, 1 reply; 10+ messages in thread
From: Slava Dubrovskiy @ 2006-06-27 9:32 UTC (permalink / raw)
To: ALT Devel discussion list
[-- Attachment #1: Type: text/plain, Size: 1241 bytes --]
Kirill Maslinsky пишет:
>> Есть переводчик который использует для хранения словарных форм Berkeley DB.
>> Есть исходник словарей в текстовом формате и программа которая читает
>> этот файл и создает базу данных.
>>
> А можно полюбопытствовать, что там в этих словарях?
>
Сайт проекта pere.org.ua. Это русско-украинский переводчик (пока во
всяком случае готовы только эти направления. Остальные в процессе
наполнения).
>> Так же есть дамп базы.
>> Вопрос:
>> 1. В каком формате лучше представлять srpm? Дамп или текстовый файл?
>> Дамп на ~30% меньше по объему.
>>
> Вопрос в том, кому ещё информация из этих словарей может быть
> полезна, кроме этого переводчика. Может быть
> другим программам (например, нельзя ли их интегрировать, скажем, в dict)
> или просто людям (grep по текстовому словарю ведь тоже можно сделать).
>
Есть перловая обвязка и GUI.
> Если так, возможно, имеет смысл паковать словари вообще отдельно, и там уж
> смотреть, в каком виде.
>
Конечно отдельно.
Вопрос чисто в техническом плане. Как лучше?
Пока остановились на том, что srpm будет в сырце, и при установке будет
проводится создание базы данных в %post и при удалении пакета удаляться
в %postun.
--
С уважением,
Дубровский Вячеслав.
[-- Attachment #2: OpenPGP digital signature --]
[-- Type: application/pgp-signature, Size: 254 bytes --]
^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика?
2006-06-27 9:32 ` Slava Dubrovskiy
@ 2006-06-27 9:47 ` Kirill Maslinsky
2006-06-27 10:01 ` Slava Dubrovskiy
0 siblings, 1 reply; 10+ messages in thread
From: Kirill Maslinsky @ 2006-06-27 9:47 UTC (permalink / raw)
To: ALT Devel discussion list
[-- Attachment #1: Type: text/plain, Size: 751 bytes --]
Действительно любопытный проект
> >> Вопрос:
> >> 1. В каком формате лучше представлять srpm? Дамп или текстовый файл?
> >> Дамп на ~30% меньше по объему.
> >>
<...>
> Вопрос чисто в техническом плане. Как лучше?
> Пока остановились на том, что srpm будет в сырце, и при установке будет
> проводится создание базы данных в %post и при удалении пакета удаляться
> в %postun.
А это значит, что в системе будут установлены эти словари и в виде
текстового файла, и в виде дампа?
Мне такой вариант кажется самым правильным: в srpm нужно класть
исходные данные в том виде, в котором они распространяются, а
автоматически генерируемое следует автоматически генерировать.
--
Kirill Maslinsky
ALT Linux Documentation Team
[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]
^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика?
2006-06-27 9:47 ` Kirill Maslinsky
@ 2006-06-27 10:01 ` Slava Dubrovskiy
2006-06-27 11:36 ` Kirill Maslinsky
2006-06-28 6:43 ` Ildar Mulyukov
0 siblings, 2 replies; 10+ messages in thread
From: Slava Dubrovskiy @ 2006-06-27 10:01 UTC (permalink / raw)
To: ALT Devel discussion list
[-- Attachment #1: Type: text/plain, Size: 809 bytes --]
Kirill Maslinsky пишет:
> А это значит, что в системе будут установлены эти словари и в виде
> текстового файла, и в виде дампа?
>
Не. Текстовый файл и дамп это разные вещи. Вот почему и возник вопрос. И
распространяются они в 2 форматах.
Загнать в базу текстовый файл можно только с помощью скрипта
переводчика, а из дампа средствами самой базы, плюс дамп меньше места
занимает.
Вот я и спрашиваю, что лучше брать за исходник, дамп или текстовый файл?
> Мне такой вариант кажется самым правильным: в srpm нужно класть
> исходные данные в том виде, в котором они распространяются, а
> автоматически генерируемое следует автоматически генерировать.
>
Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли оно
при установке/обновлении тормозить?
--
С уважением,
Дубровский Вячеслав.
[-- Attachment #2: OpenPGP digital signature --]
[-- Type: application/pgp-signature, Size: 254 bytes --]
^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика?
2006-06-27 10:01 ` Slava Dubrovskiy
@ 2006-06-27 11:36 ` Kirill Maslinsky
2006-06-29 8:00 ` Slava Dubrovskiy
2006-06-28 6:43 ` Ildar Mulyukov
1 sibling, 1 reply; 10+ messages in thread
From: Kirill Maslinsky @ 2006-06-27 11:36 UTC (permalink / raw)
To: ALT Devel discussion list
[-- Attachment #1: Type: text/plain, Size: 1721 bytes --]
Вы, Slava Dubrovskiy, мне писали:
> Kirill Maslinsky пишет:
> > А это значит, что в системе будут установлены эти словари и в виде
> > текстового файла, и в виде дампа?
> >
> Не. Текстовый файл и дамп это разные вещи. Вот почему и возник вопрос. И
> распространяются они в 2 форматах.
> Загнать в базу текстовый файл можно только с помощью скрипта
> переводчика, а из дампа средствами самой базы, плюс дамп меньше места
> занимает.
А. Я, кажется, понял наконец.
Словарь в текстовом формате -- это такая "нормализованная" форма
распространения данных.
> Вот я и спрашиваю, что лучше брать за исходник, дамп или текстовый файл?
Тогда если есть идея распространять словарь именно как в некотором
смысле самостоятельную вещь, а не только как компонент программы-переводчика,
то следует паковать его в текстовом формате. Тогда если переводчик и словарь
должны быть в разных rpm-пакетах, то при установке пакета с переводчиком
(но не со словарём) нужно будет с помощью названного скрипта "втягивать" словарь в базу.
А если словарь предполагается распространять только как компонент переводчика,
то правильнее их держать в одном пакете и словарь в виде дампа, потому
что таким образом много чего экономится и ничего не теряется.
> > Мне такой вариант кажется самым правильным: в srpm нужно класть
> > исходные данные в том виде, в котором они распространяются, а
> > автоматически генерируемое следует автоматически генерировать.
> >
> Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли оно
> при установке/обновлении тормозить?
А разве есть задача экономить время при установке/обновлении пакета?
--
Kirill Maslinsky
ALT Linux Documentation Team
[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]
^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика?
2006-06-27 10:01 ` Slava Dubrovskiy
2006-06-27 11:36 ` Kirill Maslinsky
@ 2006-06-28 6:43 ` Ildar Mulyukov
2006-06-28 7:07 ` Michael Shigorin
1 sibling, 1 reply; 10+ messages in thread
From: Ildar Mulyukov @ 2006-06-28 6:43 UTC (permalink / raw)
To: devel
On 27.06.2006 16:01:48, Slava Dubrovskiy wrote:
> Kirill Maslinsky пишет:
> > А это значит, что в системе будут установлены эти словари и в виде
> > текстового файла, и в виде дампа?
> >
> Не. Текстовый файл и дамп это разные вещи. Вот почему и возник вопрос.
> И
> распространяются они в 2 форматах.
> Загнать в базу текстовый файл можно только с помощью скрипта
> переводчика, а из дампа средствами самой базы, плюс дамп меньше места
> занимает.
> Вот я и спрашиваю, что лучше брать за исходник, дамп или текстовый
> файл?
> > Мне такой вариант кажется самым правильным: в srpm нужно класть
> > исходные данные в том виде, в котором они распространяются, а
> > автоматически генерируемое следует автоматически генерировать.
> >
> Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли
> оно
> при установке/обновлении тормозить?
Согласен с Кириллом, но, как мне кажется, Вячеслав неправильно его
понял. Попробую высказаться:
1. В srpm лучше всего класть то, что непосредственно берётся из
апстрима. Чем ближе к апстриму, тем прозрачнее работа мэйнтейнера.
2. Создавать db следует во время построения пакета. Ибо:
2а. Важным фактором является компактность результирующего
пакета (то есть объём выкаченного из интернета) и место, которое он
занимает в системе.
2б. В случае, если изменился libdb, Сизиф сам справится с тем,
чтобы заново построить пакет.
3. Программу и базу лучше класть в отдельные пакеты. Это не только
разумно, но и удобно. В частности в тех случаях, когда надо обновить
программы, не обновляя базы.
4. Где возможно, хорошо советовать апстриму использовать стандартные
форматы данных.
Чистое ИМХО, прошу не бить ногами :)
Ильдар
--
Ildar Mulyukov,
free SW designer/programmer/packager
=========================================
email: ildar@altlinux.ru
ALT Linux Sisyphus http://www.sisyphus.ru
=========================================
^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика?
2006-06-28 6:43 ` Ildar Mulyukov
@ 2006-06-28 7:07 ` Michael Shigorin
2006-06-28 8:42 ` Ildar Mulyukov
0 siblings, 1 reply; 10+ messages in thread
From: Michael Shigorin @ 2006-06-28 7:07 UTC (permalink / raw)
To: devel
On Wed, Jun 28, 2006 at 12:43:38PM +0600, Ildar Mulyukov wrote:
> 4. Где возможно, хорошо советовать апстриму использовать
> стандартные форматы данных.
Апстрим, в общем-то, сам их тут разрабатывал скорее потому,
что стандартов неизвестно, а подгонять данные для непрерывного
перевода под дискретный dict вроде как малоосмысленно.
Вообще оный апстрим делал доклад по теме:
http://conference.osdn.org.ua/ru/archive/2004/
PS: кстати, в начале октября предвидится очередная конференция.
Обдумывайте доклады ;-)
--
---- WBR, Michael Shigorin <mike@altlinux.ru>
------ Linux.Kiev http://www.linux.kiev.ua/
^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика?
2006-06-28 7:07 ` Michael Shigorin
@ 2006-06-28 8:42 ` Ildar Mulyukov
0 siblings, 0 replies; 10+ messages in thread
From: Ildar Mulyukov @ 2006-06-28 8:42 UTC (permalink / raw)
To: devel
On 28.06.2006 13:07:24, Michael Shigorin wrote:
> On Wed, Jun 28, 2006 at 12:43:38PM +0600, Ildar Mulyukov wrote:
> > 4. Где возможно, хорошо советовать апстриму использовать
> > стандартные форматы данных.
>
> Апстрим, в общем-то, сам их тут разрабатывал скорее потому,
> что стандартов неизвестно, а подгонять данные для непрерывного
> перевода под дискретный dict вроде как малоосмысленно.
Именно поэтому я выразился как можно осторожнее. :)
Ильдар
--
Ildar Mulyukov,
free SW designer/programmer/packager
=========================================
email: ildar@altlinux.ru
ALT Linux Sisyphus http://www.sisyphus.ru
=========================================
^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика?
2006-06-27 11:36 ` Kirill Maslinsky
@ 2006-06-29 8:00 ` Slava Dubrovskiy
0 siblings, 0 replies; 10+ messages in thread
From: Slava Dubrovskiy @ 2006-06-29 8:00 UTC (permalink / raw)
To: ALT Devel discussion list
[-- Attachment #1: Type: text/plain, Size: 557 bytes --]
Kirill Maslinsky пишет:
>>> Мне такой вариант кажется самым правильным: в srpm нужно класть
>>> исходные данные в том виде, в котором они распространяются, а
>>> автоматически генерируемое следует автоматически генерировать.
>>>
>> Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли оно
>> при установке/обновлении тормозить?
>>
> А разве есть задача экономить время при установке/обновлении пакета?
>
Вообщем-то да. Разве нормально, когда на установку 1 пакета тратится 2-3
часа?
--
С уважением,
Дубровский Вячеслав.
[-- Attachment #2: OpenPGP digital signature --]
[-- Type: application/pgp-signature, Size: 254 bytes --]
^ permalink raw reply [flat|nested] 10+ messages in thread
end of thread, other threads:[~2006-06-29 8:00 UTC | newest]
Thread overview: 10+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2006-06-27 8:44 [devel] В каком формате хранить словарную базу для переводчика? Slava Dubrovskiy
2006-06-27 9:07 ` Kirill Maslinsky
2006-06-27 9:32 ` Slava Dubrovskiy
2006-06-27 9:47 ` Kirill Maslinsky
2006-06-27 10:01 ` Slava Dubrovskiy
2006-06-27 11:36 ` Kirill Maslinsky
2006-06-29 8:00 ` Slava Dubrovskiy
2006-06-28 6:43 ` Ildar Mulyukov
2006-06-28 7:07 ` Michael Shigorin
2006-06-28 8:42 ` Ildar Mulyukov
ALT Linux Team development discussions
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/devel/0 devel/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 devel devel/ http://lore.altlinux.org/devel \
devel@altlinux.org devel@altlinux.ru devel@lists.altlinux.org devel@lists.altlinux.ru devel@linux.iplabs.ru mandrake-russian@linuxteam.iplabs.ru sisyphus@linuxteam.iplabs.ru
public-inbox-index devel
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.devel
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git