* [devel] В каком формате хранить словарную базу для переводчика? @ 2006-06-27 8:44 Slava Dubrovskiy 2006-06-27 9:07 ` Kirill Maslinsky 0 siblings, 1 reply; 10+ messages in thread From: Slava Dubrovskiy @ 2006-06-27 8:44 UTC (permalink / raw) To: ALT Devel discussion list [-- Attachment #1: Type: text/plain, Size: 1077 bytes --] Здравствуйте. Есть переводчик который использует для хранения словарных форм Berkeley DB. Есть исходник словарей в текстовом формате и программа которая читает этот файл и создает базу данных. Так же есть дамп базы. Вопрос: 1. В каком формате лучше представлять srpm? Дамп или текстовый файл? Дамп на ~30% меньше по объему. 2. Когда собирается rpm то как поступить: во время сборки создавать DB? (тогда при обновлении libdb необходимо будет пересобирать словари) или во время установки в %post производить создание базы из дампа/исходника? или что-то другое? -- С уважением, Дубровский Вячеслав. [-- Attachment #2: S/MIME Cryptographic Signature --] [-- Type: application/x-pkcs7-signature, Size: 3237 bytes --] ^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика? 2006-06-27 8:44 [devel] В каком формате хранить словарную базу для переводчика? Slava Dubrovskiy @ 2006-06-27 9:07 ` Kirill Maslinsky 2006-06-27 9:32 ` Slava Dubrovskiy 0 siblings, 1 reply; 10+ messages in thread From: Kirill Maslinsky @ 2006-06-27 9:07 UTC (permalink / raw) To: ALT Devel discussion list [-- Attachment #1: Type: text/plain, Size: 1299 bytes --] Добрый день! > Есть переводчик который использует для хранения словарных форм Berkeley DB. > Есть исходник словарей в текстовом формате и программа которая читает > этот файл и создает базу данных. А можно полюбопытствовать, что там в этих словарях? > Так же есть дамп базы. > Вопрос: > 1. В каком формате лучше представлять srpm? Дамп или текстовый файл? > Дамп на ~30% меньше по объему. Вопрос в том, кому ещё информация из этих словарей может быть полезна, кроме этого переводчика. Может быть другим программам (например, нельзя ли их интегрировать, скажем, в dict) или просто людям (grep по текстовому словарю ведь тоже можно сделать). Если так, возможно, имеет смысл паковать словари вообще отдельно, и там уж смотреть, в каком виде. > 2. Когда собирается rpm то как поступить: во время сборки создавать DB? > (тогда при обновлении libdb необходимо будет пересобирать словари) > или во время установки в %post производить создание базы из > дампа/исходника? > или что-то другое? > > -- > С уважением, > Дубровский Вячеслав. > > _______________________________________________ > Devel mailing list > Devel@lists.altlinux.org > https://lists.altlinux.org/mailman/listinfo/devel -- Kirill Maslinsky ALT Linux Documentation Team [-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --] ^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика? 2006-06-27 9:07 ` Kirill Maslinsky @ 2006-06-27 9:32 ` Slava Dubrovskiy 2006-06-27 9:47 ` Kirill Maslinsky 0 siblings, 1 reply; 10+ messages in thread From: Slava Dubrovskiy @ 2006-06-27 9:32 UTC (permalink / raw) To: ALT Devel discussion list [-- Attachment #1: Type: text/plain, Size: 1241 bytes --] Kirill Maslinsky пишет: >> Есть переводчик который использует для хранения словарных форм Berkeley DB. >> Есть исходник словарей в текстовом формате и программа которая читает >> этот файл и создает базу данных. >> > А можно полюбопытствовать, что там в этих словарях? > Сайт проекта pere.org.ua. Это русско-украинский переводчик (пока во всяком случае готовы только эти направления. Остальные в процессе наполнения). >> Так же есть дамп базы. >> Вопрос: >> 1. В каком формате лучше представлять srpm? Дамп или текстовый файл? >> Дамп на ~30% меньше по объему. >> > Вопрос в том, кому ещё информация из этих словарей может быть > полезна, кроме этого переводчика. Может быть > другим программам (например, нельзя ли их интегрировать, скажем, в dict) > или просто людям (grep по текстовому словарю ведь тоже можно сделать). > Есть перловая обвязка и GUI. > Если так, возможно, имеет смысл паковать словари вообще отдельно, и там уж > смотреть, в каком виде. > Конечно отдельно. Вопрос чисто в техническом плане. Как лучше? Пока остановились на том, что srpm будет в сырце, и при установке будет проводится создание базы данных в %post и при удалении пакета удаляться в %postun. -- С уважением, Дубровский Вячеслав. [-- Attachment #2: OpenPGP digital signature --] [-- Type: application/pgp-signature, Size: 254 bytes --] ^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика? 2006-06-27 9:32 ` Slava Dubrovskiy @ 2006-06-27 9:47 ` Kirill Maslinsky 2006-06-27 10:01 ` Slava Dubrovskiy 0 siblings, 1 reply; 10+ messages in thread From: Kirill Maslinsky @ 2006-06-27 9:47 UTC (permalink / raw) To: ALT Devel discussion list [-- Attachment #1: Type: text/plain, Size: 751 bytes --] Действительно любопытный проект > >> Вопрос: > >> 1. В каком формате лучше представлять srpm? Дамп или текстовый файл? > >> Дамп на ~30% меньше по объему. > >> <...> > Вопрос чисто в техническом плане. Как лучше? > Пока остановились на том, что srpm будет в сырце, и при установке будет > проводится создание базы данных в %post и при удалении пакета удаляться > в %postun. А это значит, что в системе будут установлены эти словари и в виде текстового файла, и в виде дампа? Мне такой вариант кажется самым правильным: в srpm нужно класть исходные данные в том виде, в котором они распространяются, а автоматически генерируемое следует автоматически генерировать. -- Kirill Maslinsky ALT Linux Documentation Team [-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --] ^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика? 2006-06-27 9:47 ` Kirill Maslinsky @ 2006-06-27 10:01 ` Slava Dubrovskiy 2006-06-27 11:36 ` Kirill Maslinsky 2006-06-28 6:43 ` Ildar Mulyukov 0 siblings, 2 replies; 10+ messages in thread From: Slava Dubrovskiy @ 2006-06-27 10:01 UTC (permalink / raw) To: ALT Devel discussion list [-- Attachment #1: Type: text/plain, Size: 809 bytes --] Kirill Maslinsky пишет: > А это значит, что в системе будут установлены эти словари и в виде > текстового файла, и в виде дампа? > Не. Текстовый файл и дамп это разные вещи. Вот почему и возник вопрос. И распространяются они в 2 форматах. Загнать в базу текстовый файл можно только с помощью скрипта переводчика, а из дампа средствами самой базы, плюс дамп меньше места занимает. Вот я и спрашиваю, что лучше брать за исходник, дамп или текстовый файл? > Мне такой вариант кажется самым правильным: в srpm нужно класть > исходные данные в том виде, в котором они распространяются, а > автоматически генерируемое следует автоматически генерировать. > Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли оно при установке/обновлении тормозить? -- С уважением, Дубровский Вячеслав. [-- Attachment #2: OpenPGP digital signature --] [-- Type: application/pgp-signature, Size: 254 bytes --] ^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика? 2006-06-27 10:01 ` Slava Dubrovskiy @ 2006-06-27 11:36 ` Kirill Maslinsky 2006-06-29 8:00 ` Slava Dubrovskiy 2006-06-28 6:43 ` Ildar Mulyukov 1 sibling, 1 reply; 10+ messages in thread From: Kirill Maslinsky @ 2006-06-27 11:36 UTC (permalink / raw) To: ALT Devel discussion list [-- Attachment #1: Type: text/plain, Size: 1721 bytes --] Вы, Slava Dubrovskiy, мне писали: > Kirill Maslinsky пишет: > > А это значит, что в системе будут установлены эти словари и в виде > > текстового файла, и в виде дампа? > > > Не. Текстовый файл и дамп это разные вещи. Вот почему и возник вопрос. И > распространяются они в 2 форматах. > Загнать в базу текстовый файл можно только с помощью скрипта > переводчика, а из дампа средствами самой базы, плюс дамп меньше места > занимает. А. Я, кажется, понял наконец. Словарь в текстовом формате -- это такая "нормализованная" форма распространения данных. > Вот я и спрашиваю, что лучше брать за исходник, дамп или текстовый файл? Тогда если есть идея распространять словарь именно как в некотором смысле самостоятельную вещь, а не только как компонент программы-переводчика, то следует паковать его в текстовом формате. Тогда если переводчик и словарь должны быть в разных rpm-пакетах, то при установке пакета с переводчиком (но не со словарём) нужно будет с помощью названного скрипта "втягивать" словарь в базу. А если словарь предполагается распространять только как компонент переводчика, то правильнее их держать в одном пакете и словарь в виде дампа, потому что таким образом много чего экономится и ничего не теряется. > > Мне такой вариант кажется самым правильным: в srpm нужно класть > > исходные данные в том виде, в котором они распространяются, а > > автоматически генерируемое следует автоматически генерировать. > > > Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли оно > при установке/обновлении тормозить? А разве есть задача экономить время при установке/обновлении пакета? -- Kirill Maslinsky ALT Linux Documentation Team [-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --] ^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика? 2006-06-27 11:36 ` Kirill Maslinsky @ 2006-06-29 8:00 ` Slava Dubrovskiy 0 siblings, 0 replies; 10+ messages in thread From: Slava Dubrovskiy @ 2006-06-29 8:00 UTC (permalink / raw) To: ALT Devel discussion list [-- Attachment #1: Type: text/plain, Size: 557 bytes --] Kirill Maslinsky пишет: >>> Мне такой вариант кажется самым правильным: в srpm нужно класть >>> исходные данные в том виде, в котором они распространяются, а >>> автоматически генерируемое следует автоматически генерировать. >>> >> Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли оно >> при установке/обновлении тормозить? >> > А разве есть задача экономить время при установке/обновлении пакета? > Вообщем-то да. Разве нормально, когда на установку 1 пакета тратится 2-3 часа? -- С уважением, Дубровский Вячеслав. [-- Attachment #2: OpenPGP digital signature --] [-- Type: application/pgp-signature, Size: 254 bytes --] ^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика? 2006-06-27 10:01 ` Slava Dubrovskiy 2006-06-27 11:36 ` Kirill Maslinsky @ 2006-06-28 6:43 ` Ildar Mulyukov 2006-06-28 7:07 ` Michael Shigorin 1 sibling, 1 reply; 10+ messages in thread From: Ildar Mulyukov @ 2006-06-28 6:43 UTC (permalink / raw) To: devel On 27.06.2006 16:01:48, Slava Dubrovskiy wrote: > Kirill Maslinsky пишет: > > А это значит, что в системе будут установлены эти словари и в виде > > текстового файла, и в виде дампа? > > > Не. Текстовый файл и дамп это разные вещи. Вот почему и возник вопрос. > И > распространяются они в 2 форматах. > Загнать в базу текстовый файл можно только с помощью скрипта > переводчика, а из дампа средствами самой базы, плюс дамп меньше места > занимает. > Вот я и спрашиваю, что лучше брать за исходник, дамп или текстовый > файл? > > Мне такой вариант кажется самым правильным: в srpm нужно класть > > исходные данные в том виде, в котором они распространяются, а > > автоматически генерируемое следует автоматически генерировать. > > > Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли > оно > при установке/обновлении тормозить? Согласен с Кириллом, но, как мне кажется, Вячеслав неправильно его понял. Попробую высказаться: 1. В srpm лучше всего класть то, что непосредственно берётся из апстрима. Чем ближе к апстриму, тем прозрачнее работа мэйнтейнера. 2. Создавать db следует во время построения пакета. Ибо: 2а. Важным фактором является компактность результирующего пакета (то есть объём выкаченного из интернета) и место, которое он занимает в системе. 2б. В случае, если изменился libdb, Сизиф сам справится с тем, чтобы заново построить пакет. 3. Программу и базу лучше класть в отдельные пакеты. Это не только разумно, но и удобно. В частности в тех случаях, когда надо обновить программы, не обновляя базы. 4. Где возможно, хорошо советовать апстриму использовать стандартные форматы данных. Чистое ИМХО, прошу не бить ногами :) Ильдар -- Ildar Mulyukov, free SW designer/programmer/packager ========================================= email: ildar@altlinux.ru ALT Linux Sisyphus http://www.sisyphus.ru ========================================= ^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика? 2006-06-28 6:43 ` Ildar Mulyukov @ 2006-06-28 7:07 ` Michael Shigorin 2006-06-28 8:42 ` Ildar Mulyukov 0 siblings, 1 reply; 10+ messages in thread From: Michael Shigorin @ 2006-06-28 7:07 UTC (permalink / raw) To: devel On Wed, Jun 28, 2006 at 12:43:38PM +0600, Ildar Mulyukov wrote: > 4. Где возможно, хорошо советовать апстриму использовать > стандартные форматы данных. Апстрим, в общем-то, сам их тут разрабатывал скорее потому, что стандартов неизвестно, а подгонять данные для непрерывного перевода под дискретный dict вроде как малоосмысленно. Вообще оный апстрим делал доклад по теме: http://conference.osdn.org.ua/ru/archive/2004/ PS: кстати, в начале октября предвидится очередная конференция. Обдумывайте доклады ;-) -- ---- WBR, Michael Shigorin <mike@altlinux.ru> ------ Linux.Kiev http://www.linux.kiev.ua/ ^ permalink raw reply [flat|nested] 10+ messages in thread
* Re: [devel] В каком формате хранить словарную базу для переводчика? 2006-06-28 7:07 ` Michael Shigorin @ 2006-06-28 8:42 ` Ildar Mulyukov 0 siblings, 0 replies; 10+ messages in thread From: Ildar Mulyukov @ 2006-06-28 8:42 UTC (permalink / raw) To: devel On 28.06.2006 13:07:24, Michael Shigorin wrote: > On Wed, Jun 28, 2006 at 12:43:38PM +0600, Ildar Mulyukov wrote: > > 4. Где возможно, хорошо советовать апстриму использовать > > стандартные форматы данных. > > Апстрим, в общем-то, сам их тут разрабатывал скорее потому, > что стандартов неизвестно, а подгонять данные для непрерывного > перевода под дискретный dict вроде как малоосмысленно. Именно поэтому я выразился как можно осторожнее. :) Ильдар -- Ildar Mulyukov, free SW designer/programmer/packager ========================================= email: ildar@altlinux.ru ALT Linux Sisyphus http://www.sisyphus.ru ========================================= ^ permalink raw reply [flat|nested] 10+ messages in thread
end of thread, other threads:[~2006-06-29 8:00 UTC | newest] Thread overview: 10+ messages (download: mbox.gz / follow: Atom feed) -- links below jump to the message on this page -- 2006-06-27 8:44 [devel] В каком формате хранить словарную базу для переводчика? Slava Dubrovskiy 2006-06-27 9:07 ` Kirill Maslinsky 2006-06-27 9:32 ` Slava Dubrovskiy 2006-06-27 9:47 ` Kirill Maslinsky 2006-06-27 10:01 ` Slava Dubrovskiy 2006-06-27 11:36 ` Kirill Maslinsky 2006-06-29 8:00 ` Slava Dubrovskiy 2006-06-28 6:43 ` Ildar Mulyukov 2006-06-28 7:07 ` Michael Shigorin 2006-06-28 8:42 ` Ildar Mulyukov
ALT Linux Team development discussions This inbox may be cloned and mirrored by anyone: git clone --mirror http://lore.altlinux.org/devel/0 devel/git/0.git # If you have public-inbox 1.1+ installed, you may # initialize and index your mirror using the following commands: public-inbox-init -V2 devel devel/ http://lore.altlinux.org/devel \ devel@altlinux.org devel@altlinux.ru devel@lists.altlinux.org devel@lists.altlinux.ru devel@linux.iplabs.ru mandrake-russian@linuxteam.iplabs.ru sisyphus@linuxteam.iplabs.ru public-inbox-index devel Example config snippet for mirrors. Newsgroup available over NNTP: nntp://lore.altlinux.org/org.altlinux.lists.devel AGPL code for this site: git clone https://public-inbox.org/public-inbox.git