ALT Linux Team development discussions
 help / color / mirror / Atom feed
* [devel] В каком формате хранить словарную базу для переводчика?
@ 2006-06-27  8:44 Slava Dubrovskiy
  2006-06-27  9:07 ` Kirill Maslinsky
  0 siblings, 1 reply; 10+ messages in thread
From: Slava Dubrovskiy @ 2006-06-27  8:44 UTC (permalink / raw)
  To: ALT Devel discussion list

[-- Attachment #1: Type: text/plain, Size: 1077 bytes --]

Здравствуйте.

Есть переводчик который использует для хранения словарных форм Berkeley DB.
Есть исходник словарей в текстовом формате и программа которая читает
этот файл и создает базу данных.
Так же есть дамп базы.
Вопрос:
1. В каком формате лучше представлять srpm? Дамп или текстовый файл?
Дамп на ~30% меньше по объему.
2. Когда собирается rpm то как поступить: во время сборки создавать DB?
(тогда при обновлении libdb необходимо будет пересобирать словари)
    или во время установки в %post производить создание базы из
дампа/исходника?
    или что-то другое?

-- 
С уважением,
Дубровский Вячеслав.


[-- Attachment #2: S/MIME Cryptographic Signature --]
[-- Type: application/x-pkcs7-signature, Size: 3237 bytes --]

^ permalink raw reply	[flat|nested] 10+ messages in thread

* Re: [devel] В каком формате хранить словарную базу для переводчика?
  2006-06-27  8:44 [devel] В каком формате хранить словарную базу для переводчика? Slava Dubrovskiy
@ 2006-06-27  9:07 ` Kirill Maslinsky
  2006-06-27  9:32   ` Slava Dubrovskiy
  0 siblings, 1 reply; 10+ messages in thread
From: Kirill Maslinsky @ 2006-06-27  9:07 UTC (permalink / raw)
  To: ALT Devel discussion list

[-- Attachment #1: Type: text/plain, Size: 1299 bytes --]

Добрый день!

> Есть переводчик который использует для хранения словарных форм Berkeley DB.
> Есть исходник словарей в текстовом формате и программа которая читает
> этот файл и создает базу данных.

А можно полюбопытствовать, что там в этих словарях?

> Так же есть дамп базы.
> Вопрос:
> 1. В каком формате лучше представлять srpm? Дамп или текстовый файл?
> Дамп на ~30% меньше по объему.

Вопрос в том, кому ещё информация из этих словарей может быть 
полезна, кроме этого переводчика. Может быть
другим программам (например, нельзя ли их интегрировать, скажем, в dict)
или просто людям (grep по текстовому словарю ведь тоже можно сделать). 

Если так, возможно, имеет смысл паковать словари вообще отдельно, и там уж
смотреть, в каком виде. 

> 2. Когда собирается rpm то как поступить: во время сборки создавать DB?
> (тогда при обновлении libdb необходимо будет пересобирать словари)
>     или во время установки в %post производить создание базы из
> дампа/исходника?
>     или что-то другое?
> 
> -- 
> С уважением,
> Дубровский Вячеслав.
> 



> _______________________________________________
> Devel mailing list
> Devel@lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/devel


-- 
Kirill Maslinsky
ALT Linux Documentation Team

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 10+ messages in thread

* Re: [devel] В каком формате хранить словарную базу для переводчика?
  2006-06-27  9:07 ` Kirill Maslinsky
@ 2006-06-27  9:32   ` Slava Dubrovskiy
  2006-06-27  9:47     ` Kirill Maslinsky
  0 siblings, 1 reply; 10+ messages in thread
From: Slava Dubrovskiy @ 2006-06-27  9:32 UTC (permalink / raw)
  To: ALT Devel discussion list

[-- Attachment #1: Type: text/plain, Size: 1241 bytes --]

Kirill Maslinsky пишет:
>> Есть переводчик который использует для хранения словарных форм Berkeley DB.
>> Есть исходник словарей в текстовом формате и программа которая читает
>> этот файл и создает базу данных.
>>     
> А можно полюбопытствовать, что там в этих словарях?
>   
Сайт проекта pere.org.ua. Это русско-украинский переводчик (пока во
всяком случае готовы только эти направления. Остальные в процессе
наполнения).

>> Так же есть дамп базы.
>> Вопрос:
>> 1. В каком формате лучше представлять srpm? Дамп или текстовый файл?
>> Дамп на ~30% меньше по объему.
>>     
> Вопрос в том, кому ещё информация из этих словарей может быть 
> полезна, кроме этого переводчика. Может быть
> другим программам (например, нельзя ли их интегрировать, скажем, в dict)
> или просто людям (grep по текстовому словарю ведь тоже можно сделать). 
>   
Есть перловая обвязка и GUI.
> Если так, возможно, имеет смысл паковать словари вообще отдельно, и там уж
> смотреть, в каком виде. 
>   
Конечно отдельно.

Вопрос чисто в техническом плане. Как лучше?
Пока остановились на том, что srpm будет в сырце, и при установке будет
проводится создание базы данных в %post и при удалении пакета удаляться
в %postun.

-- 
С уважением,
Дубровский Вячеслав.


[-- Attachment #2: OpenPGP digital signature --]
[-- Type: application/pgp-signature, Size: 254 bytes --]

^ permalink raw reply	[flat|nested] 10+ messages in thread

* Re: [devel] В каком формате хранить словарную базу для переводчика?
  2006-06-27  9:32   ` Slava Dubrovskiy
@ 2006-06-27  9:47     ` Kirill Maslinsky
  2006-06-27 10:01       ` Slava Dubrovskiy
  0 siblings, 1 reply; 10+ messages in thread
From: Kirill Maslinsky @ 2006-06-27  9:47 UTC (permalink / raw)
  To: ALT Devel discussion list

[-- Attachment #1: Type: text/plain, Size: 751 bytes --]

Действительно любопытный проект 

> >> Вопрос:
> >> 1. В каком формате лучше представлять srpm? Дамп или текстовый файл?
> >> Дамп на ~30% меньше по объему.
> >>     
<...>

> Вопрос чисто в техническом плане. Как лучше?
> Пока остановились на том, что srpm будет в сырце, и при установке будет
> проводится создание базы данных в %post и при удалении пакета удаляться
> в %postun.

А это значит, что в системе будут установлены эти словари и в виде 
текстового файла, и в виде дампа? 
Мне такой вариант кажется самым правильным: в srpm нужно класть 
исходные данные в том виде, в котором они распространяются, а  
автоматически генерируемое следует автоматически генерировать.

-- 
Kirill Maslinsky
ALT Linux Documentation Team

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 10+ messages in thread

* Re: [devel] В каком формате хранить словарную базу для переводчика?
  2006-06-27  9:47     ` Kirill Maslinsky
@ 2006-06-27 10:01       ` Slava Dubrovskiy
  2006-06-27 11:36         ` Kirill Maslinsky
  2006-06-28  6:43         ` Ildar Mulyukov
  0 siblings, 2 replies; 10+ messages in thread
From: Slava Dubrovskiy @ 2006-06-27 10:01 UTC (permalink / raw)
  To: ALT Devel discussion list

[-- Attachment #1: Type: text/plain, Size: 809 bytes --]

Kirill Maslinsky пишет:
> А это значит, что в системе будут установлены эти словари и в виде 
> текстового файла, и в виде дампа? 
>   
Не. Текстовый файл и дамп это разные вещи. Вот почему и возник вопрос. И
распространяются они в 2 форматах.
Загнать в базу текстовый файл можно только с помощью скрипта
переводчика, а из дампа средствами самой базы, плюс дамп меньше места
занимает.
Вот я и спрашиваю, что лучше брать за исходник, дамп или текстовый файл?
> Мне такой вариант кажется самым правильным: в srpm нужно класть 
> исходные данные в том виде, в котором они распространяются, а  
> автоматически генерируемое следует автоматически генерировать.
>   
Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли оно
при установке/обновлении тормозить?

-- 
С уважением,
Дубровский Вячеслав.


[-- Attachment #2: OpenPGP digital signature --]
[-- Type: application/pgp-signature, Size: 254 bytes --]

^ permalink raw reply	[flat|nested] 10+ messages in thread

* Re: [devel] В каком формате хранить словарную базу для переводчика?
  2006-06-27 10:01       ` Slava Dubrovskiy
@ 2006-06-27 11:36         ` Kirill Maslinsky
  2006-06-29  8:00           ` Slava Dubrovskiy
  2006-06-28  6:43         ` Ildar Mulyukov
  1 sibling, 1 reply; 10+ messages in thread
From: Kirill Maslinsky @ 2006-06-27 11:36 UTC (permalink / raw)
  To: ALT Devel discussion list

[-- Attachment #1: Type: text/plain, Size: 1721 bytes --]

Вы, Slava Dubrovskiy, мне писали:
> Kirill Maslinsky пишет:
> > А это значит, что в системе будут установлены эти словари и в виде 
> > текстового файла, и в виде дампа? 
> >   
> Не. Текстовый файл и дамп это разные вещи. Вот почему и возник вопрос. И
> распространяются они в 2 форматах.
> Загнать в базу текстовый файл можно только с помощью скрипта
> переводчика, а из дампа средствами самой базы, плюс дамп меньше места
> занимает.
А. Я, кажется, понял наконец. 

Словарь в текстовом формате -- это такая "нормализованная" форма
распространения данных.

> Вот я и спрашиваю, что лучше брать за исходник, дамп или текстовый файл?

Тогда если есть идея распространять словарь именно как в некотором
смысле самостоятельную вещь, а не только как компонент программы-переводчика,
то следует паковать его в текстовом формате. Тогда если переводчик и словарь 
должны быть в разных rpm-пакетах, то при установке пакета с переводчиком
(но не со словарём) нужно будет с помощью названного скрипта "втягивать" словарь в базу.

А если словарь предполагается распространять только как компонент переводчика,
то правильнее их держать в одном пакете и словарь в виде дампа, потому
что таким образом много чего экономится и ничего не теряется.


> > Мне такой вариант кажется самым правильным: в srpm нужно класть 
> > исходные данные в том виде, в котором они распространяются, а  
> > автоматически генерируемое следует автоматически генерировать.
> >   
> Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли оно
> при установке/обновлении тормозить?

А разве есть задача экономить время при установке/обновлении пакета?


-- 
Kirill Maslinsky
ALT Linux Documentation Team

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 10+ messages in thread

* Re: [devel] В каком формате хранить словарную базу для переводчика?
  2006-06-27 10:01       ` Slava Dubrovskiy
  2006-06-27 11:36         ` Kirill Maslinsky
@ 2006-06-28  6:43         ` Ildar Mulyukov
  2006-06-28  7:07           ` Michael Shigorin
  1 sibling, 1 reply; 10+ messages in thread
From: Ildar Mulyukov @ 2006-06-28  6:43 UTC (permalink / raw)
  To: devel

On 27.06.2006 16:01:48, Slava Dubrovskiy wrote:
> Kirill Maslinsky пишет:
> > А это значит, что в системе будут установлены эти словари и в виде
> > текстового файла, и в виде дампа?
> >
> Не. Текстовый файл и дамп это разные вещи. Вот почему и возник вопрос.
> И
> распространяются они в 2 форматах.
> Загнать в базу текстовый файл можно только с помощью скрипта
> переводчика, а из дампа средствами самой базы, плюс дамп меньше места
> занимает.
> Вот я и спрашиваю, что лучше брать за исходник, дамп или текстовый
> файл?
> > Мне такой вариант кажется самым правильным: в srpm нужно класть
> > исходные данные в том виде, в котором они распространяются, а
> > автоматически генерируемое следует автоматически генерировать.
> >
> Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли
> оно
> при установке/обновлении тормозить?

Согласен с Кириллом, но, как мне кажется, Вячеслав неправильно его  
понял. Попробую высказаться:
1. В srpm лучше всего класть то, что непосредственно берётся из  
апстрима. Чем ближе к апстриму, тем прозрачнее работа мэйнтейнера.
2. Создавать db следует во время построения пакета. Ибо:
	2а. Важным фактором является компактность результирующего
пакета (то есть объём выкаченного из интернета) и место, которое он  
занимает в системе.
	2б. В случае, если изменился libdb, Сизиф сам справится с тем,  
чтобы заново построить пакет.
3. Программу и базу лучше класть в отдельные пакеты. Это не только  
разумно, но и удобно. В частности в тех случаях, когда надо обновить  
программы, не обновляя базы.
4. Где возможно, хорошо советовать апстриму использовать стандартные  
форматы данных.

Чистое ИМХО, прошу не бить ногами :)

Ильдар
--
Ildar  Mulyukov,
   free SW designer/programmer/packager
=========================================
email: ildar@altlinux.ru
ALT Linux Sisyphus http://www.sisyphus.ru
=========================================


^ permalink raw reply	[flat|nested] 10+ messages in thread

* Re: [devel] В каком формате хранить словарную базу для переводчика?
  2006-06-28  6:43         ` Ildar Mulyukov
@ 2006-06-28  7:07           ` Michael Shigorin
  2006-06-28  8:42             ` Ildar Mulyukov
  0 siblings, 1 reply; 10+ messages in thread
From: Michael Shigorin @ 2006-06-28  7:07 UTC (permalink / raw)
  To: devel

On Wed, Jun 28, 2006 at 12:43:38PM +0600, Ildar Mulyukov wrote:
> 4. Где возможно, хорошо советовать апстриму использовать
> стандартные  форматы данных.

Апстрим, в общем-то, сам их тут разрабатывал скорее потому,
что стандартов неизвестно, а подгонять данные для непрерывного
перевода под дискретный dict вроде как малоосмысленно.

Вообще оный апстрим делал доклад по теме:
http://conference.osdn.org.ua/ru/archive/2004/

PS: кстати, в начале октября предвидится очередная конференция.
Обдумывайте доклады ;-)

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 10+ messages in thread

* Re: [devel] В каком формате хранить словарную базу для переводчика?
  2006-06-28  7:07           ` Michael Shigorin
@ 2006-06-28  8:42             ` Ildar Mulyukov
  0 siblings, 0 replies; 10+ messages in thread
From: Ildar Mulyukov @ 2006-06-28  8:42 UTC (permalink / raw)
  To: devel


On 28.06.2006 13:07:24, Michael Shigorin wrote:
> On Wed, Jun 28, 2006 at 12:43:38PM +0600, Ildar Mulyukov wrote:
> > 4. Где возможно, хорошо советовать апстриму использовать
> > стандартные  форматы данных.
> 
> Апстрим, в общем-то, сам их тут разрабатывал скорее потому,
> что стандартов неизвестно, а подгонять данные для непрерывного
> перевода под дискретный dict вроде как малоосмысленно.
Именно поэтому я выразился как можно осторожнее. :)

Ильдар
--
Ildar  Mulyukov,
   free SW designer/programmer/packager
=========================================
email: ildar@altlinux.ru
ALT Linux Sisyphus http://www.sisyphus.ru
=========================================


^ permalink raw reply	[flat|nested] 10+ messages in thread

* Re: [devel] В каком формате хранить словарную базу для переводчика?
  2006-06-27 11:36         ` Kirill Maslinsky
@ 2006-06-29  8:00           ` Slava Dubrovskiy
  0 siblings, 0 replies; 10+ messages in thread
From: Slava Dubrovskiy @ 2006-06-29  8:00 UTC (permalink / raw)
  To: ALT Devel discussion list

[-- Attachment #1: Type: text/plain, Size: 557 bytes --]

Kirill Maslinsky пишет:
>>> Мне такой вариант кажется самым правильным: в srpm нужно класть 
>>> исходные данные в том виде, в котором они распространяются, а  
>>> автоматически генерируемое следует автоматически генерировать. 
>>>       
>> Так и сделаю. Автор тоже пришел к этому решению. Только не будет ли оно
>> при установке/обновлении тормозить?
>>     
> А разве есть задача экономить время при установке/обновлении пакета?
>   
Вообщем-то да. Разве нормально, когда на установку 1 пакета тратится 2-3
часа?

-- 
С уважением,
Дубровский Вячеслав.


[-- Attachment #2: OpenPGP digital signature --]
[-- Type: application/pgp-signature, Size: 254 bytes --]

^ permalink raw reply	[flat|nested] 10+ messages in thread

end of thread, other threads:[~2006-06-29  8:00 UTC | newest]

Thread overview: 10+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2006-06-27  8:44 [devel] В каком формате хранить словарную базу для переводчика? Slava Dubrovskiy
2006-06-27  9:07 ` Kirill Maslinsky
2006-06-27  9:32   ` Slava Dubrovskiy
2006-06-27  9:47     ` Kirill Maslinsky
2006-06-27 10:01       ` Slava Dubrovskiy
2006-06-27 11:36         ` Kirill Maslinsky
2006-06-29  8:00           ` Slava Dubrovskiy
2006-06-28  6:43         ` Ildar Mulyukov
2006-06-28  7:07           ` Michael Shigorin
2006-06-28  8:42             ` Ildar Mulyukov

ALT Linux Team development discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/devel/0 devel/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 devel devel/ http://lore.altlinux.org/devel \
		devel@altlinux.org devel@altlinux.ru devel@lists.altlinux.org devel@lists.altlinux.ru devel@linux.iplabs.ru mandrake-russian@linuxteam.iplabs.ru sisyphus@linuxteam.iplabs.ru
	public-inbox-index devel

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.devel


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git