From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: X-Spam-Checker-Version: SpamAssassin 3.2.5 (2008-06-10) on sa.int.altlinux.org X-Spam-Level: X-Spam-Status: No, score=-2.6 required=5.0 tests=BAYES_00,SPF_PASS autolearn=unavailable version=3.2.5 DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=gmail.com; s=gamma; h=domainkey-signature:received:received:message-id:date:from :user-agent:mime-version:to:subject:references:in-reply-to :content-type:content-transfer-encoding; bh=fB4BTzOOlDxZmLIf+DifSZjjtN67v887Q+qGtbjOlYE=; b=UKAoi0uMbTsZx+P4SWn3k4qJ150wNXn+/IjBsacca0IEQvaNki2P689CDUC4iciwgI MdRVn262EPOKCa1rE6urHSfIgkiwMixtzBi2iURmY2+a3CXVPRhS3Kg4xM6D9kmDzwiL 3qywQ4Wo/zFoqsYzEfgK7KX5BkeoBOq98b4WE= DomainKey-Signature: a=rsa-sha1; c=nofws; d=gmail.com; s=gamma; h=message-id:date:from:user-agent:mime-version:to:subject:references :in-reply-to:content-type:content-transfer-encoding; b=czN1LRqAaNQibPAPzuikwzw0Moduw5q9nblaXxph08DqCtXC+26ZyjYuM93EGRozN0 3lk4evbSWH6tQfGRQZZ5KWz7SVZfcA7hDOkQ/5teVJx9IhKDBR6DtZmUUYhjrQSabMZK 7IQVVxcc19jGgMBnRjymV99yM0CN8RURGcfsk= Message-ID: <4B950AB3.7060606@gmail.com> Date: Mon, 08 Mar 2010 17:33:23 +0300 From: Sergey Kurakin User-Agent: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.1.8pre) Gecko/20100202 Thunderbird/3.0.1 MIME-Version: 1.0 To: ALT Linux Community general discussions References: In-Reply-To: Content-Type: text/plain; charset=KOI8-R Content-Transfer-Encoding: 8bit Subject: Re: [Comm] Hunspell & new dicitonary X-BeenThere: community@lists.altlinux.org X-Mailman-Version: 2.1.12 Precedence: list Reply-To: ALT Linux Community general discussions List-Id: ALT Linux Community general discussions List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Mon, 08 Mar 2010 16:31:40 -0000 Archived-At: List-Archive: List-Post: On 03/07/2010 01:58 PM, anyr@tut.by wrote: > Пытаюсь сделать специализированный словарь для openoffice, т.е. используя > hunspell. Уточните, какой у вас дистрибутив. Есть нюансы. > Написал некоторые правила аффиксов и небольшой словарь для проверки этих > самых аффиксов. Совет: используйте аффиксы проф. Лебедева. Во-первых, они весьма хороши. А во-вторых: смотрите ниже. > Теперь встала проблема с проверкой работоспособности этого > словаря. В документации по hunspell указана утилита hunmorph, которую я не > нашел. А почему бы не воспользоваться для проверки самим hunspell? Насколько я понял, hunmorph -- это морфологический анализатор, который уже очень давно отделился от hunspell/myspell и живет своей жизнью. > Обозвал файлы ru_RU-medicine.(aff,dic) и сложил их к остальным словарям в > /usr/share/myspell вот только они не подхватываются приложениями > (OpenOffice в частности). Я так понимаю, что необходимо, чтобы имя словаря > соответствовало языку, т.е. именно ru_RU, а не ru_RU-medicine. Не совсем так. Используемый словарь выбирается альтернативой ru_RU.dic + ru_RU.aff. То есть, вы должны добиться, чтобы эти альтернативы указывали на ваш словарь. И тогда все приложения, использующие hunspell, будут пользоваться вашим словарем. Все, кроме... OOo. Подробности здесь: https://bugzilla.altlinux.org/show_bug.cgi?id=23026#c5 Как вы поняли, эту "особенность" OOo обошли в Сизифе переименованием файлов, но в другие репозитории изменение пока не попало. Забавно, что если вас интересует исключительно OOo, то вы можете воспользоваться этой "особенностью", назвав ваш словарь ru_RU__.dic и ru_RU__.aff. В таком случае с большой вероятностью OOo подхватит именно его. Но лучше не надо... > Если так, то > мне придется заменить словарь для проверки русской орфографии на мой > словарь (вернее сменить ссылку на файл словаря и аффиксов). Да, только лучше не просто менять ссылку, а разобраться, как работает механизм альтернатив и сделать для вашего словаря соответствующую альтернативу. > В этом случае придется > также продублировать содержимое словаря для русского языка. Да, придется. Именно поэтому я и советовал использовать готовые аффиксы основного словаря, чтобы они не конфликтовали с вашими. > Я почти уверен, что где-то что-то упускаю, но пока не понял где и что :-\ > Буду признателен, если кто-нибудь подскажет верный путь. Гипотетически самым верным путём было бы найти способ подключать к hunspell одновременно несколько словарей для одного языка. Но, увы, мне такой способ неизвестен. Так что остается, видимо, взять готовый словарь и добавлять в него новые слова, пользуясь оригинальным affix-файлом. Позволю себе дать еще пару советов. В качестве исходного порекомендовал бы взять словарь из недавно появившегося в Сизифе пакета hunspell-ru-lebedev(-ie,-io). В нем, как и в давно существующем пакете hunspell-ru(-io), используется словарь проф. Лебедева, но есть ряд отличий: 1. Среди пакетов hunspell-ru-lebedev есть так называемый "комбинированный" словарь, допускающий как использование буквы "ё", так и замену "ё" на "е". Среди hunspell-ru(-io) такого комбинированного варианта нет. 2. hunspell-ru-lebedev основан на версии 0.99g5 2008 года; hunspell-ru -- это версия 0.99f7 2004 года и содержит приблизительно на 9700 базовых слов меньше. 3. Пакеты hunspell-ru-lebedev содержат некоторое количество добавленных мною новых слов, тщательно отобранных и проверенных, главным образом по Русскому орфографическому словарю под ред. В. В. Лопатина. Кстати, медицинские термины там тоже представлены, хотя и в ничтожном количестве: http://git.altlinux.org/people/kurakin/packages/?p=ispell-ru-lebedev.git;a=blob;f=addition.words;h=5675f8aaa20ceb224c90120ff2f6fb578ad8529e;hb=bacb90e4df15a7a00f4a3df2a2a51be6b5abee88 С удовольствием включу в свою сборку и ваши слова. Но только те из них, которые смогу проверить по словарю Лопатина. И, наконец, последний совет. Если вы всерьез собираетесь заниматься этой работой, то рекомендую иметь в качестве справочного пособия оригинальный affix-файл проф. Лебедева в формате ispell russian.aff.koi. Он снабжен очень полезными авторскими комментариями, позволяющими разобраться, что там к чему. При преобразовании в формат hunspell/myspell все комментарии теряются и разобраться становится затруднительно. Подозреваю, что именно этот факт и побудил вас заняться изготовлением собственного affix-файла, вместо того, чтобы взять готовый. -- WBR, Sergey Kurakin