From: Aleksey E Birukov <birukov@vladinfo.ru>
To: community@altlinux.ru
Subject: Re: [Comm] Re: информация о документе
Date: Wed, 19 Jan 2005 13:19:36 +0300
Message-ID: <200501191319.42775.birukov@vladinfo.ru> (raw)
In-Reply-To: <1106129417.5816.9.camel@beta.fastlink.ru>
[-- Attachment #1: Type: text/plain, Size: 1178 bytes --]
В сообщении от Среда 19 Январь 2005 13:10 Вячеслав Диконов написал(a):
> В Срд, 19/01/2005 в 01:03 +0300, Alexey Rusakov пишет:
> > Aleksey E Birukov wrote:
> > >>>>- посчитать частоту встречаемости слова в процентах?
> > >>
> > >>Керниган, Пайк "Среда программирования UNIX"
> > >
> > >может есть в электронном виде? (парсинг google ничего не дал)
> >
> > Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?
>
> Задача не так уж и проста. 1) не все разделённые пробелами
> последовательности символов - слова. Есть языки, где слова вообще не
> разделяются. Есть сложносоставные слова. 2) Большинство слов имеет много
> форм. Особенно актуально для русского.
>
> В общем, для этого нужен морфологический анализатор и очень
> представительный морфологический словарь. Сделать программу,
> удовлетворительно решающую такую задачу можно, но добиться 100% точности
> и универсальности - теоретически нельзя.
Вобще, конечно, эту задачу пытаются решить поисковики с морфологией типа
Яндекса. Вот скрипт, который делает примерно то, что мне надо:
http://www.promolab.ru/free/parser.php
Только разработка, к сожалению, закрытая. До GPL не доросли :)
--
$respect
[-- Attachment #2: Type: application/pgp-signature, Size: 190 bytes --]
prev parent reply other threads:[~2005-01-19 10:19 UTC|newest]
Thread overview: 11+ messages / expand[flat|nested] mbox.gz Atom feed top
2005-01-18 11:28 [Comm] " Aleksey
2005-01-18 11:33 ` [Comm] " Michael Shigorin
2005-01-18 11:38 ` Max A Mazin
2005-01-18 12:36 ` Aleksey E Birukov
2005-01-18 22:03 ` Alexey Rusakov
2005-01-19 7:27 ` Dmytro O. Redchuk
2005-01-19 7:36 ` Alexey Rusakov
2005-01-19 7:49 ` Michael Shigorin
2005-01-19 7:58 ` Dmytro O. Redchuk
2005-01-19 10:10 ` Вячеслав Диконов
2005-01-19 10:19 ` Aleksey E Birukov [this message]
Reply instructions:
You may reply publicly to this message via plain-text email
using any one of the following methods:
* Save the following mbox file, import it into your mail client,
and reply-to-all from there: mbox
Avoid top-posting and favor interleaved quoting:
https://en.wikipedia.org/wiki/Posting_style#Interleaved_style
* Reply using the --to, --cc, and --in-reply-to
switches of git-send-email(1):
git send-email \
--in-reply-to=200501191319.42775.birukov@vladinfo.ru \
--to=birukov@vladinfo.ru \
--cc=community@altlinux.ru \
/path/to/YOUR_REPLY
https://kernel.org/pub/software/scm/git/docs/git-send-email.html
* If your mail client supports setting the In-Reply-To header
via mailto: links, try the mailto: link
ALT Linux Community general discussions
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
public-inbox-index community
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.community
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git