В сообщении от Среда 19 Январь 2005 13:10 Вячеслав Диконов написал(a):
> В Срд, 19/01/2005 в 01:03 +0300, Alexey Rusakov пишет:
> > Aleksey E Birukov wrote:
> > >>>>- посчитать частоту встречаемости слова в процентах?
> > >>
> > >>Керниган, Пайк "Среда программирования UNIX"
> > >
> > >может есть в электронном виде? (парсинг google ничего не дал)
> >
> > Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?
>
> Задача не так уж и проста. 1) не все разделённые пробелами
> последовательности символов - слова. Есть языки, где слова вообще не
> разделяются. Есть сложносоставные слова. 2) Большинство слов имеет много
> форм. Особенно актуально для русского.
>
> В общем, для этого нужен морфологический анализатор и очень
> представительный морфологический словарь. Сделать программу,
> удовлетворительно решающую такую задачу можно, но добиться 100% точности
> и универсальности - теоретически нельзя.
Вобще, конечно, эту задачу пытаются решить поисковики с морфологией типа 
Яндекса. Вот скрипт, который делает примерно то, что мне надо:
http://www.promolab.ru/free/parser.php
Только разработка, к сожалению, закрытая. До GPL не доросли :)
-- 
$respect