ALT Linux Community general discussions
 help / color / mirror / Atom feed
* [Comm] информация о документе
@ 2005-01-18 11:28 Aleksey
  2005-01-18 11:33 ` [Comm] " Michael Shigorin
  0 siblings, 1 reply; 11+ messages in thread
From: Aleksey @ 2005-01-18 11:28 UTC (permalink / raw)
  To: Community

[-- Attachment #1: Type: text/plain, Size: 141 bytes --]

Кто нибудь знает как можно:
- посчитать количество слов в текстовом файле?
- посчитать частоту встречаемости слова в процентах?

--
$respect

[-- Attachment #2: Type: application/pgp-signature, Size: 190 bytes --]

^ permalink raw reply	[flat|nested] 11+ messages in thread

* [Comm] Re: информация о документе
  2005-01-18 11:28 [Comm] информация о документе Aleksey
@ 2005-01-18 11:33 ` Michael Shigorin
  2005-01-18 11:38   ` Max A Mazin
  0 siblings, 1 reply; 11+ messages in thread
From: Michael Shigorin @ 2005-01-18 11:33 UTC (permalink / raw)
  To: Community

On Tue, Jan 18, 2005 at 02:28:26PM +0300, Aleksey wrote:
> - посчитать количество слов в текстовом файле?

wc -w

> - посчитать частоту встречаемости слова в процентах?

Относительно слов?  Кажется, это было одним из эталонных заданий
на pleac.sf.net, подберите для любимого языка.

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] Re: информация о документе
  2005-01-18 11:33 ` [Comm] " Michael Shigorin
@ 2005-01-18 11:38   ` Max A Mazin
  2005-01-18 12:36     ` Aleksey E Birukov
  0 siblings, 1 reply; 11+ messages in thread
From: Max A Mazin @ 2005-01-18 11:38 UTC (permalink / raw)
  To: Community

В сообщении от 18 Январь 2005 14:33 Michael Shigorin написал(a):
> On Tue, Jan 18, 2005 at 02:28:26PM +0300, Aleksey wrote:
> > - посчитать количество слов в текстовом файле?
>
> wc -w
>
> > - посчитать частоту встречаемости слова в процентах?
>
> Относительно слов?  Кажется, это было одним из эталонных заданий
> на pleac.sf.net, подберите для любимого языка.

Керниган, Пайк "Среда программирования UNIX"
-- 
Max A Mazin                                            (__Mah__@mail.ru)

^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] Re: информация о документе
  2005-01-18 11:38   ` Max A Mazin
@ 2005-01-18 12:36     ` Aleksey E Birukov
  2005-01-18 22:03       ` Alexey Rusakov
  0 siblings, 1 reply; 11+ messages in thread
From: Aleksey E Birukov @ 2005-01-18 12:36 UTC (permalink / raw)
  To: community

[-- Attachment #1: Type: text/plain, Size: 611 bytes --]

В сообщении от Вторник 18 Январь 2005 14:38 Max A Mazin написал(a):
> В сообщении от 18 Январь 2005 14:33 Michael Shigorin написал(a):
> > On Tue, Jan 18, 2005 at 02:28:26PM +0300, Aleksey wrote:
> > > - посчитать количество слов в текстовом файле?
> >
> > wc -w
> >
> > > - посчитать частоту встречаемости слова в процентах?
> >
> > Относительно слов?  Кажется, это было одним из эталонных заданий
> > на pleac.sf.net, подберите для любимого языка.
что-то не видно, продолжаю поиск...
>
> Керниган, Пайк "Среда программирования UNIX"
может есть в электронном виде? (парсинг google ничего не дал)

-- 
$respect

[-- Attachment #2: Type: application/pgp-signature, Size: 190 bytes --]

^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] Re: информация о документе
  2005-01-18 12:36     ` Aleksey E Birukov
@ 2005-01-18 22:03       ` Alexey Rusakov
  2005-01-19  7:27         ` Dmytro O. Redchuk
                           ` (2 more replies)
  0 siblings, 3 replies; 11+ messages in thread
From: Alexey Rusakov @ 2005-01-18 22:03 UTC (permalink / raw)
  To: community

Aleksey E Birukov wrote:

>>>>- посчитать частоту встречаемости слова в процентах?
>>>>        
>>>>
>>>Относительно слов?  Кажется, это было одним из эталонных заданий
>>>на pleac.sf.net, подберите для любимого языка.
>>>      
>>>
>что-то не видно, продолжаю поиск...
>  
>
>>Керниган, Пайк "Среда программирования UNIX"
>>    
>>
>может есть в электронном виде? (парсинг google ничего не дал)
>  
>
Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?

$((`grep -c слово файл` * 100.0 / `wc -w <файл`))

-- 
  Alexey "Ktirf" Rusakov



^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] Re: информация о документе
  2005-01-18 22:03       ` Alexey Rusakov
@ 2005-01-19  7:27         ` Dmytro O. Redchuk
  2005-01-19  7:36           ` Alexey Rusakov
  2005-01-19  7:49         ` Michael Shigorin
  2005-01-19 10:10         ` Вячеслав Диконов
  2 siblings, 1 reply; 11+ messages in thread
From: Dmytro O. Redchuk @ 2005-01-19  7:27 UTC (permalink / raw)
  To: community

On Wed, Jan 19, 2005 at 01:03:18AM +0300, Alexey Rusakov wrote:
> 
> Aleksey E Birukov wrote:
> 
> >>>>- посчитать частоту встречаемости слова в процентах?
> >>>>       
> >>>>
> >>>Относительно слов?  Кажется, это было одним из эталонных заданий
> >>>на pleac.sf.net, подберите для любимого языка.
> >>>     
> >>>
> >что-то не видно, продолжаю поиск...
> > 
> >
> >>Керниган, Пайк "Среда программирования UNIX"
> >>   
> >>
> >может есть в электронном виде? (парсинг google ничего не дал)
> > 
> >
> Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?
> 
> $((`grep -c слово файл` * 100.0 / `wc -w <файл`))
8-)

Класно.

Можно даже $[`grep -cE 'слово1|слово2' файл` * 100.0 / `wc -w <файл`],
можно много файлов...


Только у меня bash ругается на десятичную точку. Ман пока не читал %)
> 
> -- 
>  Alexey "Ktirf" Rusakov
> 

-- 
  _,-=._              /|_/|
  `-.}   `=._,.-=-._.,  @ @._,
     `._ _,-.   )      _,.-'
        `    G.m-"^m`m'        Dmytro O. Redchuk



^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] Re: информация о документе
  2005-01-19  7:27         ` Dmytro O. Redchuk
@ 2005-01-19  7:36           ` Alexey Rusakov
  0 siblings, 0 replies; 11+ messages in thread
From: Alexey Rusakov @ 2005-01-19  7:36 UTC (permalink / raw)
  To: community

Dmytro O. Redchuk wrote:

>>Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?
>>
>>$((`grep -c слово файл` * 100.0 / `wc -w <файл`))
>>    
>>
>8-)
>
>Класно.
>
>Можно даже $[`grep -cE 'слово1|слово2' файл` * 100.0 / `wc -w <файл`],
>можно много файлов...
>
>
>Только у меня bash ругается на десятичную точку. Ман пока не читал %)
>  
>
Сделайте побольше нулей, сколько вам надо точности. Вместо 100.0 
умножьте на 10000, он вам посчитает проценты с двумя знаками после 
запятой (в целом виде, правда).

-- 
  Alexey "Ktirf" Rusakov



^ permalink raw reply	[flat|nested] 11+ messages in thread

* [Comm] Re: информация о документе
  2005-01-18 22:03       ` Alexey Rusakov
  2005-01-19  7:27         ` Dmytro O. Redchuk
@ 2005-01-19  7:49         ` Michael Shigorin
  2005-01-19  7:58           ` Dmytro O. Redchuk
  2005-01-19 10:10         ` Вячеслав Диконов
  2 siblings, 1 reply; 11+ messages in thread
From: Michael Shigorin @ 2005-01-19  7:49 UTC (permalink / raw)
  To: community

On Wed, Jan 19, 2005 at 01:03:18AM +0300, Alexey Rusakov wrote:
> Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?
> $((`grep -c слово файл` * 100.0 / `wc -w <файл`))

Недооцениваете.

Hint: эта строчка считает помидоров, делённых на крокодилов.

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] Re: информация о документе
  2005-01-19  7:49         ` Michael Shigorin
@ 2005-01-19  7:58           ` Dmytro O. Redchuk
  0 siblings, 0 replies; 11+ messages in thread
From: Dmytro O. Redchuk @ 2005-01-19  7:58 UTC (permalink / raw)
  To: community

On Wed, Jan 19, 2005 at 09:49:04AM +0200, Michael Shigorin wrote:
> On Wed, Jan 19, 2005 at 01:03:18AM +0300, Alexey Rusakov wrote:
> > Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?
> > $((`grep -c слово файл` * 100.0 / `wc -w <файл`))
> 
> Недооцениваете.
> 
> Hint: эта строчка считает помидоров, делённых на крокодилов.
Та это неважно, Михаил!-)

Именно как "прикол" это выглядит достаточно убедительно :)


Кстати, его можно и развить :)
(да, всё равно это прикол)

> 
> -- 
>  ---- WBR, Michael Shigorin <mike@altlinux.ru>
>   ------ Linux.Kiev http://www.linux.kiev.ua/

-- 
  _,-=._              /|_/|
  `-.}   `=._,.-=-._.,  @ @._,
     `._ _,-.   )      _,.-'
        `    G.m-"^m`m'        Dmytro O. Redchuk



^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] Re: информация о документе
  2005-01-18 22:03       ` Alexey Rusakov
  2005-01-19  7:27         ` Dmytro O. Redchuk
  2005-01-19  7:49         ` Michael Shigorin
@ 2005-01-19 10:10         ` Вячеслав Диконов
  2005-01-19 10:19           ` Aleksey E Birukov
  2 siblings, 1 reply; 11+ messages in thread
From: Вячеслав Диконов @ 2005-01-19 10:10 UTC (permalink / raw)
  To: community

В Срд, 19/01/2005 в 01:03 +0300, Alexey Rusakov пишет:
> Aleksey E Birukov wrote:
> 
> >>>>- посчитать частоту встречаемости слова в процентах?
> >>Керниган, Пайк "Среда программирования UNIX"
> >может есть в электронном виде? (парсинг google ничего не дал)
> Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?
Задача не так уж и проста. 1) не все разделённые пробелами
последовательности символов - слова. Есть языки, где слова вообще не
разделяются. Есть сложносоставные слова. 2) Большинство слов имеет много
форм. Особенно актуально для русского.

В общем, для этого нужен морфологический анализатор и очень
представительный морфологический словарь. Сделать программу,
удовлетворительно решающую такую задачу можно, но добиться 100% точности
и универсальности - теоретически нельзя. 
-- 
Вячеслав Диконов <linuxbox@degunino.net>

^ permalink raw reply	[flat|nested] 11+ messages in thread

* Re: [Comm] Re: информация о документе
  2005-01-19 10:10         ` Вячеслав Диконов
@ 2005-01-19 10:19           ` Aleksey E Birukov
  0 siblings, 0 replies; 11+ messages in thread
From: Aleksey E Birukov @ 2005-01-19 10:19 UTC (permalink / raw)
  To: community

[-- Attachment #1: Type: text/plain, Size: 1178 bytes --]

В сообщении от Среда 19 Январь 2005 13:10 Вячеслав Диконов написал(a):
> В Срд, 19/01/2005 в 01:03 +0300, Alexey Rusakov пишет:
> > Aleksey E Birukov wrote:
> > >>>>- посчитать частоту встречаемости слова в процентах?
> > >>
> > >>Керниган, Пайк "Среда программирования UNIX"
> > >
> > >может есть в электронном виде? (парсинг google ничего не дал)
> >
> > Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?
>
> Задача не так уж и проста. 1) не все разделённые пробелами
> последовательности символов - слова. Есть языки, где слова вообще не
> разделяются. Есть сложносоставные слова. 2) Большинство слов имеет много
> форм. Особенно актуально для русского.
>
> В общем, для этого нужен морфологический анализатор и очень
> представительный морфологический словарь. Сделать программу,
> удовлетворительно решающую такую задачу можно, но добиться 100% точности
> и универсальности - теоретически нельзя.
Вобще, конечно, эту задачу пытаются решить поисковики с морфологией типа 
Яндекса. Вот скрипт, который делает примерно то, что мне надо:
http://www.promolab.ru/free/parser.php
Только разработка, к сожалению, закрытая. До GPL не доросли :)
-- 
$respect

[-- Attachment #2: Type: application/pgp-signature, Size: 190 bytes --]

^ permalink raw reply	[flat|nested] 11+ messages in thread

end of thread, other threads:[~2005-01-19 10:19 UTC | newest]

Thread overview: 11+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2005-01-18 11:28 [Comm] информация о документе Aleksey
2005-01-18 11:33 ` [Comm] " Michael Shigorin
2005-01-18 11:38   ` Max A Mazin
2005-01-18 12:36     ` Aleksey E Birukov
2005-01-18 22:03       ` Alexey Rusakov
2005-01-19  7:27         ` Dmytro O. Redchuk
2005-01-19  7:36           ` Alexey Rusakov
2005-01-19  7:49         ` Michael Shigorin
2005-01-19  7:58           ` Dmytro O. Redchuk
2005-01-19 10:10         ` Вячеслав Диконов
2005-01-19 10:19           ` Aleksey E Birukov

ALT Linux Community general discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
		mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
	public-inbox-index community

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.community


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git