ALT Linux Community general discussions
 help / color / mirror / Atom feed
* [Comm] паронимия (paronymy)
@ 2008-04-09  7:40 Aleksander N. Gorohovski
  2008-04-09  8:25 ` [Comm] автоматический поиск тавтологий в тексте Kirill Maslinsky
  0 siblings, 1 reply; 3+ messages in thread
From: Aleksander N. Gorohovski @ 2008-04-09  7:40 UTC (permalink / raw)
  To: ALT Linux Community

Доброго времени суток уважаемое сообщество!

Подскажите, может кто-нибудь встречал под Linux программу
для поиска в тексте мест, подозрительные на предмет одной из самых
распространенных стилистических погрешностей:
расположенных близко по тексту фонетически и морфологически сходных слов,
чей параллелизм никак не мотивирован.

Т.е. другими словами -- паронимий, или "нечаянных тавтологий".

Спасибо.


^ permalink raw reply	[flat|nested] 3+ messages in thread

* Re: [Comm] автоматический поиск тавтологий в тексте
  2008-04-09  7:40 [Comm] паронимия (paronymy) Aleksander N. Gorohovski
@ 2008-04-09  8:25 ` Kirill Maslinsky
  2008-04-09  9:12   ` Aleksander N. Gorohovski
  0 siblings, 1 reply; 3+ messages in thread
From: Kirill Maslinsky @ 2008-04-09  8:25 UTC (permalink / raw)
  To: ALT Linux Community

On Wed, Apr 09, 2008 at 10:40:09AM +0300, Aleksander N. Gorohovski wrote:
> Доброго времени суток уважаемое 
> сообщество!
> 
> Подскажите, может кто-нибудь встречал 
> под Linux программу
> для поиска в тексте мест, подозрительные 
> на предмет одной из самых
> распространенных стилистических 
> погрешностей:
> расположенных близко по тексту 
> фонетически и морфологически сходных 
> слов,
> чей параллелизм никак не мотивирован.
Встречать не приходилось.
А Вам приходилось встречать отдельную программу не под Linux,
которая бы это делала? 
Интересно, бывает ли такое, и как может называться.

> Т.е. другими словами -- паронимий, или 
> "нечаянных тавтологий".
Паронимиями такое явление называть не совсем точно, правильнее именно
тавтологиями. 

По-английски paronym употребляется в двух значениях (см. Википедию)
1. как синоним однокоренных слов (cognate)
2. как слова очень сходные по звучанию/написанию, но разные по
   значению/происхождению (которые из-за этого часто путают)

По-русски термин "пароним" принято употреблять только во втором
значении.

1. Стилистическая ошибка по первому значению называется как раз
тавтология, и относится к употреблению рядом однокоренных слов (тавтология). 
Кстати, это не считается ошибкой в англоязычной традиции, особенно технических и
деловых документов, поэтому вряд ли найдётся такая программа для
английского языка.

2. Стилистическая ошибка по второму значению называется парономасия, 
это когда в одном предложении встречаются паронимы. Это, мне кажется, 
настолько редкая вещь, что стоит ли беспокоиться?

Вообще теоретически такую программу в первом приближении реализовать 
несложно: 

1. Выбираем размер "окна" в тексте, в пределах которого мы будем искать
однокоренные слова, пускаем это окно "скользить" по тексту. 
2. Разбиваем текст в окне на токены, делаем стемминг (лемматизацию), 
В сизифе есть подходящий простой инструмент с поддержкой
русского языка (snowball).
3. Смотрим на совпадения корней (возможно, с указанной точностью, а
также с учётом stop list и минимальной длины/частотности совпавшей
леммы). 
4. В качестве fallback method для обнаружения сильно изменённых корней (приставки?)
и случайных фонетических совпадений можно делать дополнительное
сравнение по редакционному расстоянию между строками.
5. Репортим пользователю найденные совпадения.

Такой метод даст какое-то количество false positives, но поскольку
результат работы программы все равно предназначен для чтения человеком,
то это некритично.

--
Kirill Maslinsky
ALT Linux Team


^ permalink raw reply	[flat|nested] 3+ messages in thread

* Re: [Comm] автоматический поиск тавтологий в тексте
  2008-04-09  8:25 ` [Comm] автоматический поиск тавтологий в тексте Kirill Maslinsky
@ 2008-04-09  9:12   ` Aleksander N. Gorohovski
  0 siblings, 0 replies; 3+ messages in thread
From: Aleksander N. Gorohovski @ 2008-04-09  9:12 UTC (permalink / raw)
  To: kirill, ALT Linux Community general discussions

On Wed, 09 Apr 2008 11:25:33 +0300, Kirill Maslinsky wrote:

> On Wed, Apr 09, 2008 at 10:40:09AM +0300, Aleksander N. Gorohovski wrote:
>> Доброго времени суток уважаемое
>> сообщество!
>>
>> Подскажите, может кто-нибудь встречал
>> под Linux программу
>> для поиска в тексте мест, подозрительные
>> на предмет одной из самых
>> распространенных стилистических
>> погрешностей:
>> расположенных близко по тексту
>> фонетически и морфологически сходных
>> слов,
>> чей параллелизм никак не мотивирован.
> Встречать не приходилось.
> А Вам приходилось встречать отдельную программу не под Linux,
> которая бы это делала?
> Интересно, бывает ли такое, и как может называться.

Мне сейчас удалось встретить под Win/DOS такую программу.
Называется "Свежий взгляд"
http://www.kirsanov.com/fresheye/

и распространяется как Open Source

Но пока не смотрел как она работает.


>> Т.е. другими словами -- паронимий, или
>> "нечаянных тавтологий".
> Паронимиями такое явление называть не совсем точно, правильнее именно
> тавтологиями.
>
> По-английски paronym употребляется в двух значениях (см. Википедию)
> 1. как синоним однокоренных слов (cognate)
> 2. как слова очень сходные по звучанию/написанию, но разные по
>    значению/происхождению (которые из-за этого часто путают)
>
> По-русски термин "пароним" принято употреблять только во втором
> значении.
>
> 1. Стилистическая ошибка по первому значению называется как раз
> тавтология, и относится к употреблению рядом однокоренных слов  
> (тавтология).
> Кстати, это не считается ошибкой в англоязычной традиции, особенно  
> технических и
> деловых документов, поэтому вряд ли найдётся такая программа для
> английского языка.
>
> 2. Стилистическая ошибка по второму значению называется парономасия,
> это когда в одном предложении встречаются паронимы. Это, мне кажется,
> настолько редкая вещь, что стоит ли беспокоиться?
>
> Вообще теоретически такую программу в первом приближении реализовать
> несложно:
>
> 1. Выбираем размер "окна" в тексте, в пределах которого мы будем искать
> однокоренные слова, пускаем это окно "скользить" по тексту.
> 2. Разбиваем текст в окне на токены, делаем стемминг (лемматизацию),
> В сизифе есть подходящий простой инструмент с поддержкой
> русского языка (snowball).
> 3. Смотрим на совпадения корней (возможно, с указанной точностью, а
> также с учётом stop list и минимальной длины/частотности совпавшей
> леммы).
> 4. В качестве fallback method для обнаружения сильно изменённых корней  
> (приставки?)
> и случайных фонетических совпадений можно делать дополнительное
> сравнение по редакционному расстоянию между строками.
> 5. Репортим пользователю найденные совпадения.
>
> Такой метод даст какое-то количество false positives, но поскольку
> результат работы программы все равно предназначен для чтения человеком,
> то это некритично.

Кирилл,
Премного благодарен.


^ permalink raw reply	[flat|nested] 3+ messages in thread

end of thread, other threads:[~2008-04-09  9:12 UTC | newest]

Thread overview: 3+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2008-04-09  7:40 [Comm] паронимия (paronymy) Aleksander N. Gorohovski
2008-04-09  8:25 ` [Comm] автоматический поиск тавтологий в тексте Kirill Maslinsky
2008-04-09  9:12   ` Aleksander N. Gorohovski

ALT Linux Community general discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
		mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
	public-inbox-index community

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.community


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git