ALT Linux Sisyphus discussions
 help / color / mirror / Atom feed
* [sisyphus] Распознавание текстов
@ 2003-04-09 12:53 Евгений
  2003-04-09 13:07 ` Alexandre Prokoudine
  2003-04-09 20:52 ` Vitaly Lugovsky
  0 siblings, 2 replies; 27+ messages in thread
From: Евгений @ 2003-04-09 12:53 UTC (permalink / raw)
  To: sisyphus

Привет всем.

Интересно, сталкивался ли кто с проблемой распознать отсканированный 
текст под Linux?
Или все держат винду на этот случай?
Поиск такой проги (под Linux) результатов не дал.
Но может где-то и существует такая???


Евгений



^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-09 12:53 [sisyphus] Распознавание текстов Евгений
@ 2003-04-09 13:07 ` Alexandre Prokoudine
  2003-04-09 20:52 ` Vitaly Lugovsky
  1 sibling, 0 replies; 27+ messages in thread
From: Alexandre Prokoudine @ 2003-04-09 13:07 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 447 bytes --]

On Wed, 09 Apr 2003 16:53:35 +0400
Евгений <evgen@cstula.ru> wrote:

> Привет всем.
> 
> Интересно, сталкивался ли кто с проблемой распознать
> отсканированный текст под Linux?
> Или все держат винду на этот случай?
> Поиск такой проги (под Linux) результатов не дал.
> Но может где-то и существует такая???

Вопрос не в эту рассылку.

gOCR
ClaraOCR

-- 
Alexandre Prokoudine
ALT Linux Documentation Team
JID: avp@altlinux.org

[-- Attachment #2: Type: application/pgp-signature, Size: 481 bytes --]

^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-09 12:53 [sisyphus] Распознавание текстов Евгений
  2003-04-09 13:07 ` Alexandre Prokoudine
@ 2003-04-09 20:52 ` Vitaly Lugovsky
  2003-04-10  6:40   ` Arcady V. Ivanov
                     ` (2 more replies)
  1 sibling, 3 replies; 27+ messages in thread
From: Vitaly Lugovsky @ 2003-04-09 20:52 UTC (permalink / raw)
  To: sisyphus

On Wed, 9 Apr 2003, Евгений wrote:

> Интересно, сталкивался ли кто с проблемой распознать
> отсканированный
> текст под Linux?
> Или все держат винду на этот случай?
> Поиск такой проги (под Linux) результатов не дал.
> Но может где-то и существует такая???

 Есть gocr, русскому не обученный и крайне плохонький.

 Всё это от того, что у сканирования и распознавания практически
нет никаких реальных применений. Игрушки всё это, глупые и
дешевые. Отсканировать и потом сверять глазами, выискивая ошибки
- многожды сложнее, чем сразу нормально вколотить. Проверено.




^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-09 20:52 ` Vitaly Lugovsky
@ 2003-04-10  6:40   ` Arcady V. Ivanov
  2003-04-10 10:04     ` [JT] " Alexandre Prokoudine
                       ` (2 more replies)
  2003-04-10  8:22   ` Amodeus
  2003-04-10 23:28   ` [sisyphus] Распознавание текс тов Denis Smirnov
  2 siblings, 3 replies; 27+ messages in thread
From: Arcady V. Ivanov @ 2003-04-10  6:40 UTC (permalink / raw)
  To: sisyphus

Vitaly Lugovsky пишет:

>On Wed, 9 Apr 2003, Евгений wrote:
>
>  
>
>>Интересно, сталкивался ли кто с проблемой распознать
>>отсканированный
>>текст под Linux?
>>Или все держат винду на этот случай?
>>Поиск такой проги (под Linux) результатов не дал.
>>Но может где-то и существует такая???
>>    
>>
>
> Есть gocr, русскому не обученный и крайне плохонький.
>
> Всё это от того, что у сканирования и распознавания практически
>нет никаких реальных применений. Игрушки всё это, глупые и
>дешевые. Отсканировать и потом сверять глазами, выискивая ошибки
>- многожды сложнее, чем сразу нормально вколотить. Проверено.
>
Очень серьёзное заблуждение. Лично у меня и БОЛЬШОГО моего окружения
- это проблема. Я обслуживаю около тысячи корпоративных пользователей и
большинство пользуются FineReader-ами всех сортов для самых рядовых 
действий -
переделать приказы, сделать документацию, подготовить отчёт, сделать 
реферат и
ещё для очень многих работ. А о студентах и говорить не приходится.
Качество воспроизведения FineReader-а таково, что тексты, иногда даже 
таблицы,
не приходится исправлять.

В банках стоит FineReader, заточенный под пакетную обработку платёжных 
поручений.
Он вводит все цифорки автоматически с кучи разнообразного качества бумажек.

Так что удивительная в 2003 году идея автора о бесполезности OCR, наверное
зиждется на неудачном опыте с неудачным сканером и неудачной программой.

Чем быстрее будет какое-нибудь рабочее OCR под Linux, тем быстрее можно 
будет
взгромоздить Linux на стол рядовому пользователю. Они - пользователи, 
ещё как
OCR сегодня уважают!

-- 
SY. Arcady. mailto:arc@help0.ru, WWW - http://www.help0.ru, Instant messenger : arc@jabber.ru





^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-10  8:22   ` Amodeus
@ 2003-04-10  6:41     ` Евгений
  2003-04-10 18:27     ` Vitaly Lugovsky
  1 sibling, 0 replies; 27+ messages in thread
From: Евгений @ 2003-04-10  6:41 UTC (permalink / raw)
  To: sisyphus

Amodeus пишет:

>-----BEGIN PGP SIGNED MESSAGE-----
>Hash: SHA1
>
>В сообщении от 10 Апрель 2003 00:52 Vitaly Lugovsky написал:
>  
>
>> Есть gocr, русскому не обученный и крайне плохонький.
>>
>> Всё это от того, что у сканирования и распознавания
>>практически нет никаких реальных применений. Игрушки всё это,
>>глупые и дешевые. Отсканировать и потом сверять глазами,
>>выискивая ошибки - многожды сложнее, чем сразу нормально
>>вколотить. Проверено.
>>    
>>
>Зря вы так говорите...дело всё в том, что некоторые набирают со 
>скоростью света, а некоторые нет...и вот для второй группы 
>распознавание - выход из ситуации...к тому же, если бумажный 
>источник не сильно поюзан, то и распознавание будет практически 
>без ошибок(по крайней мере такие результаты выдавал оффтопиковый 
>FineReader)!
>  
>
Да, и когда стоит задача перевести в текст около 200 страниц A4
здесь уже даже скорость света не особо поможет.

Евгений



^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-09 20:52 ` Vitaly Lugovsky
  2003-04-10  6:40   ` Arcady V. Ivanov
@ 2003-04-10  8:22   ` Amodeus
  2003-04-10  6:41     ` Евгений
  2003-04-10 18:27     ` Vitaly Lugovsky
  2003-04-10 23:28   ` [sisyphus] Распознавание текс тов Denis Smirnov
  2 siblings, 2 replies; 27+ messages in thread
From: Amodeus @ 2003-04-10  8:22 UTC (permalink / raw)
  To: sisyphus

-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

В сообщении от 10 Апрель 2003 00:52 Vitaly Lugovsky написал:
>  Есть gocr, русскому не обученный и крайне плохонький.
>
>  Всё это от того, что у сканирования и распознавания
> практически нет никаких реальных применений. Игрушки всё это,
> глупые и дешевые. Отсканировать и потом сверять глазами,
> выискивая ошибки - многожды сложнее, чем сразу нормально
> вколотить. Проверено.
Зря вы так говорите...дело всё в том, что некоторые набирают со 
скоростью света, а некоторые нет...и вот для второй группы 
распознавание - выход из ситуации...к тому же, если бумажный 
источник не сильно поюзан, то и распознавание будет практически 
без ошибок(по крайней мере такие результаты выдавал оффтопиковый 
FineReader)!
- -- 
Amodeus
Saratov Linux User Group
amodeus@pisem.net
http://saratov.lug.ru
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.1 (GNU/Linux)

iD8DBQE+lSnpYF+yo0vG3NkRAgKxAJwOQbbF6i7QmvoghcCsaXFfgU8T5ACfRi6z
RljF0HL38lYuLOUaR0eKVX8=
=dAVp
-----END PGP SIGNATURE-----

^ permalink raw reply	[flat|nested] 27+ messages in thread

* [JT] Re: [sisyphus] Распознавание текстов
  2003-04-10  6:40   ` Arcady V. Ivanov
@ 2003-04-10 10:04     ` Alexandre Prokoudine
  2003-04-10 10:23       ` [sisyphus] Re: [JT] Re: òÁÓÐÏÚÎÁ×ÁÎÉÅ ÔÅËÓÔÏ× Andrey Khavryuchenko
  2003-04-10 10:06     ` [sisyphus] " Anatoly A. Yakushin
  2003-04-10 18:36     ` Vitaly Lugovsky
  2 siblings, 1 reply; 27+ messages in thread
From: Alexandre Prokoudine @ 2003-04-10 10:04 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 619 bytes --]

On Thu, 10 Apr 2003 19:40:13 +1300
"Arcady V. Ivanov" <arc@help0.ru> wrote:

> Чем быстрее будет какое-нибудь рабочее OCR под Linux, тем быстрее
> можно будет взгромоздить Linux на стол рядовому пользователю. 

Это дикий оффтопик, но рекомендую на эту тему прочитать
http://www.claraocr.org/news.html#9

На самом деле, нужно просто посадить пару людей на half-time,
которые доведут одну из программ до ума. В ClaraOCR кириллица по
идее поддерживается, но de facto, насколько мне известно, - нет. не
хотите поковыряться? ;-)

-- 
Alexandre Prokoudine
ALT Linux Documentation Team
JID: avp@altlinux.org

[-- Attachment #2: Type: application/pgp-signature, Size: 481 bytes --]

^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-10  6:40   ` Arcady V. Ivanov
  2003-04-10 10:04     ` [JT] " Alexandre Prokoudine
@ 2003-04-10 10:06     ` Anatoly A. Yakushin
  2003-04-10 18:36     ` Vitaly Lugovsky
  2 siblings, 0 replies; 27+ messages in thread
From: Anatoly A. Yakushin @ 2003-04-10 10:06 UTC (permalink / raw)
  To: sisyphus

Arcady V. Ivanov пишет:
<skip>
> Чем быстрее будет какое-нибудь рабочее OCR под Linux, тем быстрее можно 
> будет
> взгромоздить Linux на стол рядовому пользователю. Они - пользователи, 
> ещё как
> OCR сегодня уважают!
> 
Этот вопрос обсуждался некоторое время назад в oodiscuss@
Могу еще раз сказать, что FineReader 4 работает под Wine.
Единственное но - с sane мне его подружить так и не удалось.
Поэтому работа ведется в два этапа - скан в tiff и распознавание.
Но у меня эти две задачи и так разведены.
Старшие версии FR не пробовал.


-- 
Rgrds,
Anatoly A. Yakushin aka DOC
Orthopaedic Departmens
Veterans Hospital # 3
Moscow



^ permalink raw reply	[flat|nested] 27+ messages in thread

* [sisyphus] Re: [JT] Re: òÁÓÐÏÚÎÁ×ÁÎÉÅ ÔÅËÓÔÏ×
  2003-04-10 10:04     ` [JT] " Alexandre Prokoudine
@ 2003-04-10 10:23       ` Andrey Khavryuchenko
  2003-04-10 23:31         ` [sisyphus] Re: [JT] Re: Распознавание текстов Denis Smirnov
  0 siblings, 1 reply; 27+ messages in thread
From: Andrey Khavryuchenko @ 2003-04-10 10:23 UTC (permalink / raw)
  To: sisyphus

Александр,

"AP" == Alexandre Prokoudine wrote:

 AP> Это дикий оффтопик, но рекомендую на эту тему прочитать
 AP> http://www.claraocr.org/news.html#9

 AP> На самом деле, нужно просто посадить пару людей на half-time,
 AP> которые доведут одну из программ до ума. В ClaraOCR кириллица по
 AP> идее поддерживается, но de facto, насколько мне известно, - нет. не
 AP> хотите поковыряться? ;-)

А кто будет это оплачивать?  Или, иными словами, сколько людей купит
кирилическую OCR под Linux?  (Вопрос далеко не праздный)

-- 
Andrey V Khavryuchenko            http://www.kds.com.ua/
Silver Bullet Software Solutions  http://www.kds.com.ua/training/


^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-10  8:22   ` Amodeus
  2003-04-10  6:41     ` Евгений
@ 2003-04-10 18:27     ` Vitaly Lugovsky
  2003-04-10 23:36       ` [sisyphus] Re: [sisyphus] Denis Smirnov
  2003-04-11  3:16       ` [sisyphus] Распознавание текстов Igor Solovyov
  1 sibling, 2 replies; 27+ messages in thread
From: Vitaly Lugovsky @ 2003-04-10 18:27 UTC (permalink / raw)
  To: sisyphus

On Thu, 10 Apr 2003, Amodeus wrote:

> Зря вы так говорите...дело всё в том, что некоторые набирают
> со
> скоростью света, а некоторые нет...и вот для второй группы
> распознавание - выход из ситуации...

 Не выход. Скорость, с которой человек корректирует текст по
бумаге, и скорость, с которой он с листа колотит - сильно
коррелируют.

>к тому же, если бумажный
> источник не сильно поюзан, то и распознавание будет
> практически
> без ошибок(по крайней мере такие результаты выдавал
> оффтопиковый
> FineReader)!

 Опять же - даже на самых качественных текстах ошибок было
всегда неприемлимое количество. Всё перепробовали - пришлось
таки от сканирования отказаться... :(

 Хотя, может быть, это просто не повезло, и есть конторы, имеющие
положительный опыт - в таком случае, хотелось бы про них
услышать.






^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-10  6:40   ` Arcady V. Ivanov
  2003-04-10 10:04     ` [JT] " Alexandre Prokoudine
  2003-04-10 10:06     ` [sisyphus] " Anatoly A. Yakushin
@ 2003-04-10 18:36     ` Vitaly Lugovsky
  2003-04-10 18:41       ` [sisyphus] [OT] " Michael Shigorin
  2003-04-10 19:12       ` [sisyphus] " aen
  2 siblings, 2 replies; 27+ messages in thread
From: Vitaly Lugovsky @ 2003-04-10 18:36 UTC (permalink / raw)
  To: sisyphus

On Thu, 10 Apr 2003, Arcady V. Ivanov wrote:

> Очень серьёзное заблуждение.

 Это личный опыт общения с OCR. Мы делали электронную библиотеку
полных текстов статей, большая часть которых была только на
бумаге...

> Лично у меня и БОЛЬШОГО моего окружения
> - это проблема. Я обслуживаю около тысячи корпоративных
> пользователей и
> большинство пользуются FineReader-ами всех сортов для самых
> рядовых
> действий -
> переделать приказы, сделать документацию, подготовить отчёт,

 Оба-на. Это же всё должно быть в электронной форме. Они что,
дурачки? Или их так сильно засношали злобные налоговые и прочие
вражеские органы? Тогда берданку в руки - и в леса, партизанить!

> сделать  реферат

 На фига *корпоративному* пользователю какой-то там реферат?
Или я ничего не соображаю...

> и ещё для очень многих работ. А о студентах и говорить не
> приходится.

 Каких студентах? Придурках, которые делают рефераты, надёргав
кусти текста из книг? Да их всех к стенке - и в биореактор.
Они ничуть не лучше тех, кто качает рефераты из Сети. Своих
мозгов нет, креативность нулевая. Кому они нужны?

> Качество воспроизведения FineReader-а таково, что тексты,
> иногда даже  таблицы, не приходится исправлять.

 Я бы поеврил, если б сам не пробовал. :(

 Можно сказать, какая версия FineReader-а и какой сканер дают
наиболее оптимальные результаты? На такую вкуснятину мне денег не
жалко.

> В банках стоит FineReader, заточенный под пакетную обработку
> платёжных  поручений.

 Вот в это ещё могу поверить - только и цена ошибки распознавания
тут велика - надёжнее (но не дешевле) посадить оператора, чтоб
внимательно вколачивал циферки. И чтоб нёс персональную
ответственность.

> Так что удивительная в 2003 году идея автора о бесполезности
> OCR, наверное
> зиждется на неудачном опыте с неудачным сканером и неудачной
> программой.

 Именно. Только я много чего перепробовал...

> Чем быстрее будет какое-нибудь рабочее OCR под Linux, тем
> быстрее можно
> будет
> взгромоздить Linux на стол рядовому пользователю. Они -
> пользователи,
> ещё как
> OCR сегодня уважают!

 Вот я и в сомнениях - не ошибаются ли они? Не было бы сомнений -
я бы и сам в свободное время к разработке OCR приложился б - мои
задачи весьма похожи (феноменология, блин - то же распознавание
образов - только многократно более сложное и менее
формализуемое).





^ permalink raw reply	[flat|nested] 27+ messages in thread

* [sisyphus] [OT] Re: Распознавание текстов
  2003-04-10 18:36     ` Vitaly Lugovsky
@ 2003-04-10 18:41       ` Michael Shigorin
  2003-04-10 19:12       ` [sisyphus] " aen
  1 sibling, 0 replies; 27+ messages in thread
From: Michael Shigorin @ 2003-04-10 18:41 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 382 bytes --]

On Thu, Apr 10, 2003 at 10:36:17PM +0400, Vitaly Lugovsky wrote:
> Оба-на. Это же всё должно быть в электронной форме. Они что,
> дурачки? Или их так сильно засношали злобные налоговые и прочие
> вражеские органы? Тогда берданку в руки - и в леса, партизанить!

При чем тут sisyphus?

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-10 18:36     ` Vitaly Lugovsky
  2003-04-10 18:41       ` [sisyphus] [OT] " Michael Shigorin
@ 2003-04-10 19:12       ` aen
  2003-04-11  0:10         ` Arcady V. Ivanov
  1 sibling, 1 reply; 27+ messages in thread
From: aen @ 2003-04-10 19:12 UTC (permalink / raw)
  To: sisyphus

Vitaly Lugovsky пишет:

>
>  
>
>>В банках стоит FineReader, заточенный под пакетную обработку
>>платёжных  поручений.
>>    
>>
>
> Вот в это ещё могу поверить - только и цена ошибки распознавания
>тут велика - надёжнее (но не дешевле) посадить оператора, чтоб
>внимательно вколачивал циферки. И чтоб нёс персональную
>ответственность.
>
А кто-нибудь видел в банках этот самый FineReader на обработке платежек? 
То есть контрактов на его закупку -- сколько угодно, но я слышал только 
про неудачный опыт,  причем проигрыш при использовании пакетного 
распознавании платежек был во времени, а заметного сокращения персонала 
не наблюдалось.

Обработка нефинансовых документов на бланках -- да, конечно, здесь OCR 
хорош.

Rgrds, AEN



^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текс тов
  2003-04-09 20:52 ` Vitaly Lugovsky
  2003-04-10  6:40   ` Arcady V. Ivanov
  2003-04-10  8:22   ` Amodeus
@ 2003-04-10 23:28   ` Denis Smirnov
  2003-04-11  3:48     ` Евгений
  2 siblings, 1 reply; 27+ messages in thread
From: Denis Smirnov @ 2003-04-10 23:28 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 1347 bytes --]

On Thu, Apr 10, 2003 at 12:52:53AM +0400, Vitaly Lugovsky wrote:

 >  Всё это от того, что у сканирования и распознавания практически
 > нет никаких реальных применений. Игрушки всё это, глупые и
 > дешевые. Отсканировать и потом сверять глазами, выискивая ошибки
 > - многожды сложнее, чем сразу нормально вколотить. Проверено.

Зря ты так. При перенабивании тоже очепятки могут быть.

Модуль OCR в выходной поток должен отправлять пометки о том, насколько он
уверен в каждом символе. Дальше по этому тексту проходится спеллчекер,
который пользуясь этими данными может подкорректировать текст (этого я
нигде не видел, правда). А потом уже показывается распознаный текст, в
котором цветом выделены символы, в которых OCR не уверен.

У FineReader'а сейчас только две проблемы:
1. Модуль первичной обработки данных просто уродец (когда программа
начинает кричать, что документ отсканирован со слишком большим
разрешением, это идиотизм), хороший такой модуль может сильно увеличить
эффективность распознавания (и нивелировать особенности разных сканеров).

2. Модуль постобработки, объединённый со спеллчекером.

Хорошая реализация уже первого пункта может сделать OCR применимым в
большинстве реальных ситуаций.

Интересно, уже хоть в одном OCR сделали корректное преобразование
grayscale и цветных сканов в b/w, с автоматическим подбором границы?


[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Re: [JT] Re: Распознавание текстов
  2003-04-10 10:23       ` [sisyphus] Re: [JT] Re: òÁÓÐÏÚÎÁ×ÁÎÉÅ ÔÅËÓÔÏ× Andrey Khavryuchenko
@ 2003-04-10 23:31         ` Denis Smirnov
  2003-04-11 14:26           ` [sisyphus] Re: [JT] Re: òÁÓÐÏÚÎÁ×ÁÎÉÅ ÔÅËÓÔÏ× Andrey Khavryuchenko
  0 siblings, 1 reply; 27+ messages in thread
From: Denis Smirnov @ 2003-04-10 23:31 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 503 bytes --]

On Thu, Apr 10, 2003 at 01:23:39PM +0300, Andrey Khavryuchenko wrote:

 > А кто будет это оплачивать?  Или, иными словами, сколько людей купит
 > кирилическую OCR под Linux?  (Вопрос далеко не праздный)

Как только образуется рынок коммерческих OCR под линукс, FineReader
окажется на этом рынке и всех задавит.

Речь может идти только о другом -- какому количеству компаний нужен OCR
под линукс, причём нет желания садиться на иглу какого-либо поставщика, и
посему готовым оплатить разработку GPL OCR.


[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 27+ messages in thread

* [sisyphus] Re: [sisyphus]
  2003-04-10 18:27     ` Vitaly Lugovsky
@ 2003-04-10 23:36       ` Denis Smirnov
  2003-04-11  3:16       ` [sisyphus] Распознавание текстов Igor Solovyov
  1 sibling, 0 replies; 27+ messages in thread
From: Denis Smirnov @ 2003-04-10 23:36 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 502 bytes --]

On Thu, Apr 10, 2003 at 10:27:13PM +0400, Vitaly Lugovsky wrote:

 >  Опять же - даже на самых качественных текстах ошибок было
 > всегда неприемлимое количество. Всё перепробовали - пришлось
 > таки от сканирования отказаться... :(

Из своих опытов я сделал вывод, что самым важным оказывается софт сканера.
То есть если после сканирования картинку чуть обработать, то всегда можно
качество здорово улучшить. Давно хотел написать программу, которая это
делает автоматически, да всё руки не доходили.


[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-10 19:12       ` [sisyphus] " aen
@ 2003-04-11  0:10         ` Arcady V. Ivanov
  2003-04-11 11:27           ` aen
  2003-04-11 23:20           ` Vitaly Lugovsky
  0 siblings, 2 replies; 27+ messages in thread
From: Arcady V. Ivanov @ 2003-04-11  0:10 UTC (permalink / raw)
  To: sisyphus

aen пишет:

> Vitaly Lugovsky пишет:
>
>>
>>  
>>
>>> В банках стоит FineReader, заточенный под пакетную обработку
>>> платёжных  поручений.
>>>   
>>
>>
>> Вот в это ещё могу поверить - только и цена ошибки распознавания
>> тут велика - надёжнее (но не дешевле) посадить оператора, чтоб
>> внимательно вколачивал циферки. И чтоб нёс персональную
>> ответственность.
>>
> А кто-нибудь видел в банках этот самый FineReader на обработке 
> платежек? То есть контрактов на его закупку -- сколько угодно, но я 
> слышал только про неудачный опыт,  причем проигрыш при использовании 
> пакетного распознавании платежек был во времени, а заметного 
> сокращения персонала не наблюдалось.
>
> Обработка нефинансовых документов на бланках -- да, конечно, здесь OCR 
> хорош. 

Только что получил точную инфо от руководителя отдела авт. банка:

Контроль оператора в любом случае не может быть исключён.
Он назвал цифру, описывающую весь цикл обработки документов
- время уменьшилось в 2 раза. Он добавил, что если бы в технологии
обработки документов убрать ещё внутренние лишние операции, не имеющие
отношения к FineReader-у, то благодаря OCR общее время сократилось бы
в 4 раза.

Прошу прощения за дикий оффтопик, но похоже OCR-у пора  появляться
в русском Linux-е.

-- 
SY. Arcady. mailto:arc@help0.ru, WWW - http://www.help0.ru, Instant messenger : arc@jabber.ru





^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-10 18:27     ` Vitaly Lugovsky
  2003-04-10 23:36       ` [sisyphus] Re: [sisyphus] Denis Smirnov
@ 2003-04-11  3:16       ` Igor Solovyov
  1 sibling, 0 replies; 27+ messages in thread
From: Igor Solovyov @ 2003-04-11  3:16 UTC (permalink / raw)
  To: sisyphus

Hi!
On Thu, 10 Apr 2003 22:27:13 +0400 (MSD)
Vitaly Lugovsky <vsl@ontil.ihep.su> wrote:

>  Опять же - даже на самых качественных текстах ошибок было
> всегда неприемлимое количество. Всё перепробовали - пришлось
> таки от сканирования отказаться... :(
> 
>  Хотя, может быть, это просто не повезло, и есть конторы, имеющие
> положительный опыт - в таком случае, хотелось бы про них
> услышать.

Дело в том, что тот же FR может осуществлять проверку текста,
так же как это делает Word. Потому неизбежные в процессе распознавания
ошибки не так уж и страшны. Их легко можно исправить.
У нас секретарь никаких проблем с распознаванием не испытывает. :-))

-- 
Best regards!
Igor Solovyov
System/Network administrator
JSC CB "Zlatkombank", Zlatoust, Russia



^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текс тов
  2003-04-10 23:28   ` [sisyphus] Распознавание текс тов Denis Smirnov
@ 2003-04-11  3:48     ` Евгений
  2003-04-11 10:18       ` Denis Smirnov
  0 siblings, 1 reply; 27+ messages in thread
From: Евгений @ 2003-04-11  3:48 UTC (permalink / raw)
  To: sisyphus

Denis Smirnov пишет:

> >  Всё это от того, что у сканирования и распознавания практически
> > нет никаких реальных применений. Игрушки всё это, глупые и
> > дешевые. Отсканировать и потом сверять глазами, выискивая ошибки
> > - многожды сложнее, чем сразу нормально вколотить. Проверено.
>
>Зря ты так. При перенабивании тоже очепятки могут быть.
>
>Модуль OCR в выходной поток должен отправлять пометки о том, насколько он
>  
>
<>

>Хорошая реализация уже первого пункта может сделать OCR применимым в
>большинстве реальных ситуаций.
>
>Интересно, уже хоть в одном OCR сделали корректное преобразование
>grayscale и цветных сканов в b/w, с автоматическим подбором границы?
>
>  
>
Всё ребят. Достаточно. Вопрос закрыл.
А то уже получается разговор ни о чем.
Уже мерять начали у кого длиннее.

СТОП.



Евгений



^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текс тов
  2003-04-11  3:48     ` Евгений
@ 2003-04-11 10:18       ` Denis Smirnov
  0 siblings, 0 replies; 27+ messages in thread
From: Denis Smirnov @ 2003-04-11 10:18 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 647 bytes --]

On Fri, Apr 11, 2003 at 07:48:20AM +0400, Евгений wrote:

 > >Зря ты так. При перенабивании тоже очепятки могут быть.
 > >Модуль OCR в выходной поток должен отправлять пометки о том, насколько он
 > >Хорошая реализация уже первого пункта может сделать OCR применимым в
 > >большинстве реальных ситуаций.
 > >Интересно, уже хоть в одном OCR сделали корректное преобразование
 > >grayscale и цветных сканов в b/w, с автоматическим подбором границы?
 > Всё ребят. Достаточно. Вопрос закрыл.
 > А то уже получается разговор ни о чем.
 > Уже мерять начали у кого длиннее.

Не, это я начал высказываться как именно должен выглядеть качественный OCR
:)


[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-11  0:10         ` Arcady V. Ivanov
@ 2003-04-11 11:27           ` aen
  2003-04-12  1:24             ` Arcady V. Ivanov
  2003-04-11 23:20           ` Vitaly Lugovsky
  1 sibling, 1 reply; 27+ messages in thread
From: aen @ 2003-04-11 11:27 UTC (permalink / raw)
  To: sisyphus

Arcady V. Ivanov пишет:

> aen пишет:
>
>> Vitaly Lugovsky пишет:
>>
>>>
>>>  
>>>
>>>> В банках стоит FineReader, заточенный под пакетную обработку
>>>> платёжных  поручений.
>>>>   
>>>
>>>
>>>
>>> Вот в это ещё могу поверить - только и цена ошибки распознавания
>>> тут велика - надёжнее (но не дешевле) посадить оператора, чтоб
>>> внимательно вколачивал циферки. И чтоб нёс персональную
>>> ответственность.
>>>
>> А кто-нибудь видел в банках этот самый FineReader на обработке 
>> платежек? То есть контрактов на его закупку -- сколько угодно, но я 
>> слышал только про неудачный опыт,  причем проигрыш при использовании 
>> пакетного распознавании платежек был во времени, а заметного 
>> сокращения персонала не наблюдалось.
>>
>> Обработка нефинансовых документов на бланках -- да, конечно, здесь 
>> OCR хорош. 
>
>
> Только что получил точную инфо от руководителя отдела авт. банка:
>
> Контроль оператора в любом случае не может быть исключён.
> Он назвал цифру, описывающую весь цикл обработки документов
> - время уменьшилось в 2 раза. 

Я говорил конкретно о платежках.  Это к ним относится?

Rgrds, AEN



^ permalink raw reply	[flat|nested] 27+ messages in thread

* [sisyphus] Re: [JT] Re: òÁÓÐÏÚÎÁ×ÁÎÉÅ ÔÅËÓÔÏ×
  2003-04-10 23:31         ` [sisyphus] Re: [JT] Re: Распознавание текстов Denis Smirnov
@ 2003-04-11 14:26           ` Andrey Khavryuchenko
  2003-04-11 15:18             ` [sisyphus] Re: [JT] Re: Распознавание текстов aen
  2003-04-11 19:25             ` [sisyphus] Re: [JT] Re: Распознавание текстов Denis Smirnov
  0 siblings, 2 replies; 27+ messages in thread
From: Andrey Khavryuchenko @ 2003-04-11 14:26 UTC (permalink / raw)
  To: sisyphus

Denis,

"DS" == Denis Smirnov wrote:

 DS> Речь может идти только о другом -- какому количеству компаний нужен OCR
 DS> под линукс, причём нет желания садиться на иглу какого-либо поставщика, и
 DS> посему готовым оплатить разработку GPL OCR.

Один хрен.  Суть та же - кто финансирует?  И кто координирует разработку?

-- 
Andrey V Khavryuchenko            http://www.kds.com.ua/
Silver Bullet Software Solutions  http://www.kds.com.ua/training/


^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] [JT] Re: Распознавание
  2003-04-11 15:18             ` [sisyphus] Re: [JT] Re: Распознавание текстов aen
@ 2003-04-11 15:18               ` Sergey S. Skulachenko
  0 siblings, 0 replies; 27+ messages in thread
From: Sergey S. Skulachenko @ 2003-04-11 15:18 UTC (permalink / raw)
  To: sisyphus

On Fri, 11 Apr 2003 19:18:54 +0400
aen <aen@altlinux.ru> wrote:

> Замечу также, что разработка эта весьма дорогая, так как
> необходимы научные изыскания.  Думаю, не погрешу против истины,
> если предположу, что нынешние OCR основаны, в значительной
> степени, на разработках советских НИИ (в одной из них мы со smi
> принимали участие), большая часть которых были закрытыми или
> просто не были опубликованы. Скорее всего, по той же причине
> полноценных свободных OCR нет не только в exUSSR, но в мире.

Зато навигация по карте местности хорошо работает. Типичная
задача распознавания образов. Одна из первых, сформулированных
для ЭВМ.

_____________
С уважением,
С.С.Скулаченко


^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Re: [JT] Re: Распознавание текстов
  2003-04-11 14:26           ` [sisyphus] Re: [JT] Re: òÁÓÐÏÚÎÁ×ÁÎÉÅ ÔÅËÓÔÏ× Andrey Khavryuchenko
@ 2003-04-11 15:18             ` aen
  2003-04-11 15:18               ` [sisyphus] [JT] Re: Распознавание Sergey S. Skulachenko
  2003-04-11 19:25             ` [sisyphus] Re: [JT] Re: Распознавание текстов Denis Smirnov
  1 sibling, 1 reply; 27+ messages in thread
From: aen @ 2003-04-11 15:18 UTC (permalink / raw)
  To: sisyphus

Andrey Khavryuchenko пишет:

>Denis,
>
>"DS" == Denis Smirnov wrote:
>
> DS> Речь может идти только о другом -- какому количеству компаний нужен OCR
> DS> под линукс, причём нет желания садиться на иглу какого-либо поставщика, и
> DS> посему готовым оплатить разработку GPL OCR.
>
>Один хрен.  Суть та же - кто финансирует?  И кто координирует разработку?
>
>  
>
Замечу также, что разработка эта весьма дорогая, так как необходимы 
научные изыскания.  Думаю, не погрешу против истины, если предположу, 
что нынешние OCR основаны, в значительной степени, на разработках 
советских НИИ (в одной из них мы со smi принимали участие), большая 
часть которых были закрытыми или просто не были опубликованы.
Скорее всего, по той же причине полноценных свободных OCR нет не только 
в exUSSR, но в мире.

Rgrds, AEN



^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Re: [JT] Re: Распознавание текстов
  2003-04-11 14:26           ` [sisyphus] Re: [JT] Re: òÁÓÐÏÚÎÁ×ÁÎÉÅ ÔÅËÓÔÏ× Andrey Khavryuchenko
  2003-04-11 15:18             ` [sisyphus] Re: [JT] Re: Распознавание текстов aen
@ 2003-04-11 19:25             ` Denis Smirnov
  1 sibling, 0 replies; 27+ messages in thread
From: Denis Smirnov @ 2003-04-11 19:25 UTC (permalink / raw)
  To: sisyphus

[-- Attachment #1: Type: text/plain, Size: 481 bytes --]

On Fri, Apr 11, 2003 at 05:26:56PM +0300, Andrey Khavryuchenko wrote:

 DS>> Речь может идти только о другом -- какому количеству компаний нужен OCR
 DS>> под линукс, причём нет желания садиться на иглу какого-либо поставщика, и
 DS>> посему готовым оплатить разработку GPL OCR.
 > Один хрен.  Суть та же - кто финансирует?  И кто координирует разработку?

На оба вопроса ответ один -- в ближайшее время разумный ответ маловероятен.

-- 
С уважением, Денис

http://freesource.info

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-11  0:10         ` Arcady V. Ivanov
  2003-04-11 11:27           ` aen
@ 2003-04-11 23:20           ` Vitaly Lugovsky
  1 sibling, 0 replies; 27+ messages in thread
From: Vitaly Lugovsky @ 2003-04-11 23:20 UTC (permalink / raw)
  To: sisyphus

On Fri, 11 Apr 2003, Arcady V. Ivanov wrote:

> Прошу прощения за дикий оффтопик, но похоже OCR-у пора
> появляться
> в русском Linux-е.

 Хорошо. Убедили. Буду прикладывать свою голову в этом
направлении. Посмотрю, что из моих наработок в смежных
областях можно приспособить...

 Если здесь есть ещё кто заинтересованный в разработке OCR
с нуля - прошу в мыло.



^ permalink raw reply	[flat|nested] 27+ messages in thread

* Re: [sisyphus] Распознавание текстов
  2003-04-11 11:27           ` aen
@ 2003-04-12  1:24             ` Arcady V. Ivanov
  0 siblings, 0 replies; 27+ messages in thread
From: Arcady V. Ivanov @ 2003-04-12  1:24 UTC (permalink / raw)
  To: sisyphus

aen пишет:

> Arcady V. Ivanov пишет:
>
>> aen пишет:
>>
>>> Vitaly Lugovsky пишет:
>>>
>>>>
>>>>  
>>>>
>>>>> В банках стоит FineReader, заточенный под пакетную обработку
>>>>> платёжных  поручений.
>>>>>   
>>>>
>>>>
>>>>
>>>>
>>>> Вот в это ещё могу поверить - только и цена ошибки распознавания
>>>> тут велика - надёжнее (но не дешевле) посадить оператора, чтоб
>>>> внимательно вколачивал циферки. И чтоб нёс персональную
>>>> ответственность.
>>>>
>>> А кто-нибудь видел в банках этот самый FineReader на обработке 
>>> платежек? То есть контрактов на его закупку -- сколько угодно, но я 
>>> слышал только про неудачный опыт,  причем проигрыш при использовании 
>>> пакетного распознавании платежек был во времени, а заметного 
>>> сокращения персонала не наблюдалось.
>>>
>>> Обработка нефинансовых документов на бланках -- да, конечно, здесь 
>>> OCR хорош. 
>>
>>
>>
>> Только что получил точную инфо от руководителя отдела авт. банка:
>>
>> Контроль оператора в любом случае не может быть исключён.
>> Он назвал цифру, описывающую весь цикл обработки документов
>> - время уменьшилось в 2 раза. 
>
>
> Я говорил конкретно о платежках.  Это к ним относится?

Да, именно к ним.

-- 
SY. Arcady. mailto:arc@help0.ru, WWW - http://www.help0.ru, Instant messenger : arc@jabber.ru





^ permalink raw reply	[flat|nested] 27+ messages in thread

end of thread, other threads:[~2003-04-12  1:24 UTC | newest]

Thread overview: 27+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2003-04-09 12:53 [sisyphus] Распознавание текстов Евгений
2003-04-09 13:07 ` Alexandre Prokoudine
2003-04-09 20:52 ` Vitaly Lugovsky
2003-04-10  6:40   ` Arcady V. Ivanov
2003-04-10 10:04     ` [JT] " Alexandre Prokoudine
2003-04-10 10:23       ` [sisyphus] Re: [JT] Re: òÁÓÐÏÚÎÁ×ÁÎÉÅ ÔÅËÓÔÏ× Andrey Khavryuchenko
2003-04-10 23:31         ` [sisyphus] Re: [JT] Re: Распознавание текстов Denis Smirnov
2003-04-11 14:26           ` [sisyphus] Re: [JT] Re: òÁÓÐÏÚÎÁ×ÁÎÉÅ ÔÅËÓÔÏ× Andrey Khavryuchenko
2003-04-11 15:18             ` [sisyphus] Re: [JT] Re: Распознавание текстов aen
2003-04-11 15:18               ` [sisyphus] [JT] Re: Распознавание Sergey S. Skulachenko
2003-04-11 19:25             ` [sisyphus] Re: [JT] Re: Распознавание текстов Denis Smirnov
2003-04-10 10:06     ` [sisyphus] " Anatoly A. Yakushin
2003-04-10 18:36     ` Vitaly Lugovsky
2003-04-10 18:41       ` [sisyphus] [OT] " Michael Shigorin
2003-04-10 19:12       ` [sisyphus] " aen
2003-04-11  0:10         ` Arcady V. Ivanov
2003-04-11 11:27           ` aen
2003-04-12  1:24             ` Arcady V. Ivanov
2003-04-11 23:20           ` Vitaly Lugovsky
2003-04-10  8:22   ` Amodeus
2003-04-10  6:41     ` Евгений
2003-04-10 18:27     ` Vitaly Lugovsky
2003-04-10 23:36       ` [sisyphus] Re: [sisyphus] Denis Smirnov
2003-04-11  3:16       ` [sisyphus] Распознавание текстов Igor Solovyov
2003-04-10 23:28   ` [sisyphus] Распознавание текс тов Denis Smirnov
2003-04-11  3:48     ` Евгений
2003-04-11 10:18       ` Denis Smirnov

ALT Linux Sisyphus discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
		sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
	public-inbox-index sisyphus

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sisyphus


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git