ALT Linux Sisyphus discussions
 help / color / mirror / Atom feed
From: Denis Smirnov <mithraen@freesource.info>
To: sisyphus@altlinux.ru
Subject: Re: [sisyphus] Распознавание текс тов
Date: Fri, 11 Apr 2003 03:28:06 +0400
Message-ID: <20030410232806.GA28287@mithraen-home-1.localdomain> (raw)
In-Reply-To: <Pine.LNX.4.53L.0304100051220.26782@ontil.ihep.su>

[-- Attachment #1: Type: text/plain, Size: 1347 bytes --]

On Thu, Apr 10, 2003 at 12:52:53AM +0400, Vitaly Lugovsky wrote:

 >  Всё это от того, что у сканирования и распознавания практически
 > нет никаких реальных применений. Игрушки всё это, глупые и
 > дешевые. Отсканировать и потом сверять глазами, выискивая ошибки
 > - многожды сложнее, чем сразу нормально вколотить. Проверено.

Зря ты так. При перенабивании тоже очепятки могут быть.

Модуль OCR в выходной поток должен отправлять пометки о том, насколько он
уверен в каждом символе. Дальше по этому тексту проходится спеллчекер,
который пользуясь этими данными может подкорректировать текст (этого я
нигде не видел, правда). А потом уже показывается распознаный текст, в
котором цветом выделены символы, в которых OCR не уверен.

У FineReader'а сейчас только две проблемы:
1. Модуль первичной обработки данных просто уродец (когда программа
начинает кричать, что документ отсканирован со слишком большим
разрешением, это идиотизм), хороший такой модуль может сильно увеличить
эффективность распознавания (и нивелировать особенности разных сканеров).

2. Модуль постобработки, объединённый со спеллчекером.

Хорошая реализация уже первого пункта может сделать OCR применимым в
большинстве реальных ситуаций.

Интересно, уже хоть в одном OCR сделали корректное преобразование
grayscale и цветных сканов в b/w, с автоматическим подбором границы?


[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

  parent reply	other threads:[~2003-04-10 23:28 UTC|newest]

Thread overview: 27+ messages / expand[flat|nested]  mbox.gz  Atom feed  top
2003-04-09 12:53 [sisyphus] Распознавание текстов Евгений
2003-04-09 13:07 ` Alexandre Prokoudine
2003-04-09 20:52 ` Vitaly Lugovsky
2003-04-10  6:40   ` Arcady V. Ivanov
2003-04-10 10:04     ` [JT] " Alexandre Prokoudine
2003-04-10 10:23       ` [sisyphus] Re: [JT] Re: òÁÓÐÏÚÎÁ×ÁÎÉÅ ÔÅËÓÔÏ× Andrey Khavryuchenko
2003-04-10 23:31         ` [sisyphus] Re: [JT] Re: Распознавание текстов Denis Smirnov
2003-04-11 14:26           ` [sisyphus] Re: [JT] Re: òÁÓÐÏÚÎÁ×ÁÎÉÅ ÔÅËÓÔÏ× Andrey Khavryuchenko
2003-04-11 15:18             ` [sisyphus] Re: [JT] Re: Распознавание текстов aen
2003-04-11 15:18               ` [sisyphus] [JT] Re: Распознавание Sergey S. Skulachenko
2003-04-11 19:25             ` [sisyphus] Re: [JT] Re: Распознавание текстов Denis Smirnov
2003-04-10 10:06     ` [sisyphus] " Anatoly A. Yakushin
2003-04-10 18:36     ` Vitaly Lugovsky
2003-04-10 18:41       ` [sisyphus] [OT] " Michael Shigorin
2003-04-10 19:12       ` [sisyphus] " aen
2003-04-11  0:10         ` Arcady V. Ivanov
2003-04-11 11:27           ` aen
2003-04-12  1:24             ` Arcady V. Ivanov
2003-04-11 23:20           ` Vitaly Lugovsky
2003-04-10  8:22   ` Amodeus
2003-04-10  6:41     ` Евгений
2003-04-10 18:27     ` Vitaly Lugovsky
2003-04-10 23:36       ` [sisyphus] Re: [sisyphus] Denis Smirnov
2003-04-11  3:16       ` [sisyphus] Распознавание текстов Igor Solovyov
2003-04-10 23:28   ` Denis Smirnov [this message]
2003-04-11  3:48     ` [sisyphus] Распознавание текс тов Евгений
2003-04-11 10:18       ` Denis Smirnov

Reply instructions:

You may reply publicly to this message via plain-text email
using any one of the following methods:

* Save the following mbox file, import it into your mail client,
  and reply-to-all from there: mbox

  Avoid top-posting and favor interleaved quoting:
  https://en.wikipedia.org/wiki/Posting_style#Interleaved_style

* Reply using the --to, --cc, and --in-reply-to
  switches of git-send-email(1):

  git send-email \
    --in-reply-to=20030410232806.GA28287@mithraen-home-1.localdomain \
    --to=mithraen@freesource.info \
    --cc=sisyphus@altlinux.ru \
    /path/to/YOUR_REPLY

  https://kernel.org/pub/software/scm/git/docs/git-send-email.html

* If your mail client supports setting the In-Reply-To header
  via mailto: links, try the mailto: link

ALT Linux Sisyphus discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
		sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
	public-inbox-index sisyphus

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sisyphus


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git