From mboxrd@z Thu Jan  1 00:00:00 1970
Return-Path: <mithraen@freesource.info>
Date: Fri, 11 Apr 2003 03:28:06 +0400
From: Denis Smirnov <mithraen@freesource.info>
To: sisyphus@altlinux.ru
Subject: Re: [sisyphus] =?koi8-r?B?8sHT0M/azsHXwc7J?=
	=?koi8-r?B?xSDUxcvTINTP1w==?=
Message-ID: <20030410232806.GA28287@mithraen-home-1.localdomain>
References: <3E9417CF.80609@cstula.ru> <Pine.LNX.4.53L.0304100051220.26782@ontil.ihep.su>
Mime-Version: 1.0
Content-Type: multipart/signed; micalg=pgp-sha1;
	protocol="application/pgp-signature"; boundary="gKMricLos+KVdGMg"
Content-Disposition: inline
In-Reply-To: <Pine.LNX.4.53L.0304100051220.26782@ontil.ihep.su>
Sender: sisyphus-admin@altlinux.ru
Errors-To: sisyphus-admin@altlinux.ru
X-BeenThere: sisyphus@altlinux.ru
X-Mailman-Version: 2.0.9
Precedence: bulk
Reply-To: sisyphus@altlinux.ru
List-Unsubscribe: <http://altlinux.ru/mailman/listinfo/sisyphus>,
	<mailto:sisyphus-request@altlinux.ru?subject=unsubscribe>
List-Id: <sisyphus.altlinux.ru>
List-Post: <mailto:sisyphus@altlinux.ru>
List-Help: <mailto:sisyphus-request@altlinux.ru?subject=help>
List-Subscribe: <http://altlinux.ru/mailman/listinfo/sisyphus>,
	<mailto:sisyphus-request@altlinux.ru?subject=subscribe>
List-Archive: <http://altlinux.ru/pipermail/sisyphus/>
Archived-At: <http://lore.altlinux.org/sisyphus/20030410232806.GA28287@mithraen-home-1.localdomain/>
List-Archive: <http://lore.altlinux.org/sisyphus/>

--gKMricLos+KVdGMg
Content-Type: text/plain; charset=koi8-r
Content-Disposition: inline
Content-Transfer-Encoding: 8bit

On Thu, Apr 10, 2003 at 12:52:53AM +0400, Vitaly Lugovsky wrote:

 >  Всё это от того, что у сканирования и распознавания практически
 > нет никаких реальных применений. Игрушки всё это, глупые и
 > дешевые. Отсканировать и потом сверять глазами, выискивая ошибки
 > - многожды сложнее, чем сразу нормально вколотить. Проверено.

Зря ты так. При перенабивании тоже очепятки могут быть.

Модуль OCR в выходной поток должен отправлять пометки о том, насколько он
уверен в каждом символе. Дальше по этому тексту проходится спеллчекер,
который пользуясь этими данными может подкорректировать текст (этого я
нигде не видел, правда). А потом уже показывается распознаный текст, в
котором цветом выделены символы, в которых OCR не уверен.

У FineReader'а сейчас только две проблемы:
1. Модуль первичной обработки данных просто уродец (когда программа
начинает кричать, что документ отсканирован со слишком большим
разрешением, это идиотизм), хороший такой модуль может сильно увеличить
эффективность распознавания (и нивелировать особенности разных сканеров).

2. Модуль постобработки, объединённый со спеллчекером.

Хорошая реализация уже первого пункта может сделать OCR применимым в
большинстве реальных ситуаций.

Интересно, уже хоть в одном OCR сделали корректное преобразование
grayscale и цветных сканов в b/w, с автоматическим подбором границы?


--gKMricLos+KVdGMg
Content-Type: application/pgp-signature
Content-Disposition: inline

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.1 (GNU/Linux)

iD8DBQE+lf4GPuR8c4jhFKIRAlnrAKCGfT45lqgDUtzfLHxy/+mkwIeKMgCgj5LY
QOLH/8YH1CXMQF+Kw6rnP6o=
=94/e
-----END PGP SIGNATURE-----

--gKMricLos+KVdGMg--