ALT Linux Community general discussions
 help / color / mirror / Atom feed
* [Comm] old russian pdf view?
@ 2004-09-29 20:55 dm
  2004-10-01  4:55 ` iLL
  0 siblings, 1 reply; 3+ messages in thread
From: dm @ 2004-09-29 20:55 UTC (permalink / raw)
  To: community

Здравствуйте!

Имеется некоторое количество текстов в формате PDF, сгенерённых из 
сканированных и распознанных оригиналов с помощью FineReader 5. Кто 
пользовался, знает, что там есть режим создания PDF-а, максимально 
близкого по виду к исходному тексту. Проблема в том, что эти PDF-ы при 
наличии в них русского текста нормально просматриваются исключительно в 
Adobe Acrobat Reader 3.0 for Windows. В Acrobat Reader 4.0 и старше, 
независимо от локализации, русский текст в них выводится исключительно 
английским шрифтом (вторая половина стандартной таблицы ASCII --- буквы 
с диактрикой, спецзнаки и прочая мура). В KGhostview шрифты частью 
такие же, частью вообще не выводятся.

Соответственно, вопрос: может, кто-нибудь уже бодался с такими PDF-ами и 
знает способ их нормального просмотра из-под Linux или способ их  
преобразования во что-нибудь более правильное?

-- 
-------------------------------------
dm <deadmustdie at pisem point net>


^ permalink raw reply	[flat|nested] 3+ messages in thread

* Re: [Comm] old russian pdf view?
  2004-09-29 20:55 [Comm] old russian pdf view? dm
@ 2004-10-01  4:55 ` iLL
  2004-10-03 15:06   ` dm
  0 siblings, 1 reply; 3+ messages in thread
From: iLL @ 2004-10-01  4:55 UTC (permalink / raw)
  To: community

On Thu, 30 Sep 2004 00:55:37 +0400
dm <dead-mustdie@nm.ru> wrote:

> Здравствуйте!
> 
> Имеется некоторое количество текстов в формате PDF, сгенерённых из 
> сканированных и распознанных оригиналов с помощью FineReader 5. Кто 
> пользовался, знает, что там есть режим создания PDF-а, максимально 
> близкого по виду к исходному тексту. Проблема в том, что эти PDF-ы при 
> наличии в них русского текста нормально просматриваются исключительно в 
> Adobe Acrobat Reader 3.0 for Windows. В Acrobat Reader 4.0 и старше, 
> независимо от локализации, русский текст в них выводится исключительно 
> английским шрифтом (вторая половина стандартной таблицы ASCII --- буквы 
> с диактрикой, спецзнаки и прочая мура). В KGhostview шрифты частью 
> такие же, частью вообще не выводятся.
> 
> Соответственно, вопрос: может, кто-нибудь уже бодался с такими PDF-ами и 
> знает способ их нормального просмотра из-под Linux или способ их  
> преобразования во что-нибудь более правильное?
Тупое решение:
В Акробате 3.0 распечатать, отсканировать, распознать нормалным Файнридерем и сохранить.
Чуть умнее решение:
Выгрузить в PS или во чтонибудь с открытым стандартом и покопаться в исходном тексте 
исправить кодировку.
> 
> -- 
> -------------------------------------
> dm <deadmustdie at pisem point net>

-- 
===-iLya Bryzgalow aka iLL-=== _/ _/     _/
Astronomy_Linux_Krasnodar_Russia _/     _/
Linux User #301257           _/ _/     _/
ICQ:43835329                _/ _/     _/
JID://ill@jabber.org       _/ _/     _/
http://www.krumn.oilnet.ru_/ _/     _/
ftp://ftp.krumn.oilnet.ru_/ _/_/_/ _/_/_/
i don't smoke and wish you the same!
kernel-2.6.8-std26-smp-alt9 ALT Linux Sisyphus (20040921)


^ permalink raw reply	[flat|nested] 3+ messages in thread

* Re: [Comm] old russian pdf view?
  2004-10-01  4:55 ` iLL
@ 2004-10-03 15:06   ` dm
  0 siblings, 0 replies; 3+ messages in thread
From: dm @ 2004-10-03 15:06 UTC (permalink / raw)
  To: community

Здравствуйте, iLL!

Пятница 01 Октябрь 2004 08:55, Вы писали:

> > Имеется некоторое количество текстов в формате PDF, сгенерённых из
> > сканированных и распознанных оригиналов с помощью FineReader 5.
> > ...
> > Соответственно, вопрос: может, кто-нибудь уже бодался с такими
> > PDF-ами и знает способ их нормального просмотра из-под Linux или
> > способ их преобразования во что-нибудь более правильное?
>
> Тупое решение:
> В Акробате 3.0 распечатать, отсканировать, распознать нормалным
> Файнридерем и сохранить. 

Ну Вы меня насмешили :-)) Вообще-то, если дело дойдёт до 
перераспознавания, я лучше достану сканы с архивного CD. 

А вот какой именно FineReader Вы считаете нормальным? (Интересует 
версия). У меня 5-й. Пробовал 6-й, он лучше в плане распознавания (да и 
то его улучшения для моих целей малосущественны, разве что 
распознавание над- и подстрочных индексов полезно), но именно в 
переводе в pdf никакой разницы с пятым нет. Чтобы сделать из-под FR 
нормальный pdf, нужно ставить в винду адобовские примочки и 
регистрировать в системе постскриптовские шрифты. Я как-то пробовал, 
чуть не помер. Сейчас у меня, естественно этих утилит нет. А pdf-ы, про 
которые речь, _уже сделаны_. То есть если их снова гонять через FR, это 
не только распознавание (работа машины), но и дикое количество ручного 
труда. Книги --- учебники и статьи с графиками, формулами и прочим. 
После первого распознавания в них приходится удалять нафиг весь текст и 
вручную править разметку. Иначе полная фигня получается. Повторять этот 
подвиг --- большое спасибо, желающих нет.

> Чуть умнее решение: 
> Выгрузить в PS или во чтонибудь с открытым стандартом и покопаться в
> исходном тексте исправить кодировку.

Ну, это козе понятно. Собственно, именно про то, во что, чем, как 
выгружать, чем править кодировку и вставлять шрифты, я и хотел бы 
знать. Хотя бы намёк. Но увы... Тишина показывает, что осведомлённых 
нет, либо это страшная тайна. Придётся самому разбираться.

А вообще, жаль. Я довольно давно уже из FR в pdf ничего не сохраняю, 
именно из-за этой дурной особенности файлов. Вместо этого применяется 
цепочка: сохранить в word, преобразовать word в tex, загрузить в LaTeX 
и получить pdf. Получается неплохо, но, во-первых, гораздо больше 
возни, во-вторых, оформление при этом всё-таки нарушается. Да и 
теряется основной смак, из-за которого FR-овские pdf-ы так хотелось бы 
использовать: FR умеет автоматически подставлять вместо плохо 
распознанных в оригинале букв их графическое представление. Но делает 
это только при экспорте в pdf. Такие пироги. С котятами.

-- 
-------------------------------------
dm <deadmustdie at pisem point net>


^ permalink raw reply	[flat|nested] 3+ messages in thread

end of thread, other threads:[~2004-10-03 15:06 UTC | newest]

Thread overview: 3+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2004-09-29 20:55 [Comm] old russian pdf view? dm
2004-10-01  4:55 ` iLL
2004-10-03 15:06   ` dm

ALT Linux Community general discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
		mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
	public-inbox-index community

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.community


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git