* [Comm] old russian pdf view?
@ 2004-09-29 20:55 dm
2004-10-01 4:55 ` iLL
0 siblings, 1 reply; 3+ messages in thread
From: dm @ 2004-09-29 20:55 UTC (permalink / raw)
To: community
Здравствуйте!
Имеется некоторое количество текстов в формате PDF, сгенерённых из
сканированных и распознанных оригиналов с помощью FineReader 5. Кто
пользовался, знает, что там есть режим создания PDF-а, максимально
близкого по виду к исходному тексту. Проблема в том, что эти PDF-ы при
наличии в них русского текста нормально просматриваются исключительно в
Adobe Acrobat Reader 3.0 for Windows. В Acrobat Reader 4.0 и старше,
независимо от локализации, русский текст в них выводится исключительно
английским шрифтом (вторая половина стандартной таблицы ASCII --- буквы
с диактрикой, спецзнаки и прочая мура). В KGhostview шрифты частью
такие же, частью вообще не выводятся.
Соответственно, вопрос: может, кто-нибудь уже бодался с такими PDF-ами и
знает способ их нормального просмотра из-под Linux или способ их
преобразования во что-нибудь более правильное?
--
-------------------------------------
dm <deadmustdie at pisem point net>
^ permalink raw reply [flat|nested] 3+ messages in thread
* Re: [Comm] old russian pdf view?
2004-09-29 20:55 [Comm] old russian pdf view? dm
@ 2004-10-01 4:55 ` iLL
2004-10-03 15:06 ` dm
0 siblings, 1 reply; 3+ messages in thread
From: iLL @ 2004-10-01 4:55 UTC (permalink / raw)
To: community
On Thu, 30 Sep 2004 00:55:37 +0400
dm <dead-mustdie@nm.ru> wrote:
> Здравствуйте!
>
> Имеется некоторое количество текстов в формате PDF, сгенерённых из
> сканированных и распознанных оригиналов с помощью FineReader 5. Кто
> пользовался, знает, что там есть режим создания PDF-а, максимально
> близкого по виду к исходному тексту. Проблема в том, что эти PDF-ы при
> наличии в них русского текста нормально просматриваются исключительно в
> Adobe Acrobat Reader 3.0 for Windows. В Acrobat Reader 4.0 и старше,
> независимо от локализации, русский текст в них выводится исключительно
> английским шрифтом (вторая половина стандартной таблицы ASCII --- буквы
> с диактрикой, спецзнаки и прочая мура). В KGhostview шрифты частью
> такие же, частью вообще не выводятся.
>
> Соответственно, вопрос: может, кто-нибудь уже бодался с такими PDF-ами и
> знает способ их нормального просмотра из-под Linux или способ их
> преобразования во что-нибудь более правильное?
Тупое решение:
В Акробате 3.0 распечатать, отсканировать, распознать нормалным Файнридерем и сохранить.
Чуть умнее решение:
Выгрузить в PS или во чтонибудь с открытым стандартом и покопаться в исходном тексте
исправить кодировку.
>
> --
> -------------------------------------
> dm <deadmustdie at pisem point net>
--
===-iLya Bryzgalow aka iLL-=== _/ _/ _/
Astronomy_Linux_Krasnodar_Russia _/ _/
Linux User #301257 _/ _/ _/
ICQ:43835329 _/ _/ _/
JID://ill@jabber.org _/ _/ _/
http://www.krumn.oilnet.ru_/ _/ _/
ftp://ftp.krumn.oilnet.ru_/ _/_/_/ _/_/_/
i don't smoke and wish you the same!
kernel-2.6.8-std26-smp-alt9 ALT Linux Sisyphus (20040921)
^ permalink raw reply [flat|nested] 3+ messages in thread
* Re: [Comm] old russian pdf view?
2004-10-01 4:55 ` iLL
@ 2004-10-03 15:06 ` dm
0 siblings, 0 replies; 3+ messages in thread
From: dm @ 2004-10-03 15:06 UTC (permalink / raw)
To: community
Здравствуйте, iLL!
Пятница 01 Октябрь 2004 08:55, Вы писали:
> > Имеется некоторое количество текстов в формате PDF, сгенерённых из
> > сканированных и распознанных оригиналов с помощью FineReader 5.
> > ...
> > Соответственно, вопрос: может, кто-нибудь уже бодался с такими
> > PDF-ами и знает способ их нормального просмотра из-под Linux или
> > способ их преобразования во что-нибудь более правильное?
>
> Тупое решение:
> В Акробате 3.0 распечатать, отсканировать, распознать нормалным
> Файнридерем и сохранить.
Ну Вы меня насмешили :-)) Вообще-то, если дело дойдёт до
перераспознавания, я лучше достану сканы с архивного CD.
А вот какой именно FineReader Вы считаете нормальным? (Интересует
версия). У меня 5-й. Пробовал 6-й, он лучше в плане распознавания (да и
то его улучшения для моих целей малосущественны, разве что
распознавание над- и подстрочных индексов полезно), но именно в
переводе в pdf никакой разницы с пятым нет. Чтобы сделать из-под FR
нормальный pdf, нужно ставить в винду адобовские примочки и
регистрировать в системе постскриптовские шрифты. Я как-то пробовал,
чуть не помер. Сейчас у меня, естественно этих утилит нет. А pdf-ы, про
которые речь, _уже сделаны_. То есть если их снова гонять через FR, это
не только распознавание (работа машины), но и дикое количество ручного
труда. Книги --- учебники и статьи с графиками, формулами и прочим.
После первого распознавания в них приходится удалять нафиг весь текст и
вручную править разметку. Иначе полная фигня получается. Повторять этот
подвиг --- большое спасибо, желающих нет.
> Чуть умнее решение:
> Выгрузить в PS или во чтонибудь с открытым стандартом и покопаться в
> исходном тексте исправить кодировку.
Ну, это козе понятно. Собственно, именно про то, во что, чем, как
выгружать, чем править кодировку и вставлять шрифты, я и хотел бы
знать. Хотя бы намёк. Но увы... Тишина показывает, что осведомлённых
нет, либо это страшная тайна. Придётся самому разбираться.
А вообще, жаль. Я довольно давно уже из FR в pdf ничего не сохраняю,
именно из-за этой дурной особенности файлов. Вместо этого применяется
цепочка: сохранить в word, преобразовать word в tex, загрузить в LaTeX
и получить pdf. Получается неплохо, но, во-первых, гораздо больше
возни, во-вторых, оформление при этом всё-таки нарушается. Да и
теряется основной смак, из-за которого FR-овские pdf-ы так хотелось бы
использовать: FR умеет автоматически подставлять вместо плохо
распознанных в оригинале букв их графическое представление. Но делает
это только при экспорте в pdf. Такие пироги. С котятами.
--
-------------------------------------
dm <deadmustdie at pisem point net>
^ permalink raw reply [flat|nested] 3+ messages in thread
end of thread, other threads:[~2004-10-03 15:06 UTC | newest]
Thread overview: 3+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2004-09-29 20:55 [Comm] old russian pdf view? dm
2004-10-01 4:55 ` iLL
2004-10-03 15:06 ` dm
ALT Linux Community general discussions
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
public-inbox-index community
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.community
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git