ALT Linux Sisyphus discussions
 help / color / mirror / Atom feed
From: Ivan Adzhubey <iadzhubey@rics.bwh.harvard.edu>
To: ALT Linux Sisyphus discussion list <sisyphus@lists.altlinux.org>
Subject: Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
Date: Fri, 1 Dec 2006 13:10:52 -0500
Message-ID: <200612011310.52537.iadzhubey@rics.bwh.harvard.edu> (raw)
In-Reply-To: <e12fd2db0612010944o51d433e4w567cbfbc611ad64d@mail.gmail.com>

On Friday 01 December 2006 12:44, Eugene Ostapets wrote:
> 01.12.06, Led<led ukr-fin.com.ua> написал(а):
> > В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a):
> > > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > > > Я долго искал что-то, что способно русский pdf превратить в
> > > > читаемый html... Теперь буду искать что-то способное превратить
> > > > ТАКОЙ html в редактируемый:)
> > >
> > > tidy не?
> >
> > Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым",
> > tetex 3.0 собрать нужно:)
>
> Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом
> latex2html, потом полгода редактировать этот html чтобы получить
> вменяемый результат? Быстрее явно будет pdftotext+pdfimages и быстрая
> верстка в html... А меня интересует максимально автоматическое
> преобразование...

Могу поделиться опытом. Я в свое время перепробовал все, что только существует 
для PDF repurposing. Последний раз проверял по списку года два назад, может 
что-то и появилось драматически новое, но сильно сомневаюсь. Если отбросить 
масштабные коммерческие решения, стоящие многие тысячи долларов, то остается 
два пути: или перевод в изображение с последующим автоматическим OCR, или 
программы распарсивания (pdftotext, pdftohtml, и пр.). Все парсеры 
неидеальны, мягко говоря. OCR тоже, хотя например ABBY FineReader имеет 
неплохой специализированный модуль для перевода PDF to formatted text. У меня 
дело осложняется еще тем, что надо транслировать научно-технические тексты с 
формулами, таблицами, и пр. Особенно туго у всех переводчиков дело обстоит с 
надстрочными и подстрочными индексами ;-(. В общем после долгих экспериментов 
я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от 
идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю результат 
своими перловскими скриптами. Кстати, я знаком с автором, он очень грамотный 
товарищ, жаль что у него нет времени поддерживать проект последние пару лет.

Если нужны еще советы - пишите в личку, постараюсь ответить.

--Иван

  reply	other threads:[~2006-12-01 18:10 UTC|newest]

Thread overview: 14+ messages / expand[flat|nested]  mbox.gz  Atom feed  top
2006-11-28 21:00 ` Eugene Ostapets
2006-11-28 21:48   ` Konstantin A. Lepikhov
2006-11-29  8:03     ` Eugene Ostapets
2006-11-29  8:46       ` Led
2006-11-29 10:00         ` Eugene Ostapets
2006-12-01 16:18       ` Michael Shigorin
2006-12-01 16:31         ` Led
2006-12-01 17:44           ` Eugene Ostapets
2006-12-01 18:10             ` Ivan Adzhubey [this message]
2006-12-01 18:29               ` Eugene Ostapets
2006-12-01 19:41                 ` Ivan Adzhubey
2006-12-02 11:08                   ` Eugene Ostapets
2006-12-04  8:26             ` Led
2006-12-01 17:41         ` Eugene Ostapets

Reply instructions:

You may reply publicly to this message via plain-text email
using any one of the following methods:

* Save the following mbox file, import it into your mail client,
  and reply-to-all from there: mbox

  Avoid top-posting and favor interleaved quoting:
  https://en.wikipedia.org/wiki/Posting_style#Interleaved_style

* Reply using the --to, --cc, and --in-reply-to
  switches of git-send-email(1):

  git send-email \
    --in-reply-to=200612011310.52537.iadzhubey@rics.bwh.harvard.edu \
    --to=iadzhubey@rics.bwh.harvard.edu \
    --cc=sisyphus@lists.altlinux.org \
    /path/to/YOUR_REPLY

  https://kernel.org/pub/software/scm/git/docs/git-send-email.html

* If your mail client supports setting the In-Reply-To header
  via mailto: links, try the mailto: link

ALT Linux Sisyphus discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
		sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
	public-inbox-index sisyphus

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sisyphus


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git