From: Ivan Adzhubey <iadzhubey@rics.bwh.harvard.edu>
To: ALT Linux Sisyphus discussion list <sisyphus@lists.altlinux.org>
Subject: Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
Date: Fri, 1 Dec 2006 13:10:52 -0500
Message-ID: <200612011310.52537.iadzhubey@rics.bwh.harvard.edu> (raw)
In-Reply-To: <e12fd2db0612010944o51d433e4w567cbfbc611ad64d@mail.gmail.com>
On Friday 01 December 2006 12:44, Eugene Ostapets wrote:
> 01.12.06, Led<led ukr-fin.com.ua> написал(а):
> > В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a):
> > > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > > > Я долго искал что-то, что способно русский pdf превратить в
> > > > читаемый html... Теперь буду искать что-то способное превратить
> > > > ТАКОЙ html в редактируемый:)
> > >
> > > tidy не?
> >
> > Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым",
> > tetex 3.0 собрать нужно:)
>
> Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом
> latex2html, потом полгода редактировать этот html чтобы получить
> вменяемый результат? Быстрее явно будет pdftotext+pdfimages и быстрая
> верстка в html... А меня интересует максимально автоматическое
> преобразование...
Могу поделиться опытом. Я в свое время перепробовал все, что только существует
для PDF repurposing. Последний раз проверял по списку года два назад, может
что-то и появилось драматически новое, но сильно сомневаюсь. Если отбросить
масштабные коммерческие решения, стоящие многие тысячи долларов, то остается
два пути: или перевод в изображение с последующим автоматическим OCR, или
программы распарсивания (pdftotext, pdftohtml, и пр.). Все парсеры
неидеальны, мягко говоря. OCR тоже, хотя например ABBY FineReader имеет
неплохой специализированный модуль для перевода PDF to formatted text. У меня
дело осложняется еще тем, что надо транслировать научно-технические тексты с
формулами, таблицами, и пр. Особенно туго у всех переводчиков дело обстоит с
надстрочными и подстрочными индексами ;-(. В общем после долгих экспериментов
я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от
идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю результат
своими перловскими скриптами. Кстати, я знаком с автором, он очень грамотный
товарищ, жаль что у него нет времени поддерживать проект последние пару лет.
Если нужны еще советы - пишите в личку, постараюсь ответить.
--Иван
next prev parent reply other threads:[~2006-12-01 18:10 UTC|newest]
Thread overview: 14+ messages / expand[flat|nested] mbox.gz Atom feed top
2006-11-28 21:00 ` Eugene Ostapets
2006-11-28 21:48 ` Konstantin A. Lepikhov
2006-11-29 8:03 ` Eugene Ostapets
2006-11-29 8:46 ` Led
2006-11-29 10:00 ` Eugene Ostapets
2006-12-01 16:18 ` Michael Shigorin
2006-12-01 16:31 ` Led
2006-12-01 17:44 ` Eugene Ostapets
2006-12-01 18:10 ` Ivan Adzhubey [this message]
2006-12-01 18:29 ` Eugene Ostapets
2006-12-01 19:41 ` Ivan Adzhubey
2006-12-02 11:08 ` Eugene Ostapets
2006-12-04 8:26 ` Led
2006-12-01 17:41 ` Eugene Ostapets
Reply instructions:
You may reply publicly to this message via plain-text email
using any one of the following methods:
* Save the following mbox file, import it into your mail client,
and reply-to-all from there: mbox
Avoid top-posting and favor interleaved quoting:
https://en.wikipedia.org/wiki/Posting_style#Interleaved_style
* Reply using the --to, --cc, and --in-reply-to
switches of git-send-email(1):
git send-email \
--in-reply-to=200612011310.52537.iadzhubey@rics.bwh.harvard.edu \
--to=iadzhubey@rics.bwh.harvard.edu \
--cc=sisyphus@lists.altlinux.org \
/path/to/YOUR_REPLY
https://kernel.org/pub/software/scm/git/docs/git-send-email.html
* If your mail client supports setting the In-Reply-To header
via mailto: links, try the mailto: link
ALT Linux Sisyphus discussions
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
public-inbox-index sisyphus
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.sisyphus
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git