* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
@ 2006-11-28 21:00 ` Eugene Ostapets
2006-11-28 21:48 ` Konstantin A. Lepikhov
0 siblings, 1 reply; 14+ messages in thread
From: Eugene Ostapets @ 2006-11-28 21:00 UTC (permalink / raw)
To: sisyphus
28.11.06, QA Team Robot<qa altlinux.org> написал(а):
> 3 ADDED packages
> pdftohtml - pdftohtml is a utility which converts PDF files into HTML and XML formats.
> * Mon Nov 27 2006 Eugene Ostapets <eostapets@altlinux> 0.40a-alt1
> - first build
Очень рекомендую всем, кому нужно получить нормальный текст из pdf -
проверил на десятке очень сложных pdf файлов и получил в итоге
практически идентичные html страницы. Но в html лучше не заглядывать,
во избежание нервного потрясения:)
--
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-11-28 21:00 ` [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) Eugene Ostapets
@ 2006-11-28 21:48 ` Konstantin A. Lepikhov
2006-11-29 8:03 ` Eugene Ostapets
0 siblings, 1 reply; 14+ messages in thread
From: Konstantin A. Lepikhov @ 2006-11-28 21:48 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
[-- Attachment #1: Type: text/plain, Size: 680 bytes --]
Hi Eugene!
Tuesday 28, at 11:00:37 PM you wrote:
> 28.11.06, QA Team Robot<qa altlinux.org> написал(а):
> > 3 ADDED packages
> > pdftohtml - pdftohtml is a utility which converts PDF files into HTML and XML formats.
> > * Mon Nov 27 2006 Eugene Ostapets <eostapets@altlinux> 0.40a-alt1
> > - first build
> Очень рекомендую всем, кому нужно получить нормальный текст из pdf -
> проверил на десятке очень сложных pdf файлов и получил в итоге
> практически идентичные html страницы. Но в html лучше не заглядывать,
> во избежание нервного потрясения:)
да, что там она выделывает, лучше не смотреть, особенно картинки вместо
цифр-сносок :)
--
WBR et al.
[-- Attachment #2: Digital signature --]
[-- Type: application/pgp-signature, Size: 189 bytes --]
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-11-28 21:48 ` Konstantin A. Lepikhov
@ 2006-11-29 8:03 ` Eugene Ostapets
2006-11-29 8:46 ` Led
2006-12-01 16:18 ` Michael Shigorin
0 siblings, 2 replies; 14+ messages in thread
From: Eugene Ostapets @ 2006-11-29 8:03 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
28.11.06, Konstantin A. Lepikhov<lakostis unsafe.ru> написал(а):
> Hi Eugene!
>
> Tuesday 28, at 11:00:37 PM you wrote:
>
> > 28.11.06, QA Team Robot<qa altlinux.org> написал(а):
> > > 3 ADDED packages
> > > pdftohtml - pdftohtml is a utility which converts PDF files into HTML and XML formats.
> > > * Mon Nov 27 2006 Eugene Ostapets <eostapets@altlinux> 0.40a-alt1
> > > - first build
> > Очень рекомендую всем, кому нужно получить нормальный текст из pdf -
> > проверил на десятке очень сложных pdf файлов и получил в итоге
> > практически идентичные html страницы. Но в html лучше не заглядывать,
> > во избежание нервного потрясения:)
> да, что там она выделывает, лучше не смотреть, особенно картинки вместо
> цифр-сносок :)
Я долго искал что-то, что способно русский pdf превратить в читаемый
html... Теперь буду искать что-то способное превратить ТАКОЙ html в
редактируемый:)
--
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-11-29 8:03 ` Eugene Ostapets
@ 2006-11-29 8:46 ` Led
2006-11-29 10:00 ` Eugene Ostapets
2006-12-01 16:18 ` Michael Shigorin
1 sibling, 1 reply; 14+ messages in thread
From: Led @ 2006-11-29 8:46 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
В сообщении от 29 ноября 2006 10:03 Eugene Ostapets написал(a):
> 28.11.06, Konstantin A. Lepikhov<lakostis unsafe.ru> написал(а):
> > Hi Eugene!
> >
> > Tuesday 28, at 11:00:37 PM you wrote:
> > > 28.11.06, QA Team Robot<qa altlinux.org> написал(а):
> > > > 3 ADDED packages
> > > > pdftohtml - pdftohtml is a utility which converts PDF files into HTML
> > > > and XML formats. * Mon Nov 27 2006 Eugene Ostapets
> > > > <eostapets@altlinux> 0.40a-alt1 - first build
> > >
> > > Очень рекомендую всем, кому нужно получить нормальный текст из pdf -
> > > проверил на десятке очень сложных pdf файлов и получил в итоге
> > > практически идентичные html страницы. Но в html лучше не заглядывать,
> > > во избежание нервного потрясения:)
> >
> > да, что там она выделывает, лучше не смотреть, особенно картинки вместо
> > цифр-сносок :)
>
> Я долго искал что-то, что способно русский pdf превратить в читаемый
> html... Теперь буду искать что-то способное превратить ТАКОЙ html в
> редактируемый:)
Из того, что я пробовал, наиболее адекватный результат "понимания" PDF выдавал
kword (как ни странно)...
--
Led.
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-11-29 8:46 ` Led
@ 2006-11-29 10:00 ` Eugene Ostapets
0 siblings, 0 replies; 14+ messages in thread
From: Eugene Ostapets @ 2006-11-29 10:00 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
29.11.06, Led<led ukr-fin.com.ua> написал(а):
> > Я долго искал что-то, что способно русский pdf превратить в читаемый
> > html... Теперь буду искать что-то способное превратить ТАКОЙ html в
> > редактируемый:)
>
> Из того, что я пробовал, наиболее адекватный результат "понимания" PDF выдавал
> kword (как ни странно)...
Ну тогда советую посмотреть на результат выдаваемый этим пакетом -
будете приятно удивлены... :)
--
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-11-29 8:03 ` Eugene Ostapets
2006-11-29 8:46 ` Led
@ 2006-12-01 16:18 ` Michael Shigorin
2006-12-01 16:31 ` Led
2006-12-01 17:41 ` Eugene Ostapets
1 sibling, 2 replies; 14+ messages in thread
From: Michael Shigorin @ 2006-12-01 16:18 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> Я долго искал что-то, что способно русский pdf превратить в
> читаемый html... Теперь буду искать что-то способное превратить
> ТАКОЙ html в редактируемый:)
tidy не?
--
---- WBR, Michael Shigorin <mike@altlinux.ru>
------ Linux.Kiev http://www.linux.kiev.ua/
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-12-01 16:18 ` Michael Shigorin
@ 2006-12-01 16:31 ` Led
2006-12-01 17:44 ` Eugene Ostapets
2006-12-01 17:41 ` Eugene Ostapets
1 sibling, 1 reply; 14+ messages in thread
From: Led @ 2006-12-01 16:31 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a):
> On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > Я долго искал что-то, что способно русский pdf превратить в
> > читаемый html... Теперь буду искать что-то способное превратить
> > ТАКОЙ html в редактируемый:)
>
> tidy не?
Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым", tetex
3.0 собрать нужно:)
--
Led.
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-12-01 16:18 ` Michael Shigorin
2006-12-01 16:31 ` Led
@ 2006-12-01 17:41 ` Eugene Ostapets
1 sibling, 0 replies; 14+ messages in thread
From: Eugene Ostapets @ 2006-12-01 17:41 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
01.12.06, Michael Shigorin<mike osdn.org.ua> написал(а):
> On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > Я долго искал что-то, что способно русский pdf превратить в
> > читаемый html... Теперь буду искать что-то способное превратить
> > ТАКОЙ html в редактируемый:)
> tidy не?
Нужно попробовать...
--
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-12-01 16:31 ` Led
@ 2006-12-01 17:44 ` Eugene Ostapets
2006-12-01 18:10 ` Ivan Adzhubey
2006-12-04 8:26 ` Led
0 siblings, 2 replies; 14+ messages in thread
From: Eugene Ostapets @ 2006-12-01 17:44 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
01.12.06, Led<led ukr-fin.com.ua> написал(а):
> В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a):
> > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > > Я долго искал что-то, что способно русский pdf превратить в
> > > читаемый html... Теперь буду искать что-то способное превратить
> > > ТАКОЙ html в редактируемый:)
> >
> > tidy не?
>
> Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым", tetex
> 3.0 собрать нужно:)
Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом
latex2html, потом полгода редактировать этот html чтобы получить
вменяемый результат? Быстрее явно будет pdftotext+pdfimages и быстрая
верстка в html... А меня интересует максимально автоматическое
преобразование...
--
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-12-01 17:44 ` Eugene Ostapets
@ 2006-12-01 18:10 ` Ivan Adzhubey
2006-12-01 18:29 ` Eugene Ostapets
2006-12-04 8:26 ` Led
1 sibling, 1 reply; 14+ messages in thread
From: Ivan Adzhubey @ 2006-12-01 18:10 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
On Friday 01 December 2006 12:44, Eugene Ostapets wrote:
> 01.12.06, Led<led ukr-fin.com.ua> написал(а):
> > В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a):
> > > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > > > Я долго искал что-то, что способно русский pdf превратить в
> > > > читаемый html... Теперь буду искать что-то способное превратить
> > > > ТАКОЙ html в редактируемый:)
> > >
> > > tidy не?
> >
> > Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым",
> > tetex 3.0 собрать нужно:)
>
> Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом
> latex2html, потом полгода редактировать этот html чтобы получить
> вменяемый результат? Быстрее явно будет pdftotext+pdfimages и быстрая
> верстка в html... А меня интересует максимально автоматическое
> преобразование...
Могу поделиться опытом. Я в свое время перепробовал все, что только существует
для PDF repurposing. Последний раз проверял по списку года два назад, может
что-то и появилось драматически новое, но сильно сомневаюсь. Если отбросить
масштабные коммерческие решения, стоящие многие тысячи долларов, то остается
два пути: или перевод в изображение с последующим автоматическим OCR, или
программы распарсивания (pdftotext, pdftohtml, и пр.). Все парсеры
неидеальны, мягко говоря. OCR тоже, хотя например ABBY FineReader имеет
неплохой специализированный модуль для перевода PDF to formatted text. У меня
дело осложняется еще тем, что надо транслировать научно-технические тексты с
формулами, таблицами, и пр. Особенно туго у всех переводчиков дело обстоит с
надстрочными и подстрочными индексами ;-(. В общем после долгих экспериментов
я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от
идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю результат
своими перловскими скриптами. Кстати, я знаком с автором, он очень грамотный
товарищ, жаль что у него нет времени поддерживать проект последние пару лет.
Если нужны еще советы - пишите в личку, постараюсь ответить.
--Иван
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-12-01 18:10 ` Ivan Adzhubey
@ 2006-12-01 18:29 ` Eugene Ostapets
2006-12-01 19:41 ` Ivan Adzhubey
0 siblings, 1 reply; 14+ messages in thread
From: Eugene Ostapets @ 2006-12-01 18:29 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
01.12.06, Ivan Adzhubey<iadzhubey rics.bwh.harvard.edu> написал(а):
> В общем после долгих экспериментов
> я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от
> идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю результат
> своими перловскими скриптами. Кстати, я знаком с автором, он очень грамотный
> товарищ, жаль что у него нет времени поддерживать проект последние пару лет.
Каким из двух pdftohtml вы пользуетесь? :) Вообще-то весь тред был о
рекламе того pdftohtml, который я нашел :)
--
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-12-01 18:29 ` Eugene Ostapets
@ 2006-12-01 19:41 ` Ivan Adzhubey
2006-12-02 11:08 ` Eugene Ostapets
0 siblings, 1 reply; 14+ messages in thread
From: Ivan Adzhubey @ 2006-12-01 19:41 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
On Friday 01 December 2006 13:29, Eugene Ostapets wrote:
> 01.12.06, Ivan Adzhubey<iadzhubey rics.bwh.harvard.edu> написал(а):
> > В общем после долгих экспериментов
> > я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от
> > идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю
> > результат своими перловскими скриптами. Кстати, я знаком с автором, он
> > очень грамотный товарищ, жаль что у него нет времени поддерживать проект
> > последние пару лет.
>
> Каким из двух pdftohtml вы пользуетесь? :)
http://pdftohtml.sourceforge.net/
он же:
http://freshmeat.net/projects/pdftohtml/
Code base там один, просто поскольку мейнтейнер давно его забросил было
несколько попыток форка.
> Вообще-то весь тред был о рекламе того pdftohtml, который я нашел :)
Других с таким же названием я не знаю, есть еще pdf2html, но это ерунда.
--Иван
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-12-01 19:41 ` Ivan Adzhubey
@ 2006-12-02 11:08 ` Eugene Ostapets
0 siblings, 0 replies; 14+ messages in thread
From: Eugene Ostapets @ 2006-12-02 11:08 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
01.12.06, Ivan Adzhubey<iadzhubey rics.bwh.harvard.edu> написал(а):
> > Каким из двух pdftohtml вы пользуетесь? :)
> http://pdftohtml.sourceforge.net/
Так его я и опакетил
> Code base там один, просто поскольку мейнтейнер давно его забросил было
> несколько попыток форка.
Если 14 сентября - это давно забросил, то я ничего в этом мире не понимаю :)
>
> > Вообще-то весь тред был о рекламе того pdftohtml, который я нашел :)
>
> Других с таким же названием я не знаю, есть еще pdf2html, но это ерунда.
Есть еще pdftohtml из самого xpdf, но у нас он не собирается (не знаю
насколько он вообще рабочий) и pdftohtml из состава qpoppler (fork
xpdf для превращения его в набор независимых от тулкита библиотек)
--
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru
^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
2006-12-01 17:44 ` Eugene Ostapets
2006-12-01 18:10 ` Ivan Adzhubey
@ 2006-12-04 8:26 ` Led
1 sibling, 0 replies; 14+ messages in thread
From: Led @ 2006-12-04 8:26 UTC (permalink / raw)
To: ALT Linux Sisyphus discussion list
В сообщении от 1 декабря 2006 19:44 Eugene Ostapets написал(a):
> 01.12.06, Led<led ukr-fin.com.ua> написал(а):
> > В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a):
> > > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > > > Я долго искал что-то, что способно русский pdf превратить в
> > > > читаемый html... Теперь буду искать что-то способное превратить
> > > > ТАКОЙ html в редактируемый:)
> > >
> > > tidy не?
> >
> > Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым",
> > tetex 3.0 собрать нужно:)
>
> Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом
> latex2html, потом полгода редактировать этот html чтобы получить
> вменяемый результат?
По мне, так в latex и редактировать - ИМХО удобнее немного, чем HTML:)
> Быстрее явно будет pdftotext+pdfimages и быстрая
> верстка в html... А меня интересует максимально автоматическое
> преобразование...
--
Led.
^ permalink raw reply [flat|nested] 14+ messages in thread
end of thread, other threads:[~2006-12-04 8:26 UTC | newest]
Thread overview: 14+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2006-11-28 21:00 ` [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) Eugene Ostapets
2006-11-28 21:48 ` Konstantin A. Lepikhov
2006-11-29 8:03 ` Eugene Ostapets
2006-11-29 8:46 ` Led
2006-11-29 10:00 ` Eugene Ostapets
2006-12-01 16:18 ` Michael Shigorin
2006-12-01 16:31 ` Led
2006-12-01 17:44 ` Eugene Ostapets
2006-12-01 18:10 ` Ivan Adzhubey
2006-12-01 18:29 ` Eugene Ostapets
2006-12-01 19:41 ` Ivan Adzhubey
2006-12-02 11:08 ` Eugene Ostapets
2006-12-04 8:26 ` Led
2006-12-01 17:41 ` Eugene Ostapets
ALT Linux Sisyphus discussions
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
public-inbox-index sisyphus
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.sisyphus
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git