ALT Linux Sisyphus discussions
 help / color / mirror / Atom feed
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  @ 2006-11-28 21:00 ` Eugene Ostapets
  2006-11-28 21:48   ` Konstantin A. Lepikhov
  0 siblings, 1 reply; 14+ messages in thread
From: Eugene Ostapets @ 2006-11-28 21:00 UTC (permalink / raw)
  To: sisyphus

28.11.06, QA Team Robot<qa altlinux.org> написал(а):
>         3 ADDED packages
> pdftohtml - pdftohtml is a utility which converts PDF files into HTML and XML formats.
> * Mon Nov 27 2006 Eugene Ostapets <eostapets@altlinux> 0.40a-alt1
> - first build
Очень рекомендую всем, кому нужно получить нормальный текст из pdf -
проверил на десятке очень сложных pdf файлов и получил в итоге
практически идентичные html страницы. Но в html лучше не заглядывать,
во избежание нервного потрясения:)

-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-11-28 21:00 ` [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) Eugene Ostapets
@ 2006-11-28 21:48   ` Konstantin A. Lepikhov
  2006-11-29  8:03     ` Eugene Ostapets
  0 siblings, 1 reply; 14+ messages in thread
From: Konstantin A. Lepikhov @ 2006-11-28 21:48 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

[-- Attachment #1: Type: text/plain, Size: 680 bytes --]

Hi Eugene!

Tuesday 28, at 11:00:37 PM you wrote:

> 28.11.06, QA Team Robot<qa altlinux.org> написал(а):
> >         3 ADDED packages
> > pdftohtml - pdftohtml is a utility which converts PDF files into HTML and XML formats.
> > * Mon Nov 27 2006 Eugene Ostapets <eostapets@altlinux> 0.40a-alt1
> > - first build
> Очень рекомендую всем, кому нужно получить нормальный текст из pdf -
> проверил на десятке очень сложных pdf файлов и получил в итоге
> практически идентичные html страницы. Но в html лучше не заглядывать,
> во избежание нервного потрясения:)
да, что там она выделывает, лучше не смотреть, особенно картинки вместо
цифр-сносок :)

-- 
WBR et al.

[-- Attachment #2: Digital signature --]
[-- Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-11-28 21:48   ` Konstantin A. Lepikhov
@ 2006-11-29  8:03     ` Eugene Ostapets
  2006-11-29  8:46       ` Led
  2006-12-01 16:18       ` Michael Shigorin
  0 siblings, 2 replies; 14+ messages in thread
From: Eugene Ostapets @ 2006-11-29  8:03 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

28.11.06, Konstantin A. Lepikhov<lakostis unsafe.ru> написал(а):
> Hi Eugene!
>
> Tuesday 28, at 11:00:37 PM you wrote:
>
> > 28.11.06, QA Team Robot<qa altlinux.org> написал(а):
> > >         3 ADDED packages
> > > pdftohtml - pdftohtml is a utility which converts PDF files into HTML and XML formats.
> > > * Mon Nov 27 2006 Eugene Ostapets <eostapets@altlinux> 0.40a-alt1
> > > - first build
> > Очень рекомендую всем, кому нужно получить нормальный текст из pdf -
> > проверил на десятке очень сложных pdf файлов и получил в итоге
> > практически идентичные html страницы. Но в html лучше не заглядывать,
> > во избежание нервного потрясения:)
> да, что там она выделывает, лучше не смотреть, особенно картинки вместо
> цифр-сносок :)
Я долго искал что-то, что способно русский pdf превратить в читаемый
html... Теперь буду искать что-то способное превратить ТАКОЙ html в
редактируемый:)

-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-11-29  8:03     ` Eugene Ostapets
@ 2006-11-29  8:46       ` Led
  2006-11-29 10:00         ` Eugene Ostapets
  2006-12-01 16:18       ` Michael Shigorin
  1 sibling, 1 reply; 14+ messages in thread
From: Led @ 2006-11-29  8:46 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

В сообщении от 29 ноября 2006 10:03 Eugene Ostapets написал(a):
> 28.11.06, Konstantin A. Lepikhov<lakostis unsafe.ru> написал(а):
> > Hi Eugene!
> >
> > Tuesday 28, at 11:00:37 PM you wrote:
> > > 28.11.06, QA Team Robot<qa altlinux.org> написал(а):
> > > >         3 ADDED packages
> > > > pdftohtml - pdftohtml is a utility which converts PDF files into HTML
> > > > and XML formats. * Mon Nov 27 2006 Eugene Ostapets
> > > > <eostapets@altlinux> 0.40a-alt1 - first build
> > >
> > > Очень рекомендую всем, кому нужно получить нормальный текст из pdf -
> > > проверил на десятке очень сложных pdf файлов и получил в итоге
> > > практически идентичные html страницы. Но в html лучше не заглядывать,
> > > во избежание нервного потрясения:)
> >
> > да, что там она выделывает, лучше не смотреть, особенно картинки вместо
> > цифр-сносок :)
>
> Я долго искал что-то, что способно русский pdf превратить в читаемый
> html... Теперь буду искать что-то способное превратить ТАКОЙ html в
> редактируемый:)

Из того, что я пробовал, наиболее адекватный результат "понимания" PDF выдавал 
kword (как ни странно)...

-- 
Led.


^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-11-29  8:46       ` Led
@ 2006-11-29 10:00         ` Eugene Ostapets
  0 siblings, 0 replies; 14+ messages in thread
From: Eugene Ostapets @ 2006-11-29 10:00 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

29.11.06, Led<led ukr-fin.com.ua> написал(а):
> > Я долго искал что-то, что способно русский pdf превратить в читаемый
> > html... Теперь буду искать что-то способное превратить ТАКОЙ html в
> > редактируемый:)
>
> Из того, что я пробовал, наиболее адекватный результат "понимания" PDF выдавал
> kword (как ни странно)...
Ну тогда советую посмотреть на результат выдаваемый этим пакетом -
будете приятно удивлены... :)

-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-11-29  8:03     ` Eugene Ostapets
  2006-11-29  8:46       ` Led
@ 2006-12-01 16:18       ` Michael Shigorin
  2006-12-01 16:31         ` Led
  2006-12-01 17:41         ` Eugene Ostapets
  1 sibling, 2 replies; 14+ messages in thread
From: Michael Shigorin @ 2006-12-01 16:18 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> Я долго искал что-то, что способно русский pdf превратить в
> читаемый html... Теперь буду искать что-то способное превратить
> ТАКОЙ html в редактируемый:)

tidy не?

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-12-01 16:18       ` Michael Shigorin
@ 2006-12-01 16:31         ` Led
  2006-12-01 17:44           ` Eugene Ostapets
  2006-12-01 17:41         ` Eugene Ostapets
  1 sibling, 1 reply; 14+ messages in thread
From: Led @ 2006-12-01 16:31 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a):
> On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > Я долго искал что-то, что способно русский pdf превратить в
> > читаемый html... Теперь буду искать что-то способное превратить
> > ТАКОЙ html в редактируемый:)
>
> tidy не?

Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым", tetex 
3.0 собрать нужно:)

-- 
Led.


^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-12-01 16:18       ` Michael Shigorin
  2006-12-01 16:31         ` Led
@ 2006-12-01 17:41         ` Eugene Ostapets
  1 sibling, 0 replies; 14+ messages in thread
From: Eugene Ostapets @ 2006-12-01 17:41 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

01.12.06, Michael Shigorin<mike osdn.org.ua> написал(а):
> On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > Я долго искал что-то, что способно русский pdf превратить в
> > читаемый html... Теперь буду искать что-то способное превратить
> > ТАКОЙ html в редактируемый:)
> tidy не?
Нужно попробовать...

-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-12-01 16:31         ` Led
@ 2006-12-01 17:44           ` Eugene Ostapets
  2006-12-01 18:10             ` Ivan Adzhubey
  2006-12-04  8:26             ` Led
  0 siblings, 2 replies; 14+ messages in thread
From: Eugene Ostapets @ 2006-12-01 17:44 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

01.12.06, Led<led ukr-fin.com.ua> написал(а):
> В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a):
> > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > > Я долго искал что-то, что способно русский pdf превратить в
> > > читаемый html... Теперь буду искать что-то способное превратить
> > > ТАКОЙ html в редактируемый:)
> >
> > tidy не?
>
> Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым", tetex
> 3.0 собрать нужно:)
Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом
latex2html, потом полгода редактировать этот html чтобы получить
вменяемый результат? Быстрее явно будет pdftotext+pdfimages и быстрая
верстка в html... А меня интересует максимально автоматическое
преобразование...

-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-12-01 17:44           ` Eugene Ostapets
@ 2006-12-01 18:10             ` Ivan Adzhubey
  2006-12-01 18:29               ` Eugene Ostapets
  2006-12-04  8:26             ` Led
  1 sibling, 1 reply; 14+ messages in thread
From: Ivan Adzhubey @ 2006-12-01 18:10 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

On Friday 01 December 2006 12:44, Eugene Ostapets wrote:
> 01.12.06, Led<led ukr-fin.com.ua> написал(а):
> > В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a):
> > > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > > > Я долго искал что-то, что способно русский pdf превратить в
> > > > читаемый html... Теперь буду искать что-то способное превратить
> > > > ТАКОЙ html в редактируемый:)
> > >
> > > tidy не?
> >
> > Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым",
> > tetex 3.0 собрать нужно:)
>
> Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом
> latex2html, потом полгода редактировать этот html чтобы получить
> вменяемый результат? Быстрее явно будет pdftotext+pdfimages и быстрая
> верстка в html... А меня интересует максимально автоматическое
> преобразование...

Могу поделиться опытом. Я в свое время перепробовал все, что только существует 
для PDF repurposing. Последний раз проверял по списку года два назад, может 
что-то и появилось драматически новое, но сильно сомневаюсь. Если отбросить 
масштабные коммерческие решения, стоящие многие тысячи долларов, то остается 
два пути: или перевод в изображение с последующим автоматическим OCR, или 
программы распарсивания (pdftotext, pdftohtml, и пр.). Все парсеры 
неидеальны, мягко говоря. OCR тоже, хотя например ABBY FineReader имеет 
неплохой специализированный модуль для перевода PDF to formatted text. У меня 
дело осложняется еще тем, что надо транслировать научно-технические тексты с 
формулами, таблицами, и пр. Особенно туго у всех переводчиков дело обстоит с 
надстрочными и подстрочными индексами ;-(. В общем после долгих экспериментов 
я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от 
идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю результат 
своими перловскими скриптами. Кстати, я знаком с автором, он очень грамотный 
товарищ, жаль что у него нет времени поддерживать проект последние пару лет.

Если нужны еще советы - пишите в личку, постараюсь ответить.

--Иван

^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-12-01 18:10             ` Ivan Adzhubey
@ 2006-12-01 18:29               ` Eugene Ostapets
  2006-12-01 19:41                 ` Ivan Adzhubey
  0 siblings, 1 reply; 14+ messages in thread
From: Eugene Ostapets @ 2006-12-01 18:29 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

01.12.06, Ivan Adzhubey<iadzhubey rics.bwh.harvard.edu> написал(а):
> В общем после долгих экспериментов
> я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от
> идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю результат
> своими перловскими скриптами. Кстати, я знаком с автором, он очень грамотный
> товарищ, жаль что у него нет времени поддерживать проект последние пару лет.
Каким из двух pdftohtml вы пользуетесь? :) Вообще-то весь тред был о
рекламе того pdftohtml, который я нашел :)

-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-12-01 18:29               ` Eugene Ostapets
@ 2006-12-01 19:41                 ` Ivan Adzhubey
  2006-12-02 11:08                   ` Eugene Ostapets
  0 siblings, 1 reply; 14+ messages in thread
From: Ivan Adzhubey @ 2006-12-01 19:41 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

On Friday 01 December 2006 13:29, Eugene Ostapets wrote:
> 01.12.06, Ivan Adzhubey<iadzhubey rics.bwh.harvard.edu> написал(а):
> > В общем после долгих экспериментов
> > я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от
> > идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю
> > результат своими перловскими скриптами. Кстати, я знаком с автором, он
> > очень грамотный товарищ, жаль что у него нет времени поддерживать проект
> > последние пару лет.
>
> Каким из двух pdftohtml вы пользуетесь? :) 

http://pdftohtml.sourceforge.net/

он же:

http://freshmeat.net/projects/pdftohtml/

Code base там один, просто поскольку мейнтейнер давно его забросил было 
несколько попыток форка.

> Вообще-то весь тред был о рекламе того pdftohtml, который я нашел :)

Других с таким же названием я не знаю, есть еще pdf2html, но это ерунда.

--Иван

^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-12-01 19:41                 ` Ivan Adzhubey
@ 2006-12-02 11:08                   ` Eugene Ostapets
  0 siblings, 0 replies; 14+ messages in thread
From: Eugene Ostapets @ 2006-12-02 11:08 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

01.12.06, Ivan Adzhubey<iadzhubey rics.bwh.harvard.edu> написал(а):
> > Каким из двух pdftohtml вы пользуетесь? :)
> http://pdftohtml.sourceforge.net/
Так его я и опакетил
> Code base там один, просто поскольку мейнтейнер давно его забросил было
> несколько попыток форка.
Если 14 сентября - это давно забросил, то я ничего в этом мире не понимаю :)
>
> > Вообще-то весь тред был о рекламе того pdftohtml, который я нашел :)
>
> Других с таким же названием я не знаю, есть еще pdf2html, но это ерунда.
Есть еще pdftohtml из самого xpdf, но у нас он не собирается (не знаю
насколько он вообще рабочий) и pdftohtml из состава qpoppler (fork
xpdf для превращения его в набор независимых от тулкита библиотек)
-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 14+ messages in thread

* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)
  2006-12-01 17:44           ` Eugene Ostapets
  2006-12-01 18:10             ` Ivan Adzhubey
@ 2006-12-04  8:26             ` Led
  1 sibling, 0 replies; 14+ messages in thread
From: Led @ 2006-12-04  8:26 UTC (permalink / raw)
  To: ALT Linux Sisyphus discussion list

В сообщении от 1 декабря 2006 19:44 Eugene Ostapets написал(a):
> 01.12.06, Led<led ukr-fin.com.ua> написал(а):
> > В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a):
> > > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > > > Я долго искал что-то, что способно русский pdf превратить в
> > > > читаемый html... Теперь буду искать что-то способное превратить
> > > > ТАКОЙ html в редактируемый:)
> > >
> > > tidy не?
> >
> > Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым",
> > tetex 3.0 собрать нужно:)
>
> Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом
> latex2html, потом полгода редактировать этот html чтобы получить
> вменяемый результат?

По мне, так в latex и редактировать - ИМХО удобнее немного, чем HTML:)

> Быстрее явно будет pdftotext+pdfimages и быстрая 
> верстка в html... А меня интересует максимально автоматическое
> преобразование...

-- 
Led.


^ permalink raw reply	[flat|nested] 14+ messages in thread

end of thread, other threads:[~2006-12-04  8:26 UTC | newest]

Thread overview: 14+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2006-11-28 21:00 ` [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) Eugene Ostapets
2006-11-28 21:48   ` Konstantin A. Lepikhov
2006-11-29  8:03     ` Eugene Ostapets
2006-11-29  8:46       ` Led
2006-11-29 10:00         ` Eugene Ostapets
2006-12-01 16:18       ` Michael Shigorin
2006-12-01 16:31         ` Led
2006-12-01 17:44           ` Eugene Ostapets
2006-12-01 18:10             ` Ivan Adzhubey
2006-12-01 18:29               ` Eugene Ostapets
2006-12-01 19:41                 ` Ivan Adzhubey
2006-12-02 11:08                   ` Eugene Ostapets
2006-12-04  8:26             ` Led
2006-12-01 17:41         ` Eugene Ostapets

ALT Linux Sisyphus discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
		sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
	public-inbox-index sisyphus

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sisyphus


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git