* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) @ 2006-11-28 21:00 ` Eugene Ostapets 2006-11-28 21:48 ` Konstantin A. Lepikhov 0 siblings, 1 reply; 14+ messages in thread From: Eugene Ostapets @ 2006-11-28 21:00 UTC (permalink / raw) To: sisyphus 28.11.06, QA Team Robot<qa altlinux.org> написал(а): > 3 ADDED packages > pdftohtml - pdftohtml is a utility which converts PDF files into HTML and XML formats. > * Mon Nov 27 2006 Eugene Ostapets <eostapets@altlinux> 0.40a-alt1 > - first build Очень рекомендую всем, кому нужно получить нормальный текст из pdf - проверил на десятке очень сложных pdf файлов и получил в итоге практически идентичные html страницы. Но в html лучше не заглядывать, во избежание нервного потрясения:) -- С уважением, Евгений Остапец uin: 23747217 jid: eugene_ostapets@jabber.ru ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-11-28 21:00 ` [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) Eugene Ostapets @ 2006-11-28 21:48 ` Konstantin A. Lepikhov 2006-11-29 8:03 ` Eugene Ostapets 0 siblings, 1 reply; 14+ messages in thread From: Konstantin A. Lepikhov @ 2006-11-28 21:48 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list [-- Attachment #1: Type: text/plain, Size: 680 bytes --] Hi Eugene! Tuesday 28, at 11:00:37 PM you wrote: > 28.11.06, QA Team Robot<qa altlinux.org> написал(а): > > 3 ADDED packages > > pdftohtml - pdftohtml is a utility which converts PDF files into HTML and XML formats. > > * Mon Nov 27 2006 Eugene Ostapets <eostapets@altlinux> 0.40a-alt1 > > - first build > Очень рекомендую всем, кому нужно получить нормальный текст из pdf - > проверил на десятке очень сложных pdf файлов и получил в итоге > практически идентичные html страницы. Но в html лучше не заглядывать, > во избежание нервного потрясения:) да, что там она выделывает, лучше не смотреть, особенно картинки вместо цифр-сносок :) -- WBR et al. [-- Attachment #2: Digital signature --] [-- Type: application/pgp-signature, Size: 189 bytes --] ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-11-28 21:48 ` Konstantin A. Lepikhov @ 2006-11-29 8:03 ` Eugene Ostapets 2006-11-29 8:46 ` Led 2006-12-01 16:18 ` Michael Shigorin 0 siblings, 2 replies; 14+ messages in thread From: Eugene Ostapets @ 2006-11-29 8:03 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list 28.11.06, Konstantin A. Lepikhov<lakostis unsafe.ru> написал(а): > Hi Eugene! > > Tuesday 28, at 11:00:37 PM you wrote: > > > 28.11.06, QA Team Robot<qa altlinux.org> написал(а): > > > 3 ADDED packages > > > pdftohtml - pdftohtml is a utility which converts PDF files into HTML and XML formats. > > > * Mon Nov 27 2006 Eugene Ostapets <eostapets@altlinux> 0.40a-alt1 > > > - first build > > Очень рекомендую всем, кому нужно получить нормальный текст из pdf - > > проверил на десятке очень сложных pdf файлов и получил в итоге > > практически идентичные html страницы. Но в html лучше не заглядывать, > > во избежание нервного потрясения:) > да, что там она выделывает, лучше не смотреть, особенно картинки вместо > цифр-сносок :) Я долго искал что-то, что способно русский pdf превратить в читаемый html... Теперь буду искать что-то способное превратить ТАКОЙ html в редактируемый:) -- С уважением, Евгений Остапец uin: 23747217 jid: eugene_ostapets@jabber.ru ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-11-29 8:03 ` Eugene Ostapets @ 2006-11-29 8:46 ` Led 2006-11-29 10:00 ` Eugene Ostapets 2006-12-01 16:18 ` Michael Shigorin 1 sibling, 1 reply; 14+ messages in thread From: Led @ 2006-11-29 8:46 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list В сообщении от 29 ноября 2006 10:03 Eugene Ostapets написал(a): > 28.11.06, Konstantin A. Lepikhov<lakostis unsafe.ru> написал(а): > > Hi Eugene! > > > > Tuesday 28, at 11:00:37 PM you wrote: > > > 28.11.06, QA Team Robot<qa altlinux.org> написал(а): > > > > 3 ADDED packages > > > > pdftohtml - pdftohtml is a utility which converts PDF files into HTML > > > > and XML formats. * Mon Nov 27 2006 Eugene Ostapets > > > > <eostapets@altlinux> 0.40a-alt1 - first build > > > > > > Очень рекомендую всем, кому нужно получить нормальный текст из pdf - > > > проверил на десятке очень сложных pdf файлов и получил в итоге > > > практически идентичные html страницы. Но в html лучше не заглядывать, > > > во избежание нервного потрясения:) > > > > да, что там она выделывает, лучше не смотреть, особенно картинки вместо > > цифр-сносок :) > > Я долго искал что-то, что способно русский pdf превратить в читаемый > html... Теперь буду искать что-то способное превратить ТАКОЙ html в > редактируемый:) Из того, что я пробовал, наиболее адекватный результат "понимания" PDF выдавал kword (как ни странно)... -- Led. ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-11-29 8:46 ` Led @ 2006-11-29 10:00 ` Eugene Ostapets 0 siblings, 0 replies; 14+ messages in thread From: Eugene Ostapets @ 2006-11-29 10:00 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list 29.11.06, Led<led ukr-fin.com.ua> написал(а): > > Я долго искал что-то, что способно русский pdf превратить в читаемый > > html... Теперь буду искать что-то способное превратить ТАКОЙ html в > > редактируемый:) > > Из того, что я пробовал, наиболее адекватный результат "понимания" PDF выдавал > kword (как ни странно)... Ну тогда советую посмотреть на результат выдаваемый этим пакетом - будете приятно удивлены... :) -- С уважением, Евгений Остапец uin: 23747217 jid: eugene_ostapets@jabber.ru ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-11-29 8:03 ` Eugene Ostapets 2006-11-29 8:46 ` Led @ 2006-12-01 16:18 ` Michael Shigorin 2006-12-01 16:31 ` Led 2006-12-01 17:41 ` Eugene Ostapets 1 sibling, 2 replies; 14+ messages in thread From: Michael Shigorin @ 2006-12-01 16:18 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote: > Я долго искал что-то, что способно русский pdf превратить в > читаемый html... Теперь буду искать что-то способное превратить > ТАКОЙ html в редактируемый:) tidy не? -- ---- WBR, Michael Shigorin <mike@altlinux.ru> ------ Linux.Kiev http://www.linux.kiev.ua/ ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-12-01 16:18 ` Michael Shigorin @ 2006-12-01 16:31 ` Led 2006-12-01 17:44 ` Eugene Ostapets 2006-12-01 17:41 ` Eugene Ostapets 1 sibling, 1 reply; 14+ messages in thread From: Led @ 2006-12-01 16:31 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a): > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote: > > Я долго искал что-то, что способно русский pdf превратить в > > читаемый html... Теперь буду искать что-то способное превратить > > ТАКОЙ html в редактируемый:) > > tidy не? Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым", tetex 3.0 собрать нужно:) -- Led. ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-12-01 16:31 ` Led @ 2006-12-01 17:44 ` Eugene Ostapets 2006-12-01 18:10 ` Ivan Adzhubey 2006-12-04 8:26 ` Led 0 siblings, 2 replies; 14+ messages in thread From: Eugene Ostapets @ 2006-12-01 17:44 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list 01.12.06, Led<led ukr-fin.com.ua> написал(а): > В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a): > > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote: > > > Я долго искал что-то, что способно русский pdf превратить в > > > читаемый html... Теперь буду искать что-то способное превратить > > > ТАКОЙ html в редактируемый:) > > > > tidy не? > > Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым", tetex > 3.0 собрать нужно:) Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом latex2html, потом полгода редактировать этот html чтобы получить вменяемый результат? Быстрее явно будет pdftotext+pdfimages и быстрая верстка в html... А меня интересует максимально автоматическое преобразование... -- С уважением, Евгений Остапец uin: 23747217 jid: eugene_ostapets@jabber.ru ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-12-01 17:44 ` Eugene Ostapets @ 2006-12-01 18:10 ` Ivan Adzhubey 2006-12-01 18:29 ` Eugene Ostapets 2006-12-04 8:26 ` Led 1 sibling, 1 reply; 14+ messages in thread From: Ivan Adzhubey @ 2006-12-01 18:10 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list On Friday 01 December 2006 12:44, Eugene Ostapets wrote: > 01.12.06, Led<led ukr-fin.com.ua> написал(а): > > В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a): > > > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote: > > > > Я долго искал что-то, что способно русский pdf превратить в > > > > читаемый html... Теперь буду искать что-то способное превратить > > > > ТАКОЙ html в редактируемый:) > > > > > > tidy не? > > > > Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым", > > tetex 3.0 собрать нужно:) > > Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом > latex2html, потом полгода редактировать этот html чтобы получить > вменяемый результат? Быстрее явно будет pdftotext+pdfimages и быстрая > верстка в html... А меня интересует максимально автоматическое > преобразование... Могу поделиться опытом. Я в свое время перепробовал все, что только существует для PDF repurposing. Последний раз проверял по списку года два назад, может что-то и появилось драматически новое, но сильно сомневаюсь. Если отбросить масштабные коммерческие решения, стоящие многие тысячи долларов, то остается два пути: или перевод в изображение с последующим автоматическим OCR, или программы распарсивания (pdftotext, pdftohtml, и пр.). Все парсеры неидеальны, мягко говоря. OCR тоже, хотя например ABBY FineReader имеет неплохой специализированный модуль для перевода PDF to formatted text. У меня дело осложняется еще тем, что надо транслировать научно-технические тексты с формулами, таблицами, и пр. Особенно туго у всех переводчиков дело обстоит с надстрочными и подстрочными индексами ;-(. В общем после долгих экспериментов я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю результат своими перловскими скриптами. Кстати, я знаком с автором, он очень грамотный товарищ, жаль что у него нет времени поддерживать проект последние пару лет. Если нужны еще советы - пишите в личку, постараюсь ответить. --Иван ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-12-01 18:10 ` Ivan Adzhubey @ 2006-12-01 18:29 ` Eugene Ostapets 2006-12-01 19:41 ` Ivan Adzhubey 0 siblings, 1 reply; 14+ messages in thread From: Eugene Ostapets @ 2006-12-01 18:29 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list 01.12.06, Ivan Adzhubey<iadzhubey rics.bwh.harvard.edu> написал(а): > В общем после долгих экспериментов > я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от > идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю результат > своими перловскими скриптами. Кстати, я знаком с автором, он очень грамотный > товарищ, жаль что у него нет времени поддерживать проект последние пару лет. Каким из двух pdftohtml вы пользуетесь? :) Вообще-то весь тред был о рекламе того pdftohtml, который я нашел :) -- С уважением, Евгений Остапец uin: 23747217 jid: eugene_ostapets@jabber.ru ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-12-01 18:29 ` Eugene Ostapets @ 2006-12-01 19:41 ` Ivan Adzhubey 2006-12-02 11:08 ` Eugene Ostapets 0 siblings, 1 reply; 14+ messages in thread From: Ivan Adzhubey @ 2006-12-01 19:41 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list On Friday 01 December 2006 13:29, Eugene Ostapets wrote: > 01.12.06, Ivan Adzhubey<iadzhubey rics.bwh.harvard.edu> написал(а): > > В общем после долгих экспериментов > > я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от > > идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю > > результат своими перловскими скриптами. Кстати, я знаком с автором, он > > очень грамотный товарищ, жаль что у него нет времени поддерживать проект > > последние пару лет. > > Каким из двух pdftohtml вы пользуетесь? :) http://pdftohtml.sourceforge.net/ он же: http://freshmeat.net/projects/pdftohtml/ Code base там один, просто поскольку мейнтейнер давно его забросил было несколько попыток форка. > Вообще-то весь тред был о рекламе того pdftohtml, который я нашел :) Других с таким же названием я не знаю, есть еще pdf2html, но это ерунда. --Иван ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-12-01 19:41 ` Ivan Adzhubey @ 2006-12-02 11:08 ` Eugene Ostapets 0 siblings, 0 replies; 14+ messages in thread From: Eugene Ostapets @ 2006-12-02 11:08 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list 01.12.06, Ivan Adzhubey<iadzhubey rics.bwh.harvard.edu> написал(а): > > Каким из двух pdftohtml вы пользуетесь? :) > http://pdftohtml.sourceforge.net/ Так его я и опакетил > Code base там один, просто поскольку мейнтейнер давно его забросил было > несколько попыток форка. Если 14 сентября - это давно забросил, то я ничего в этом мире не понимаю :) > > > Вообще-то весь тред был о рекламе того pdftohtml, который я нашел :) > > Других с таким же названием я не знаю, есть еще pdf2html, но это ерунда. Есть еще pdftohtml из самого xpdf, но у нас он не собирается (не знаю насколько он вообще рабочий) и pdftohtml из состава qpoppler (fork xpdf для превращения его в набор независимых от тулкита библиотек) -- С уважением, Евгений Остапец uin: 23747217 jid: eugene_ostapets@jabber.ru ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-12-01 17:44 ` Eugene Ostapets 2006-12-01 18:10 ` Ivan Adzhubey @ 2006-12-04 8:26 ` Led 1 sibling, 0 replies; 14+ messages in thread From: Led @ 2006-12-04 8:26 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list В сообщении от 1 декабря 2006 19:44 Eugene Ostapets написал(a): > 01.12.06, Led<led ukr-fin.com.ua> написал(а): > > В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a): > > > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote: > > > > Я долго искал что-то, что способно русский pdf превратить в > > > > читаемый html... Теперь буду искать что-то способное превратить > > > > ТАКОЙ html в редактируемый:) > > > > > > tidy не? > > > > Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым", > > tetex 3.0 собрать нужно:) > > Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом > latex2html, потом полгода редактировать этот html чтобы получить > вменяемый результат? По мне, так в latex и редактировать - ИМХО удобнее немного, чем HTML:) > Быстрее явно будет pdftotext+pdfimages и быстрая > верстка в html... А меня интересует максимально автоматическое > преобразование... -- Led. ^ permalink raw reply [flat|nested] 14+ messages in thread
* Re: [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) 2006-12-01 16:18 ` Michael Shigorin 2006-12-01 16:31 ` Led @ 2006-12-01 17:41 ` Eugene Ostapets 1 sibling, 0 replies; 14+ messages in thread From: Eugene Ostapets @ 2006-12-01 17:41 UTC (permalink / raw) To: ALT Linux Sisyphus discussion list 01.12.06, Michael Shigorin<mike osdn.org.ua> написал(а): > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote: > > Я долго искал что-то, что способно русский pdf превратить в > > читаемый html... Теперь буду искать что-то способное превратить > > ТАКОЙ html в редактируемый:) > tidy не? Нужно попробовать... -- С уважением, Евгений Остапец uin: 23747217 jid: eugene_ostapets@jabber.ru ^ permalink raw reply [flat|nested] 14+ messages in thread
end of thread, other threads:[~2006-12-04 8:26 UTC | newest] Thread overview: 14+ messages (download: mbox.gz / follow: Atom feed) -- links below jump to the message on this page -- 2006-11-28 21:00 ` [sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661) Eugene Ostapets 2006-11-28 21:48 ` Konstantin A. Lepikhov 2006-11-29 8:03 ` Eugene Ostapets 2006-11-29 8:46 ` Led 2006-11-29 10:00 ` Eugene Ostapets 2006-12-01 16:18 ` Michael Shigorin 2006-12-01 16:31 ` Led 2006-12-01 17:44 ` Eugene Ostapets 2006-12-01 18:10 ` Ivan Adzhubey 2006-12-01 18:29 ` Eugene Ostapets 2006-12-01 19:41 ` Ivan Adzhubey 2006-12-02 11:08 ` Eugene Ostapets 2006-12-04 8:26 ` Led 2006-12-01 17:41 ` Eugene Ostapets
ALT Linux Sisyphus discussions This inbox may be cloned and mirrored by anyone: git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git # If you have public-inbox 1.1+ installed, you may # initialize and index your mirror using the following commands: public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \ sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru public-inbox-index sisyphus Example config snippet for mirrors. Newsgroup available over NNTP: nntp://lore.altlinux.org/org.altlinux.lists.sisyphus AGPL code for this site: git clone https://public-inbox.org/public-inbox.git