ALT Linux Community general discussions
 help / color / mirror / Atom feed
* [Comm] фильтр/скрипт для обработки html файлов
@ 2008-08-04 20:35 Mikhail Kuligin
  2008-08-04 21:02 ` Smont
    0 siblings, 2 replies; 5+ messages in thread
From: Mikhail Kuligin @ 2008-08-04 20:35 UTC (permalink / raw)
  To: ALT Linux Community general discussions

Здравствуйте,

подскажите есть ли софт или bash скрипты (хочется bash т.к. я перл не
знаю) для замены избыточных тегов в html документах
которые создаются после действия пользователя "Сохранить файл как html
страницу" в небезизвестном редакторе?
пример того, что хотелось бы заменять на стандартный тег "<p>":
"<P LANG="ru-RU" CLASS="western" ALIGN=JUSTIFY STYLE="margin-left:
0.05cm; margin-right: 0.02cm; text-indent: 0.46cm; margin-bottom: 0cm;
background: #ffffff; line-height: 0.42cm">"
причём теги почти все разные и замена в данном случае неэффективна
да и файлов больше сотни ...

^ permalink raw reply	[flat|nested] 5+ messages in thread

* Re: [Comm] фильтр/скрипт для обработки html файлов
  2008-08-04 20:35 [Comm] фильтр/скрипт для обработки html файлов Mikhail Kuligin
@ 2008-08-04 21:02 ` Smont
  2008-08-05  8:19   ` Mikhail Kuligin
    1 sibling, 1 reply; 5+ messages in thread
From: Smont @ 2008-08-04 21:02 UTC (permalink / raw)
  To: ALT Linux Community general discussions

В сообщении от Tuesday 05 August 2008 00:35:02 Mikhail Kuligin написал(а):
> Здравствуйте,
>
> подскажите есть ли софт или bash скрипты (хочется bash т.к. я перл не
> знаю) для замены избыточных тегов в html документах
> которые создаются после действия пользователя "Сохранить файл как html
> страницу" в небезизвестном редакторе?
> пример того, что хотелось бы заменять на стандартный тег "<p>":
> "<P LANG="ru-RU" CLASS="western" ALIGN=JUSTIFY STYLE="margin-left:
> 0.05cm; margin-right: 0.02cm; text-indent: 0.46cm; margin-bottom: 0cm;
> background: #ffffff; line-height: 0.42cm">"
> причём теги почти все разные и замена в данном случае неэффективна
> да и файлов больше сотни ...
вариант на python написанный сотрудником m$ для собственного пользования.
http://blogs.technet.com/eldar/archive/2008/06/03/3065237.aspx#comments
За отсутвием надобности мной еще не использовался, от того дать отзыв и/или 
рекомендовать к использованию не могу.Но в записную книжку занёс.
Удачи!
Smont

^ permalink raw reply	[flat|nested] 5+ messages in thread

* Re: [Comm] фильтр/скрипт для обработки html файлов
  @ 2008-08-05  6:51   ` Mikhail Kuligin
    0 siblings, 1 reply; 5+ messages in thread
From: Mikhail Kuligin @ 2008-08-05  6:51 UTC (permalink / raw)
  To: ALT Linux Community general discussions

> Поковыряй расширение altsearch для OpenOffice.org
спасибо, altsearch пользуюсь...
но altsearch не работает (вылетатет с ошибкой) когда включён режим
отображения html :(
если вернутся к визуальному режиму, то все ок (система branch 4.1)

^ permalink raw reply	[flat|nested] 5+ messages in thread

* Re: [Comm] фильтр/скрипт для обработки html файлов
  2008-08-04 21:02 ` Smont
@ 2008-08-05  8:19   ` Mikhail Kuligin
  0 siblings, 0 replies; 5+ messages in thread
From: Mikhail Kuligin @ 2008-08-05  8:19 UTC (permalink / raw)
  To: community

[-- Attachment #1: Type: text/plain, Size: 403 bytes --]

> вариант на python написанный сотрудником m$ для собственного пользования.
> http://blogs.technet.com/eldar/archive/2008/06/03/3065237.aspx#comments
попробовал скрипт - работает, чистит все отлично, остаются только
простые теги <p> <i> <b> <h1> и тп.
скрипт взял здесь http://www.eldar.com/node/175
сам скрипт, залил в файл и присоединил к письму
работает так: python clean.py input.html > output.html

[-- Attachment #2: clean.py --]
[-- Type: application/octet-stream, Size: 1654 bytes --]

^ permalink raw reply	[flat|nested] 5+ messages in thread

* Re: [Comm] фильтр/скрипт для обработки html файлов
  @ 2008-08-05 12:12       ` Mikhail Kuligin
  0 siblings, 0 replies; 5+ messages in thread
From: Mikhail Kuligin @ 2008-08-05 12:12 UTC (permalink / raw)
  To: ALT Linux Community general discussions

5 августа 2008 г. 11:27 пользователь Денис Черносов написал:

> А зачем вам этот режим для такой задачи? Открываем html-файл чем-нибудь типа Kate ...
> А регулярные выражения, особенно поначалу выглядят шаманскими заклинаниями и
> модифицировать чужие под свои нужды может оказаться дольше, чем составить
> свои.
спасибо понял свою ошибку
но найденный скрипт меня устроил, главным образом из за того, что для
него в bash написать небольшой скрипт и можно напустить на большое
количество файлов, ничего не трогая руками (не спорю способ с
OpenOffice даст боле контролируемый результат)
сейчас ищу скрипт, который бы в правильно оформленных html страницах
(с помощью <h1> <h2> и т.п. заголовков) создавал оглавление, а большие
документы еще и разбивал на части

^ permalink raw reply	[flat|nested] 5+ messages in thread

end of thread, other threads:[~2008-08-05 12:12 UTC | newest]

Thread overview: 5+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2008-08-04 20:35 [Comm] фильтр/скрипт для обработки html файлов Mikhail Kuligin
2008-08-04 21:02 ` Smont
2008-08-05  8:19   ` Mikhail Kuligin
2008-08-05  6:51   ` Mikhail Kuligin
2008-08-05 12:12       ` Mikhail Kuligin

ALT Linux Community general discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
		mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
	public-inbox-index community

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.community


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git