* [Comm] фильтр/скрипт для обработки html файлов
@ 2008-08-04 20:35 Mikhail Kuligin
2008-08-04 21:02 ` Smont
0 siblings, 2 replies; 5+ messages in thread
From: Mikhail Kuligin @ 2008-08-04 20:35 UTC (permalink / raw)
To: ALT Linux Community general discussions
Здравствуйте,
подскажите есть ли софт или bash скрипты (хочется bash т.к. я перл не
знаю) для замены избыточных тегов в html документах
которые создаются после действия пользователя "Сохранить файл как html
страницу" в небезизвестном редакторе?
пример того, что хотелось бы заменять на стандартный тег "<p>":
"<P LANG="ru-RU" CLASS="western" ALIGN=JUSTIFY STYLE="margin-left:
0.05cm; margin-right: 0.02cm; text-indent: 0.46cm; margin-bottom: 0cm;
background: #ffffff; line-height: 0.42cm">"
причём теги почти все разные и замена в данном случае неэффективна
да и файлов больше сотни ...
^ permalink raw reply [flat|nested] 5+ messages in thread
* Re: [Comm] фильтр/скрипт для обработки html файлов
2008-08-04 20:35 [Comm] фильтр/скрипт для обработки html файлов Mikhail Kuligin
@ 2008-08-04 21:02 ` Smont
2008-08-05 8:19 ` Mikhail Kuligin
1 sibling, 1 reply; 5+ messages in thread
From: Smont @ 2008-08-04 21:02 UTC (permalink / raw)
To: ALT Linux Community general discussions
В сообщении от Tuesday 05 August 2008 00:35:02 Mikhail Kuligin написал(а):
> Здравствуйте,
>
> подскажите есть ли софт или bash скрипты (хочется bash т.к. я перл не
> знаю) для замены избыточных тегов в html документах
> которые создаются после действия пользователя "Сохранить файл как html
> страницу" в небезизвестном редакторе?
> пример того, что хотелось бы заменять на стандартный тег "<p>":
> "<P LANG="ru-RU" CLASS="western" ALIGN=JUSTIFY STYLE="margin-left:
> 0.05cm; margin-right: 0.02cm; text-indent: 0.46cm; margin-bottom: 0cm;
> background: #ffffff; line-height: 0.42cm">"
> причём теги почти все разные и замена в данном случае неэффективна
> да и файлов больше сотни ...
вариант на python написанный сотрудником m$ для собственного пользования.
http://blogs.technet.com/eldar/archive/2008/06/03/3065237.aspx#comments
За отсутвием надобности мной еще не использовался, от того дать отзыв и/или
рекомендовать к использованию не могу.Но в записную книжку занёс.
Удачи!
Smont
^ permalink raw reply [flat|nested] 5+ messages in thread
* Re: [Comm] фильтр/скрипт для обработки html файлов
@ 2008-08-05 6:51 ` Mikhail Kuligin
0 siblings, 1 reply; 5+ messages in thread
From: Mikhail Kuligin @ 2008-08-05 6:51 UTC (permalink / raw)
To: ALT Linux Community general discussions
> Поковыряй расширение altsearch для OpenOffice.org
спасибо, altsearch пользуюсь...
но altsearch не работает (вылетатет с ошибкой) когда включён режим
отображения html :(
если вернутся к визуальному режиму, то все ок (система branch 4.1)
^ permalink raw reply [flat|nested] 5+ messages in thread
* Re: [Comm] фильтр/скрипт для обработки html файлов
2008-08-04 21:02 ` Smont
@ 2008-08-05 8:19 ` Mikhail Kuligin
0 siblings, 0 replies; 5+ messages in thread
From: Mikhail Kuligin @ 2008-08-05 8:19 UTC (permalink / raw)
To: community
[-- Attachment #1: Type: text/plain, Size: 403 bytes --]
> вариант на python написанный сотрудником m$ для собственного пользования.
> http://blogs.technet.com/eldar/archive/2008/06/03/3065237.aspx#comments
попробовал скрипт - работает, чистит все отлично, остаются только
простые теги <p> <i> <b> <h1> и тп.
скрипт взял здесь http://www.eldar.com/node/175
сам скрипт, залил в файл и присоединил к письму
работает так: python clean.py input.html > output.html
[-- Attachment #2: clean.py --]
[-- Type: application/octet-stream, Size: 1654 bytes --]
^ permalink raw reply [flat|nested] 5+ messages in thread
* Re: [Comm] фильтр/скрипт для обработки html файлов
@ 2008-08-05 12:12 ` Mikhail Kuligin
0 siblings, 0 replies; 5+ messages in thread
From: Mikhail Kuligin @ 2008-08-05 12:12 UTC (permalink / raw)
To: ALT Linux Community general discussions
5 августа 2008 г. 11:27 пользователь Денис Черносов написал:
> А зачем вам этот режим для такой задачи? Открываем html-файл чем-нибудь типа Kate ...
> А регулярные выражения, особенно поначалу выглядят шаманскими заклинаниями и
> модифицировать чужие под свои нужды может оказаться дольше, чем составить
> свои.
спасибо понял свою ошибку
но найденный скрипт меня устроил, главным образом из за того, что для
него в bash написать небольшой скрипт и можно напустить на большое
количество файлов, ничего не трогая руками (не спорю способ с
OpenOffice даст боле контролируемый результат)
сейчас ищу скрипт, который бы в правильно оформленных html страницах
(с помощью <h1> <h2> и т.п. заголовков) создавал оглавление, а большие
документы еще и разбивал на части
^ permalink raw reply [flat|nested] 5+ messages in thread
end of thread, other threads:[~2008-08-05 12:12 UTC | newest]
Thread overview: 5+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2008-08-04 20:35 [Comm] фильтр/скрипт для обработки html файлов Mikhail Kuligin
2008-08-04 21:02 ` Smont
2008-08-05 8:19 ` Mikhail Kuligin
2008-08-05 6:51 ` Mikhail Kuligin
2008-08-05 12:12 ` Mikhail Kuligin
ALT Linux Community general discussions
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
public-inbox-index community
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.community
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git