* [Comm] Обработка текста
@ 2002-09-10 5:52 Konstantin
0 siblings, 1 reply; 6+ messages in thread
From: Konstantin @ 2002-09-10 5:52 UTC (permalink / raw)
To: community
Добрый день всем!
У меня возникла необходимость обработки текста (что-то около 100М в html)
следующим образом:
1) Заменить текст между тегами <head> </head> на свой, с сохранением текста в
теге <title> </title>
2) В теге <body> </body> заменять сложные конструкции <p align="justify"
style="text-indent: 20"><font face="Arial" size="2"> на элегантные <p span
class="header">, </font></p> на </p> и т.п. выражения.
Как мне это сделать?
^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] Re: Обработка текста
@ 2002-09-13 12:00 ` NoWayOut
2002-09-13 12:25 ` Sergey Degtyaryov
2002-09-13 12:44 ` [Comm] Re: Обработка текста - tidy Michael Bykov
2002-09-13 17:52 ` [Comm] Re: Обработка текста Konstantin
2 siblings, 1 reply; 6+ messages in thread
From: NoWayOut @ 2002-09-13 12:00 UTC (permalink / raw)
To: community
В сообщении от Пятница 13 Сентябрь 2002 12:10 Michael Shigorin написал:
> On Tue, Sep 10, 2002 at 08:52:53AM +0300, Konstantin wrote:
> > У меня возникла необходимость обработки текста (что-то около
> > 100М в html) следующим образом:
>
> sed, awk, perl; find
> ...
> но этот путь крайне неблагодарен, т.к. теги могут быть (у меня
> были) порваны по строкам, что sed'ом не отлавливается
>(тривиально, по крайней мере).
Проще наверно будет на perl, почитать O'Reilly'вскую книжку (главу про
шаблоны :)
NoWayOut
^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] Re: Обработка текста
2002-09-13 12:00 ` [Comm] " NoWayOut
@ 2002-09-13 12:25 ` Sergey Degtyaryov
2002-09-13 17:51 ` Konstantin
0 siblings, 1 reply; 6+ messages in thread
From: Sergey Degtyaryov @ 2002-09-13 12:25 UTC (permalink / raw)
To: community
Доброго дня, NoWayOut.
13 Сентября в 16:00 Вы сказали буквально следующее:
> В сообщении от Пятница 13 Сентябрь 2002 12:10 Michael Shigorin
> написал:
> > On Tue, Sep 10, 2002 at 08:52:53AM +0300, Konstantin wrote:
> > > У меня возникла необходимость обработки текста (что-то около
> > > 100М в html) следующим образом:
> >
> > sed, awk, perl; find
perl
HTML::Parser
--
Rgds, maga, maga@mail.ru
[maga@localhost]$ /usr/games/fortune
Боюсь огоpчить, но pезультаты Вашего вскpытия...
^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] Re: Обработка текста - tidy
2002-09-13 12:00 ` [Comm] " NoWayOut
@ 2002-09-13 12:44 ` Michael Bykov
2002-09-13 17:52 ` [Comm] Re: Обработка текста Konstantin
2 siblings, 0 replies; 6+ messages in thread
From: Michael Bykov @ 2002-09-13 12:44 UTC (permalink / raw)
To: community
> Что-то мне подсказывает, что правильный ответ -- tidy, которая
> водится на tidy.sf.net и в Sisyphus. Если это был ворд,
> например.
>
> ---- WBR, Michael Shigorin <mike@altlinux.ru>
> ------ Linux.Kiev http://www.linux.kiev.ua/
Ого какая tidy полезная! Спасибо!
--
M.
^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] Re: Обработка текста
2002-09-13 12:25 ` Sergey Degtyaryov
@ 2002-09-13 17:51 ` Konstantin
0 siblings, 0 replies; 6+ messages in thread
From: Konstantin @ 2002-09-13 17:51 UTC (permalink / raw)
To: community
В сообщении от 13 Сентябрь 2002 15:25 Sergey Degtyaryov написал:
> Доброго дня, NoWayOut.
>
> 13 Сентября в 16:00 Вы сказали буквально следующее:
> > В сообщении от Пятница 13 Сентябрь 2002 12:10 Michael
> > Shigorin
> >
> > написал:
> > > On Tue, Sep 10, 2002 at 08:52:53AM +0300, Konstantin wrote:
> > > > У меня возникла необходимость обработки текста (что-то
> > > > около 100М в html) следующим образом:
> > >
> > > sed, awk, perl; find
>
> perl
> HTML::Parser
perl'ом не владею, увы :(
^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] Re: Обработка текста
2002-09-13 12:00 ` [Comm] " NoWayOut
2002-09-13 12:44 ` [Comm] Re: Обработка текста - tidy Michael Bykov
@ 2002-09-13 17:52 ` Konstantin
2 siblings, 0 replies; 6+ messages in thread
From: Konstantin @ 2002-09-13 17:52 UTC (permalink / raw)
To: community
> > У меня возникла необходимость обработки текста (что-то около
> > 100М в html) следующим образом:
< skip >
> Материалов по этой теме навалом, посмотрите "обработка текстов
> sed замена" или около того. Да вот -- книжка рядом лежит,
> "Linux: обработка текстов" (Питер) :-)
Надо будет купить это книжецу, благо мне ее советовали.
^ permalink raw reply [flat|nested] 6+ messages in thread
end of thread, other threads:[~2002-09-13 17:52 UTC | newest]
Thread overview: 6+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2002-09-10 5:52 [Comm] Обработка текста Konstantin
2002-09-13 12:00 ` [Comm] " NoWayOut
2002-09-13 12:25 ` Sergey Degtyaryov
2002-09-13 17:51 ` Konstantin
2002-09-13 12:44 ` [Comm] Re: Обработка текста - tidy Michael Bykov
2002-09-13 17:52 ` [Comm] Re: Обработка текста Konstantin
ALT Linux Community general discussions
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
public-inbox-index community
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.community
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git