* [Comm] Обработка текста @ 2002-09-10 5:52 Konstantin 0 siblings, 1 reply; 6+ messages in thread From: Konstantin @ 2002-09-10 5:52 UTC (permalink / raw) To: community Добрый день всем! У меня возникла необходимость обработки текста (что-то около 100М в html) следующим образом: 1) Заменить текст между тегами <head> </head> на свой, с сохранением текста в теге <title> </title> 2) В теге <body> </body> заменять сложные конструкции <p align="justify" style="text-indent: 20"><font face="Arial" size="2"> на элегантные <p span class="header">, </font></p> на </p> и т.п. выражения. Как мне это сделать? ^ permalink raw reply [flat|nested] 6+ messages in thread
[parent not found: <20020913081007.GG78155@osdn.org.ua>]
* Re: [Comm] Re: Обработка текста @ 2002-09-13 12:00 ` NoWayOut 2002-09-13 12:25 ` Sergey Degtyaryov 2002-09-13 12:44 ` [Comm] Re: Обработка текста - tidy Michael Bykov 2002-09-13 17:52 ` [Comm] Re: Обработка текста Konstantin 2 siblings, 1 reply; 6+ messages in thread From: NoWayOut @ 2002-09-13 12:00 UTC (permalink / raw) To: community В сообщении от Пятница 13 Сентябрь 2002 12:10 Michael Shigorin написал: > On Tue, Sep 10, 2002 at 08:52:53AM +0300, Konstantin wrote: > > У меня возникла необходимость обработки текста (что-то около > > 100М в html) следующим образом: > > sed, awk, perl; find > ... > но этот путь крайне неблагодарен, т.к. теги могут быть (у меня > были) порваны по строкам, что sed'ом не отлавливается >(тривиально, по крайней мере). Проще наверно будет на perl, почитать O'Reilly'вскую книжку (главу про шаблоны :) NoWayOut ^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] Re: Обработка текста 2002-09-13 12:00 ` [Comm] " NoWayOut @ 2002-09-13 12:25 ` Sergey Degtyaryov 2002-09-13 17:51 ` Konstantin 0 siblings, 1 reply; 6+ messages in thread From: Sergey Degtyaryov @ 2002-09-13 12:25 UTC (permalink / raw) To: community Доброго дня, NoWayOut. 13 Сентября в 16:00 Вы сказали буквально следующее: > В сообщении от Пятница 13 Сентябрь 2002 12:10 Michael Shigorin > написал: > > On Tue, Sep 10, 2002 at 08:52:53AM +0300, Konstantin wrote: > > > У меня возникла необходимость обработки текста (что-то около > > > 100М в html) следующим образом: > > > > sed, awk, perl; find perl HTML::Parser -- Rgds, maga, maga@mail.ru [maga@localhost]$ /usr/games/fortune Боюсь огоpчить, но pезультаты Вашего вскpытия... ^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] Re: Обработка текста 2002-09-13 12:25 ` Sergey Degtyaryov @ 2002-09-13 17:51 ` Konstantin 0 siblings, 0 replies; 6+ messages in thread From: Konstantin @ 2002-09-13 17:51 UTC (permalink / raw) To: community В сообщении от 13 Сентябрь 2002 15:25 Sergey Degtyaryov написал: > Доброго дня, NoWayOut. > > 13 Сентября в 16:00 Вы сказали буквально следующее: > > В сообщении от Пятница 13 Сентябрь 2002 12:10 Michael > > Shigorin > > > > написал: > > > On Tue, Sep 10, 2002 at 08:52:53AM +0300, Konstantin wrote: > > > > У меня возникла необходимость обработки текста (что-то > > > > около 100М в html) следующим образом: > > > > > > sed, awk, perl; find > > perl > HTML::Parser perl'ом не владею, увы :( ^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] Re: Обработка текста - tidy 2002-09-13 12:00 ` [Comm] " NoWayOut @ 2002-09-13 12:44 ` Michael Bykov 2002-09-13 17:52 ` [Comm] Re: Обработка текста Konstantin 2 siblings, 0 replies; 6+ messages in thread From: Michael Bykov @ 2002-09-13 12:44 UTC (permalink / raw) To: community > Что-то мне подсказывает, что правильный ответ -- tidy, которая > водится на tidy.sf.net и в Sisyphus. Если это был ворд, > например. > > ---- WBR, Michael Shigorin <mike@altlinux.ru> > ------ Linux.Kiev http://www.linux.kiev.ua/ Ого какая tidy полезная! Спасибо! -- M. ^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] Re: Обработка текста 2002-09-13 12:00 ` [Comm] " NoWayOut 2002-09-13 12:44 ` [Comm] Re: Обработка текста - tidy Michael Bykov @ 2002-09-13 17:52 ` Konstantin 2 siblings, 0 replies; 6+ messages in thread From: Konstantin @ 2002-09-13 17:52 UTC (permalink / raw) To: community > > У меня возникла необходимость обработки текста (что-то около > > 100М в html) следующим образом: < skip > > Материалов по этой теме навалом, посмотрите "обработка текстов > sed замена" или около того. Да вот -- книжка рядом лежит, > "Linux: обработка текстов" (Питер) :-) Надо будет купить это книжецу, благо мне ее советовали. ^ permalink raw reply [flat|nested] 6+ messages in thread
end of thread, other threads:[~2002-09-13 17:52 UTC | newest] Thread overview: 6+ messages (download: mbox.gz / follow: Atom feed) -- links below jump to the message on this page -- 2002-09-10 5:52 [Comm] Обработка текста Konstantin 2002-09-13 12:00 ` [Comm] " NoWayOut 2002-09-13 12:25 ` Sergey Degtyaryov 2002-09-13 17:51 ` Konstantin 2002-09-13 12:44 ` [Comm] Re: Обработка текста - tidy Michael Bykov 2002-09-13 17:52 ` [Comm] Re: Обработка текста Konstantin
ALT Linux Community general discussions This inbox may be cloned and mirrored by anyone: git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git # If you have public-inbox 1.1+ installed, you may # initialize and index your mirror using the following commands: public-inbox-init -V2 community community/ http://lore.altlinux.org/community \ mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com public-inbox-index community Example config snippet for mirrors. Newsgroup available over NNTP: nntp://lore.altlinux.org/org.altlinux.lists.community AGPL code for this site: git clone https://public-inbox.org/public-inbox.git