ALT Linux Community general discussions
 help / color / mirror / Atom feed
* [Comm] Обработка текста
@ 2002-09-10  5:52 Konstantin
    0 siblings, 1 reply; 6+ messages in thread
From: Konstantin @ 2002-09-10  5:52 UTC (permalink / raw)
  To: community

Добрый день всем!

У меня возникла необходимость обработки текста (что-то около 100М в html) 
следующим образом:
1) Заменить текст между тегами <head> </head> на свой, с сохранением текста в 
теге <title> </title>
2) В теге <body> </body> заменять сложные конструкции <p align="justify" 
style="text-indent: 20"><font face="Arial" size="2"> на элегантные <p span 
class="header">, </font></p> на </p> и т.п. выражения.
Как мне это сделать?


^ permalink raw reply	[flat|nested] 6+ messages in thread

* Re: [Comm] Re: Обработка текста
  @ 2002-09-13 12:00   ` NoWayOut
  2002-09-13 12:25     ` Sergey Degtyaryov
  2002-09-13 12:44   ` [Comm] Re: Обработка текста - tidy Michael Bykov
  2002-09-13 17:52   ` [Comm] Re: Обработка текста Konstantin
  2 siblings, 1 reply; 6+ messages in thread
From: NoWayOut @ 2002-09-13 12:00 UTC (permalink / raw)
  To: community

В сообщении от Пятница 13 Сентябрь 2002 12:10 Michael Shigorin написал:
> On Tue, Sep 10, 2002 at 08:52:53AM +0300, Konstantin wrote:
> > У меня возникла необходимость обработки текста (что-то около
> > 100М в html) следующим образом:
>
> sed, awk, perl; find
> ...
> но этот путь крайне неблагодарен, т.к. теги могут быть (у меня
> были) порваны по строкам, что sed'ом не отлавливается
>(тривиально, по крайней мере).

Проще наверно будет на perl, почитать O'Reilly'вскую книжку (главу про 
шаблоны :)
                      NoWayOut


^ permalink raw reply	[flat|nested] 6+ messages in thread

* Re: [Comm] Re: Обработка текста
  2002-09-13 12:00   ` [Comm] " NoWayOut
@ 2002-09-13 12:25     ` Sergey Degtyaryov
  2002-09-13 17:51       ` Konstantin
  0 siblings, 1 reply; 6+ messages in thread
From: Sergey Degtyaryov @ 2002-09-13 12:25 UTC (permalink / raw)
  To: community

Доброго дня, NoWayOut.
13 Сентября в 16:00  Вы сказали буквально следующее:

> В сообщении от Пятница 13 Сентябрь 2002 12:10 Michael Shigorin
> написал:
> > On Tue, Sep 10, 2002 at 08:52:53AM +0300, Konstantin wrote:
> > > У меня возникла необходимость обработки текста (что-то около
> > > 100М в html) следующим образом:
> >
> > sed, awk, perl; find

perl
HTML::Parser

-- 
Rgds, maga, maga@mail.ru
[maga@localhost]$ /usr/games/fortune
Боюсь огоpчить, но pезультаты Вашего вскpытия...



^ permalink raw reply	[flat|nested] 6+ messages in thread

* Re: [Comm] Re: Обработка текста - tidy
    2002-09-13 12:00   ` [Comm] " NoWayOut
@ 2002-09-13 12:44   ` Michael Bykov
  2002-09-13 17:52   ` [Comm] Re: Обработка текста Konstantin
  2 siblings, 0 replies; 6+ messages in thread
From: Michael Bykov @ 2002-09-13 12:44 UTC (permalink / raw)
  To: community

> Что-то мне подсказывает, что правильный ответ -- tidy, которая
> водится на tidy.sf.net и в Sisyphus.  Если это был ворд,
> например.
> 
>  ---- WBR, Michael Shigorin <mike@altlinux.ru>
>   ------ Linux.Kiev http://www.linux.kiev.ua/

Ого какая tidy полезная! Спасибо! 

-- 


M.




^ permalink raw reply	[flat|nested] 6+ messages in thread

* Re: [Comm] Re: Обработка текста
  2002-09-13 12:25     ` Sergey Degtyaryov
@ 2002-09-13 17:51       ` Konstantin
  0 siblings, 0 replies; 6+ messages in thread
From: Konstantin @ 2002-09-13 17:51 UTC (permalink / raw)
  To: community

В сообщении от 13 Сентябрь 2002 15:25 Sergey Degtyaryov написал:
> Доброго дня, NoWayOut.
>
> 13 Сентября в 16:00  Вы сказали буквально следующее:
> > В сообщении от Пятница 13 Сентябрь 2002 12:10 Michael
> > Shigorin
> >
> > написал:
> > > On Tue, Sep 10, 2002 at 08:52:53AM +0300, Konstantin wrote:
> > > > У меня возникла необходимость обработки текста (что-то
> > > > около 100М в html) следующим образом:
> > >
> > > sed, awk, perl; find
>
> perl
> HTML::Parser

perl'ом не владею, увы :(


^ permalink raw reply	[flat|nested] 6+ messages in thread

* Re: [Comm] Re: Обработка текста
    2002-09-13 12:00   ` [Comm] " NoWayOut
  2002-09-13 12:44   ` [Comm] Re: Обработка текста - tidy Michael Bykov
@ 2002-09-13 17:52   ` Konstantin
  2 siblings, 0 replies; 6+ messages in thread
From: Konstantin @ 2002-09-13 17:52 UTC (permalink / raw)
  To: community

> > У меня возникла необходимость обработки текста (что-то около
> > 100М в html) следующим образом:

< skip >

> Материалов по этой теме навалом, посмотрите "обработка текстов
> sed замена" или около того.  Да вот -- книжка рядом лежит,
> "Linux: обработка текстов" (Питер) :-)

Надо будет купить это книжецу, благо мне ее советовали.



^ permalink raw reply	[flat|nested] 6+ messages in thread

end of thread, other threads:[~2002-09-13 17:52 UTC | newest]

Thread overview: 6+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2002-09-10  5:52 [Comm] Обработка текста Konstantin
2002-09-13 12:00   ` [Comm] " NoWayOut
2002-09-13 12:25     ` Sergey Degtyaryov
2002-09-13 17:51       ` Konstantin
2002-09-13 12:44   ` [Comm] Re: Обработка текста - tidy Michael Bykov
2002-09-13 17:52   ` [Comm] Re: Обработка текста Konstantin

ALT Linux Community general discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
		mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
	public-inbox-index community

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.community


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git