ALT Linux Community general discussions
 help / color / mirror / Atom feed
* [Comm] список url-адресов из html файла
@ 2005-04-14 15:08 Aleksey E. Birukov
  2005-04-14 18:48 ` php-coder
  0 siblings, 1 reply; 6+ messages in thread
From: Aleksey E. Birukov @ 2005-04-14 15:08 UTC (permalink / raw)
  To: community

Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx, wget, 
curl. Может не нашел нужной опции?

-- 
$respect

^ permalink raw reply	[flat|nested] 6+ messages in thread

* Re: [Comm] список url-адресов из html файла
  2005-04-14 15:08 [Comm] список url-адресов из html файла Aleksey E. Birukov
@ 2005-04-14 18:48 ` php-coder
  2005-04-14 19:00   ` Aleksey E. Birukov
  0 siblings, 1 reply; 6+ messages in thread
From: php-coder @ 2005-04-14 18:48 UTC (permalink / raw)
  To: community


--- Aleksey E. Birukov 2005-04-14 19:08:19 +0400
+++ php-coder 2005-04-15 01:46:45 +0700

> Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx, wget, 
> curl. Может не нашел нужной опции?

    lynx -dump URL

    Все URL'ы в конце страницы... оно?


-- 
+ php-coder
+ php-coder[at]ngs[dot]ru
+ ALTLinux Master 2.4 (kernel 2.4.26-std-up-alt11)



^ permalink raw reply	[flat|nested] 6+ messages in thread

* Re: [Comm] список url-адресов из html файла
  2005-04-14 18:48 ` php-coder
@ 2005-04-14 19:00   ` Aleksey E. Birukov
  2005-04-15  5:02     ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov
                       ` (2 more replies)
  0 siblings, 3 replies; 6+ messages in thread
From: Aleksey E. Birukov @ 2005-04-14 19:00 UTC (permalink / raw)
  To: community

В сообщении от 14 Апрель 2005 22:48 php-coder написал(a):
> --- Aleksey E. Birukov 2005-04-14 19:08:19 +0400
> +++ php-coder 2005-04-15 01:46:45 +0700
>
> > Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx,
> > wget, curl. Может не нашел нужной опции?
>
>     lynx -dump URL
>
>     Все URL'ы в конце страницы... оно?
Почти...
Если дороботать sed/awk/cut можно добится нужного мне результата.
Может еще есть варианты?

Мне это нужно для составления списка для закачек. Т.е. одним списком url 
адресов.
-- 
$respect

^ permalink raw reply	[flat|nested] 6+ messages in thread

* Re: [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ
  2005-04-14 19:00   ` Aleksey E. Birukov
@ 2005-04-15  5:02     ` Alexey V. Novikov
  2005-04-15 11:38     ` [Comm] список url-адресов из html файла php-coder
  2005-04-15 14:07     ` Dmytro O. Redchuk
  2 siblings, 0 replies; 6+ messages in thread
From: Alexey V. Novikov @ 2005-04-15  5:02 UTC (permalink / raw)
  To: community

14.04.2005 23:00, Aleksey E. Birukov пишет:
> В сообщении от 14 Апрель 2005 22:48 php-coder написал(a):
> Почти...
> Если дороботать sed/awk/cut можно добится нужного мне результата.
> Может еще есть варианты?
> 
> Мне это нужно для составления списка для закачек. Т.е. одним списком url 
> адресов.
Можно попробовать на Perl, типа того (пример для mp3)

#!/usr/bin/perl
while(<>)
{
	print if s/^.*a\s+href=\"([^"]*)\".*$/$1/i && /\.mp3$/i;
}


-- 
WBR, Alexey V. Novikov


^ permalink raw reply	[flat|nested] 6+ messages in thread

* Re: [Comm] список url-адресов из html файла
  2005-04-14 19:00   ` Aleksey E. Birukov
  2005-04-15  5:02     ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov
@ 2005-04-15 11:38     ` php-coder
  2005-04-15 14:07     ` Dmytro O. Redchuk
  2 siblings, 0 replies; 6+ messages in thread
From: php-coder @ 2005-04-15 11:38 UTC (permalink / raw)
  To: community


--- Aleksey E. Birukov 2005-04-14 23:00:30 +0400
+++ php-coder 2005-04-15 18:34:51 +0700

> Если дороботать sed/awk/cut можно добится нужного мне результата.
> Может еще есть варианты?

    Что тут писАть-то?? Какие еще варианты? Задача на пять минут! :))

    [c0der@mycomp ~]$ cat get_links.sh
    #!/bin/sh

    COUNT_LINKS=`lynx -dump "$1" | tail -1 | tr -s " " | cut -d' ' -f2 | rev
    | cut -c 2- | rev`
    echo "Всего ссылок на странице:" $COUNT_LINKS

    lynx -dump $1 | tail -`echo $COUNT_LINKS` | tr -s " " | cut -d' ' -f3
    | grep -e '^[^(javascript|mailto|file)]' > "$1".links.txt
    
    Вот и весь ваш скрипт! Работает так:

    [c0der@mycomp ~]$ ./get_links.sh IRC.html
    18:35
    Всего ссылок на странице: 68
    [c0der@mycomp ~]$ head IRC.html.links.txt
    18:36
    http://linuxforum.ru/rss.php
    http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&
    http://www.linuxforum.ru/index.php?act=Search&f=26
    http://unix.ginras.ru/sitemap.html
    http://rus-linux.net/
    http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=boardrules
    http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=Login&CODE=00
    http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=Reg&CODE=00
    http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=idx
    http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&showforum=40
    [c0der@mycomp ~]$ 
   
    ОНО? ;-)

-- 
+ php-coder
+ php-coder[at]ngs[dot]ru
+ ALTLinux Master 2.4 (kernel 2.4.26-std-up-alt11)



^ permalink raw reply	[flat|nested] 6+ messages in thread

* Re: [Comm] список url-адресов из html файла
  2005-04-14 19:00   ` Aleksey E. Birukov
  2005-04-15  5:02     ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov
  2005-04-15 11:38     ` [Comm] список url-адресов из html файла php-coder
@ 2005-04-15 14:07     ` Dmytro O. Redchuk
  2 siblings, 0 replies; 6+ messages in thread
From: Dmytro O. Redchuk @ 2005-04-15 14:07 UTC (permalink / raw)
  To: community

On Thu, Apr 14, 2005 at 11:00:30PM +0400, Aleksey E. Birukov wrote:
> В сообщении от 14 Апрель 2005 22:48 php-coder написал(a):
> > --- Aleksey E. Birukov 2005-04-14 19:08:19 +0400
> > +++ php-coder 2005-04-15 01:46:45 +0700
> >
> > > Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx,
> > > wget, curl. Может не нашел нужной опции?
> >
> >     lynx -dump URL
> >
> >     Все URL'ы в конце страницы... оно?
> Почти...
> Если дороботать sed/awk/cut можно добится нужного мне результата.
> Может еще есть варианты?
> 
> Мне это нужно для составления списка для закачек. Т.е. одним списком url 
> адресов.
А точнее задачу можно сформулировать?-)

ps. Просто в man wget, скажем, есть такое "However, if you specify
	--force-html, the document will be..." (то есть, и думать не
	надо).

> -- 
> $respect

> _______________________________________________
> Community mailing list
> Community@altlinux.ru
> https://lists.altlinux.ru/mailman/listinfo/community


-- 
  _,-=._              /|_/|
  `-.}   `=._,.-=-._.,  @ @._,
     `._ _,-.   )      _,.-'
        `    G.m-"^m`m'        Dmytro O. Redchuk



^ permalink raw reply	[flat|nested] 6+ messages in thread

end of thread, other threads:[~2005-04-15 14:07 UTC | newest]

Thread overview: 6+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2005-04-14 15:08 [Comm] список url-адресов из html файла Aleksey E. Birukov
2005-04-14 18:48 ` php-coder
2005-04-14 19:00   ` Aleksey E. Birukov
2005-04-15  5:02     ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov
2005-04-15 11:38     ` [Comm] список url-адресов из html файла php-coder
2005-04-15 14:07     ` Dmytro O. Redchuk

ALT Linux Community general discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
		mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
	public-inbox-index community

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.community


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git