* [Comm] список url-адресов из html файла
@ 2005-04-14 15:08 Aleksey E. Birukov
2005-04-14 18:48 ` php-coder
0 siblings, 1 reply; 6+ messages in thread
From: Aleksey E. Birukov @ 2005-04-14 15:08 UTC (permalink / raw)
To: community
Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx, wget,
curl. Может не нашел нужной опции?
--
$respect
^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] список url-адресов из html файла
2005-04-14 15:08 [Comm] список url-адресов из html файла Aleksey E. Birukov
@ 2005-04-14 18:48 ` php-coder
2005-04-14 19:00 ` Aleksey E. Birukov
0 siblings, 1 reply; 6+ messages in thread
From: php-coder @ 2005-04-14 18:48 UTC (permalink / raw)
To: community
--- Aleksey E. Birukov 2005-04-14 19:08:19 +0400
+++ php-coder 2005-04-15 01:46:45 +0700
> Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx, wget,
> curl. Может не нашел нужной опции?
lynx -dump URL
Все URL'ы в конце страницы... оно?
--
+ php-coder
+ php-coder[at]ngs[dot]ru
+ ALTLinux Master 2.4 (kernel 2.4.26-std-up-alt11)
^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] список url-адресов из html файла
2005-04-14 18:48 ` php-coder
@ 2005-04-14 19:00 ` Aleksey E. Birukov
2005-04-15 5:02 ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov
` (2 more replies)
0 siblings, 3 replies; 6+ messages in thread
From: Aleksey E. Birukov @ 2005-04-14 19:00 UTC (permalink / raw)
To: community
В сообщении от 14 Апрель 2005 22:48 php-coder написал(a):
> --- Aleksey E. Birukov 2005-04-14 19:08:19 +0400
> +++ php-coder 2005-04-15 01:46:45 +0700
>
> > Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx,
> > wget, curl. Может не нашел нужной опции?
>
> lynx -dump URL
>
> Все URL'ы в конце страницы... оно?
Почти...
Если дороботать sed/awk/cut можно добится нужного мне результата.
Может еще есть варианты?
Мне это нужно для составления списка для закачек. Т.е. одним списком url
адресов.
--
$respect
^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ
2005-04-14 19:00 ` Aleksey E. Birukov
@ 2005-04-15 5:02 ` Alexey V. Novikov
2005-04-15 11:38 ` [Comm] список url-адресов из html файла php-coder
2005-04-15 14:07 ` Dmytro O. Redchuk
2 siblings, 0 replies; 6+ messages in thread
From: Alexey V. Novikov @ 2005-04-15 5:02 UTC (permalink / raw)
To: community
14.04.2005 23:00, Aleksey E. Birukov пишет:
> В сообщении от 14 Апрель 2005 22:48 php-coder написал(a):
> Почти...
> Если дороботать sed/awk/cut можно добится нужного мне результата.
> Может еще есть варианты?
>
> Мне это нужно для составления списка для закачек. Т.е. одним списком url
> адресов.
Можно попробовать на Perl, типа того (пример для mp3)
#!/usr/bin/perl
while(<>)
{
print if s/^.*a\s+href=\"([^"]*)\".*$/$1/i && /\.mp3$/i;
}
--
WBR, Alexey V. Novikov
^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] список url-адресов из html файла
2005-04-14 19:00 ` Aleksey E. Birukov
2005-04-15 5:02 ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov
@ 2005-04-15 11:38 ` php-coder
2005-04-15 14:07 ` Dmytro O. Redchuk
2 siblings, 0 replies; 6+ messages in thread
From: php-coder @ 2005-04-15 11:38 UTC (permalink / raw)
To: community
--- Aleksey E. Birukov 2005-04-14 23:00:30 +0400
+++ php-coder 2005-04-15 18:34:51 +0700
> Если дороботать sed/awk/cut можно добится нужного мне результата.
> Может еще есть варианты?
Что тут писАть-то?? Какие еще варианты? Задача на пять минут! :))
[c0der@mycomp ~]$ cat get_links.sh
#!/bin/sh
COUNT_LINKS=`lynx -dump "$1" | tail -1 | tr -s " " | cut -d' ' -f2 | rev
| cut -c 2- | rev`
echo "Всего ссылок на странице:" $COUNT_LINKS
lynx -dump $1 | tail -`echo $COUNT_LINKS` | tr -s " " | cut -d' ' -f3
| grep -e '^[^(javascript|mailto|file)]' > "$1".links.txt
Вот и весь ваш скрипт! Работает так:
[c0der@mycomp ~]$ ./get_links.sh IRC.html
18:35
Всего ссылок на странице: 68
[c0der@mycomp ~]$ head IRC.html.links.txt
18:36
http://linuxforum.ru/rss.php
http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&
http://www.linuxforum.ru/index.php?act=Search&f=26
http://unix.ginras.ru/sitemap.html
http://rus-linux.net/
http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=boardrules
http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=Login&CODE=00
http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=Reg&CODE=00
http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=idx
http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&showforum=40
[c0der@mycomp ~]$
ОНО? ;-)
--
+ php-coder
+ php-coder[at]ngs[dot]ru
+ ALTLinux Master 2.4 (kernel 2.4.26-std-up-alt11)
^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] список url-адресов из html файла
2005-04-14 19:00 ` Aleksey E. Birukov
2005-04-15 5:02 ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov
2005-04-15 11:38 ` [Comm] список url-адресов из html файла php-coder
@ 2005-04-15 14:07 ` Dmytro O. Redchuk
2 siblings, 0 replies; 6+ messages in thread
From: Dmytro O. Redchuk @ 2005-04-15 14:07 UTC (permalink / raw)
To: community
On Thu, Apr 14, 2005 at 11:00:30PM +0400, Aleksey E. Birukov wrote:
> В сообщении от 14 Апрель 2005 22:48 php-coder написал(a):
> > --- Aleksey E. Birukov 2005-04-14 19:08:19 +0400
> > +++ php-coder 2005-04-15 01:46:45 +0700
> >
> > > Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx,
> > > wget, curl. Может не нашел нужной опции?
> >
> > lynx -dump URL
> >
> > Все URL'ы в конце страницы... оно?
> Почти...
> Если дороботать sed/awk/cut можно добится нужного мне результата.
> Может еще есть варианты?
>
> Мне это нужно для составления списка для закачек. Т.е. одним списком url
> адресов.
А точнее задачу можно сформулировать?-)
ps. Просто в man wget, скажем, есть такое "However, if you specify
--force-html, the document will be..." (то есть, и думать не
надо).
> --
> $respect
> _______________________________________________
> Community mailing list
> Community@altlinux.ru
> https://lists.altlinux.ru/mailman/listinfo/community
--
_,-=._ /|_/|
`-.} `=._,.-=-._., @ @._,
`._ _,-. ) _,.-'
` G.m-"^m`m' Dmytro O. Redchuk
^ permalink raw reply [flat|nested] 6+ messages in thread
end of thread, other threads:[~2005-04-15 14:07 UTC | newest]
Thread overview: 6+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2005-04-14 15:08 [Comm] список url-адресов из html файла Aleksey E. Birukov
2005-04-14 18:48 ` php-coder
2005-04-14 19:00 ` Aleksey E. Birukov
2005-04-15 5:02 ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov
2005-04-15 11:38 ` [Comm] список url-адресов из html файла php-coder
2005-04-15 14:07 ` Dmytro O. Redchuk
ALT Linux Community general discussions
This inbox may be cloned and mirrored by anyone:
git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git
# If you have public-inbox 1.1+ installed, you may
# initialize and index your mirror using the following commands:
public-inbox-init -V2 community community/ http://lore.altlinux.org/community \
mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com
public-inbox-index community
Example config snippet for mirrors.
Newsgroup available over NNTP:
nntp://lore.altlinux.org/org.altlinux.lists.community
AGPL code for this site: git clone https://public-inbox.org/public-inbox.git