* [Comm] список url-адресов из html файла @ 2005-04-14 15:08 Aleksey E. Birukov 2005-04-14 18:48 ` php-coder 0 siblings, 1 reply; 6+ messages in thread From: Aleksey E. Birukov @ 2005-04-14 15:08 UTC (permalink / raw) To: community Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx, wget, curl. Может не нашел нужной опции? -- $respect ^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] список url-адресов из html файла 2005-04-14 15:08 [Comm] список url-адресов из html файла Aleksey E. Birukov @ 2005-04-14 18:48 ` php-coder 2005-04-14 19:00 ` Aleksey E. Birukov 0 siblings, 1 reply; 6+ messages in thread From: php-coder @ 2005-04-14 18:48 UTC (permalink / raw) To: community --- Aleksey E. Birukov 2005-04-14 19:08:19 +0400 +++ php-coder 2005-04-15 01:46:45 +0700 > Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx, wget, > curl. Может не нашел нужной опции? lynx -dump URL Все URL'ы в конце страницы... оно? -- + php-coder + php-coder[at]ngs[dot]ru + ALTLinux Master 2.4 (kernel 2.4.26-std-up-alt11) ^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] список url-адресов из html файла 2005-04-14 18:48 ` php-coder @ 2005-04-14 19:00 ` Aleksey E. Birukov 2005-04-15 5:02 ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov ` (2 more replies) 0 siblings, 3 replies; 6+ messages in thread From: Aleksey E. Birukov @ 2005-04-14 19:00 UTC (permalink / raw) To: community В сообщении от 14 Апрель 2005 22:48 php-coder написал(a): > --- Aleksey E. Birukov 2005-04-14 19:08:19 +0400 > +++ php-coder 2005-04-15 01:46:45 +0700 > > > Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx, > > wget, curl. Может не нашел нужной опции? > > lynx -dump URL > > Все URL'ы в конце страницы... оно? Почти... Если дороботать sed/awk/cut можно добится нужного мне результата. Может еще есть варианты? Мне это нужно для составления списка для закачек. Т.е. одним списком url адресов. -- $respect ^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ 2005-04-14 19:00 ` Aleksey E. Birukov @ 2005-04-15 5:02 ` Alexey V. Novikov 2005-04-15 11:38 ` [Comm] список url-адресов из html файла php-coder 2005-04-15 14:07 ` Dmytro O. Redchuk 2 siblings, 0 replies; 6+ messages in thread From: Alexey V. Novikov @ 2005-04-15 5:02 UTC (permalink / raw) To: community 14.04.2005 23:00, Aleksey E. Birukov пишет: > В сообщении от 14 Апрель 2005 22:48 php-coder написал(a): > Почти... > Если дороботать sed/awk/cut можно добится нужного мне результата. > Может еще есть варианты? > > Мне это нужно для составления списка для закачек. Т.е. одним списком url > адресов. Можно попробовать на Perl, типа того (пример для mp3) #!/usr/bin/perl while(<>) { print if s/^.*a\s+href=\"([^"]*)\".*$/$1/i && /\.mp3$/i; } -- WBR, Alexey V. Novikov ^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] список url-адресов из html файла 2005-04-14 19:00 ` Aleksey E. Birukov 2005-04-15 5:02 ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov @ 2005-04-15 11:38 ` php-coder 2005-04-15 14:07 ` Dmytro O. Redchuk 2 siblings, 0 replies; 6+ messages in thread From: php-coder @ 2005-04-15 11:38 UTC (permalink / raw) To: community --- Aleksey E. Birukov 2005-04-14 23:00:30 +0400 +++ php-coder 2005-04-15 18:34:51 +0700 > Если дороботать sed/awk/cut можно добится нужного мне результата. > Может еще есть варианты? Что тут писАть-то?? Какие еще варианты? Задача на пять минут! :)) [c0der@mycomp ~]$ cat get_links.sh #!/bin/sh COUNT_LINKS=`lynx -dump "$1" | tail -1 | tr -s " " | cut -d' ' -f2 | rev | cut -c 2- | rev` echo "Всего ссылок на странице:" $COUNT_LINKS lynx -dump $1 | tail -`echo $COUNT_LINKS` | tr -s " " | cut -d' ' -f3 | grep -e '^[^(javascript|mailto|file)]' > "$1".links.txt Вот и весь ваш скрипт! Работает так: [c0der@mycomp ~]$ ./get_links.sh IRC.html 18:35 Всего ссылок на странице: 68 [c0der@mycomp ~]$ head IRC.html.links.txt 18:36 http://linuxforum.ru/rss.php http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057& http://www.linuxforum.ru/index.php?act=Search&f=26 http://unix.ginras.ru/sitemap.html http://rus-linux.net/ http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=boardrules http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=Login&CODE=00 http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=Reg&CODE=00 http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&act=idx http://www.linuxforum.ru/index.php?s=5263672fd4c15df620aac81e78f28057&showforum=40 [c0der@mycomp ~]$ ОНО? ;-) -- + php-coder + php-coder[at]ngs[dot]ru + ALTLinux Master 2.4 (kernel 2.4.26-std-up-alt11) ^ permalink raw reply [flat|nested] 6+ messages in thread
* Re: [Comm] список url-адресов из html файла 2005-04-14 19:00 ` Aleksey E. Birukov 2005-04-15 5:02 ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov 2005-04-15 11:38 ` [Comm] список url-адресов из html файла php-coder @ 2005-04-15 14:07 ` Dmytro O. Redchuk 2 siblings, 0 replies; 6+ messages in thread From: Dmytro O. Redchuk @ 2005-04-15 14:07 UTC (permalink / raw) To: community On Thu, Apr 14, 2005 at 11:00:30PM +0400, Aleksey E. Birukov wrote: > В сообщении от 14 Апрель 2005 22:48 php-coder написал(a): > > --- Aleksey E. Birukov 2005-04-14 19:08:19 +0400 > > +++ php-coder 2005-04-15 01:46:45 +0700 > > > > > Кто-нибудь знает как получить сабж? Просмотрел на предмет этого lynx, > > > wget, curl. Может не нашел нужной опции? > > > > lynx -dump URL > > > > Все URL'ы в конце страницы... оно? > Почти... > Если дороботать sed/awk/cut можно добится нужного мне результата. > Может еще есть варианты? > > Мне это нужно для составления списка для закачек. Т.е. одним списком url > адресов. А точнее задачу можно сформулировать?-) ps. Просто в man wget, скажем, есть такое "However, if you specify --force-html, the document will be..." (то есть, и думать не надо). > -- > $respect > _______________________________________________ > Community mailing list > Community@altlinux.ru > https://lists.altlinux.ru/mailman/listinfo/community -- _,-=._ /|_/| `-.} `=._,.-=-._., @ @._, `._ _,-. ) _,.-' ` G.m-"^m`m' Dmytro O. Redchuk ^ permalink raw reply [flat|nested] 6+ messages in thread
end of thread, other threads:[~2005-04-15 14:07 UTC | newest] Thread overview: 6+ messages (download: mbox.gz / follow: Atom feed) -- links below jump to the message on this page -- 2005-04-14 15:08 [Comm] список url-адресов из html файла Aleksey E. Birukov 2005-04-14 18:48 ` php-coder 2005-04-14 19:00 ` Aleksey E. Birukov 2005-04-15 5:02 ` [Comm] УРЙУПЛ url-БДТЕУПЧ ЙЪ html ЖБКМБ Alexey V. Novikov 2005-04-15 11:38 ` [Comm] список url-адресов из html файла php-coder 2005-04-15 14:07 ` Dmytro O. Redchuk
ALT Linux Community general discussions This inbox may be cloned and mirrored by anyone: git clone --mirror http://lore.altlinux.org/community/0 community/git/0.git # If you have public-inbox 1.1+ installed, you may # initialize and index your mirror using the following commands: public-inbox-init -V2 community community/ http://lore.altlinux.org/community \ mandrake-russian@linuxteam.iplabs.ru community@lists.altlinux.org community@lists.altlinux.ru community@lists.altlinux.com public-inbox-index community Example config snippet for mirrors. Newsgroup available over NNTP: nntp://lore.altlinux.org/org.altlinux.lists.community AGPL code for this site: git clone https://public-inbox.org/public-inbox.git