Культурный офтопик
 help / color / mirror / Atom feed
* [room] robots.txt
@ 2005-07-16 10:35 Nick Grechukh
  2005-07-16 12:20 ` Eugene Ostapets
  0 siblings, 1 reply; 13+ messages in thread
From: Nick Grechukh @ 2005-07-16 10:35 UTC (permalink / raw)
  To: smoke-room

http://www.securitylab.ru/55873.html

разве robots.txt это "техническое ограничение"? это ж просто совет роботам

_______________________________________________________________
Пришло время отдохнуть!!!! http://www.sputnik.kiev.ua/?ito=837&itc=1




^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-16 10:35 [room] robots.txt Nick Grechukh
@ 2005-07-16 12:20 ` Eugene Ostapets
  2005-07-16 13:12   ` Andrey Rahmatullin
  0 siblings, 1 reply; 13+ messages in thread
From: Eugene Ostapets @ 2005-07-16 12:20 UTC (permalink / raw)
  To: smoke-room

16.07.05, Nick Grechukh<nick.grechukh bigmir.net> написал(а):
> http://www.securitylab.ru/55873.html
> 
> разве robots.txt это "техническое ограничение"? это ж просто совет роботам
На сколько я помню - это требование к системам индексирования не
трогать указанные каталоги...

-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-16 12:20 ` Eugene Ostapets
@ 2005-07-16 13:12   ` Andrey Rahmatullin
  2005-07-16 14:25     ` Eugene Ostapets
  0 siblings, 1 reply; 13+ messages in thread
From: Andrey Rahmatullin @ 2005-07-16 13:12 UTC (permalink / raw)
  To: smoke-room

[-- Attachment #1: Type: text/plain, Size: 331 bytes --]

On Sat, Jul 16, 2005 at 03:20:48PM +0300, Eugene Ostapets wrote:
> На сколько я помню - это требование к системам индексирования не
Так вот "требование" или совет?


-- 
WBR, wRAR (ALT Linux Team)
Powered by the ALT Linux fortune(8):

Продолжение - в talk-room@, на который я, правда, не подписан.
		-- ldv in sisyphus@

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-16 13:12   ` Andrey Rahmatullin
@ 2005-07-16 14:25     ` Eugene Ostapets
  2005-07-17  5:23       ` Nick S. Grechukh
  0 siblings, 1 reply; 13+ messages in thread
From: Eugene Ostapets @ 2005-07-16 14:25 UTC (permalink / raw)
  To: smoke-room

16.07.05, Andrey Rahmatullin<wrar altlinux.ru> написал(а):
> On Sat, Jul 16, 2005 at 03:20:48PM +0300, Eugene Ostapets wrote:
> > На сколько я помню - это требование к системам индексирования не
> Так вот "требование" или совет?
То, что читал я - звучало как требование...

-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-16 14:25     ` Eugene Ostapets
@ 2005-07-17  5:23       ` Nick S. Grechukh
  2005-07-17  8:46         ` Eugene Ostapets
  0 siblings, 1 reply; 13+ messages in thread
From: Nick S. Grechukh @ 2005-07-17  5:23 UTC (permalink / raw)
  To: smoke-room

Eugene Ostapets wrote:
> 16.07.05, Andrey Rahmatullin<wrar altlinux.ru> написал(а):
>> On Sat, Jul 16, 2005 at 03:20:48PM +0300, Eugene Ostapets wrote:
>> > На сколько я помню - это требование к системам индексирования не
>> Так вот "требование" или совет?
> То, что читал я - звучало как требование...

на самом деле, все равно это не может рассматриваться как средство защиты и
соответственно его обхода не было (а если агент не поддерживает robot
exclusion standart? в протоколе http robots.txt не описан :-)

вот когда baida.ru не отдает wget'у 403, и я делаю wget -u Mozilla - это
"взлом" для dmca. потому что server side ограничение.




^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-17  5:23       ` Nick S. Grechukh
@ 2005-07-17  8:46         ` Eugene Ostapets
  2005-07-17  9:51           ` Nick S. Grechukh
  0 siblings, 1 reply; 13+ messages in thread
From: Eugene Ostapets @ 2005-07-17  8:46 UTC (permalink / raw)
  To: smoke-room

17.07.05, Nick S. Grechukh<nick.grechukh bigmir.net> написал(а):
> Eugene Ostapets wrote:
> >> > На сколько я помню - это требование к системам индексирования не
> >> Так вот "требование" или совет?
> > То, что читал я - звучало как требование...
> на самом деле, все равно это не может рассматриваться как средство защиты и
> соответственно его обхода не было (а если агент не поддерживает robot
> exclusion standart? в протоколе http robots.txt не описан :-)
Я думаю что юристы будут не так однозначны в трактовании этого файла... 
> 
> вот когда baida.ru не отдает wget'у 403, и я делаю wget -u Mozilla - это
> "взлом" для dmca. потому что server side ограничение.
Хорошо что напомнили:
man wget:
------- skip ------
Wget can follow links in HTML and XHTML pages and create local versions
of remote web sites, fully recreating the directory structure of the
original site.  This is sometimes referred to as ``recursive download-
ing.''  While doing that, Wget respects the Robot Exclusion Standard
(/robots.txt).  Wget can be instructed to convert the links in down-
loaded HTML files to the local files for offline viewing.
------- skip ------

-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-17  8:46         ` Eugene Ostapets
@ 2005-07-17  9:51           ` Nick S. Grechukh
  2005-07-17 19:49             ` Aleksey Korotkov
  0 siblings, 1 reply; 13+ messages in thread
From: Nick S. Grechukh @ 2005-07-17  9:51 UTC (permalink / raw)
  To: smoke-room

Eugene Ostapets wrote:
> 17.07.05, Nick S. Grechukh<nick.grechukh bigmir.net> написал(а):
>> Eugene Ostapets wrote:
>> на самом деле, все равно это не может рассматриваться как средство защиты
>> и соответственно его обхода не было (а если агент не поддерживает robot
>> exclusion standart? в протоколе http robots.txt не описан :-)
> Я думаю что юристы будут не так однозначны в трактовании этого файла...

дык я ж схему защиты предлагаю :) нужно доказать что их паук НЕ скачал этот 
файл (а качать не обязан). vs. скачал но не послушался.




^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-17  9:51           ` Nick S. Grechukh
@ 2005-07-17 19:49             ` Aleksey Korotkov
  2005-07-18  4:23               ` Eugene Ostapets
  0 siblings, 1 reply; 13+ messages in thread
From: Aleksey Korotkov @ 2005-07-17 19:49 UTC (permalink / raw)
  To: культурный
	офтопик

On Sun, 17 Jul 2005 12:51:12 +0300
Nick S. Grechukh wrote:

NSG> дык я ж схему защиты предлагаю :) нужно доказать что их паук НЕ
NSG> скачал этот файл (а качать не обязан). vs. скачал но не послушался.

wget'у, например, легко сказать -- качать robots.txt или нет:

[ziga@localhost etc]$ cat wgetrc |grep -A 2 robots.txt
# Setting this to off makes Wget not download /robots.txt.  Be sure to
# know *exactly* what /robots.txt is and how it is used before changing
# the default!
#robots = on

-- 
С уважением,
Алексей Коротков

mailto:ziga@uni.udm.ru


^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-17 19:49             ` Aleksey Korotkov
@ 2005-07-18  4:23               ` Eugene Ostapets
  2005-07-18 14:25                 ` Andrey Rahmatullin
  0 siblings, 1 reply; 13+ messages in thread
From: Eugene Ostapets @ 2005-07-18  4:23 UTC (permalink / raw)
  To: smoke-room

17.07.05, Aleksey Korotkov<ziga udm.net> написал(а):
> NSG> дык я ж схему защиты предлагаю :) нужно доказать что их паук НЕ
> NSG> скачал этот файл (а качать не обязан). vs. скачал но не послушался.
> 
> wget'у, например, легко сказать -- качать robots.txt или нет:
Сказать можно, но по тому же ману от wget данный файл записан как
СТАНДАРТ указания роботам что именно они не имеют права качать...

-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-18  4:23               ` Eugene Ostapets
@ 2005-07-18 14:25                 ` Andrey Rahmatullin
  2005-07-18 14:42                   ` Eugene Ostapets
  2005-07-18 15:42                   ` Michael Shigorin
  0 siblings, 2 replies; 13+ messages in thread
From: Andrey Rahmatullin @ 2005-07-18 14:25 UTC (permalink / raw)
  To: smoke-room

[-- Attachment #1: Type: text/plain, Size: 718 bytes --]

On Mon, Jul 18, 2005 at 07:23:01AM +0300, Eugene Ostapets wrote:
> Сказать можно, но по тому же ману от wget данный файл записан как
> СТАНДАРТ указания роботам что именно они не имеют права качать...
По-моему, кому-то заинтересованному уже пора поискать-таки, что про это
пишуть в стандартах... А то пока не особо аргументироанно получается. Ман
- не аргумент.


-- 
WBR, wRAR (ALT Linux Team)
Powered by the ALT Linux fortune(8):

<AMike[HOME]> AMorozov, hiddenman, в конце концов, вы уже должны были привыкнуть к ключам, ведь вы ps запускаете не со срокой параметров вида "ps все пользоватеские процессы показать с со строкой параметров"
<AMorozov> AMike[HOME]: я не пускаю PS, я нажимаю С-Escape ;-)

[-- Attachment #2: Type: application/pgp-signature, Size: 189 bytes --]

^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-18 14:25                 ` Andrey Rahmatullin
@ 2005-07-18 14:42                   ` Eugene Ostapets
  2005-07-18 15:42                   ` Michael Shigorin
  1 sibling, 0 replies; 13+ messages in thread
From: Eugene Ostapets @ 2005-07-18 14:42 UTC (permalink / raw)
  To: smoke-room

18.07.05, Andrey Rahmatullin<wrar altlinux.ru> написал(а):
> On Mon, Jul 18, 2005 at 07:23:01AM +0300, Eugene Ostapets wrote:
> > Сказать можно, но по тому же ману от wget данный файл записан как
> > СТАНДАРТ указания роботам что именно они не имеют права качать...
> По-моему, кому-то заинтересованному уже пора поискать-таки, что про это
> пишуть в стандартах... А то пока не особо аргументироанно получается. Ман
> - не аргумент.
Заинтересованных в курилке нет :)
И, если, этот текст повторен еще в паре программ, а я могу назвать еще
одну - TeleportPro, то эотго хватит для суда чтобы признать
доказательства (те самые сохраненные в кэше страницы) добытыми
незаконным путем...

-- 
С уважением,
Евгений Остапец
uin: 23747217
jid: eugene_ostapets@jabber.ru

^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-18 14:25                 ` Andrey Rahmatullin
  2005-07-18 14:42                   ` Eugene Ostapets
@ 2005-07-18 15:42                   ` Michael Shigorin
  2005-07-18 15:50                     ` Nick S. Grechukh
  1 sibling, 1 reply; 13+ messages in thread
From: Michael Shigorin @ 2005-07-18 15:42 UTC (permalink / raw)
  To: smoke-room

On Mon, Jul 18, 2005 at 08:25:18PM +0600, Andrey Rahmatullin wrote:
> По-моему, кому-то заинтересованному уже пора поискать-таки, что
> про это пишуть в стандартах... А то пока не особо
> аргументироанно получается. Ман - не аргумент.

Блин.  Это такой же proposal, как и любой RFC.
http://www.robotstxt.org/wc/exclusion.html

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 13+ messages in thread

* Re: [room] robots.txt
  2005-07-18 15:42                   ` Michael Shigorin
@ 2005-07-18 15:50                     ` Nick S. Grechukh
  0 siblings, 0 replies; 13+ messages in thread
From: Nick S. Grechukh @ 2005-07-18 15:50 UTC (permalink / raw)
  To: smoke-room

В сообщении от Понедельник 18 Июль 2005 18:42 Michael Shigorin написал(a):
> On Mon, Jul 18, 2005 at 08:25:18PM +0600, Andrey Rahmatullin wrote:
> > По-моему, кому-то заинтересованному уже пора поискать-таки, что
> > про это пишуть в стандартах... А то пока не особо
> > аргументироанно получается. Ман - не аргумент.
> Блин.  Это такой же proposal, как и любой RFC.
> http://www.robotstxt.org/wc/exclusion.html
ну типа да. 
many Web Robots offer facilities for Web site administrators and content 
providers to limit what the robot does. 

Note that these methods rely on cooperation from the Robot, and are by no 
means guaranteed to work for every Robot. If you need stronger protection 
from robots and other agents, you should use alternative methods such as 
password protection.

но произвольный http агент совершенно не обязан что-либо знать о robots.txt.

^ permalink raw reply	[flat|nested] 13+ messages in thread

end of thread, other threads:[~2005-07-18 15:50 UTC | newest]

Thread overview: 13+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2005-07-16 10:35 [room] robots.txt Nick Grechukh
2005-07-16 12:20 ` Eugene Ostapets
2005-07-16 13:12   ` Andrey Rahmatullin
2005-07-16 14:25     ` Eugene Ostapets
2005-07-17  5:23       ` Nick S. Grechukh
2005-07-17  8:46         ` Eugene Ostapets
2005-07-17  9:51           ` Nick S. Grechukh
2005-07-17 19:49             ` Aleksey Korotkov
2005-07-18  4:23               ` Eugene Ostapets
2005-07-18 14:25                 ` Andrey Rahmatullin
2005-07-18 14:42                   ` Eugene Ostapets
2005-07-18 15:42                   ` Michael Shigorin
2005-07-18 15:50                     ` Nick S. Grechukh

Культурный офтопик

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/smoke-room/0 smoke-room/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 smoke-room smoke-room/ http://lore.altlinux.org/smoke-room \
		smoke-room@lists.altlinux.org smoke-room@lists.altlinux.ru smoke-room@lists.altlinux.com smoke-room@altlinux.ru smoke-room@altlinux.org smoke-room@altlinux.com
	public-inbox-index smoke-room

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.smoke-room


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git