[Ayuda] Prohibir que descarguen html
Octavio Ruiz (Ta^3)
ohrc en prodigy.net.mx
Lun Ago 9 09:39:57 CDT 2004
Antonio Tellez Flores, who happens to be smarter than you, thinks:
> Saludos
>
> > necesito prohibir que me hagan descargas masivas de mi html de mi web site.
> > Hay herramientas como el teleport pro y otras mas que descargan la web con todo
> > y figuras...bueno deseo evitar esto.
>
> Puedes utilizar "Robots Exclusion" en tu website para evitar esto. Es
> sencillo, 'unicamente tienes que crear un archivo robots.txt y ponerlo
> en el nivel superior de tu sitio, con esto evitas que puedan hacer
> descargas masivas.
Mmmm...
>
> Un ejemplo que podr'ia servirte es al siguiente:
>
> User-agent: *
> Disallow: /
>
> Puedes ser esto a un nivel mas fino. Hay mas informaci'on al respecto
> en:
>
> http://www.robotstxt.org/wc/robots.html
% info wget
Wgetrc Commands
================
robots = on/off
Specify whether the norobots convention is respected by Wget, "on"
by default. This switch controls both the `/robots.txt' and the
`nofollow' aspect of the spec. *Note Robot Exclusion::, for
more details about this. Be sure you know what you are doing
before turning this off.
Robot Exclusion
===============
If you know what you are doing and really really wish to turn off the
robot exclusion, set the `robots' variable to `off' in your `.wgetrc'.
You can achieve the same effect from the command line using the `-e'
switch, e.g. `wget -e robots=off URL...'.
> Hasta la vista.
Aunque puede ser una solución, muchos programas (aquí solo como ejemplo
wget) tienen la opción o simplemente no respetan `robots.txt` por lo que no
resuelve del todo el problema. :-S
_______________________________________________
Ayuda mailing list
Ayuda en linux.org.mx
Para salir de la lista: http://mail.linux.org.mx/cgi-bin/mailman/listinfo/ayuda/
Más información sobre la lista de distribución Ayuda