[Ayuda] Prohibir que descarguen html

Octavio Ruiz (Ta^3) ohrc en prodigy.net.mx
Lun Ago 9 09:39:57 CDT 2004


Antonio Tellez Flores, who happens to be smarter than you, thinks:
> Saludos
> 
> > necesito prohibir que me hagan descargas masivas de mi html de mi web site.
> > Hay herramientas como el teleport pro y otras mas que descargan la web con todo
> > y figuras...bueno deseo evitar esto.
> 
> Puedes utilizar "Robots Exclusion" en tu website para evitar esto. Es
> sencillo, 'unicamente tienes que crear un archivo robots.txt y ponerlo
> en el nivel superior de tu sitio, con esto evitas que puedan hacer
> descargas masivas.

Mmmm...

> 
> Un ejemplo que podr'ia servirte es al siguiente:
> 
> User-agent: *
> Disallow: /
> 
> Puedes ser esto a un nivel mas fino. Hay mas informaci'on al respecto
> en:
> 
> http://www.robotstxt.org/wc/robots.html


% info wget

Wgetrc Commands
================

robots = on/off
   Specify whether the norobots convention is respected by Wget, "on"
   by default.  This switch controls both the `/robots.txt' and the
  `nofollow' aspect of the spec.  *Note Robot Exclusion::, for 
   more details about this.  Be sure you know what you are doing
   before turning this off.

Robot Exclusion
===============

   If you know what you are doing and really really wish to turn off the
   robot exclusion, set the `robots' variable to `off' in your `.wgetrc'.
   You can achieve the same effect from the command line using the `-e'
   switch, e.g. `wget -e robots=off URL...'.
                         
> Hasta la vista.

Aunque puede ser una solución, muchos programas (aquí solo como ejemplo
wget) tienen la opción o simplemente no respetan `robots.txt` por lo que no
resuelve del todo el problema. :-S

 
_______________________________________________
Ayuda mailing list
Ayuda en linux.org.mx
Para salir de la lista: http://mail.linux.org.mx/cgi-bin/mailman/listinfo/ayuda/



Más información sobre la lista de distribución Ayuda