EL ARCHIVO ROBOTS.TXT
MANTENGA A LOS ROBOTS LEJOS DE SU SITIO WEB
Ud. sabe que los motores de búsqueda han sido creados para ayudarle a la gente a encontrar información fácilmente en Internet, y los motores de búsqueda adquieren mucha de la información que proporcinan, por medio de robots (también conocidos como arañas),
que buscan páginas para ellos.
Los robots araña exploran la red buscando y grabando toda clase de informacion. Ellos generalmente comienzan a partir de una URL que les ha sido enviada por un usuario,
o desde los links (enlaces o vínculos) desde otros sitios web, la páginas índice (o sitemaps), o el nivel superior de un sitio.
Una vez que el robot accede a la página de inicio, entonces continúa accediendo a todas las páginas que son mencionadas en la misma. Pero los robots también pueden encontrar todas las páginas que se encuentran en un determinado servidor.
Cuando un robot encuentra una página web, comienza a indexar su título, palabras clave, texto, etc. Pero algunas veces, Usted deseará evitar que algunas de sus páginas web sean encontradas, como por ejemplo páginas de noticias o páginas de afiliados, pero que los robots satisfagan o no sus deseos, queda sujeto a la voluntad de ellos.
PROTOCOLO DE EXCLUSION DE ROBOTS
Por lo tanto si Ud. desea que los robots se mantengan apartados de algunas de sus páginas, puede pedirles que ignoren las páginas que no desea que visiten, y para poder hacerlo deber crear un archivo llamado robots.txt y colocarlo en la raiz del servidor de sus sitio web.
Por ejemplo si tiene Ud. una carpeta o directorio llamado e-books y desea que los robots se mantengan apartados de la misma, su archivo robots.txt debe decir:
User-agent: * Disallow: e-books/
Cuando Ud. no tiene suficiente control sobre su servidor como para colocarle un archivo robots.txt, entonces puede agregarle META etiquetas a la sección head de cualquier documento HTML.
Por ejemplo, una etiqueta como la siguiente le dice a los robots que no indexen y no miren los links que se encuentran en una página en particular:
meta name="ROBOTS" content="NOINDEX, NOFOLLOW"
El hecho de leer y aceptar el contenido de las META etiquetas, no se encuentra tan difundido como el protocolo para la exclusion de robots, pero la mayoría de los grandes motores de búsqueda lo tienen.
COLOCANDO NOTICIAS EN USENET
Si Ud. desea que los motores de búsqueda se mantengan alejados de las noticias que publica en USENET,
puede crear una línea en el encabezado de sus archivos con el siguiente contenido:
X-no-archive: yes
Pero aunque los clientes de noticias conocidos le permiten agregar una línea X-no-archive
a los encabezados de las noticias que se publican; algunos de ellos no permiten hacerlo.
El problema está en que la mayoría de los motores de búsqueda asumen que toda la información que encuentran es pública, salvo que se les indique lo contrario.
Asi que tenga cuidado, puesto que aunque los protocolos estandard para la exclusión de robots pueden proteger su material a salvo de los grandes motores de búsqueda, existen muchos otros que no respetan esas reglas.
Si a Ud. le preocupa mucho la privacidad de sus publicaciones en Usenet, debe utilizar algunos de los re-enviadores de email anónimos. Puede leer al respecto aqui:
http://www.well.com/user/abacard/remail.html http://www.io.com/~combs/htmls/crypto.html
http://world.std.com/~franl/pgp/
Aún si no se encuentra particularmente preocupado por la privacía de sus contenidos, recuerdeq que cualquier cosa que escriba puede ser indexada y archivada en algun lugar para toda la eternidad,
asi que le aconsejo que utilice el archivo robots.txt tanto como lo necesite.
Escrito por el Dr. Roberto A. Bonomi