Inicio > Servicios > Recursos web > Artículos. ¿Qué son los Robots?

Atrás

Adelante


• ¿Qué son los robots?  

 
  Los robots www, wanderes, crawlers o spiders son pequeños programas mandados, generalmente, por los buscadores (google, yahoo, msn, etc) que analizan o escanean millones de páginas en la red, por lo general saltando de una a otra por medio de los vínculos que cada página les ofrece.
  ¿Qué quiere decir esto?. Pues básicamente que van por la red buscando documentos, una vez encontrado uno, continúan su búsqueda e indexación con los documentos a los que hace referencia el primero.
  Los navegadores de internet, por ejemplo, no son robots ya que son manejados por humanos y no adquieren documentos referenciados automáticamente (a excepción de las imágenes en una página, por ejemplo)
 
¿Para qué se usan?
Esencialmente se utilizan para Indexar, validación html, validación de links y monitoreo de novedades.
 
¿Son malos estos pequeños bichos?
  Pues depende de como estén hechos.
  • Algunos de estos robots pueden llegar a sobresaturar redes y servidores. Esto ocurre principalmente cuando el creador es un inexperto y por lo tanto el comportamiento del robots es bastante impredecible. Actualmente hay suficiente información como para que el que los haga los haga bien y evitar estos problemas.
  • Estos robots a fin de cuentas son programados por humanos y los humanos por lo general cometemos muchos errores o no vemos más allá hacia las implicaciones que puede tener alguna de nuestras acciones. Es por esto que se tiene que ser muy cuidadoso y los autores de los robots tienen que programarlos de modo que sea difícil que la gente cometa errores con consecuencias graves.
  • A pesar de estos puntos en contra, la mayoría de robots están diseñados bastante responsable e inteligentemente, no causan problemas y proveen de un servicio muy valioso que de otra forma sería impensable realizar. De modo que la conclusión podría ser, que los robots no son malos ni buenos por naturaleza, tan solo que necesitan bastante atención.
¿Como deciden en donde buscar?
  Generalmente comienzan desde una base de datos fija de direcciones y de ahí parten expandiéndose basándose en las referencias. Estas bases de datos pueden ser y son por lo general listas de servidores, páginas de 'What New', y los sitios más populares de la red.
   Algunos buscadores ofrecen una sección en la que puedes mandarles tu página para que ellos envíen un pequeño robots a indexarla y agregarla a su base de datos.
 
¿Como decirles a los robots que cosas tienen que indexar y que cosas no tienen que indexar?
  Aquí es donde empieza el asunto un poco más humanamente interactivo, ya que uno como administrador de un sitio puede o no querer que un robot haga que aparezcamos en los buscadores, o tal vez preferimos que cierto contenido no sea indexado (cosas privadas, temporales, páginas en construcción o simplemente no nos de la gana de que aparezcan indexadas) o que por ejemplo sólo ciertos buscadores nos indexen, o evitar que sólo unos cuantos no nos indexen, las posibilidades son bastantes grandes.
   Es entonces cuando entra en juego el famoso archivo "robots.txt" el cual tiene que ser colocado en la raíz de nuestro servidor ya que en el momento que un robot llega a nuestro servidor, busca este archivo para saber que restricciones le hemos dado.
 
El archivo robots.txt
   Es un archivo simple de texto en el que se escriben las instrucciones para los robots, un ejemplo muy simple de lo que podrías poner en tu archivo de texto, para permitir que los robots indexen tu página sería algo como esto:
 
User-Agent: *
Disallow:
 
   Esto lo único que le dice a nuestros amigos robots es que cualquiera de ellos puede indexar lo que le de la gana, ahora que si queremos limitarlos podemos hacerlo de esta otra manera:
 
User-Agent: Googlebot
Disallow: /*.gif
 
   En este caso lo que estamos haciendo es decirle al robot de Google, que no queremos que indexe nuestras imágenes con extensión .gif
   Se pueden hacer muchas combinaciones, según nuestras necesidades, como por ejemplo evitar que indexen algún directorio en particular o cosas más específicas dependiendo de lo que necesitemos.
 
User-Agent: *
Disallow: /images/
Disallow: /stats/
 
   Aquí en este ejemplo les hemos dado las instrucciones a los robots de que pueden indexar todo, excepto los directorios 'images' y 'stats'.
   Se pueden hacer un montón de combinaciones, como ya he dicho, dependiendo de nuestras necesidades.
 
Otro método para comunicarnos con los robots.
   Existe otro método para comunicarnos con los robots, y es por medio de la sección de etiquetas meta-tags de tu página html.
   De esta forma podemos especificar otros parámetros y tener un control más estricto página por página.
   Podemos especificarle por ejemplo si queremos o no que guarde nuestras páginas en el caché del buscador, si queremos que las indexe, si le permitimos o no el seguir los vínculos de nuestra página. Estos son algunos ejemplos:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

  Esta etiqueta le dice a cualquier robot que no quieres que indexe tu página y que ni se le ocurra seguir los links.

<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">

  En esta otra etiqueta le damos instrucciones al robot de Google de que no quieres que indexe tu página y que no siga los links.

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

  Usando esta etiqueta los robots indexaran la página pero no rastrearán los vínculos salientes.
  Hay muchas etiquetas meta-tags que se pueden crear para comunicarnos con los robots, pero sirvan estas tres como ejemplos ya que si no este artículo sería interminable, y quizá demasiado aburrido.
 
¿Todos los robots son amables?
   Pues lamentablemente no. Hay muchos robots que son realmente rebeldes y les importa un 'comino' todo lo que hayas hecho para restringirlos, pero en fin, eso ya queda en la conciencia del robot 'malcriado', por lo pronto esto está escrito para los robots de buena crianza que saben que hacer con tus contenidos y evitarte esos molestos reportes de error de 'archivo no encontrado' en tu servidor.

· Fuente: Alquimistas del Diseño

 
... algunos robots de la red:
· Robots de Búsqueda
· Google >  googlebot · Yahoo>  yahoo-slurp
· MSN Search>  msnbot · Ask/Teoma>  teoma
· GigaBlast>  gigabot · Scrub The Web>  scrubby
· DMOZ Checher>  robozilla · Nutch>  nutch
· Alexa>  ia_archiver
 
· Robots especiales
· Google image> googlebot-image · Yahoo MM> yahoo-mmcrawler
· MSN Pic Search> psbot · SinginfFish> asterias
· Yahoo Blogs> yahoo-blogs/v3.9
 

Publicidad



Publicidad


 

^Arriba^ Subir

(cc) Web del Arrago 2004-2008 | Aviso Legal | Contacto | Privacidad | Acerca de este sitio | Mapa web | RSS