| |
|
Los robots www, wanderes, crawlers o spiders son
pequeños programas mandados, generalmente, por los
buscadores (google, yahoo, msn, etc) que analizan o
escanean millones de páginas en la red, por lo
general saltando de una a otra por medio de los
vínculos que cada página les ofrece. |
|
¿Qué quiere decir esto?. Pues básicamente que van
por la red buscando documentos, una vez encontrado
uno, continúan su búsqueda e indexación con los
documentos a los que hace referencia el primero. |
|
Los navegadores de internet, por ejemplo, no son
robots ya que son manejados por humanos y no adquieren
documentos referenciados automáticamente (a
excepción de las imágenes en una página, por
ejemplo) |
| |
| ¿Para
qué se usan? |
| Esencialmente
se utilizan para Indexar, validación html,
validación de links y monitoreo de novedades. |
| |
| ¿Son
malos estos pequeños bichos? |
|
Pues depende de como estén hechos. |
- Algunos de estos
robots pueden llegar a sobresaturar redes y
servidores. Esto ocurre principalmente cuando el
creador es un inexperto y por lo tanto el
comportamiento del robots es bastante
impredecible. Actualmente hay suficiente
información como para que el que los haga los
haga bien y evitar estos problemas.
|
- Estos robots a fin
de cuentas son programados por humanos y los
humanos por lo general cometemos muchos errores o
no vemos más allá hacia las implicaciones que
puede tener alguna de nuestras acciones. Es por
esto que se tiene que ser muy cuidadoso y los
autores de los robots tienen que programarlos de
modo que sea difícil que la gente cometa errores
con consecuencias graves.
|
- A pesar de estos
puntos en contra, la mayoría de robots están
diseñados bastante responsable e
inteligentemente, no causan problemas y proveen de
un servicio muy valioso que de otra forma sería
impensable realizar. De modo que la conclusión
podría ser, que los robots no son malos ni buenos
por naturaleza, tan solo que necesitan bastante
atención.
|
| ¿Como
deciden en donde buscar? |
|
Generalmente comienzan desde una base de datos fija de
direcciones y de ahí parten expandiéndose basándose
en las referencias. Estas bases de datos pueden ser y
son por lo general listas de servidores, páginas de 'What
New', y los sitios más populares de la red. |
|
Algunos
buscadores ofrecen una sección en la que puedes
mandarles tu página para que ellos envíen un
pequeño robots a indexarla y agregarla a su base de
datos. |
| |
| ¿Como
decirles a los robots que cosas tienen que indexar y que
cosas no tienen que indexar? |
|
Aquí es donde
empieza el asunto un poco más humanamente interactivo,
ya que uno como administrador de un sitio puede o no
querer que un robot haga que aparezcamos en los
buscadores, o tal vez preferimos que cierto contenido no
sea indexado (cosas privadas, temporales, páginas en
construcción o simplemente no nos de la gana de que
aparezcan indexadas) o que por ejemplo sólo ciertos
buscadores nos indexen, o evitar que sólo unos cuantos
no nos indexen, las posibilidades son bastantes grandes. |
|
Es entonces cuando entra en juego el famoso archivo
"robots.txt" el cual tiene que ser colocado en
la raíz de nuestro servidor ya que en el momento que un
robot llega a nuestro servidor, busca este archivo para
saber que restricciones le hemos dado. |
|
|
| El
archivo robots.txt |
|
Es un archivo simple de texto en el que se escriben las
instrucciones para los robots, un ejemplo muy simple de
lo que podrías poner en tu archivo de texto, para
permitir que los robots indexen tu página sería algo
como esto: |
|
|
|
Esto lo único que le dice a nuestros amigos robots es
que cualquiera de ellos puede indexar lo que le de la
gana, ahora que si queremos limitarlos podemos hacerlo
de esta otra manera: |
| |
| User-Agent: Googlebot |
| Disallow: /*.gif |
| |
|
|
En este caso lo que estamos haciendo es decirle al robot
de Google, que no queremos que indexe nuestras imágenes
con extensión .gif |
|
Se pueden hacer muchas combinaciones, según nuestras
necesidades, como por ejemplo evitar que indexen algún
directorio en particular o cosas más específicas
dependiendo de lo que necesitemos. |
| |
| User-Agent: * |
| Disallow:
/images/ |
| Disallow:
/stats/ |
| |
|
|
Aquí en este ejemplo les hemos dado las instrucciones a
los robots de que pueden indexar todo, excepto los
directorios 'images' y 'stats'. |
|
Se pueden hacer un montón de combinaciones, como ya he
dicho, dependiendo de nuestras necesidades. |
| |
| Otro
método para comunicarnos con los robots. |
|
Existe otro método para comunicarnos con los robots, y
es por medio de la sección de etiquetas meta-tags de tu
página html. |
|
De esta forma podemos especificar otros parámetros y
tener un control más estricto página por página. |
|
Podemos especificarle por ejemplo si queremos o no que
guarde nuestras páginas en el caché del buscador, si
queremos que las indexe, si le permitimos o no el seguir
los vínculos de nuestra página. Estos son algunos
ejemplos: |
|
<META NAME="ROBOTS"
CONTENT="NOINDEX, NOFOLLOW"> |
|
| Esta
etiqueta le dice a cualquier robot que no quieres que
indexe tu página y que ni se le ocurra seguir los
links. |
|
<META NAME="GOOGLEBOT"
CONTENT="NOINDEX, NOFOLLOW"> |
|
| En
esta otra etiqueta le damos instrucciones al robot de
Google de que no quieres que indexe tu página y que no
siga los links. |
|
<META NAME="ROBOTS"
CONTENT="NOFOLLOW"> |
|
|
Usando esta etiqueta los robots indexaran la página
pero no rastrearán los vínculos salientes. |
| Hay
muchas etiquetas meta-tags que se pueden crear para
comunicarnos con los robots, pero sirvan estas tres como
ejemplos ya que si no este artículo sería
interminable, y quizá demasiado aburrido. |
| |
| ¿Todos
los robots son amables? |
|
Pues lamentablemente no. Hay muchos robots que son
realmente rebeldes y les importa un 'comino' todo lo que
hayas hecho para restringirlos, pero en fin, eso ya
queda en la conciencia del robot 'malcriado', por lo
pronto esto está escrito para los robots de buena
crianza que saben que hacer con tus contenidos y
evitarte esos molestos reportes de error de 'archivo no
encontrado' en tu servidor. |
|
| · Fuente: Alquimistas
del Diseño |
|
| |
| ...
algunos robots de la red: |
| ·
Robots de Búsqueda |
| ·
Google > |
googlebot |
|
·
Yahoo> |
yahoo-slurp |
| ·
MSN
Search> |
msnbot |
|
·
Ask/Teoma> |
teoma |
| ·
GigaBlast> |
gigabot |
|
·
Scrub
The Web> |
scrubby |
| ·
DMOZ
Checher> |
robozilla |
|
·
Nutch> |
nutch |
| ·
Alexa> |
ia_archiver |
|
|
|
|
| |
| ·
Robots especiales |
| ·
Google
image> |
googlebot-image |
|
·
Yahoo
MM> |
yahoo-mmcrawler |
| ·
MSN
Pic Search> |
psbot |
|
·
SinginfFish> |
asterias |
| ·
Yahoo
Blogs> |
yahoo-blogs/v3.9 |
|
|
|
|
| |