Los crawlers, spiders (arañas) o bots de los buscadores

Continuamos con la sección de teoría sobre motores de búsqueda (SRI —Sistemas de Recuperación de la información).

Hoy hablamos sobre los bots, crawlers o arañas de los buscadores.

El primer paso de un buscador es construir su índice. Para ello disponemos de una herramienta llamada crawler que indexa (indiza) las páginas web siguiendo enlaces, generalmente.

Para ser más gráficos, un ordenador (computadora) suministra una serie de direcciones al crawler, chequeando éste internet siguiendo enlaces y copiando todo aquello que puede o quiere.

Google posee muchos ordenadores (computadoras) con pocos recursos dedicadas a rastrear la web (Googlebot), analizar las páginas y servir las respuestas de nuestras búsquedas (4 millones de computadoras en 2007) . Además posee varios crawlers o bots especializados que se encargan solamente de rastrear las fotografías, adwords y adsense (publicidad).

Desde hace un poco más de un año Google ha cambiado el protocolo de búsquedas (caffeine) rastreando internet mucho más rápido. Integra resultados en cuestión de minutos o segundos, en clara lucha con los buscadores en tiempo real y Twitter donde la información llega instantáneamente (o casi).

La última de las grandes actualizaciones de algoritmo de búsquedas, el famoso panda update se ha centrado más en luchar —con más errores que aciertos— contra el spam.

Pero como no sólo de Google vive el hombre muchos otros crawler rastrean internet para estar permanentemente actualizados.

Hasta este año 2011 las páginas especializadas siguen la pista de más de 4,000 bots.

Como curiosidad algunos se dedican a rastrear la web copiando contenido y publicándolo en otros lugares. Otros simplemente son spambots que intentan dejar mensajes spam.

En los últimos años proliferan los spiders (crawlers), para usos más particulares aunque aún sigue siendo complicado instalarse uno.

Básicamente habría que instalar un servidor y una herramienta como OpenSearchServer, un buscador de código libre. O Aspseek, ambos con licencia GPL. Los usuarios de Linux pueden disfrutar de una especie de crawler usando el comando wget.

También hay herramientas más automáticas como Httrack que sirven para descargar dominios completos, también llamados ripeadores de páginas completas. Suelen estar formados por un crawler y un parser.

Teniendo crawler propio podíamos indicarle que busque en todo un dominio, o que lo indexe (copie) entero, navegando por el sin estar conectados. Además de incluir comandos y formas de búsquedas más potentes que los habituales en los buscadores comerciales.

Por último recordar a los que tengáis página web que se puede controlar la actividad de la mayoría de ellos a través del archivo robots.txt. Una página muy completa para la creación del archivo robots.txt (en inglés) y otra buena guía en español en emezeta.

Ampliar/fuentes:

- Artículos sobre los web crawler en la wikipedia en inglés y en español (araña web).

- Artículo original del proyecto fin de carrera de Bring y Page para la universidad de  Stanford que se convertiría en la pieza fundamental para la creación de Google En español y pdf o el original en inglés).

{ 2 comentarios ... deja el tuyo }

{ 2 Pingbacks/Trackbacks }

  1. Los 5 Pilares de una Tienda Online (e-commerce) | Marketing Digital desde 0
  1. Los elementos básicos de una tienda virtual son: | Comercio Digital

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>