DICCIONARIO DE INFORMÁTICA Y TECNOLOGÍA
  ¿Qué significa Rastreador web? - Información sobre Rastreador web

Definición de Rastreador web

Leandro Alegsa (Contacto) 2015-08-12
Anuncios

Un rastreador web es un programa diseñado para navegar por la WWW y, de manera sistemática y organizada, indexar el contenido de las páginas web que encuentra. Los rastreadores están programados para funcionar automáticamente, siguiendo los enlaces que va encontrando en las páginas web.

Son muy usados por los buscadores web para encontrar páginas web y contenido web en general en internet. Esta información luego es procesada y almacenada en sus bases de datos, para luego estar disponibles en las búsquedas. El rastreador web más famoso es el Googlebot de Google.

Existen rastreadores o capturadores web para descargar un sitio web al disco duro.

También existen rastreadores web maliciosos que ingresan a un sitio web con fines comerciales o de copia.

Otros nombres para rastreador web: araña web, indexador automático, automatic indexer, web spider, robot-web, web bot, web crawler, Web scutter, ant.


Ventajas y desventajas de los rastreadores web

Un sitio web puede prohibir el acceso de los rastreadores web por diversos motivos. El método usual es emplear ciertas instrucciones en el archivo robots.txt, que se ubica en el directorio raíz de un sitio web.

Muchos rastreadores web, en especial aquellos con fines maliciosos, no seguirán las órdenes dadas en el archivo robots.txt, por lo que, en estos casos, se necesitará recurrir a medidas más drásticas de prohibiciones.

Sin duda la principal ventaja de permitir rastreadores web, en especial de los buscadores web, es ofrecer el sitio web para que esté disponible en las búsquedas realizadas en dichos buscadores web. Esto atraerá visitantes.

La principal desventaja de los rastreadores web es que, en ocasiones, suelen visitar con asiduidad los sitios web, por lo que pueden "chuparnos" los recursos del servidor web, como el ancho de banda y procesamiento.

Usando el archivo robots.txt se puede indicar cada cuánto se quiere que los rastreadores web visiten las páginas web del sitio. Una vez más, no todos los rastreadores seguirán estas instrucciones.

Existen también rastreadores que permiten detectar enlaces rotos o verificar el código HTML en un sitio web de nuestra propiedad, por lo que nos permite de esta manera corregir estos errores.


Rastreadores web maliciosos

Existen innumerable cantidad de rastreadores web maliciosos y, lamentablemente, es poco lo que se puede hacer para evitarlos, dado que un sitio web es en general de acceso público.

Los objetivos de estos rastreadores maliciosos pueden ser múltiples:

- Capturar direcciones de e-mail para luego enviar spam.

- Capturar información del sitio web para crear sitios web copias.

- Capturar información de empresas y sitios web para crear directorios automáticos.

Para más información ver: spambots.


Rastreadores web populares

Algunos nombres (user-agent) de spiders populares son:

• Bingbot (del buscador Bing de Microsoft, antes Msnbot)

• Scooter (de Altavista)

• Slurp (de AOL)

• ArchitextSpider (de Excite)

• Googlebot (de Google)

• Lycos (de Lycos)

• Yahoo Slurp (de Yahoo!)

• MSNBot (de MSN)


Aplicaciones rastreadoras web (capturador web)

Existen aplicaciones gratuitas y de pago que permiten rastrear uno o varios sitios web para descargar la información web de estos. Estas aplicaciones siguen los enlaces que van encontrando a lo largo de las páginas web de un sitio web especificado.

Estas aplicaciones usualmente son llamadas capturadores web.





¿Mejoramos la definición?
Puntos: 3 (3 votos)






Respondemos tus consultas o comentarios a continuación:


¿Dudas? ¿necesita más información? Escriba y responderemos a tu email: clic aquí



 




Diccionario de informática
  Búsqueda por letras:
A - B - C - D - E - F - G - H - I - J - K - L - M - N - O - P - Q - R - S - T - U - V - W - X - Y - Z - 0,9
 
Búsqueda por categorías
: Almacenamiento - Aplicaciones - Audio - Compresión - Desarrollo web - Discos ópticos - Inteligencia Artificial - Memorias - Microprocesadores - Seguridad informática - Sistemas de archivos - Terminología de programación - UNIX - Windows - ver categorías

 
Búsqueda por palabras:





Preguntas

No hay ningún comentario todavía

Todos los derechos reservados © 1998 - 2016 - ALEGSA - Santa Fe, Argentina.
Políticas del sitio web - Contacto - Publicidad