![]() |
Con programas que simulan el funcionamiento de nuestros Navegadores ("Explorer" o "Netscape" ), estos programas comunmente denominados "Robots" o "Web-Crawlers" pueden estar escritos en varios lenguajes (Perl,C.etc.) pero su funcionamiento básico depende del protocolo HTTP (Hyper Text Transfer Protocol).
Cada vez que solicitamos una página en Internet, nuestro navegador (además de convertir el "nombre del sitio" a un nodo IP ( Vease DNS ), envia información que es denominada "HEADERS", esta información es interpretada por el servidor de paginas .Los "HEADERS" le informan al servidor de paginas una gran cantidad de cosas :
Los "HEADERS" que comunmente envia un Navegador son los siguientes:
GET /index.html HTTP/1.0 User-Agent: Mozilla/4.51 Accept: */* |
Lo anterior indica que el cliente (Navegador o "Web-crawler") esta solicitando la página principal (index.html
) del respectivo sitio, con la versión 1.0 HTTP
, User-Agent
indica que el cliente es : Mozilla version 4.51
(Mozilla es Netscape Navigator), y Accept: */*
indica que esta dispuesto a aceptar todo tipo de información (GIF's,JPEG's,Java,etc).
Una vez analizados estos "HEADERS" por el servidor de paginas , éste envia sus respectivos "HEADERS" con la información pertinente. Estos HEADERS también son de suma importancia ya que le indican al Navegador o "Web-Crawler", como esta siendo enviada la información. Los "HEADERS" que tipicamente envia un Servidor de Paginas son los siguientes:
HTTP/1.0 200 OK Last-Modified: Fri, 08 Jul 2001 08:57:12 GMT Content-Type: text/html; charset=iso-8859-1 MIME-Version: 1.0 Date: Sat, 09 Jul 2001 12:16:41 GMT Server: AOLserver Content-Length: 4807 |
Lo anterior indica al cliente (Navegador o "Web-crawler"):
200 OK
(esto pudo ver sido otro codigo como : 404 Not Found
, o 403 Forbidden
,etc).
Last-Modified: Fri, 08 Jul 2001 08:57:12 GMT
. Content-Type: text/html; charset=iso-8859-1 MIME-Version: 1.0
. Date: Sat, 09 Jul 2001 12:16:41 GMT
. Server: AOLserver
. Content-Length: 4807
.Graficamente:
![]() |
Este proceso es el que llevan acabo TODOS los "Servidores de Paginas " en Internet, los mejores servidores de paginas pueden ejecutar 20-30 por segundo, TODO en un "Host" con UN procesador pentium (500 Mhz) y 64 MB en RAM, claro esta que si se tiene un Sitio como Amazon.com , se requieren multiples "Hosts" con multiples procesadores y Gigas de Memoria RAM, pero eso es tema de servidores de paginas
Alta Vista , Google , Lycos y otros "Search-Engines" han diseñado varios "Web-Crawlers" (clientes) que diariamente rastrean TODO Internet
De la misma manera que usted solicita una página de Internet y la observa en su pantalla, un Robot ("Web-Crawler") simula lo que usted hace, solo que en vez observarla, guarda y clasifica toda la información que contiene la página y la guarda en una base de datos ; mediante el uso de "Web-Crawlers" compañias como Altavista y Google analizan cientos o miles de paginas por segundo, de manera que cuando usted acude a uno de estos Motores de Búsqueda (Search-Engines) ellos ya han logrado detectar y clasificar una gran cantidad de Información mediante el uso de Robots.
Existe un tipo de TAG en
HTML
utilizado por los distintos Motores de Búsqueda (Search-Engines) para clasificar información , este tag es denominado META
, y debe ser incluido entre los TAGS HEAD
de un documento, de la siguiente manera:
<HTML> <HEAD> <META name="keywords" content="robots, motores de busqueda, español"> <TITLE> Documento Básico en HTML </TITLE> </HEAD> <BODY> ......... |
Otra posibilidad es utilizar:
<META name="description" content="Funcionamiento de Web-Crawlers y su utilización de HTTP"> ......... |
Si se desea pueden ser agregadas ambas lineas al documento, estos TAGS no son obligatorios para que la información sea clasificada por el Motor de Búsqueda (Search-Engine), inclusive su utilización dependará del diseño del "Web-Crawler", pero lo que se puede dar como un hecho es que cualquier Robot bien diseñado utilizará esta información para clasificar información con mayor relevancia.
Si esta pensando colocar miles de palabras "relevantes" entre los tags META
de un documento solo para intentar que sus documentos sean considerados más relevantes, no servirá, ya que casi todos los motores de búsqueda utilizan un nivel de relevancia de tres palabras para estos META
tags ,esto es, si escribe: dinero, dinero,dinero,dinero,dinero
esto tiene la misma relevancia que dinero,dinero,dinero
, además si escribe miles de palabras adicionales entre estos TAGS META
pasaran a formar parte del documento, lo cual incrementará el tiempo de bajada del documento. Este tiempo de bajada adicional solo penaliza al "usuario final" ya que estas palabras son irrelevantes para un Navegador (no son desplegadas en pantalla)
Links:
|
Le intereso el contenido ? | Quizas requiera un servicio de Tecnologia ? | Le gustaria que le avisaramos de nuestras actualizaciones ? |
Recomiende esta pagina a un amigo | Servicios OsmosisLatina | Agregese a la lista de correo de OsmosisLatina |
webmaster@osmosislatina.com | ©2000-2001 OsmosisLatina |