¿Cómo funciona un buscador?
La verdad sobre los motores de
búsqueda
Montserrat Peñarroya
Octubre 2004
Introducción
• La red está cambiando nuestros hábitos de trabajo y
cada vez tiene una presencia más ubicua en nuestras
vidas.
• La principal herramienta de marketing de esta nueva
son los buscadores: cuando alguien necesita
información, acude a Internet y utiliza un buscador.
• Pero, ¿cómo funciona un buscador? ¿qué tenemos
que hacer para asegurarnos de que nos encuentran?
Los buscadores de antes
Los buscadores anteriores a Google (salvo Altavista),
eran directorios de páginas web.
Esto significa lo siguiente:
• Tú debías dar de alta tu página web en el directorio.
• Debías indicar por qué palabras clave deseabas ser
encontrado.
• Tú redactabas la definición de tu página web.
... Y cuando alguien buscaba una palabra que
estaba incluida en tus palabras clave o en tu
definición, el buscador mostraba tu página.
¿Cómo funcionan ahora los buscadores?
Ahora son índices automáticos de páginas web:
• Una araña (un pequeño programa que se mueve por la red)
visita tu página web
• La araña lee el contenido de tu página web
• La araña lleva toda la información a una central, donde un
sistema la procesa y la almacena.
• El sistema crea un índice con las palabras que utilizas en tu
web y las ordena por relevancia.
• El sistema intenta descubrir si eres una buena página o no
(comprueba cuanta gente recomienda tu web).
• Cuando alguien realiza una búsqueda, y el sistema muestra
todas las webs que contienen la palabra o frase buscada.
 ... Y muestra los resultados en función de un
algoritmo.
Esta presentación tratará los siguientes puntos:
• ¿Cómo nos encuentra por primera vez una araña?
• ¿Cómo una araña puede navegar por nuestras
páginas?
• ¿Cómo podemos evitar que una araña navegue por
nuestras páginas, si no deseamos ser indexados?
• Una vez estamos indexados, ¿cómo podemos
mejorar nuestra posición en el listado de resultados?
Las arañas
Hay muchísimas arañas navegado constantemente por
la red
Controlando las 5 principales tenemos el 90% de las
arañas controladas.
•
•
•
•
•
Google Bot (Google)
Slurp (Yahoo)
Scooter (Altavista)
Fast (webs privades)
Teoma (Ask Jeeves)
64.68.82.14 - - [03/Aug/2003:14:26:11 +0800] "GET / HTTP/1.0" 200 2225 "-" "Googlebot/2.1
(+http://www.googlebot.com/bot.html)"
200.46.132.9 - - [03/Aug/2003:15:54:29 +0800] "GET / HTTP/1.1" 200 2225 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT
5.1; .NET CLR 1.0.3705)"
200.46.132.9 - - [03/Aug/2003:15:54:29 +0800] "GET /icons/i/1line.gif HTTP/1.1" 200 76 "http://solocine.com/" "Mozilla/4.0
(compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705)"
200.46.132.9 - - [03/Aug/2003:15:54:30 +0800] "GET /icons/i/1bg.gif HTTP/1.1" 200 3023 "http://solocine.com/" "Mozilla/4.0
(compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705)"
200.46.132.9 - - [03/Aug/2003:15:54:35 +0800] "GET /images/logo3_luz_roja_2.jpg HTTP/1.1" 200 47843 "http://solocine.com/"
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705)"
64.68.85.10 - - [03/Aug/2003:16:37:05 +0800] "GET /robots.txt HTTP/1.0" 404 128 "-" "Googlebot/2.1
(+http://www.googlebot.com/bot.html)"
64.68.85.10 - - [03/Aug/2003:16:37:06 +0800] "GET / HTTP/1.0" 200 2225 "-" "Googlebot/2.1
(+http://www.googlebot.com/bot.html)"
62.57.10.48 - - [03/Aug/2003:20:32:10 +0800] "GET / HTTP/1.1" 200 2225 "http://www.montilla.com/" "Mozilla/4.0 (compatible;
MSIE 6.0; Windows NT 5.1)"
62.57.10.48 - - [03/Aug/2003:20:32:11 +0800] "GET /icons/i/1line.gif HTTP/1.1" 200 76 "http://www.solocine.com/" "Mozilla/4.0
(compatible; MSIE 6.0; Windows NT 5.1)"
62.57.10.48 - - [03/Aug/2003:20:32:11 +0800] "GET /icons/i/1bg.gif HTTP/1.1" 200 3023 "http://www.solocine.com/" "Mozilla/4.0
(compatible; MSIE 6.0; Windows NT 5.1)"
62.57.10.48 - - [03/Aug/2003:20:32:12 +0800] "GET /images/logo3_luz_roja_2.jpg HTTP/1.1" 200 47843
"http://www.solocine.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)“
Estos son los rastros de lo que está pasando por nuestras
máquinas: los Logs.
Aquí puedes ver el paso de las arañas por tu web. Programas de
análisis como WebTrends o LiveStats, analizan los logs de las
páginas web y muestran estadísticas de toda la actividad.
¿Cómo hacer llegar una araña a nuestra
página web?
•
•
O bien conseguimos que
nuestra página aparezca en
el listado de la araña
(acudiendo a un buscador y
pulsando sobre Add URL)
O bien llega a nuestra
página a través de un
enlace en otra página web.
 Las dos formas de atraerlas son igual
de buenas.
Add URL
Submit Your Site
Una vez tenemos a la araña dentro…
Debemos asegurarnos de que puede navegar por
todas nuestras páginas, para que el buscador que
las ha enviado pueda indexarnos bien.
Las arañas no pueden pasar a través de enlaces que
estén:
• Escritos en Javascript
• Dentro de Flash
• Dentro de Pop Up’s
• (Algunas arañas) Botones
¿Cómo puedo saber cuántas páginas tengo
indexadas?
• Existe un comando en Google que te permite saber cuantas
páginas tienes indexadas. Este mismo comando suele funcionar
en otros buscadores:
 Escribe en la cajita buscadora:
Site:www.pagina.com
(Vigila no escribas un espacio entre site: y la URL, no funcionaría)
Esta búsqueda te mostrará el número de páginas que Google tiene
indexadas para una URL en concreto.
 Si deseas saber cuantas páginas de una URL en concreto
contienen una palabra en determinado, la búsqueda puedes
hacerla así:
Site:www.pagina.com “palabra que buscas”
¿Qué tengo que hacer si no quiero que una
araña entre en mi página web?
•
El protocolo de exclusión de robots es
respetado por la mayoría de arañas.
¿Cómo funciona el protocolo
de exclusión?
•
Antes de empezar a escanear una
página, las arañas acuden siempre a
la página robots.txt de tu página web,
y buscan en ella qué partes de la web
se pueden escanear y quienes
pueden hacerlos.
 Si no tienes una página robots.txt, deberías crear una en blanco y
colgarla en tu web. Si hay alguna parte de tu web que no deseas que se
escanee, indícalo en esta página.
Ya estamos indexados… ¿y ahora qué?
Ahora, debes luchar para estar en las
primeras posiciones de los
resultados de búsqueda!!!
Los Algoritmos
• Cada buscador tiene sus propios algoritmos de
ordenación.
• Los algoritmos son secretos, pero con tiempo y
paciencia, puedes llegar a conocer qué factores
intervienen en él y en qué orden de importancia lo
hacen.
El Algoritmo de Google
(Simplificando...) Está formado por 2 algoritmos:
• El de PageRank
• El de Relevancia
Larry Page y Sergey Brin,
fundadores de Google
(Page Rank = Ranking de Larry Page)
El PageRank
• Es un conjunto de algoritmos que tienen por finalidad
asignar un valor numérico a las páginas web según el
número de veces que otras páginas las recomienden y
según el PageRank que tengan estas páginas.

La lógica del PageRank y otros algoritmos que tienen en cuenta
la popularidad de una web, es la siguiente:
Una página con un buen contenido es
referenciada por otras páginas. Algunas páginas
son a su vez buenas páginas porqué están
referenciadas por terceras páginas y porqué son
buenas referenciadoras..
¿Cómo puedo aumentar mi PageRank?
• Necesitas aumentar el número de enlaces en webs de
terceros que recomiendan tu página web.
• Necesitas conseguir que te enlacen páginas web que
tengan el PageRank alto.
• Necesitas conseguir enlaces en páginas web donde no
haya muchos otros enlaces. El valor del tuyo queda
dividido por el número total de enlaces que salen de esa
página web.
 Para conocer el PageRank de una página, debes tener
instalada la barra de Google. En ella se muestra
mientras navegas qué PR tiene la página que visitas.
El Algoritmo de Relevancia
Este algoritmo tiene en cuenta los siguientes factores:
• Relevancia de la palabra en el contexto general
de páginas indexadas: en cuantas páginas de
nuestra web, aparece esta palabra (en forma de
densidad: núm/total pág.)
• Relevancia de la palabra en cada una de las
páginas.
La relevancia
Tiene en cuenta la densidad de los caracteres que
forman esa palabra, en las diferentes partes de
una página web:
• Densidad en la URL
• Densidad en el Titulo de la página (<title>)
• Densidad en la descripción
• Densidad en cabeceras (H1,H2, etc...)
• Densidad en el nombre de enlaces
• Densidad en palabras en negrita
• Densidad en textos alternativos (ALT)
• ...
Consejos para mejorar nuestro posicionamiento:
•
Conseguir que las arañas entren en todas y cada
una de nuestras páginas.
•
Conseguir que otras páginas web recomienden la
nuestra. (Ideal si tienen un PR alto, si no tienen
mucho enlaces, y si además lo hacen utilizando una
palabra de las que deseamos posicionar)
•
Conseguir que las palabras por las que deseamos
posicionarnos ocupen lugares importantes en
nuestra web, y lo hagan con una densidad elevada.
Consejos de última hora…
• No olvides que tu página web tiene que estar orientada
a las personas, no a los buscadores. El peso de la
navegabilidad y de la usabilidad general de la página,
cuando la diseñes, debe ser mayor que el peso de la
correcta la indexación. Las páginas se crean para las
personas, no para las máquinas.
• No hagas trampas. La gente de Google las conoce
todas, así que haciendo trampas, lo único que
consigues es arriesgarte a que te penalicen o te
expulsen de Google.
Herramientas de trabajo imprescindibles
(gratuitas)
• La barra de Google
• Simulador de araña:
http://www.gritechnologies.com/tools/spider.go
• Analizador de Densidades:
http://www.searchengineworld.com/cgi-bin/kwda.cgi
• Analizador de popularidad:
http://www.marketleap.com/publinkpop/
• Analizador de indexación en los principales
motores de búsqueda :
http://www.marketleap.com/siteindex/default.htm
Otra herramienta de trabajo imprescindible
HBX
HBX te proporciona estadísticas de todos los parámetros de tu web:
Te indica qué arañas están indexando tu página, cuánto tráfico te
traen, qué palabras son las que tus usuarios buscan, y cientos de
parámetros más. Además, te ayuda a mejorar los ratios de
conversión de usuario a cliente ya que proporciona informes
avanzados con los que podrás realizar un seguimiento exhaustivo de
todos los procesos de navegación de tu página web y te ayudará
eliminar cuellos de botella.
Más información
acerca de HBX
>> alt64.com
• Si deseas información complementaria o deseas
conocer mejor qué servicios puede ofrecerte alt64 para
mejorar la eficiencia de tu página web, no dudes en
contactarnos:
alt64 Digital, S.L.
Avda. Corts Catalanes, 7
08173 Sant Cugat del Vallés - Barcelona
http://www.alt64.com
[email protected]
Descargar

¿Cómo funciona un buscador?