Por: Jesse Alpert & Nissan Hajaj, Ingenieros de Software, Equipo de Infraestructura de Búsqueda en Web en Google
Lo hemos sabido por mucho tiempo: la Web es grande. El primer índice de Google en 1998 ya contenía 26 millones de páginas, y en el 2000 el índice de Google alcanzó la marca de mil millones. En los últimos ocho años, hemos visto números bastante grandes sobre cuánto contenido está realmente ahí afuera. Hace poco, incluso nuestros ingenieros de búsqueda se detuvieron asombrados al ver que tan grande es la Web en estos días– cuando nuestros sistemas que procesan los vínculos en la Web para descubrir nuevo contenido llegaron a un hito: ¡1 billón (como en 1,000,000,000,000) de URLs únicos en la Web al mismo tiempo!
¿Cómo encontramos todas esas páginas? Empezamos con un conjunto de páginas iniciales bien conectadas y seguimos los vínculos de las mismas hacia nuevas páginas. Luego seguimos los vínculos en esas páginas para llegar a más páginas y así, hasta que tenemos una lista gigantesca de vínculos. En efecto, encontramos aún más de 1 billón de vínculos individuales, pero no todos ellos llevaban a una página web única. Muchas páginas tienen URLs múltiples con exactamente el mismo contenido, o URLs que son copias de otras generadas de forma automática. Incluso luego de remover esos duplicados exactos, vimos que hay un billón de URLs únicos, y el número de páginas web individuales allá afuera está creciendo en varios mil millones de páginas al día.
Entonces ¿cuántas páginas únicas contiene realmente la Web? No sabemos: ¡no tenemos tiempo para verlas todas! Estrictamente hablando, el número de páginas allá afuera es infinito – por ejemplo, los calendarios web pueden tener un vínculo al “siguiente día”, y podríamos seguir ese vínculo eternamente, encontrando cada vez que lo hacemos una página “nueva”. No estamos haciendo eso, obviamente, por que no habría mucho beneficio en eso para ti. Pero este ejemplo demuestra que el tamaño de la Web realmente depende de tu definición de qué constituye una página útil, y no hay una respuesta exacta.
No indexamos cada una de ese billón de páginas – muchas de ellas son similares unas a otras, o representan contenido auto generado similar al ejemplo del calendario, que no son de mucho beneficio para quienes hacen la búsqueda. Pero estamos orgullosos de tener el índice más completo de todos de los motores de búsqueda, y nuestra meta siempre ha sido indexar toda la información del mundo.
Para poder mantenernos al día con este volumen de información, nuestros sistemas han hecho un progreso significativo desde el primer conjunto de datos de web que Google procesó para poder dar respuesta a las preguntas. En aquella época hacíamos todo en tandas: una estación de trabajo podía computar la gráfica de PageRank para 26 millones de páginas en unas cuantas horas, y aquel conjunto de páginas se utilizaba como el índice de Google por un período determinado de tiempo. Hoy en día, Google descarga continuamente de la Web, recolectando información actualizada de páginas y procesando nuevamente la gráfica entera de vínculos Web varias veces al día. Esta gráfica de un billón de URLs es similar a un mapa compuesto por un billón de intersecciones. Por lo cual múltiples veces al día hacemos el equivalente computacional de explorar totalmente cada intersección de cada calle en los Estados Unidos. Salvo que el mapa es como 50.000 veces más grande que el de Estados Unidos, con 50.000 veces más calles e intersecciones.
Como puedes ver, nuestra infraestructura distribuida permite que las aplicaciones atraviesen eficientemente una gráfica de vínculos con muchos billones de conexiones, o que rápidamente sorteen petabytes de datos, sencillamente para estar listos para responder la pregunta más importante: tu próxima búsqueda en Google.
Popularity: 39% [?]
Categorias:
11 / Agosto / 2008 |