Por: Jesse Alpert & Nissan Hajaj, Ingenieros de Software, Equipo de Infraestructura de Búsqueda en Web en Google
Lo hemos sabido por mucho tiempo: la Web es grande. El primer Ãndice de Google en 1998 ya contenÃa 26 millones de páginas, y en el 2000 el Ãndice de Google alcanzó la marca de mil millones. En los últimos ocho años, hemos visto números bastante grandes sobre cuánto contenido está realmente ahà afuera. Hace poco, incluso nuestros ingenieros de búsqueda se detuvieron asombrados al ver que tan grande es la Web en estos dÃas– cuando nuestros sistemas que procesan los vÃnculos en la Web para descubrir nuevo contenido llegaron a un hito: ¡1 billón (como en 1,000,000,000,000) de URLs únicos en la Web al mismo tiempo!
¿Cómo encontramos todas esas páginas? Empezamos con un conjunto de páginas iniciales bien conectadas y seguimos los vÃnculos de las mismas hacia nuevas páginas. Luego seguimos los vÃnculos en esas páginas para llegar a más páginas y asÃ, hasta que tenemos una lista gigantesca de vÃnculos. En efecto, encontramos aún más de 1 billón de vÃnculos individuales, pero no todos ellos llevaban a una página web única. Muchas páginas tienen URLs múltiples con exactamente el mismo contenido, o URLs que son copias de otras generadas de forma automática. Incluso luego de remover esos duplicados exactos, vimos que hay un billón de URLs únicos, y el número de páginas web individuales allá afuera está creciendo en varios mil millones de páginas al dÃa.
Entonces ¿cuántas páginas únicas contiene realmente la Web? No sabemos: ¡no tenemos tiempo para verlas todas! Estrictamente hablando, el número de páginas allá afuera es infinito – por ejemplo, los calendarios web pueden tener un vÃnculo al “siguiente dÃa”, y podrÃamos seguir ese vÃnculo eternamente, encontrando cada vez que lo hacemos una página “nueva”. No estamos haciendo eso, obviamente, por que no habrÃa mucho beneficio en eso para ti. Pero este ejemplo demuestra que el tamaño de la Web realmente depende de tu definición de qué constituye una página útil, y no hay una respuesta exacta.
No indexamos cada una de ese billón de páginas – muchas de ellas son similares unas a otras, o representan contenido auto generado similar al ejemplo del calendario, que no son de mucho beneficio para quienes hacen la búsqueda. Pero estamos orgullosos de tener el Ãndice más completo de todos de los motores de búsqueda, y nuestra meta siempre ha sido indexar toda la información del mundo.
Para poder mantenernos al dÃa con este volumen de información, nuestros sistemas han hecho un progreso significativo desde el primer conjunto de datos de web que Google procesó para poder dar respuesta a las preguntas. En aquella época hacÃamos todo en tandas: una estación de trabajo podÃa computar la gráfica de PageRank para 26 millones de páginas en unas cuantas horas, y aquel conjunto de páginas se utilizaba como el Ãndice de Google por un perÃodo determinado de tiempo. Hoy en dÃa, Google descarga continuamente de la Web, recolectando información actualizada de páginas y procesando nuevamente la gráfica entera de vÃnculos Web varias veces al dÃa. Esta gráfica de un billón de URLs es similar a un mapa compuesto por un billón de intersecciones. Por lo cual múltiples veces al dÃa hacemos el equivalente computacional de explorar totalmente cada intersección de cada calle en los Estados Unidos. Salvo que el mapa es como 50.000 veces más grande que el de Estados Unidos, con 50.000 veces más calles e intersecciones.
Como puedes ver, nuestra infraestructura distribuida permite que las aplicaciones atraviesen eficientemente una gráfica de vÃnculos con muchos billones de conexiones, o que rápidamente sorteen petabytes de datos, sencillamente para estar listos para responder la pregunta más importante: tu próxima búsqueda en Google.
Categorias: