Línea Divisoria

Sabiamos que la web era grande…

Por: Jesse Alpert & Nissan Hajaj, Ingenieros de Software, Equipo de Infraestructura de Búsqueda en Web en Google

Lo hemos sabido por mucho tiempo: la Web es grande. El primer índice de Google en 1998 ya contenía 26 millones de páginas, y en el 2000 el índice de Google alcanzó la marca de mil millones. En los últimos ocho años, hemos visto números bastante grandes sobre cuánto contenido está realmente ahí afuera. Hace poco, incluso nuestros ingenieros de búsqueda se detuvieron asombrados al ver que tan grande es la Web en estos días– cuando nuestros sistemas que procesan los vínculos en la Web para descubrir nuevo contenido llegaron a un hito: ¡1 billón (como en 1,000,000,000,000) de URLs únicos en la Web al mismo tiempo!

¿Cómo encontramos todas esas páginas? Empezamos con un conjunto de páginas iniciales bien conectadas y seguimos los vínculos de las mismas hacia nuevas páginas. Luego seguimos los vínculos en esas páginas para llegar a más páginas y así, hasta que tenemos una lista gigantesca de vínculos. En efecto, encontramos aún más de 1 billón de vínculos individuales, pero no todos ellos llevaban a una página web única. Muchas páginas tienen URLs múltiples con exactamente el mismo contenido, o URLs que son copias de otras generadas de forma automática. Incluso luego de remover esos duplicados exactos, vimos que hay un billón de URLs únicos, y el número de páginas web individuales allá afuera está creciendo en varios mil millones de páginas al día.

Entonces ¿cuántas páginas únicas contiene realmente la Web? No sabemos: ¡no tenemos tiempo para verlas todas! Estrictamente hablando, el número de páginas allá afuera es infinito – por ejemplo, los calendarios web pueden tener un vínculo al “siguiente día”, y podríamos seguir ese vínculo eternamente, encontrando cada vez que lo hacemos una página “nueva”. No estamos haciendo eso, obviamente, por que no habría mucho beneficio en eso para ti. Pero este ejemplo demuestra que el tamaño de la Web realmente depende de tu definición de qué constituye una página útil, y no hay una respuesta exacta.

No indexamos cada una de ese billón de páginas – muchas de ellas son similares unas a otras, o representan contenido auto generado similar al ejemplo del calendario, que no son de mucho beneficio para quienes hacen la búsqueda. Pero estamos orgullosos de tener el índice más completo de todos de los motores de búsqueda, y nuestra meta siempre ha sido indexar toda la información del mundo.

Para poder mantenernos al día con este volumen de información, nuestros sistemas han hecho un progreso significativo desde el primer conjunto de datos de web que Google procesó para poder dar respuesta a las preguntas. En aquella época hacíamos todo en tandas: una estación de trabajo podía computar la gráfica de PageRank para 26 millones de páginas en unas cuantas horas, y aquel conjunto de páginas se utilizaba como el índice de Google por un período determinado de tiempo. Hoy en día, Google descarga continuamente de la Web, recolectando información actualizada de páginas y procesando nuevamente la gráfica entera de vínculos Web varias veces al día. Esta gráfica de un billón de URLs es similar a un mapa compuesto por un billón de intersecciones. Por lo cual múltiples veces al día hacemos el equivalente computacional de explorar totalmente cada intersección de cada calle en los Estados Unidos. Salvo que el mapa es como 50.000 veces más grande que el de Estados Unidos, con 50.000 veces más calles e intersecciones.

Como puedes ver, nuestra infraestructura distribuida permite que las aplicaciones atraviesen eficientemente una gráfica de vínculos con muchos billones de conexiones, o que rápidamente sorteen petabytes de datos, sencillamente para estar listos para responder la pregunta más importante: tu próxima búsqueda en Google.

Popularity: 39% [?]

Categorias:
11 / Agosto / 2008 |


  • No Related Post

  No hay comentarios »

Aún no hay comentarios.

Redifusión RSS de los comentarios de la entrada. TrackBack URL

  Deje un comentario




Adivor SCP® 2008, Todos los Derechos Reservados - Mapa del Sitio | Condiciones de Uso | Política de Privacidad

Diseño de Paginas Web en Merida
Diseño de Paginas Web en el Distrito Federal
Diseño Web en Mérida
Diseño de Sitios Web en Merida
Merida Web Design

Diseño de Paginas Web en Cancun
Diseño de Portales en Cancun
Diseño Web en Cancun
Diseño de Sitios Web en Cancun
Cancun Web Design

Diseño de Paginas Web en Playa del Carmen
Diseño de Portales en Playa del Carmen
Diseño Web en Playa del Carmen
Diseño de Sitios Web en Playa del Carmen
Playa del CarmenWeb Design

Diseño de Paginas Web en Cozumel
Diseño de Portales en Cozumel
Diseño Web en Cozumel
Diseño de Sitios Web en Cozumel
Cozumel Web Design