Posts sobre Inteligencia Artificial

Cómo funciona Google?: PageRank

13 de November del 2008  |  Hay 7 comentarios. Querés dejar el tuyo?

La popularidad de Google se debe a que la empresa desarrollo una forma innovadora de realizar las búsquedas en base a términos y de asignar relevancias a los resultados.

Ahora: ¿Cómo funciona la búsqueda de Google?

Si bien ya me resulta algo familiar e intuitivo por haber investigado técnicas de posicionamiento en motores de búsqueda, ayer me toco en una conversación explicar la idea básica detrás de esto. Como siempre, es difícil llevar a una expoliación sencilla conceptos que ya se manejan. Recordé que en el libro “Unleashing Web 2.0: From Concepts to Creativity” se hablaba sobre el caso de PageRank, el algoritmo usado por Google, y busque algunos puntos explicados en ese libro.

Andes de que este enfoque fuera aplicado, los motores de búsqueda simplemente devolvían un listado de resultados en los cuales los términos aparecían, y el usuario debía investigar sobre la relevancia de estos. El cofundador de Google Larry Page tuvo la idea de que no todos los resultados de una búsqueda eran igualmente relevantes, por lo que sugirió que era necesario aplicar un ranking de relevancia a estos resultados, y para esto desarrollo junto a Sergey Brin en la Universidad de Stanford un algoritmo al que llamo PageRank que utiliza una formula recursiva para calcular el ranking. Podemos encontrar el articulo original publicado aquí.

Monika Henzinger, antigua directora de investigaciones de Google explico la idea del algoritmo de la siguiente manera: “Consideremos el caso de un doctor. Cuanta más gente recomiende al doctor, mejor se supondrá que este doctor es. Esto es similar al caso de un rankingweb: cuantas más paginas contengan links a una página p, mayor será el ranking de la pagina p.

Sin embargo, la calidad del doctor también depende de la calidad de la persona que lo recomienda. Hace una diferencia si la referencia proviene de un colega, o de un vendedor, o de la industria farmacológica. Si el doctor es recomendado por otro doctor, esa recomendación contara al 100%, la recomendación de una enfermera sin educación profunda sobre medicina contara solo un 60%, la de un paciente un 20%, y la de un vendedor (que tiene un interés muy distinto al de un doctor) contara un 0%. El principio detrás de esto (también encontrado en citaciones científicas clásicas) es así basado en la idea de observar a los links que van apuntados hacia la pagina p para calcular el ranking de p, pero hacerlo de una manera recursiva aplicando el mismo concepto de ranking a todas las páginas de donde emergen estos links.”

Al pasar los años el algoritmo agrego muchos otros criterios aparte de los arriba comentados para mejorar los resultados de las búsquedas. Podemos encontrar un análisis detallado de la base matemática y algorítmica detrás de PageRank en el libro “Google’s PageRank and Beyond: The Science of Search Engine Rankings” (de la tapa del cual se tomo la imagen de este post). Y más informacion actualizada sobre motores de busqueda en Search Engine Watch.

Si bien el algoritmo puede perfeccionarse constantemente agregando criterios más complejos, es muy difícil llegar a igualar la capacidad de una persona: aplicar intuición, experiencia, razonamiento y conocimiento de un dominio o tema en particular a los resultados de una búsqueda, con el objetivo de diferenciar cuales son buenos resultados y cuáles no. Esto demuestra que existe un gigantesco lugar para la mejora continua en el campo de la búsqueda en Internet: Los algoritmos deben aprender más aún de los procesos de búsqueda que surgen del comportamiento de los usuarios, y eso es lo que esta sucediendo gradualmente, en base a muchos concepto que se presentan en la Web 2.0.

 Página 1 de 1  1