En su ensayo “Como podemos pensar”, publicado en 1945 por el ingeniero Vannevar Bush, ya se asientan las bases de mucha de la tecnología que sólo fue posible implementar medio siglo después.
Utilizando técnicas de inteligencia artificial, Google ha comprendido, como pocos en el área de las ciencias informáticas, cómo modelar el comportamiento humano. Ya no sólo se trata de una búsqueda; se trata de entender qué quiere realmente el usuario.
Para tener sólo 15 años, Google ha hecho un buen trabajo en hacerse inevitable.
La gigantesca y ubicua compañía tecnológica nació en el garaje de Susan Wojcicki, amiga de Sergey Brin, brillante estudiante de doctorado en Ciencias de la Computación de la Universidad de Stanford. Brin, junto a su compañero Larry Page, había recibido unos meses antes un cheque por cien mil dólares, su primer capital semilla privado. Lo había firmado uno de los fundadores de Sun Microsystems, Andy von Bechtolsheim, tras una corta reunión con los dos estudiantes, en la que rápidamente pudo intuir lo que tenían entre manos. Les dio el cheque a pesar de que Brin le insistió en que no tenían cuenta corriente. “Deposítenlo cuando tengan una”, les contestó Von Bechtolsheim, según cuenta el biógrafo Steven Levy.
Lo que sí tenían Page y Brin era un algoritmo, es decir, un conjunto de instrucciones para ser implementadas en un computador. Una “aplicación”. El algoritmo “PageRank” era capaz de hacer búsquedas en la red con una eficiencia nunca antes vista. A pesar de que se trataba de dos jóvenes ambiciosos, los negocios y la industria no eran hacia donde apuntaban en un comienzo. Ellos estaban haciendo investigación básica. “Google de algún modo nació de allí. Estábamos interesados en la web y en la minería de datos. Terminamos en la tecnología de búsquedas y nos dimos cuenta que teníamos algo bueno”, le dijo Page a Businessweek.
Su propósito luego transmutó. Dejaron sus estudios para fundar un emprendimiento con la misión de “organizar la información del mundo y hacerla universalmente accesible y útil”. No era dinero lo que los movía. Ellos querían algo un poco más ambicioso: cambiar el mundo. Y así lo hicieron. De paso, la inversión inicial de Von Bechtolsheim hoy vale casi 2 mil millones de dólares.
EL SUEÑO DE BUSH
La búsqueda de información no es un problema que haya nacido con la World Wide Web. De hecho, en el clásico ensayo Cómo podemos pensar, publicado en 1945 por el ingeniero norteamericano Vannevar Bush, ya se asientan las bases de mucha de la tecnología que sólo fue posible implementar medio siglo después. Bush pensaba que uno de los grandes problemas que enfrentaba la ciencia era que la gran velocidad en que se desarrollaba hacía cada vez más difícil a los científicos encontrar la información relevante para sus nuevos proyectos. El almacenamiento no era tan problemático. Ya en esa época, nos cuenta Bush, la tecnología de microfilmes permitía contener toda la Enciclopedia Británica en el volumen de una caja de fósforos (curiosamente, Richard Feynman utilizaría la analogía nuevamente, en el famoso discurso fundacional de la nanotecnología en 1959; allí, sin embargo, habla de la posibilidad de escribir la enciclopedia completa en la cabeza de un alfiler).
Bush estimaba que todo el material publicado por el hombre podría fácilmente comprimirse en el volumen de un camión de mudanzas. El problema era cómo consultar de manera eficaz esta cantidad de información. Imaginó un dispositivo que llamó “memex”, el cual contenía, en forma de microfichas, toda una biblioteca. La máquina, que haría su trabajo a través de lectores ópticos y sistemas mecánicos, no sólo permitiría acceder a la información a través de un índice; podría además relacionar distintos textos en la biblioteca, de modo similar a lo que hace un enlace de una página web hoy.
La tecnología necesaria para hacer realidad el sueño de Bush llegó en 1989 en el CERN, el mismo laboratorio en donde se encontró el bosón de Higgs hace poco más de un año. Allí, el informático Tim Berners-Lee, creó la World Wide Web. Su intención, como suele ocurrir con las grandes innovaciones, no era gatillar la revolución que terminó desencadenando. Era sólo hacer más rápido, cómodo y eficiente el intercambio de datos en la comunidad de físicos de partículas asociados al CERN. Claro que pronto se dio cuenta que su desarrollo podía tener vastas nuevas aplicaciones.
La WWW hoy crece rápidamente y está abierta gratuitamente a todo el mundo. El ciberespacio cuenta con cerca de 50 mil millones de páginas web, todas interconectadas en una intrincada red de enlaces.
Es claro que la información no será de ninguna utilidad sin algún método de organización. Google sacó su nombre de gúgol, palabra que designa al número 10100, esto es un 1 seguido de 100 ceros. Nunca nadie había producido un sistema de organización y búsqueda de información tan confiable, útil, rápido y que pudiese manejar tanta información.
UN ALGORITMO A PRUEBA DE TRAMPAS
Como Berners-Lee, Page y Brin tampoco buscaban lo que encontraron. Ellos habían entrado a trabajar en un proyecto financiado por la agencia federal estadounidense National Science Foundation. El “proyecto de biblioteca digital” había comenzado a principios de los 90 y los investigadores responsables eran Héctor García-Molina y Terry Winograd, supervisores de los trabajos de tesis doctoral de Page y Brin. Fue en el contexto de este proyecto que nació el algoritmo de PageRank.
Hasta ese momento, los buscadores de la WWW funcionaban básicamente buscando palabras clave. Si queríamos encontrar páginas sobre, digamos, Bob Dylan, el programa hacía una búsqueda de estas dos palabras en toda las páginas web que tenía en su índice, y mostraba los resultados en que había un mayor número de coincidencias. El sistema tenía varios problemas. Primero, eran muchas las páginas que contenían las palabras a buscar, y era difícil saber cuáles eran más relevantes. Segundo, que esto era aprovechado maliciosamente por algunos, que agregaban copias de diccionarios completos al final de sus páginas (con letras del mismo color del fondo para que no se notara): podíamos buscar “Bob Dylan” y llegar a una página de mariscos a domicilio.
PageRank atacaba los dos problemas. El objetivo era hacer un ranking de las páginas que contenían las palabras de la búsqueda, entregando al usuario sólo aquellas más relevantes. Para esto, utilizaban un criterio muy usado en la academia: la relevancia de un artículo se mide por la cantidad de citas que obtiene en trabajos de otros. Esto no sólo era posible de imitar en la WWW, sino que además podía hacerse de manera automática. En el caso de una página web, el análogo de la citas son los enlaces. Podemos asumir que una página relevante cuenta con muchos enlaces que apuntan a ella desde otras páginas. De este modo, podemos medir la relevancia de una página web en un gran sufragio donde los enlaces hacen de votos. Más aún, todos los votos no valen lo mismo. El voto de una página popular tiene mayor peso que una desconocida a la hora de establecer el ranking.
Note que el cálculo de la relevancia de una página no es algo sencillo. Entre otras cosas, estamos ante un problema que contiene lo que en matemáticas llamamos una relación recursiva: para determinar la relevancia de una página, debemos conocer la relevancia de aquellas que la enlazan, que tampoco la conocemos. Se da la paradoja de que para encontrar una cantidad que no conocemos, debemos antes saber otra que tampoco conocemos.
Afortunadamente, las matemáticas no eran un problema para Brin y Page, que resolvieron rápidamente el problema y escribieron el algoritmo en 1996. En un comienzo, estos desarrollos iban a ser parte de su tesis doctoral. Sin embargo, el éxito les hizo cambiar de planes. Google comenzó a funcionar dentro de la Universidad de Stanford. En 1998, antes de dejar la universidad y fundar la compañía, estaban utilizando la mitad del ancho de banda de todo Stanford.
DE TANTO BUSCAR SE APRENDE
Es fácil saber cuáles son los enlaces a los que apunta una página. Basta con mirarla. Pero saber qué enlaces apuntan a esa página es un asunto mucho más complejo. Para esto debemos conocer toda la web. Tanto Google como sus predecesores (y competidores) utilizan aplicaciones que se conocen con el nombre de “arañas”. Éstos son programas que automáticamente recorren la web, obteniendo información de cada página y visitando los enlaces citados en cada una. Así, van recopilando toda la información necesaria para construir el índice en el que posteriormente se realizarán las búsquedas. Cuando escribimos un término en Google, no estamos haciendo una búsqueda en la red completa, sino que en el gran índice almacenado en los servidores del buscador. Las arañas deben estar continuamente explorando, de modo de encontrar nuevas páginas y actualizar la información de otras ya conocidas.
A la inabarcable cantidad de información almacenada por las arañas, se suma otra, también muy grande, y que poco a poco fue tomando protagonismo entre los informáticos de la empresa. Se trata de las “bitácoras”. La información que dejan los usuarios del sistema: las palabras que buscaron, el tiempo que estuvieron en el sitio, el enlace a través del cual lo dejaron. En Google, por ejemplo, saben que un usuario feliz es aquel que luego de la primera búsqueda sale rápidamente del sitio y no vuelve. Porque si la búsqueda no lo satisface, volverá a los resultados o hará otra usando nuevos términos. Ellos pueden saber, de este modo, cuál es el comportamiento de los usuarios, cuándo quedan conformes, o cómo van cambiando los criterios de búsqueda para llegar a lo que necesitan.
Toda esta información le ha permitido a Google retroalimentarse. Utilizando técnicas de inteligencia artificial han comprendido, como pocos en el área de las ciencias informáticas, cómo modelar el comportamiento humano. Ya no sólo se trata de una búsqueda; se trata de entender qué quiere realmente el usuario, dependiendo no sólo de las palabras que introduce, sino que del contexto y del lugar en que está. Usando el comportamiento de los usuarios, los programas de Google “aprenden”. Por ejemplo, si no quedamos contentos al buscar “Bob Dylan”, quizás busquemos “Robert Zimmerman”, y entonces el programa aprenderá que son lo mismo. Si aún no estamos contentos, podríamos buscar “música folk 1965”, y así le enseñamos cosas a la máquina. Hoy, de hecho, usando inteligencia artificial, Google ha desarrollado los mejores sistemas de traducción automática que existen.
En 2004, Steven Levy le preguntó a Larry Page cómo veía el futuro de la compañía. “Estará incluida en el cerebro de las personas: cuando pienses sobre algo, y no sepas demasiado al respecto, recibirás automáticamente la información”, contestó. “Es cierto”, agregó Brin, “finalmente, yo veo a Google como una forma de aumentar tu cerebro con el conocimiento del mundo”. Si la frase viniera de cualquiera, quizás nos reiríamos. Pero viene de un par de cerebros que saben como pocos que nada es imposible.