jueves, septiembre 11, 2008

El negocio 90-10 de los motores de búsqueda


  Hace unos días Marissa Mayer (Vicepresidente de Productos Búsquedas de Google) comentó en un artículo del LA Times que el 90% del problema de búsqueda estaba resuelto y que ahora había que concentrarse en el 10% restante. A simple vista se pudiera pensar que ya no hay mucho que hacer, sin embargo aclarando el punto en el Official Google Blog: The future of search las cosas se ponen más claras.

Si bien el 90% está hecho, esto ha representado sólo el 10% del total de trabajo; para terminar el otro 10% habrá que dedicarle el 90% de esfuerzo que han hace falta dedicar. Esto es similar al común 80-20 que muchas veces usamos en la resolución de problemas de acuerdo a Techcrunch pero en este caso, "Search" es un problema 90-10.

Y creo que si lo analizamos tiene mucho sentido. Google se ha tomado el tiempo para indexar mucho del contenido en el Internet, sin embargo este proceso ha sido mucha fuerza bruta de cientos de miles de CPUs buscando páginas web, contando y guardando las palabras y sus posiciones en el texto, buscando ligas que liguen a otros documentos, "rankeando" páginas, etc. Esto es sencillo desde el punto de vista máquina, no se necesita mucha inteligencia para hacer este proceso, más que nada se necesita tiempo, dinero, ancho de banda y mucho tiempo de CPU. Pero para poder encontrar el significado de una página y su contexto más allá de las palabras que contiene se necesita algo más que las máquinas no tienen.

Para encontrar ese significado semántico se requieren muchas cosas, entre ellas ponerse de acuerdo de como hacerle para que una página web diga más y las tontas máquinas puedan ejecutar algoritmos tratando de interpretar esa información. Algunas cosas se han hecho con microformatos y RDF (Resource Description Framework) pero aún falta mucho camino que recorrer en estandarización.

Otros problemas con un mayor grado de dificultad serán las búsquedas en medios; por ejemplo en video, en audio o en imágenes. Si bien las etiquetas o microformatos pueden ayudar puede que resuelvan solo el 10% del problema. Por ejemplo, que tal buscar "escena de película de ciencia ficción donde el villano le confiesa al héroe que es su padre" (si, creo que el ejemplo fue un poco tonto pero es de madrugada y no se me ocurre algo más). Esto me recuerda al "experimento" de Picassa (el servicio de fotos de google) que te permite etiquetar caras de personas para que después automáticamente Picassa identifique a las personas. Si bien por el momento es asistido, imaginen lo que se hará dentro de poco usando esos patrones para encontrar personas (junto con fotografías, bio y videos) en el Internet.

Auguro buenos tiempos para desarrollos tecnológicos en el área de motores de búsquedas en la parte semántica, geográfica, medios y procesamiento de lenguaje entre otras áreas, lo que si es que cada día la barrera de entrada será mayor por el grado de dificultad que requerirá resolver un problema. Y bueno, esperamos que no se vuelva un negocio de pocos. 

No hay comentarios.: