sábado, 3 de noviembre de 2012

Predicen los temas que serán «Trending Topics» en Twitter



La página oficial de Twitter, así como sus diferentes clientes para teléfonos móviles o escritorio, cuentan con una lista actualizada de los temas que son tendencia, es decir los «Trending Topics». Si hay un tema en esta lista es que ha estallado un número escalofriante de mensajes bajo este tema.Obtener una posición en esta lista es un bien codiciado por las empresas, ya que es una fuente de publicidad gratuita. Sin embargo, llegar a ese sitial de honor está basado en un algoritmo que tiene en cuenta el número de tweets y la tasa de aumento de ellos.
Ahora, miembros de un departamento interdisciplinario del Instituto de Tecnología de Massachusetts (MIT, por sus siglas en inglés), han desarrollado un algoritmo que puede , con una precisión de 95%, predecir cuáles serán los temas «Trending Topics», una hora y media antes que el propio algoritmo de Twitter los sitúa en su lista.
Este algoritmo, señalan en una nota de prensa desde el MIT, podría resultar de interés para la compañía, ya que no solo puede cobrar una prima por los anuncios relacionados con el tema popular, sino que representa un nuevo enfoque para el análisis estadístico que podría aplicarse a una gran cantidad de temas relacionados con la variación en el tiempo: la duración de un viaje en autobús, venta de entradas para el cine, los preciosde los valores en bolsa.
Al igual que todos los algoritmos en una máquina, a ésta se le debe entrenar sus necesidades. La máquina «peina» a través de los datos de unas muestras conjuntas (temas que fueron tendencia y mensajes que no) y trata de encontrar patrones significativos. A pesar de que busca patrones, este no es un análisis paramétrico y por lo tanto no hace suposiciones sobre dichos patrones.
«Los trending son una serie de cosas que fueron pequeñas durante algún tiempo y que luego dan un salto importante. Este es un modelo muy simplista que está basado por ahora en unos datos, trata de entrenar para descubrir cuando y bajo qué cantidad ocurre ese salto», señala el investigador principal Devavrat Shah, profesor de computación e ingeniería eléctrica en el MIT.
«El problema con esto es que, por ejemplo, yo no se la tendencia que van a tener ciertas cosas. Hay miles de cosas que podrían suceder y así que hay que dejar decidir a los datos», explica Shah.
En particular, su algoritmo compara los cambios en el tiempo de un número de tweets sobre cada tema, y luego los pone en conjunto para su entrenamiento. Las muestras cuyas estadísticas se asemejan a las de un Trending Topic, tienen mayor peso a la hora de predecir si será una tendencia o no.
En experimentos, el conjunto de entrenamiento consistía en datos sobre 200 temas de Twitter que se hicieron Trending Topic y 200 que no lo hicieron. En tiempo real, establecieron su algoritmo suelto en tweets en vivo, prediciendo de tendencias con una precisión del 95 por ciento y una tasa de 4 por ciento de falsos positivos. La precisión del sistema mejorará a medida que el tamaño del conjunto de entrenamiento aumente.

0 comentarios:

Publicar un comentario