Twitter, la red social creada en el año 2006, es actualmente la plataforma de microblogging más utilizada en el mundo: posee más de 500 millones de usuarios registrados (aunque «sólo» 288 millones utilizan activamente el servicio), y publica unos 500 millones de tuits por día (fuente: Twitter). Según Alexa, es el octavo sitio web más visitado en el mundo en lo que va del 2015.
Gracias a este crecimiento, han surgido muchas empresas que brindan servicios de análisis en tiempo real de sus «trending topics» (tendencias), y han surgido nuevos servicios e indicadores a partir de las menciones dentro de esta red social. En particular, en este blog ya les hemos contado sobre los Altmetrics, esta nueva forma de medir el impacto de la producción científica a partir de las menciones en redes sociales (entre las cuales Twitter tiene un papel central).
Este uso intensivo ha creado un enorme depósito global de tuits, muy rico para realizar análisis sobre períodos más amplios, por ejemplo años. En particular, desde el punto de vista de la producción científica, resulta una fuente de datos muy apropiada para estudiar el impacto de las publicaciones, los autores y las temáticas con el correr del tiempo.
Sin embargo, Twitter no brinda acceso a todo el historial de tuits, sino que sólo permite acceder a los mensajes más recientes. Aquí surge el problema siempre acuciante de la preservación del patrimonio digital, que también comentamos en este blog. ¿Qué sucede con toda esta información? ¿Quién la resguarda? ¿Quién brindará acceso a ella a largo plazo?
En el año 2010, la Library of Congress se planteó estas y otras preguntas, y firmó un acuerdo con Twitter, en el que Twitter proveería a la LoC de todos los tuits públicos generados en el período 2006-2010, y la LoC generaría la infraestructura necesaria para almacenar, resguardar y adquirir el flujo de tuits generados diariamente, así como también para organizar este enorme archivo por fecha de publicación. En el año 2013, la LoC publicó un reporte en el que se informa sobre el avance del proyecto, y los resultados son realmente impresionantes: todos los objetivos propuestos fueron alcanzados, y hasta esa fecha se archivaron unos 170 mil millones de tuits (unos 130 terabytes de datos). Todo un desafío tecnológico y económico, que crece exponencialmente a medida que Twitter continúa aumentando tanto la cantidad de usuarios activos como los tipos de contenidos que los usuarios pueden incorporar en sus tuits (presentaciones, videos, imágenes y otros).
Además de mantener y ampliar este enorme archivo, la LoC ahora está poniendo el foco en los desafíos tecnológicos y logísticos para hacer accesible este archivo a los investigadores y tomadores de decisiones de una manera útil y sencilla, proveyendo tanto de interfaces de consulta y exploración como también de medios para exportar subconjuntos de tuits para ser analizados con diferentes herramientas. Aquí ya entramos en el terreno de los repositorios de datos, su organización, infraestructura y servicios para investigadores e instituciones, tema del cual les contaremos en un próximo artículo.
Mientras tanto, los invitamos a que nos sigan también en Twitter y a que no se pierdan nuestras actualizaciones en dicha red social.
No sabía que existía un archivo de tuits, ni que se realizaban todo este tipo de mediciones sobre las publicaciones. Muy interesante! 🙂