Una mina de datos

Internet se ha convertido en un auténtico y descontrolado monstruo sin forma alguna. Aquella concepción romántica de una autopista donde la información fluía libremente y donde una persona podía contactarse con otra a millones de kilómetros de distancia, ha desaparecido para siempre en el inconmensurable océano de información y contenidos de hoy en día. Una idea de esto la arroja Internet Live Stats, proyecto de investigadores y analistas informáticos para intentar ilustrar todo lo que ocurre en esta especie de universo paralelo.

Sus cifras asustan: se calcula que hay alrededor de 4.000 millones de usuarios activos en la red (de ellos, el 57% comparte contenidos en Facebook), que consultan los más de 1.900 millones de páginas disponibles en ella, que en un día promedio envían 110.000 millones de correos electrónicos, realizan más de 315 millones de comentarios en la red social Twitter, suben 35 millones de fotos a Instagram y ven más de 3.000 millones de videos en YouTube.

Y con toda esa actividad, cada uno de ellos deja un rastro de información que, en principio, debería estar protegida por las empresas que ofrecen servicios de correo electrónico y producción de contenido en páginas web y redes sociales. Sin embargo, la realidad ha demostrado que no es así: algunas firmas han tenido acceso a toda esta información personal y han utilizado para sus propósitos comerciales, desde convencer a los usuarios de comprar sus productos hasta influir en elecciones populares.

El acceso y análisis a este tipo de información se conoce como big data, y ha generado hondas preocupaciones en los gobiernos del mundo sobre la privacidad de sus ciudadanos; asimismo, ha dado pie a ingeniosas colaboraciones entre academia, gobierno y la empresa privada encaminadas a fortalecer las economías locales. Una de ellas es Alianza Caoba, iniciativa impulsada por la Pontificia Universidad Javeriana y dirigida por Alexandra Pomares, profesora de la Facultad de Ingeniería.

Para conocer sus alcances y todo lo que implica el manejo y análisis de la información, Pesquisa Javeriana habló con Rafael González, doctor en Tecnología, Política y Administración, profesor titular del Departamento de Ingeniería de Sistemas de la universidad y uno de los artífices de este proyecto.

Pesquisa Javeriana: ¿Qué es el big data? ¿Cómo está siendo utilizado?

Rafael González: Big data quiere decir que tenemos un gran volumen de datos y estos, por su cantidad, son muy diversos. Esto se debe a que cada vez se genera más información que puede duplicarse a diario. Hay un crecimiento exponencial de información.

Lo que hoy tenemos son capacidades que hace algunos años no existían para hacer el análisis de un gran volumen de datos, por ejemplo, utilizar un hardware que hace poco no estaba disponible para almacenar toda esta información. Lo que sí existía desde hace tiempo son las técnicas de inteligencia artificial, de procesamiento de bases y minería de datos que cada vez son más inteligentes; hoy tenemos la posibilidad de articular esas técnicas a una infraestructura abierta, distribuida y masiva.

PJ: Es decir, con cada click se está generando una gran cantidad de información. ¿Dónde se almacena y para qué tipo de propósitos?

RG: El almacenamiento hace parte del reto. No solo se guarda la información con cada click sino que, si tú tenías un blog hace 10 años, eso también está guardado o los correos que borraste hace dos años Google también los tiene, así no tengas acceso a ello. Hoy el término utilizado es en la nube, pero esto quiere decir que para el usuario es transparente el lugar donde está la información.

Sin embargo, ¿dónde está ese video que estás viendo? No solo en la nube: existen, en términos de infraestructura, granjas de servidores y lo son porque, literalmente, abarcan hectáreas. De hecho, compañías como Google, Microsoft, Amazon ya no tienen cuartos de cómputo grandes sino estas granjas que –generalmente– están ubicadas en lugares fríos como Alaska, Islandia y Siberia. Y en parte, están allá porque es más barato, pues no hay que refrigerarlos. De hecho, es tan importante la existencia de las granjas hoy que casi es un proceso político ir a convencer a Google y ofrecerle ventajas tributarias para que lo coloque en su país.

Ahora existen dos intereses simultáneos. Primero está el industrial-comercial y allí es donde las organizaciones quieren aprovechar la información y distinguir entre lo que tiene valor y lo que no; también, conocer la percepción del público sobre la empresa, qué hablan los consumidores acerca de los productos y qué hablan de la competencia para así tomar las mejores decisiones y generar nuevos productos o servicios.

El segundo interés es estatal, que es muy interesante porque allí lo que buscan es cómo proveer servicios públicos. Hablo de salud, educación, impuestos, transporte, entonces, si yo tengo información de los ciudadanos, puedo diseñar mejores políticas públicas, por ejemplo, en la prevalencia de enfermedades específicas y en cuánto le va a costar al país, o en materia de impuestos para detectar el fraude, etc.

PJ: En el Tour de Francia, el equipo Movistar tiene un departamento de big data para analizar información, entre otras, sobre el rendimiento de sus ciclistas. ¿En qué otros campos el big data está dejando su huella?

RG: El big data está sonando más en política. Lo utilizan para predecir cuáles son las tendencias que la gente prefiere a la hora de votar, pero hay otra vía y es tratar de descubrir cómo tengo que enviarle el mensaje a la gente para que voten por mí. Eso ya conduce a implicaciones éticas de uso del big data porque puede utilizarse para manipular al público: en la medida en que conocen las preferencias de sus consumidores, las empresas pueden apuntarle a un público determinado y despertar en ellos un gatillo emocional, de ahí, que en Facebook y Twitter existan robots o bots que generan opiniones falsas a partir de patrones diseñados. Por eso, cada vez que Trump genera un tweet hay un montón de bots –no son seres humanos– que lo están aplaudiendo o, por el contrario, lo critican.

Profesor — Rafael González, docente del Departamento de Ingeniería de Sistemas e integrante de Alianza Caoba.

PJ: Barack Obama, Mariano Rajoy y David Cameron, entre otros, utilizaron en sus campañas electorales el big data, pero en su momento no generó polémica. Este año los diarios The Guardian y The New York Times revelaron cómo Cambridge Analytica, una empresa de comunicación y análisis de información, habría tomado los datos de 50 millones de usuarios de Facebook y los habría utilizado para favorecer la campaña presidencial de Donald Trump en 2016. ¿Cómo prevenir casos como éste? ¿Qué retos plantea entonces el manejo del big data?

RG: Obama fue el primero que popularizó esto porque ganó y fue sorpresivo, de alguna manera, que hubiera ganado pero lo hizo de manera ética, utilizó Facebook para movilizar a la comunidad particularmente joven a través de técnicas más tradicionales, como convencerlos e ir puerta a puerta para hacer activismo político.

En otros casos, como en el de Trump, no se usó la información para movilizar a la gente sino para generar información falsa o engañosa, para así despertar emociones que hicieran que la toma de decisiones en política no fuera racional sino puramente basada en emociones. Entonces no tiene nada de malo analizar patrones o tendencias, conocer al público, pero cuando utilizas eso para manipularlo o engañarlo, entonces ahí ya cruzaste la raya.

A partir del caso de Cambridge Analytica y otros recientes se ha empezado a fortalecer la regulación o se han hecho más explícitas las reglas sobre confidencialidad de la información. Esto está sucediendo en parte porque la ley les exige a las empresas proteger la información que les brindan sus usuarios, pero así lo hagan eso no resuelve el problema, de hecho, existen personas que no pueden cerrar sus cuentas en redes sociales porque las necesitan para conseguir empleo, e incluso para arrendar un apartamento. Entonces, se volvió un mal necesario, pero lo que terminará ocurriendo es que, como cultura, aprendamos qué significa privacidad en este orden del mundo y cómo ser más responsables en el manejo de la información. No creo que haya una solución tecnológica ni político-legal, sino más bien cultural.

De hecho, Facebook reconoce que no puede mirar en sus contenidos qué es cierto y qué no. Entonces lo que hizo fue contratar ejércitos, literalmente, de personas para que con su criterio determinaran si la información es falsa. Sin embargo, reconoce que por más personal que tenga en esta labor lo que realmente se necesita es entrenar a lectores y ciudadanos para que sean más críticos en el procesamiento de información, más responsables y conscientes en la publicación de información.

PJ: ¿En qué consistió el proyecto Alianza Caoba y qué resultados encontraron?

RG: El mundo identificó que el big data iba a movilizar la tecnología, la investigación y la industria desde el punto de vista informático, por eso varios países invirtieron en estas tecnologías. El Ministerio de las TIC abrió una convocatoria para conformar centros de excelencia en big data y analítica.

Uno de nuestros trabajos fue con Nutresa –una de las empresas ancla– en donde participó la Javeriana Bogotá y Cali. Con este proyecto la intención era segmentar clientes potenciales de Nutresa, o sea identificar, dentro de una base de datos, por ejemplo, qué tipo de consumidores hay para asociarlos con el tipo de producto que ofrece Nutresa para que haya un encuentro, o match. Por otro lado, para generar estrategias de comunicación efectivas para que esos productos le lleguen al público objetivo. Lo que hicimos fue procesar la información de Twitter a nivel nacional y mirar qué está opinando la gente en términos de alimentación, de qué alimentos hablan, cuándo lo hacen, qué emociones y sentimientos hay en esas discusiones, qué palabras están utilizando; con esto generamos informes gráficos y analíticos para que tomen mejores decisiones para el área de mercadeo.

PJ: Alianza Caoba reúne a algunas universidades del país, como la Javeriana, los Andes, Icesi y Eafit, también a empresas del sector privado y a entidades del Gobierno. ¿Cómo ha sido la articulación de estos tres sectores?

RG: La única manera para desarrollar capacidades para el país era sumando esfuerzos y, al hacerlo, ahí si estamos en condiciones de competir y participar a nivel mundial. Con esto lo que hicimos fue establecer un mecanismo a través del cual Estado, academia e industria se reunieron para generar esas capacidades.

El rol de la industria –llamado empresas ancla– es el de proveer los datos y necesidades; la idea es que no se estudie en un laboratorio para publicar artículos sino que parta de las necesidades y datos reales para contribuir a solucionar problemas locales.

Desde el punto de la vista de la universidad, la intención es generar investigación aplicada a estos temas. En este proceso de investigación se están formando estudiantes de maestría y doctorado que, por un lado, estudian las técnicas del big data y, por el otro, participan en el desarrollo de las empresas ancla. Y desde el punto de vista de las empresas líderes (SAS, IBM, EMC²), son proveedores de tecnología que se suman al ecosistema o a la alianza para proveer software y hardware.

Hemos establecido relaciones de confianza que, para mí, es solo uno de los logros de Alianza Caoba, porque esto genera unas capacidades importantes de maduración para el país. Nuestra intención ha sido la sostenibilidad del centro para que, eventualmente en dos años, sigamos adelante sin la financiación del Estado, generando nuevos proyectos de investigación, de consultoría e integrando nuevos sectores. La idea es que otras empresas ancla y otras universidades se vinculen a Caoba y, con eso, fortalecer la capacidad de big data en el país.

Ver también...

Artículos relacionados