Una mina de datos

Una mina de datos

Internet se ha convertido en un auténtico y descontrolado monstruo sin forma alguna. Aquella concepción romántica de una autopista donde la información fluía libremente y donde una persona podía contactarse con otra a millones de kilómetros de distancia, ha desaparecido para siempre en el inconmensurable océano de información y contenidos de hoy en día. Una idea de esto la arroja Internet Live Stats, proyecto de investigadores y analistas informáticos para intentar ilustrar todo lo que ocurre en esta especie de universo paralelo.

Sus cifras asustan: se calcula que hay alrededor de 4.000 millones de usuarios activos en la red (de ellos, el 57% comparte contenidos en Facebook), que consultan los más de 1.900 millones de páginas disponibles en ella, que en un día promedio envían 110.000 millones de correos electrónicos, realizan más de 315 millones de comentarios en la red social Twitter, suben 35 millones de fotos a Instagram y ven más de 3.000 millones de videos en YouTube.

Y con toda esa actividad, cada uno de ellos deja un rastro de información que, en principio, debería estar protegida por las empresas que ofrecen servicios de correo electrónico y producción de contenido en páginas web y redes sociales. Sin embargo, la realidad ha demostrado que no es así: algunas firmas han tenido acceso a toda esta información personal y han utilizado para sus propósitos comerciales, desde convencer a los usuarios de comprar sus productos hasta influir en elecciones populares.

El acceso y análisis a este tipo de información se conoce como big data, y ha generado hondas preocupaciones en los gobiernos del mundo sobre la privacidad de sus ciudadanos; asimismo, ha dado pie a ingeniosas colaboraciones entre academia, gobierno y la empresa privada encaminadas a fortalecer las economías locales. Una de ellas es Alianza Caoba, iniciativa impulsada por la Pontificia Universidad Javeriana y dirigida por Alexandra Pomares, profesora de la Facultad de Ingeniería.

Para conocer sus alcances y todo lo que implica el manejo y análisis de la información, Pesquisa Javeriana habló con Rafael González, doctor en Tecnología, Política y Administración, profesor titular del Departamento de Ingeniería de Sistemas de la universidad y uno de los artífices de este proyecto.


Pesquisa Javeriana: ¿Qué es el big data? ¿Cómo está siendo utilizado?

Rafael González: Big data quiere decir que tenemos un gran volumen de datos y estos, por su cantidad, son muy diversos. Esto se debe a que cada vez se genera más información que puede duplicarse a diario. Hay un crecimiento exponencial de información.

Lo que hoy tenemos son capacidades que hace algunos años no existían para hacer el análisis de un gran volumen de datos, por ejemplo, utilizar un hardware que hace poco no estaba disponible para almacenar toda esta información. Lo que sí existía desde hace tiempo son las técnicas de inteligencia artificial, de procesamiento de bases y minería de datos que cada vez son más inteligentes; hoy tenemos la posibilidad de articular esas técnicas a una infraestructura abierta, distribuida y masiva.


PJ: Es decir, con cada click se está generando una gran cantidad de información.  ¿Dónde se almacena y para qué tipo de propósitos?

RG: El almacenamiento hace parte del reto. No solo se guarda la información con cada click sino que, si tú tenías un blog hace 10 años, eso también está guardado o los correos que borraste hace dos años Google también los tiene, así no tengas acceso a ello. Hoy el término utilizado es en la nube, pero esto quiere decir que para el usuario es transparente el lugar donde está la información.

Sin embargo, ¿dónde está ese video que estás viendo? No solo en la nube: existen, en términos de infraestructura, granjas de servidores y lo son porque, literalmente, abarcan hectáreas. De hecho, compañías como Google, Microsoft, Amazon ya no tienen cuartos de cómputo grandes sino estas granjas que ­–generalmente– están ubicadas en lugares fríos como Alaska, Islandia y Siberia. Y en parte, están allá porque es más barato, pues no hay que refrigerarlos. De hecho, es tan importante la existencia de las granjas hoy que casi es un proceso político ir a convencer a Google y ofrecerle ventajas tributarias para que lo coloque en su país.

Ahora existen dos intereses simultáneos. Primero está el industrial-comercial y allí es donde las organizaciones quieren aprovechar la información y distinguir entre lo que tiene valor y lo que no; también, conocer la percepción del público sobre la empresa, qué hablan los consumidores acerca de los productos y qué hablan de la competencia para así tomar las mejores decisiones y generar nuevos productos o servicios.

El segundo interés es estatal, que es muy interesante porque allí lo que buscan es cómo proveer servicios públicos. Hablo de salud, educación, impuestos, transporte, entonces, si yo tengo información de los ciudadanos, puedo diseñar mejores políticas públicas, por ejemplo, en la prevalencia de enfermedades específicas y en cuánto le va a costar al país, o en materia de impuestos para detectar el fraude, etc.


PJ: En el Tour de Francia, el equipo Movistar tiene un departamento de big data para analizar información, entre otras, sobre el rendimiento de sus ciclistas. ¿En qué otros campos el big data está dejando su huella?

RG: El big data está sonando más en política. Lo utilizan para predecir cuáles son las tendencias que la gente prefiere a la hora de votar, pero hay otra vía y es tratar de descubrir cómo tengo que enviarle el mensaje a la gente para que voten por mí. Eso ya conduce a implicaciones éticas de uso del big data porque puede utilizarse para manipular al público: en la medida en que conocen las preferencias de sus consumidores, las empresas pueden apuntarle a un público determinado y despertar en ellos un gatillo emocional, de ahí, que en Facebook y Twitter existan robots o bots que generan opiniones falsas a partir de patrones diseñados. Por eso, cada vez que Trump genera un tweet hay un montón de bots –no son seres humanos– que lo están aplaudiendo o, por el contrario, lo critican.

Profesor
Rafael González, docente del Departamento de Ingeniería de Sistemas e integrante de Alianza Caoba.


PJ: Barack Obama, Mariano Rajoy y David Cameron, entre otros, utilizaron en sus campañas electorales el big data, pero en su  momento no generó polémica. Este año los diarios The Guardian y The New York Times revelaron cómo Cambridge Analytica, una empresa de comunicación y  análisis de información, habría tomado los datos de 50 millones de usuarios de Facebook y los habría utilizado para favorecer la campaña presidencial de Donald Trump en 2016. ¿Cómo prevenir casos como éste? ¿Qué retos plantea entonces el manejo del big data?

RG: Obama fue el primero que popularizó esto porque ganó y fue sorpresivo, de alguna manera, que hubiera ganado pero lo hizo de manera ética, utilizó  Facebook para movilizar a la comunidad particularmente joven a través de técnicas más tradicionales, como convencerlos e ir puerta a puerta para hacer activismo político.

En otros casos, como en el de Trump, no se usó la información para movilizar a la gente sino para generar información falsa o engañosa, para así despertar emociones que hicieran que la toma de decisiones en política no fuera racional sino puramente basada en emociones. Entonces no tiene nada de malo analizar patrones o tendencias, conocer al público, pero cuando utilizas eso para manipularlo o engañarlo, entonces ahí ya cruzaste la raya.

A partir del caso de Cambridge Analytica y otros recientes se ha empezado a fortalecer la regulación o se han hecho más explícitas las reglas sobre confidencialidad de la información. Esto está sucediendo en parte porque la ley les exige a las empresas proteger la información que les brindan sus usuarios, pero así lo hagan eso no resuelve el problema, de hecho, existen personas que no pueden cerrar sus cuentas en redes sociales porque las necesitan para conseguir empleo, e incluso para arrendar un apartamento. Entonces, se volvió un mal necesario, pero lo que terminará ocurriendo es que, como cultura, aprendamos qué significa privacidad en este orden del mundo y cómo ser más responsables en el manejo de la información. No creo que haya una solución tecnológica ni político-legal, sino más bien cultural.

De hecho, Facebook reconoce que no puede mirar en sus contenidos qué es cierto y qué no. Entonces lo que hizo fue contratar ejércitos, literalmente, de personas para que con su criterio determinaran si la información es falsa. Sin embargo, reconoce que por más personal que tenga en esta labor lo que realmente se necesita es entrenar a lectores y ciudadanos para que sean más críticos en el procesamiento de información, más responsables y conscientes en la publicación de información.


PJ: ¿En qué consistió el proyecto Alianza Caoba y qué resultados encontraron?

RG: El mundo identificó que el big data iba  a movilizar la tecnología, la investigación y la industria desde el punto de vista informático, por eso varios países invirtieron en estas tecnologías. El Ministerio de las TIC abrió una convocatoria para conformar centros de excelencia en big data y analítica.

Uno de nuestros trabajos fue con Nutresa –una de las empresas ancla– en donde participó la Javeriana Bogotá y Cali. Con este proyecto la intención era segmentar clientes potenciales de Nutresa, o sea identificar, dentro de una base de datos, por ejemplo, qué tipo de consumidores hay para asociarlos con el tipo de producto que ofrece Nutresa para que haya un encuentro, o match.  Por otro lado, para generar estrategias de comunicación efectivas para que esos productos le lleguen al público objetivo. Lo que hicimos fue procesar la información de Twitter a nivel  nacional y mirar qué está opinando la gente en términos de alimentación, de qué alimentos hablan, cuándo lo hacen, qué emociones y sentimientos hay en esas discusiones, qué palabras están utilizando;  con esto generamos informes gráficos y analíticos para que tomen mejores decisiones para el área de mercadeo.


PJ:
Alianza Caoba reúne a algunas universidades del país, como la Javeriana, los Andes, Icesi y Eafit, también a empresas del sector privado y a entidades del Gobierno. ¿Cómo ha sido la articulación de estos tres sectores?

RG: La única manera para desarrollar capacidades para el país era sumando esfuerzos y, al hacerlo, ahí si estamos en condiciones de competir y participar a nivel mundial. Con esto lo que hicimos fue establecer un mecanismo a través del cual Estado, academia e industria se reunieron para generar esas capacidades.

El  rol de la industria –llamado empresas ancla– es el de proveer los datos y necesidades; la idea es que no se estudie en un laboratorio para publicar artículos sino que parta de las necesidades y datos reales para contribuir a solucionar problemas locales.

Desde el punto de la vista de la universidad, la intención es generar investigación aplicada a estos temas. En este proceso de investigación se están formando estudiantes de maestría y doctorado que, por un lado, estudian las técnicas del big data y, por el otro, participan en el desarrollo de las empresas ancla. Y desde el punto de vista de las empresas líderes (SAS, IBM, EMC2), son proveedores de tecnología que se suman al ecosistema o a la alianza para proveer software y hardware.

Hemos establecido relaciones de confianza que, para mí, es solo uno de los logros de Alianza Caoba, porque esto genera unas capacidades importantes de maduración para el país. Nuestra intención ha sido la sostenibilidad del centro para que, eventualmente en dos años, sigamos adelante sin la financiación del Estado, generando nuevos proyectos de investigación, de consultoría e integrando nuevos sectores. La idea es que otras empresas ancla y otras universidades se vinculen a Caoba y, con eso, fortalecer la capacidad de big data en el país.

Juan Camilo Campos  “En la investigación encontré cómo servir a la comunidad”

Juan Camilo Campos “En la investigación encontré cómo servir a la comunidad”

Buscar amigos, hacer compras y encontrar el ‘amor’ es cada vez más común en las redes sociales; su masificación y el anonimato han permitido la vulnerabilidad de sus usuarios. Juan Camilo Campos desarrolla un modelo para detectar usuarios fraudulentos en una red social.

Juan Camilo Campos, bumangués de 24 años e ingeniero electrónico de la Pontificia Universidad Javeriana Cali, se describe como una persona a la que le gusta asumir retos. Uno de ellos fue el que despertó su pasión por la pesquisa. Ahora es parte de una importante apuesta en investigación del país: el Centro de Excelencia en Big Data y Data Analytics, Caoba.

Desde que estaba en el colegio, su materia preferida eran las matemáticas y su deporte, el fútbol, pero ha sido por las primeras que ha labrado un camino que lo ha llevado lejos. Desde entonces, impulsado por sus profesores, participó seis veces en las Olimpiadas Colombianas de Matemáticas organizadas por la Universidad Antonio Nariño, a donde solo llegan los treinta mejores del país por cada categoría. En el año 2008, fue uno de los quince estudiantes que representaron al país en las Competencias Matemáticas de Estados Unidos: “No ganamos, pero la experiencia me demostró que para ser mejor hay mucho trabajo por delante”.

En el 2009, por continuar con la tradición familiar, empezó sus estudios de ingeniería electrónica, aunque su corazón seguía latiendo por las matemáticas. “Pensé estudiar matemática pura, pero tenía la concepción de que estos profesionales se dedicaban a ser profesores”.

Becado todos los semestres, lo que más le gustó de su carrera fue poder aplicar las matemáticas para dar solución a problemáticas reales. Por eso se fascinó por el área de control, la cual usa la fundamentación matemática que permite controlar diferentes sistemas automáticamente.

Su pasión por la investigación inició en séptimo semestre por pura causalidad, cuando se sintió retado por el que ahora es su mentor, el doctor Jorge Finke, profesor del Departamento de Electrónica y Ciencias de la Computación. En el programa pregrado tenía el mejor promedio y era distinguido ante los profesores por su alto desempeño, sin embargo, el doctor Finke no conocía su potencial, por eso tuvo que demostrar sus capacidades. “Me terminó gustando la investigación y me capturó. Ahora le doy prioridad al mundo académico”.

Su primer reto y el tema con el que inició su camino en investigación fue el fraude en redes sociales. Para este, primero desarrolló un modelo matemático con el que se caracteriza el comportamiento de las personas en estas redes, y después creó un algoritmo que detecta anomalías sobre dicho modelo. A través de simulaciones, emuló el comportamiento de los usuarios fraudulentos para posteriormente detectarlos. Aunque todo el trabajo se realizó con base en un modelo matemático, la idea es poder aplicar el algoritmo de detección en páginas como eBay, Facebook o Amazon. Esta investigación resultó ser después su tesis de pregrado, la cual fue laureada.

En el 2015 trabajó en un proyecto para estudiar la distribución de diferentes tipos de crimen en las ciudades y analizar cómo la estructura de la malla vial de la ciudad incide en estas distribuciones, tomando como referencia a Chicago, en EE. UU. “Se definió qué tipos de crimen tienen puntos de calor estables a través del tiempo y se encontró una fuerte relación entre los robos a mano armada y el índice de GINI, el cual mide la desigualdad económica”.

El Centro de Excelencia Caoba, una iniciativa del MinTIC y Colciencias que reúne al sector privado, la academia y el Estado para generar servicios y soluciones innovadoras que promuevan el desarrollo y la competitividad del país en el uso de las tecnologías de Big Data y Data Analytics, le otorgó en 2016 una beca que le permitió ingresar a la Maestría en Ingeniería de la Universidad Javeriana Cali.

En Caoba, Juan Camilo espera aprovechar la gran cantidad de información que se genera en los bancos y en las redes sociales para tener un mejor entendimiento del funcionamiento de las transacciones bancarias y descubrir patrones de comportamiento en los clientes de una marca.

Más adelante, Juan Camilo espera estudiar su doctorado en una de las mejores universidades de Estados Unidos, como la Universidad de Ohio.

Continue reading