El grupo de Ciencia de Datos (CD) del CMM busca aprovechar las diversas oportunidades que ofrece la revolución de los datos y abordar sus múltiples interrogantes y desafíos, con un enfoque distintivo basado en el pensamiento y el modelado matemático. El enfoque del grupo hacia la CD es marcadamente interdisciplinario, con un equipo de matemáticos, informáticos, físicos e ingenieros que colaboran con expertos en campos de aplicación para brindar soluciones que abarcan todo el espectro de la ciencia de datos y su práctica. Al mismo tiempo, los miembros del grupo colaboran activamente con otros grupos de investigación aplicada del CMM en desafíos que requieren un uso intensivo de datos. En este sentido, y dado que la CD se está convirtiendo en un activo cada vez más relevante en la mayoría de las áreas de la ciencia y la tecnología, los esfuerzos del grupo CMM-Data son transversales a las actividades del centro.

Las actividades de DS en CMM se desarrollan en tres niveles diferentes:

Proyectos de ciencia de datos aplicada y transferencia tecnológica.

Nos centramos en el diseño e implementación de soluciones innovadoras para desafíos relacionados con los datos, con el objetivo de contribuir a la mejora de procesos tanto en el sector público como en el privado. Nuestra metodología se basa en dos pilares: implementamos y adaptamos soluciones a partir de la teoría existente, y desarrollamos nuevos fundamentos teóricos para abordar situaciones en las que los métodos convencionales resultan insuficientes. Nuestra experiencia en ciencia de datos aplicada abarca proyectos en áreas como bioinformática y astroinformática, marketing, comercio minorista, seguridad, finanzas, procesamiento de audio y procesamiento del lenguaje natural.

Investigación básica en Ciencia de Datos (CD).

Buscamos abordar cuestiones técnicas y teóricas en el desarrollo, interpretación y entrenamiento de modelos de aprendizaje automático (AA), así como la aplicación de métodos automáticos (es decir, inteligencia artificial) a diversos dominios. Abordamos este problema desde una perspectiva matemática, ya que creemos que los métodos y conocimientos matemáticos tienen mucho que aportar para consolidar la práctica rigurosa de la CD; al mismo tiempo, este desafío requerirá y conducirá al desarrollo de matemáticas novedosas e interesantes. Dos temas de interés particular son: (i) La interacción entre el notable éxito y las propiedades de generalización de las redes neuronales y su interpretabilidad, así como la comprensión teórica de los modelos probabilísticos y de ecuaciones diferenciales parciales (EDP) basados ​​en primeros principios; (ii) El enfoque bayesiano del AA, que es más adecuado para representar y aprovechar la incertidumbre que sus contrapartes frecuentistas, pero cuyo desarrollo se ha retrasado debido a las intratabilidades para modelos generales de variables latentes, y donde los conocimientos de teorías matemáticas como el transporte óptimo deberían desempeñar un papel clave.

Educación.

Poner a disposición de los profesionales y del público en general los métodos modernos de DS es esencial para lograr la alfabetización tecnológica necesaria en nuestro país. En este sentido, CMM-Data opera en tres frentes: (i) Programas de educación formal, y en particular el recién creado Máster en Ciencia de Datos de la Universidad de Chile, del cual el centro es uno de sus principales impulsores; (ii) Educación continua, en particular a través de cursos personalizados sobre métodos y modelado de DS para la industria y las instituciones del sector público; (iii) Actividades de divulgación, un aspecto destacado de las cuales es la serie CMM-Data Days, que son eventos públicos centrados en temas basados ​​en datos con valor social (las versiones anteriores de los eventos han abordado temas como la salud digital, la agricultura inteligente, el Internet de las cosas y los mecanismos de votación y la representatividad.

Astroinformática

Una nueva generación de observatorios astronómicos está generando datos a un ritmo sin precedentes. La extracción de conocimiento físico a partir de estos datos requiere nuevas habilidades y metodologías de trabajo interdisciplinarias. Estas incluyen la ingesta de grandes volúmenes de datos en tiempo real, la gestión y el procesamiento de datos de forma distribuida, el desarrollo de nuevos métodos estadísticos y de aprendizaje automático, la visualización de datos, la conexión a una infraestructura interoperable y el desarrollo de nuevos métodos para inferir parámetros físicos. En el laboratorio de astroinformática, actualmente estamos desarrollando el proyecto ALeRCE , que requiere muchas de las herramientas mencionadas anteriormente en un enfoque interdisciplinario. Este proyecto involucra a varias instituciones en Chile (por ejemplo, MAS, DO) y en el extranjero (por ejemplo, Caltech, U. Harvard, U. Washington), y actualmente presta servicio a una comunidad de usuarios en más de 60 países. Además de ALeRCE, el laboratorio de astroinformática ha participado en proyectos como el descubrimiento de supernovas en tiempo real, el problema inverso en radiointerferometría y el problema de clasificación de galaxias.

NLHPC

CMM alberga el Laboratorio Nacional de Computación de Alto Rendimiento (NLHPC), el centro nacional de supercomputación de Chile. Este laboratorio gestiona Guacolda-Leftraru, la supercomputadora más potente de Chile y una de las más grandes de Sudamérica.

El laboratorio se creó en 2010 en colaboración con varias universidades y centros de investigación (actualmente más de 45 instituciones), para dar respuesta a la creciente demanda de procesamiento de grandes volúmenes de datos y simulación de sistemas muy complejos, como grandes problemas de optimización, procesamiento de datos astronómicos, simulación de sistemas de partículas y sistemas físicos complejos, y un gran número de métodos de ciencia de datos, por mencionar solo algunos.

Algunos proyectos destacados:

Astroinformática

Detección en tiempo real de eventos transitorios.

Astroinformática

Aprendizaje automático para la clasificación rápida de eventos

Investigación aplicada

Investigadores

Coordinadores