Estudiantes unicentralistas desarrollan proyectos de analítica de datos que optimizan recursos y mejoran la toma de decisiones en sectores clave.
Seis estudiantes de la Maestría en Analítica de Datos de la Universidad Central obtuvieron reconocimientos con tesis meritoria tras realizar tres proyectos que aportan valor al sector de la salud, los hidrocarburos y el turismo.
Jason Huertas, Humberto Higuera y Jonatan Zabala desarrollaron un aplicativo para clasificar el riesgo cardiovascular. Karina Muñoz creó un modelo de machine learning que ayuda a reducir el impacto económico en labores de mantenimiento y operación en el sector de hidrocarburos, mientras que Andrés Camilo García y Camilo Andrés Duarte idearon un sistema capaz de predecir el precio de los tiquetes aéreos a nivel nacional.
Datos para salvar vidas
Huertas, Higuera y Zabala aseguran que, desde el primer momento, quisieron que su proyecto impactara el sector de la salud, así que tomaron datos suministrados por la Fundación Santa Fe de Bogotá y desarrollaron un modelo que, teniendo en cuenta variables como el nivel de azúcar en la sangre, triglicéridos, hábitos, edad, talla y peso, entre otros, establece el riesgo de sufrir enfermedades cardiovasculares.
"Mundialmente hay escalas para identificar el nivel de riesgo cardiovascular. En la Santa Fe se tiene en cuenta la de Framingham. Tomamos una base de datos de 500 mil registros, de los que 130 mil fueron clasificados con Framingham. El modelo tomó este número como entrenamiento y predijo los 370 mil restantes", explica Humberto Higuera.
Para los analistas de datos, una de las dificultades fue trabajar con los registros médicos por estar consignados en texto abierto; por ellos tuvieron que desarrollar un segundo modelo que hiciera minería de texto, convertirlos a datos y hacerlos aplicables. Además, recibieron el acompañamiento de especialistas de la salud en búsqueda de divergencias en los datos, agregar más variables y enriquecer el modelo.
Actualmente, los desarrolladores buscan realizar una publicación en la Fundación sobre la importancia de este modelo, que sería la primera del área de tecnología informática. Explican que su creación se podría replicar en otras instituciones de salud si la estructura de los datos es similar a la usada en el modelo que crearon.
Datos para optimizar recursos
Karina Muñoz es ingeniera mecatrónica y trabaja en una empresa del sector de hidrocarburos cuyo nombre no menciona por acuerdo de confidencialidad. Para su tesis de maestría desarrolló dos modelos de machine learning que clasifican el impacto económico del mantenimiento de equipos y de la operación del capital humano a partir de 10 variables que fueron seleccionadas por la compañía y que corresponden a igual número de áreas de la empresa.
"El precio de venta de los hidrocarburos depende mucho de factores nacionales e internacionales, por lo que en algunos casos es indispensable disminuir los gastos de operación y mantenimiento. Ese es el reto al que le apuntan los modelos que desarrollé, pues simulan los valores de cada una de las variables, buscando disminuir aquellos que son elevados";, explica.
Este desarrollo también tuvo en cuenta el costo real de cada uno de los procesos que se han llevado en años anteriores, le indica al área cuánto tiempo puede tomar determinado trabajo y recomienda de manera precisa el número adecuado de personas que se requieren para realizar un mantenimiento sin comprometer la seguridad.
Muñoz asegura que después de explicar a las diferentes áreas de la compañía las ventajas del machine learning fueron muy dadas a suministrar la información que se requería para el desarrollo del modelo y para estructurar de mejor manera la base de datos. Tras dos meses de implementado este desarrollo se han modificado diez estrategias, cuyos resultados se evidenciarán en el cuarto trimestre del 2024, momento en el que se ejecutarán trabajos de mantenimiento.
Datos para viajar barato
La tercera tesis meritoria corresponde a Andrés Camilo García y Camilo Andrés Duarte, quienes implementaron un aplicativo que extrae datos de vuelos nacionales en Google Flights mediante la técnica de web scraping, datos históricos de la tasa representativa del dólar y, finalmente, datos del precio del combustible usado en los aviones.
Como este aplicativo está enfocado en el usuario común, García y Duarte implementaron dos tipos de algoritmos: random forest, que selecciona subconjuntos aleatorios y construye árboles de decisiones para escoger una respuesta acertada, y una red neuronal perceptrón multicapa (MLP), que recibe variables y en función de unos parámetros entrega un resultado.
"Básicamente, creamos esta solución basados en un problema de regresión, porque tenemos todos los datos históricos y a partir de estos realizamos las predicciones".
García y Duarte explican que, aunque es un producto funcional, es susceptible de modificaciones, teniendo en cuenta que hay variables que son ajenas a los datos con los que trabaja el modelo, como las sillas disponibles de las aerolíneas y las promociones que establecen las compañías.