Servicios
Universidad Central

Noticentral

Estudiante crea indicador para empresas con ayuda del modelo BERT

El proyecto, que permite medir la experiencia de usuario de hispanohablantes mediante la interpretación de sus comentarios y reseñas, fue tesis meritoria.

Elmer Felipe Carmona recibe mención meritoria

Cuando Felipe inició la Maestría en Analítica de Datos de la Universidad Central, sabía que su trabajo final se relacionaría con el procesamiento de lenguaje natural (NLP, por su sigla en inglés), pero no tenía clara la problemática en la cual lo aplicaría. Sin embargo, su tutor le recomendó considerar el modelo BERT, pues con este “podría desarrollar múltiples tareas de NLP, principalmente para clasificación”, comenta Felipe.

El modelo BERT es una técnica desarrollada por Google en 2018. Se trata de un modelo lingüístico de avanzada basado en redes neuronales y útil para NLP. A Google, por ejemplo, le ha resultado clave para interpretar y comprender las búsquedas de sus usuarios, pero sirve también para otras tareas específicas.

 

Tiempo después, una amiga cercana a Felipe le comentó que en Cuponatic, la empresa donde trabajaba en el área de ventas, requerían un indicador de experiencia basado en los comentarios y las reseñas de sus usuarios en la página web de la organización. Entonces, a él se le ocurrió que esa era la oportunidad perfecta para la aplicación de BERT.

Felipe le propuso a Cuponatic encargarse de esa labor haciendo uso de metodologías de procesamiento de lenguaje natural, básicamente el modelo BERT, para la afinación, y simulación Net Promoter Score (NPS). Cuponatic aceptó y le proporcionó los datos necesarios para su implementación.

“El desarrollo total del proyecto tuvo una duración aproximada de año y medio. Los primeros meses fueron dedicados a la profundización y caracterización teórica del modelo BERT, pero de manera simultánea se realizaron algunas pruebas de la implementación en código del modelo con datos de prueba”, comenta Felipe.

Seis meses después, sobre la base de los datos reales de Cuponatic, se llevó a cabo el desarrollo final, que, en palabras de Felipe, “incluyó la limpieza, el preprocesamiento de los datos, el entrenamiento del modelo y, por último, la generación de las métricas de rendimiento”.

La labor de Felipe consistió en implementar un algoritmo sofisticado (el modelo BERT) para la tarea específica de identificar y analizar sentimientos, tanto positivos como negativos, en las reseñas y los comentarios de los clientes de Cuponatic, para luego generar un indicador de experiencia de usuario sobre la base de esos textos, escritos en español. Como explica el profesor Nicolás Avilán, quien dirigió el proyecto, “estos modelos están muy desarrollados para la interpretación de textos en inglés, pero los desarrollos y las implementaciones para los demás idiomas son menores”, así que este es un gran aporte del trabajo de Felipe.

Sobre la opinión de los jurados al respecto, esto nos dijo el profesor Avilán:

“Los jurados comentaron respecto a lo desafiante que resulta que un algoritmo sea capaz de interpretar sentimientos en escritos generados por personas que hacen un uso diferente del idioma dependiendo de sus costumbres regionales —ya que los datos estudiados fueron generados por hispanohablantes de diferentes países—, más si se tiene en cuenta que en estos casos una expresión coloquial puede tener significados diferentes según la región”.

En general, el proyecto de Felipe recibió mención meritoria por los siguientes motivos:

Su aplicación va más allá de la identificación de sentimientos, puesto que la afinación puede realizarse para múltiples tareas de clasificación de NLP, como categorización de tema o reconocimiento de entidades.

Permite la implementación de modelos avanzados de machine learning para NLP en aplicaciones reales y funcionales en empresas de cualquier categoría, independientemente de si se carece de un volumen de datos muy extenso o de los recursos tecnológicos suficientes para un desarrollo propio.

El trabajo no se basó tan solo en correr y entrenar los modelos, sino en comprender su complejo funcionamiento interno y entender todas las arquitecturas de redes neuronales que lo componen.

En palabras del profesor Avilán:

“En términos generales, los estudiantes de la Maestría en Analítica de Datos se enfrentan a dos grandes retos. Por un lado, tienen el desafío de implementar sofisticados algoritmos para abordar un problema concreto; por otro lado, deben entender un marco conceptual muy elaborado que sustenta la funcionalidad de los algoritmos implementados. Típicamente, los estudiantes desarrollan más habilidades en uno de los aspectos mencionados, pero Felipe mostró un alto desempeño tanto técnico como conceptual al abordar un problema concreto”.

Felicidades a Felipe por sus logros y a la Facultad de Ingeniería y Ciencias Básicas por sentar las bases para este tipo de proyectos.

Si quieres saber más sobre nuestra Maestría en Analítica de Datos, haz clic aquí.
Edith López
Coordinación de Comunicaciones
Bogotá, D. C., 31 de mayo de 2022
Imágenes: Felipe Carmona
Última actualización: 2022-06-01 11:33