Ingeniería Civil en Telemática del DIE USACH tiene un nuevo titulado

septiembre 23, 2025
Posted in Noticias
septiembre 23, 2025 Ashley Gómez Ceballos

Martín Burgos Miranda, estudiante de Ingeniería Civil en Telemática del Departamento de Ingeniería Eléctrica de la Universidad de Santiago de Chile, presentó su defensa de título denominada “Matching de descripciones de productos de supermercado mediante técnicas híbridas de Procesamiento de Lenguaje Natural (NLP) y Machine Learning”. 

La investigación aborda un desafío que, según explica Martín, corresponde a una situación cotidiana que resulta simple de explicar, pero que es difícil de resolver. En definitiva, refiere a la falta de estandarización en las descripciones de productos en facturas electrónicas emitidas diariamente.

El impacto de este problema no es menor, ya que, diversos organismos dependen de datos precisos para construir índices de inflación, monitorear el consumo de los hogares y planificar políticas públicas. Por lo tanto, encontrar soluciones automatizadas y escalables es un desafío de gran relevancia para la economía nacional.

Mayores detalles sobre la investigación

El problema se vuelve crítico en el sector retail, particularmente en los supermercados, donde las empresas reciben productos de cientos de proveedores que registran sus artículos con distintos nombres, abreviaciones, errores ortográficos o en formatos inconsistentes. Esta dispersión complica el seguimiento de precios y cantidades, afecta la precisión de las bases de datos y eleva los costos de análisis manual.

“En mi práctica profesional en el Banco Central, me encontré con que dos productos idénticos podían aparecer con descripciones distintas. Esto hace muy difícil seguir la trazabilidad de los precios y cantidades, especialmente cuando hablamos de bases de datos con millones de registros. Resolverlo es fundamental para construir indicadores confiables”, explicó Martín.

El trabajo de titulación de Martín tuvo como objetivo diseñar e implementar un marco de trabajo (framework) que permitiera automatizar el proceso de matching de productos, integrando todas las etapas de análisis, desde la extracción, transformación y carga de datos (ETL) que significa Extract (Extraer), Transform (Transformar), Load (Cargar) hasta la clasificación y emparejamiento de las descripciones.

Para lograrlo, el estudiante diseñó un proceso de datos de gran escala, que combina diversos modelos, algunos de ellos son procesamiento de lenguaje natural (NLP): Aplicación de técnicas modernas como tokenización, bag of words, TF-IDF y embeddings semánticos, modelos híbridos de clasificación: Integración de enfoques léxicos tradicionales (como BM25) con algoritmos de aprendizaje automático como XGBoost. y modelos transformer-based: Implementación de MPNet para capturar la semántica de las descripciones de productos, lo que permitió ir más allá de la simple coincidencia de caracteres o palabras.

“La mayor innovación fue integrar modelos clásicos como BM25, que son muy rápidos y eficientes, con embeddings semánticos basados en transformers. Esto permitió lograr un equilibrio entre rendimiento computacional y calidad de predicción”, destacó en el examen el profesor guía Christian Fernández.

Los resultados demostraron que la propuesta de Martín es escalable y aplicable en entornos productivos. En pruebas piloto, el sistema fue capaz de identificar productos con descripciones incompletas, duplicadas o con errores tipográficos, manteniendo una alta precisión y reduciendo la necesidad de validación manual.

Sobre el desafío principal de su tesis Martín destaca “Aprender a fondo cómo funcionan los modelos de NLP y cómo combinarlos fue un desafío que requirió meses de estudio autónomo, lectura de papers y experimentación. Hubo momentos en que parecía que el modelo no avanzaba, pero persistir, seguir ajustando parámetros y probar nuevas arquitecturas me permitió llegar a resultados que superaron las expectativas”.

Motivado por los resultados, Martín planea seguir profundizando en la intersección entre inteligencia artificial y analítica de datos. Actualmente desarrolla un proyecto personal que utiliza web scraping y modelos de lenguaje para el análisis de medios de comunicación, con el objetivo de explorar cómo la IA puede apoyar la comprensión de fenómenos sociales y económicos.

“La inteligencia artificial está cambiando la manera en que se procesan datos en todas las industrias. Quiero seguir investigando, y si tuviera apoyo financiero, me encantaría desarrollar modelos propios adaptados a las necesidades específicas de Chile”, afirmó.

Finalmente, Martín obtuvo la nota máxima y el reconocimiento unánime de la comisión evaluadora integrada por los académicos David Pineda, Juan Pablo Quiero y su profesor guía, Christian Fernández en su examen de grado.