Creación de un módulo de Procesamiento de Lenguaje Natural sobre un indexador a partir de información no estructurada proveniente del INAEM

التفاصيل البيبلوغرافية
العنوان: Creación de un módulo de Procesamiento de Lenguaje Natural sobre un indexador a partir de información no estructurada proveniente del INAEM
المؤلفون: Buey Utrilla, Santiago, Galbán Garzón, Sebastián Federico
بيانات النشر: Universidad de Zaragoza, 2022.
سنة النشر: 2022
الوصف: Este TFG se ha realizado dentro de la empresa Hiberus Tecnología, en el área de Data & Analytics. Allí existe un proyecto con el Instituto Aragonés de Empleo (INAEM) en el que se implementó una plataforma Big Data para la clasificación de ofertas de empleo. Este trabajo se sitúa dentro del marco de dicho proyecto, en el que se van a evaluar posibilidades que tengan viabilidad técnica garantizada y por tanto puedan ser llevadas a producción en un futuro. En este contexto, se ha puesto el foco en la mejora de la información obtenida como problema a abordar. Para este trabajo se ha planteado aplicar técnicas de Machine Learning (ML) sobre los datos, es decir, ofertas de empleo. Dado que son datos de carácter textual, se ha concretado en utilizar Procesamiento del Lenguaje Natural sobre ellas para extraer la información, en particular aplicando una de dos técnicas propuestas: Named Entity Recognition (NER) o Topic Modeling. En el proyecto de Hiberus, las ofertas de empleo se encuentran cargadas en índices de Elastic, tecnología que se utiliza como indexador. Tras un periodo de familiarización y estudio de la herramienta, se ha abordado la problemática de que no cuenta con funcionalidades de ML de forma gratuita, y tampoco ofrece técnicas de NLP. Para ello, se ha hecho un estudio del estado de la práctica en busca de alternativas, hasta dar con una que aportase capacidades NLP sin necesidad de pagar. Fruto del estudio del estado de la práctica se ha encontrado la librería gratuita OpenNLP, que ofrece herramientas para entrenar y evaluar modelos NER, y el plugin Elasticsearch OpenNLP Ingest Processor, el cual permite incorporar dichos modelos en Elastic para poderlos aplicar en la fase de la ingesta de datos. Por tanto, se ha encontrado una solución que permite aplicar NER sobre las ofertas de empleo del proyecto con INAEM dentro de Elastic. Esta solución ha sido evaluada en base a distintas métricas y comparada con otras alternativas que no aplican ML, y se han planteado sus posibles futuras líneas de desarrollo y puntos de mejora por sí en un futuro se quisiera llevar a producción.
وصف الملف: application/pdf
اللغة: Spanish; Castilian
URL الوصول: https://explore.openaire.eu/search/publication?articleId=od______1413::179533d08552655ad294fd70550f4443
http://zaguan.unizar.es/record/125550
حقوق: OPEN
رقم الأكسشن: edsair.od......1413..179533d08552655ad294fd70550f4443
قاعدة البيانات: OpenAIRE