Los puntos clave no están disponibles para este artículo en este momento.
Resumen Abreviado Los recientes avances tecnológicos subrayan las dinámicas del mercado laboral, generando consecuencias significativas para las perspectivas de empleo y aumentando los datos de vacantes laborales en diversas plataformas e idiomas. La agregación de tales datos tiene el potencial de ofrecer valiosas perspectivas sobre la demanda del mercado laboral, la aparición de nuevas habilidades y facilitar la coincidencia de empleos para varios interesados. Sin embargo, a pesar de las perspectivas prevalentes en el sector privado, faltan sistemas y datos de tecnología del lenguaje transparente para este dominio. Esta tesis investiga la tecnología de Procesamiento de Lenguaje Natural (NLP) para extraer información relevante de las descripciones de trabajos, identificando desafíos que incluyen escasez de datos de entrenamiento, falta de directrices de anotación estandarizadas y escasez de métodos efectivos de extracción de anuncios de trabajo. Enmarcamos el problema, obteniendo datos anotados e introduciendo metodologías de extracción. Nuestras contribuciones incluyen conjuntos de datos de descripciones de trabajo, un conjunto de datos de desidentificación y un nuevo algoritmo de aprendizaje activo para un entrenamiento eficiente del modelo. Proponemos la extracción de habilidades utilizando supervisión débil, una metodología de pre-entrenamiento consciente de la taxonomía que adapta modelos de lenguaje multilingüe al dominio del mercado laboral, y un modelo mejorado por recuperación que aprovecha múltiples conjuntos de datos de extracción de habilidades para mejorar el rendimiento general. Finalmente, fundamentamos la información extraída dentro de una taxonomía designada.
Mike Zhang (Mon,) estudió esta cuestión.