Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
Acceso a Texto completo
Abstract
La generación de diálogo implica diseñar un programa para generar una conversación
natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y
otro programa de manera coherente y fluida. Desarrollar una conversación también
depende del contexto y conocimiento del interlocutor, lo cual nos lleva a definir la
existencia de niveles de complejidad conversacional, la cual se refiere a determinar que
tan fácil o difícil de leer es un texto. En este aspecto, especialmente para el idioma
español, no existe una herramienta que tenga un módulo propio que le permita clasificar
textos en español por su complejidad textual.
En el presente trabajo de fin de carrera se realiza el desarrollo de un módulo en el
lenguaje de programación Python, el cual funciona como un Framework para identificar
la complejidad textual de textos en español usando técnicas de Machine Learning. Para
ello, en primer lugar, se implementaron 48 métricas de análisis de complejidad textual
basadas en Coh-Metrix usando el lenguaje de programación Python. Dichas métricas
convierten textos en español en datos numéricos con los cuales se entrenaron distintos
modelos de Machine Learning, con el motivo de obtener el mejor modelo a utilizar con
el Framework desarrollado, siendo este capaz de utilizar un modelo personalizado
provisto por el usuario. Para ello, se necesitó obtener un corpus de 183 textos en español
para realizar dicho entrenamiento, el cual fue obtenido al descargar textos educativos de
nivel primaria y secundaria. Por último, se entrenó un chatbot con los textos obtenidos
para el corpus, cuyas respuestas generadas fueron analizados con el Framework
previamente desarrollado, identificando que el nivel de complejidad de dichas
respuestas correspondía al nivel de los textos con los cuales el chatbot fue entrenado.
En conclusión, en el presente proyecto de investigación se desarrolla un módulo de
Python que funciona como un Framework, el cual es capaz de identificar la complejidad
textual de textos en español, ya sea con el mejor modelo de Machine Learning utilizado
en el presente proyecto o utilizando uno provisto por el usuario de la herramienta.