Aprendizaje automático no supervisado en segmentadores morfológicos para una lengua de escasos recursos caso de estudio: SHIWILU
Acceso a Texto completo
Abstract
El Shiwilu es considerada ‘seriamente en peligro’ porque es hablada principalmente por
adultos mayores de forma parcial, poco frecuente y en contextos restringidos; además, no
continúa siendo transmitida a nuevas generaciones. Este tipo de lenguas necesitan pasar por un
proceso de revitalización (fortalecimiento) para garantizar que no se extingan y así fomentar el
interés de sus hablantes. Además, su documentación es muy escasa debido a los pocos estudios
lingüísticos realizados. A fin de elevar su status, se sugiere la creación de recursos y tecnología
de corte lingüístico, como corpus monolingüe y bilingüe, diccionarios, reconocimiento de
categorías gramaticales, analizadores morfológicos, etc. Sin embargo, la mayoría de las
lenguas existentes no se beneficia con alguno de estos recursos y/o tecnologías, y por ello son
consideradas como lenguas de escasos recursos. Debido a la falta de inversión, se requiere un
enfoque en el que se busquen soluciones robustas a un bajo costo a través de herramientas
independientes de la lengua, modelos de desarrollo de código abierto o algoritmos de
aprendizaje automático no supervisado. Bajo este contexto, se identifica como problema
central el desconocimiento de un enfoque adecuado para la segmentación morfológica de una
lengua de escasos recursos; y para ello, el presente proyecto propone realizar una segmentación
morfológica automática no supervisada en una lengua con estas características a partir de la
identificación del tipo de enfoque, monolingüe o multilingüe, que ofrece mejores resultados en
esta tarea.