Data augmentation and subword segmentation for spell-checking in amazonian languages

Alva Cohello, Carlo André

Data augmentation and subword segmentation for spell-checking in amazonian languages

dc.contributor.advisor	Oncevay Marcos, Félix Arturo
dc.contributor.author	Alva Cohello, Carlo André
dc.date.accessioned	2021-09-24T22:32:54Z
dc.date.available	2021-09-24T22:32:54Z
dc.date.created	2018
dc.date.issued	2021-09-24	es_ES
dc.description.abstract	En el Perú se han identificado 48 lenguas originarias, según la información extraída de la Base de Datos oficial de Pueblos Indígenas u originarios (BDPI). Estas son de tradición oral [BDPI, 2020]. Por lo que no había una forma oficial de enseñanza. El Instituto Linguistico de Verano (ILV) recopiló y documentó diversas lenguas nativas [Faust, 1973], como un primer intento para tener un documento formal para la enseñanza de una lengua originaria. Fue después que el Gobierno Peruano con su estrategia de inclusión social “Incluir para crecer” creó una guía oficial para la enseñanza de las lenguas originarias en su intento de normalizar el uso de estas lenguas [Jara Males, Gonzales Acer, 2015]. Como se menciona en [Forcada, 2016], el uso de tecnologías del lenguaje permite obtener una normalidad, incremento de literatura, estandarización y mayor visibilidad. En el caso de Perú, ha habido iniciativas, como analizadores morfológicos [Pereira-Noriega, et al., 2017] o correctores ortográficos [Alva, Oncevay, 2017], enfocados en las lenguas originarias de escasos recursos computacionales que pretenden apoyar el esfuerzo de revitalización, la educación indígena y la documentación de las lenguas [Zariquiey et al., 2019]. Enfocándose en lenguas amazónicas se realizó un proyecto utilizando redes neuronales para desarrollar un corrector ortográfico enfocado en las lenguas originarias con buenos resultados a nivel de precisión [Lara, 2020]. En ese trabajo, al disponer de poca cantidad de datos se generaron datos sintéticos con un método aleatorio los cuales al ser evaluados con las métricas CharacTER [Wang, et al., 2016] y BLEU [Papineni, et al., 2002] obtuvieron resultados bastante bajos. Además, las lenguas amazónicas al ser ricas a nivel morfológico y tener un vocabulario extenso es difícil representar palabras fuera del vocabulario, por lo que es recomendable usar sub-palabras como término medio [Wu, Zhao, 2018]. El presente proyecto desarrolla distintos métodos de generación de datos, diferentes al aleatorio, que son más robustos al considerar errores que son más cercanos a la realidad. A su vez, para reducir el costo computacional y mantener la capacidad de generar un vocabulario abierto, adicionalmente se entrena redes neuronales que reciban como entrada sub-palabras tales como sílabas y segmentos divididos por byte pair encoding (BPE). Finalmente, de los experimentos concluimos que hubo mejoras con los métodos y la segmentación propuesta y se tienen más recursos computacionales para nuestras lenguas amazónicas.	es_ES
dc.identifier.uri	http://hdl.handle.net/20.500.12404/20422
dc.language.iso	spa	es_ES
dc.publisher	Pontificia Universidad Católica del Perú	es_ES
dc.publisher.country	PE	es_ES
dc.rights	info:eu-repo/semantics/openAccess	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-sa/2.5/pe/	*
dc.subject	Lingüística computacional	es_ES
dc.subject	Ortografía	es_ES
dc.subject	Lenguas indígenas--Perú	es_ES
dc.subject.ocde	https://purl.org/pe-repo/ocde/ford#1.02.00	es_ES
dc.title	Data augmentation and subword segmentation for spell-checking in amazonian languages	es_ES
dc.type	info:eu-repo/semantics/masterThesis	es_ES
dc.type.other	Tesis de maestría
renati.advisor.dni	46440101
renati.advisor.orcid	https://orcid.org/0000-0001-7675-6208	es_ES
renati.author.dni	71313909
renati.discipline	611087	es_ES
renati.juror	Miller, John Edward
renati.juror	Oncevay Marcos, Félix Arturo
renati.juror	Alva Manchego, Fernando Emilio
renati.level	https://purl.org/pe-repo/renati/level#maestro	es_ES
renati.type	https://purl.org/pe-repo/renati/type#tesis	es_ES
thesis.degree.discipline	Informática con mención en Ciencias de la Computación	es_ES
thesis.degree.grantor	Pontificia Universidad Católica del Perú. Escuela de Posgrado.	es_ES
thesis.degree.level	Maestría	es_ES
thesis.degree.name	Maestro en Informática con mención en Ciencias de la Computación	es_ES

Collections

Informática con mención en Ciencias de la Computación

Data augmentation and subword segmentation for spell-checking in amazonian languages

Files

Collections