Tesis y Trabajos de Investigación PUCP

URI permanente para esta comunidadhttp://54.81.141.168/handle/123456789/6

El Repositorio Digital de Tesis y Trabajos de Investigación PUCP aporta al Repositorio Institucional con todos sus registros, organizados por grado: Doctorado, Maestría, Licenciatura y Bachillerato. Se actualiza permanentemente con las nuevas tesis y trabajos de investigación sustentados y autorizados, así como también con los que que fueron sustentados años atrás.
Ingresa a su web: Repositorio Digital de Tesis y Trabajos de Investigación PUCP

Explorar

Resultados de búsqueda

Mostrando 1 - 10 de 11
  • Ítem
    Corrector ortográfico neuronal para errores ortográficos multilingües adversarios para lenguas amazónicas peruanas
    (Pontificia Universidad Católica del Perú, 2022-11-09) Cardoso Yllanes, Gerardo; Gómez Montoya, Héctor Erasmo
    Para combatir los ataques de ejemplos adversarios, se propuso implementar un modelo de reconocimiento de palabras y entrenarlo con oraciones creadas a través de diferentes técnicas de generación de data aumentada para cuatro lenguas amazónicas peruanas de pocos recursos: Shipibo-Konibo, Asháninka, Yanesha y Yine. Observamos que, para la gran mayoría de experimentos, el modelo propuesto logró corregir oraciones con palabras con errores ortográficos. Los modelos que fueron entrenados mediante oraciones creadas a través de los canales de errores de ambigüedad fonema-grafema y desnormalización; y, el modelo de ensamble, se desempeñaron mejor al momento de evaluarlos con los corpus creados por profesores de las lenguas. Finalmente, se implementó un prototipo del corrector ortográfico neuronal, en donde se encuentran todos los modelos entrenados en la presente investigación.
  • Ítem
    Desarrollo de una base de datos léxica basada en sinonimia para Shipibo-Konibo
    (Pontificia Universidad Católica del Perú, 2021-11-24) Maguiño Valencia, Diego Arturo; Oncevay Marcos, Félix Arturo
    Este proyecto tiene como objetivo el desarrollo de una base de datos léxica basada en sinonimia (mejor conocida como WordNet) para la lengua Shipibo-Konibo. Se trabajó con el fin de generar recursos electrónicos para esta lengua que a pesar de ser la segunda más hablada en la amazonia posee escasos recursos lingüísticos. Se contó con el apoyo de lingüistas y un hablante nativo de Shipibo-Konibo durante el proceso de desarrollo y para la validación del mismo. Como base se usó un diccionario escaneado en Shipibo-Konibo y la WordNet en español disponible a través de Internet. Para que la lectura del diccionario fuera posible, se desarrolló un algoritmo con este fin, el cual separaba las palabras del diccionario y las guardaba de forma ordenada en una base de datos. Entre los datos guardados por cada término se encuentran sentidos, glosa en español, categoría gramatical y ejemplos de uso. Una vez que ya se disponía de la base de datos del diccionario, este se usó como entrada para el algoritmo de creación de la WordNet en Shipibo-Konibo. Este algoritmo consiste en tomar la glosa y ejemplos de uso de cada sentido de cada término del diccionario y compararla con todos los synsets de la WordNet en español para determinar con cual se encuentra más relacionado. Esto se calcula en base al modelo Word2Vec el cual es usado para agrupar palabras detectando similitudes en los vectores que las representan matemáticamente. Realizado el cálculo, está relación es guardada en una base de datos, una vez que se completa el algoritmo la base de datos resultante es la WordNet. También se implementó una interfaz web de consulta así hacer posible el acceso a cualquier usuario. Este recurso es muy útil para facilitar tareas como la desambiguación, extracción de información y traducción automática gracias a la flexibilidad en las búsquedas. Al tener un carácter multilingüe, la WordNet ayudará no solo a preservar sino también expandir el alcance y la posibilidad de integrar a la lengua con otras personas interesadas
  • Ítem
    Data augmentation and subword segmentation for spell-checking in amazonian languages
    (Pontificia Universidad Católica del Perú, 2021-09-24) Alva Cohello, Carlo André; Oncevay Marcos, Félix Arturo
    En el Perú se han identificado 48 lenguas originarias, según la información extraída de la Base de Datos oficial de Pueblos Indígenas u originarios (BDPI). Estas son de tradición oral [BDPI, 2020]. Por lo que no había una forma oficial de enseñanza. El Instituto Linguistico de Verano (ILV) recopiló y documentó diversas lenguas nativas [Faust, 1973], como un primer intento para tener un documento formal para la enseñanza de una lengua originaria. Fue después que el Gobierno Peruano con su estrategia de inclusión social “Incluir para crecer” creó una guía oficial para la enseñanza de las lenguas originarias en su intento de normalizar el uso de estas lenguas [Jara Males, Gonzales Acer, 2015]. Como se menciona en [Forcada, 2016], el uso de tecnologías del lenguaje permite obtener una normalidad, incremento de literatura, estandarización y mayor visibilidad. En el caso de Perú, ha habido iniciativas, como analizadores morfológicos [Pereira-Noriega, et al., 2017] o correctores ortográficos [Alva, Oncevay, 2017], enfocados en las lenguas originarias de escasos recursos computacionales que pretenden apoyar el esfuerzo de revitalización, la educación indígena y la documentación de las lenguas [Zariquiey et al., 2019]. Enfocándose en lenguas amazónicas se realizó un proyecto utilizando redes neuronales para desarrollar un corrector ortográfico enfocado en las lenguas originarias con buenos resultados a nivel de precisión [Lara, 2020]. En ese trabajo, al disponer de poca cantidad de datos se generaron datos sintéticos con un método aleatorio los cuales al ser evaluados con las métricas CharacTER [Wang, et al., 2016] y BLEU [Papineni, et al., 2002] obtuvieron resultados bastante bajos. Además, las lenguas amazónicas al ser ricas a nivel morfológico y tener un vocabulario extenso es difícil representar palabras fuera del vocabulario, por lo que es recomendable usar sub-palabras como término medio [Wu, Zhao, 2018]. El presente proyecto desarrolla distintos métodos de generación de datos, diferentes al aleatorio, que son más robustos al considerar errores que son más cercanos a la realidad. A su vez, para reducir el costo computacional y mantener la capacidad de generar un vocabulario abierto, adicionalmente se entrena redes neuronales que reciban como entrada sub-palabras tales como sílabas y segmentos divididos por byte pair encoding (BPE). Finalmente, de los experimentos concluimos que hubo mejoras con los métodos y la segmentación propuesta y se tienen más recursos computacionales para nuestras lenguas amazónicas.
  • Ítem
    Metaphor identification for Spanish sentences using recurrent neural networks
    (Pontificia Universidad Católica del Perú, 2020-06-26) Alvarez Mouravskaia, Kevin; Alatrista Salas, Hugo
    Metaphors are an important literary figure that is found in books or and daily use. Nowadays it is an essential task for Natural Language Processing (NLP), but the dependence of the context and the lack corpus in other languages make it a bottleneck for some tasks such as translation or interpretation of texts. We present a classification model using recurrent neural networks for metaphor identification in Spanish sentences. We tested our model and his variants on a new corpus in Spanish and compared it with the current baseline using an English corpus. Our best model reports an F-score of 52.5% for Spanish and 60.4% for English.
  • Ítem
    Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
    (Pontificia Universidad Católica del Perú, 2020-05-26) Lara Avila, César Jesús; Oncevay Marcos, Félix Arturo
    De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica.
  • Ítem
    Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
    (Pontificia Universidad Católica del Perú, 2019-02-15) Pereira Noriega, José Humberto; Oncevay Marcos, Felix Arturo
    Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.
  • Ítem
    Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital
    (Pontificia Universidad Católica del Perú, 2019-02-12) Espichán Linares, Alexandra Mercedes; Oncevay Marcos, Félix Arturo
    Debido a la revitalización lingüística en el Perú a lo largo de los últimos años, existe un creciente interés por reforzar la educación bilingüe en el país y aumentar la investigación enfocada en sus lenguas nativas. Asimismo, hay que considerar que en el Perú actualmente alrededor de 4 millones de personas hablan alguna de las 47 lenguas nativas conservadas. Por tanto, hay una gran variedad de lenguas con las cuales trabajar, por lo que sería de utilidad contar con herramientas automáticas que permitan agilizar algunas tareas en el estudio e investigación de dichas lenguas. De este modo, y desde el punto de vista de la informática, una de las primeras y principales tareas lingüísticas que incorporan métodos computacionales es la identificación automática de lenguaje, la cual se refiere a determinar el lenguaje en el que está escrito un texto dado, el cual puede ser un documento, un párrafo o incluso una oración. Este además es un paso esencial en el procesamiento automático de los datos del mundo real, donde una multitud de lenguajes pueden estar presentes, ya que las técnicas de procesamiento del lenguaje natural típicamente presuponen que todos los documentos a ser procesados están escritos en un lenguaje dado. Por lo tanto, este trabajo se enfoca en tres pasos: (1) en construir desde cero un corpus anotado digital para 49 lenguas y dialectos indígenas peruanos, (2) en adaptarse a los enfoques de aprendizaje de máquina estándar y profundo para la identificación de lenguas, y (3) en comparar estadísticamente los resultados obtenidos. Los resultados obtenidos fueron prometedores, el modelo estándar superó al modelo de aprendizaje profundo tal como se esperaba, con una precisión promedio de 95.9%. En el futuro, se espera que se aproveche el corpus y el modelo para tareas más complejas.
  • Ítem
    Implementación de un corrector ortográfico para lenguas originarias del Perú. Caso de estudio: shipibo-konibo
    (Pontificia Universidad Católica del Perú, 2019-02-12) Alva Cohello, Carlo André; Oncevay Marcos, Felix Arturo
    En el Perú existen diversas lenguas originarias como el shipibo-konibo, asháninka, el kakataibo, entre otras [Rivera, 2001]. Estas lenguas se caracterizan porque son transmitidas a través de cuentos, poesía y otros medios orales de generación en generación por lo que la forma de aprender la lengua es variada. Esto provoca que haya diferencia en la forma de escribir entre las comunidades, incluso entre personas de una misma comunidad [Aikman, 1999]. Por esta razón, los textos que se escribieron en estas lenguas, como el shipibo-konibo, no dispusieron de un estándar ortográfico del cual guiarse, además que no tenían una necesidad de seguirlo. Sin embargo, gracias al apoyo del gobierno para impulsar la inclusión social, se implementó el programa “Incluir para crecer” [Jara Males, Gonzales Acer, 2015] que establece que la enseñanza en los niveles de primaria y secundaria de zonas rurales debe ser enseñada en la lengua originaria del lugar además del español. Por lo que se genera una necesidad de recursos para la enseñanza ya que se presenta una deficiencia en la ortografía por la variedad de enseñanza de manera oral. Además se realizó una encuesta a nivel nacional [Ministerio de educación del Perú, 2013] que indica que en el país se ha incrementado el uso de las tecnologías en la educación. De manera que los alumnos podrían mejorar su rendimiento con ayuda de la tecnología, si es que esta contase con recursos computacionales adecuados, logrando así tener un impacto positivo. Por lo descrito previamente, en este proyecto se afronta el problema de la carencia de apoyo y escases de recursos en la corrección ortográfica entre los hablantes de lenguas originarias en el Perú mediante la implementación un corrector ortográfico, utilizable desde una aplicación web. Para tener acceso al corrector y conseguir mayor difusión, se desarrollan servicios que son consumidos en la aplicación web, en la cual se integra el corrector ortográfico y un módulo de sugerencias al usuario.
  • Ítem
    Herramienta de análisis y clasificación de complejidad de textos en español
    (Pontificia Universidad Católica del Perú, 2015-06-04) Pérez Urcia, Walter; Quispesaravia Ildefonso, André Raúl; Alva Manchego, Fernando Emilio
    La selección de textos es una de las responsabilidades principales de los profesores dentro del planeamiento del orden de exposición a textos para sus alumnos. Debido a la gran cantidad de textos disponibles y la diversidad de géneros y temas, esta tarea demanda mucho tiempo y está ligada a aspectos subjetivos del evaluador. Esto es un problema, sobre el cual proponemos una alternativa de automatización. Se toma como proyecto la implementación de una herramienta de análisis y clasificación de complejidad de tetos en español. Con ello se busca brindar una alternativa automatizada al problema de escalabilidad en complejidad de textos. Esto se refiere a la necesidad de tener un orden de textos evaluados por complejidad. Para ello evaluamos la complejidad utilizando las métricas de Coh-Metrix adaptadas al español. Este conjunto de métricas evalúa textos en inglés de acuerdo a los estudios de coherencia y cohesión que los autores de Coh-Metrix desarrollaron. En base a esta adatapación de Coh-Metrix se desarrolló un clasificador basado en técnicas de aprenizaje de máquina y un conjunto de textos en español conformado por fábulas y cuentos previamente clasificados. Finalmente estos componentes fueron unidos en una herraamienta web para la accesibilidad pública de la herramienta desarrollada.
  • Ítem
    Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres
    (Pontificia Universidad Católica del Perú, 2011-12-02) Salas Damián, Roberto Carlos
    Los sistemas de corrección usan como principio la lingüística computacional. En este contexto, un computador realiza un análisis ortográfico de los caracteres reconocidos por un OCR (Optical Chapter Recognition). Un OCR es un software que extraen de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto. El rendimiento de los sistemas de reconocimiento de caracteres es bajo cuando se trata de digitalizar documentos deteriorados debido a las manchas y otros factores que evitan que se reconozcan las palabras del texto original. Antes este problema, lo que se propone en esta tesis es la implementación de un sistema de corrección ortográfica a la salida del OCR, que permitirá mejorar su eficiencia al momento de reconocimiento del caracteres. De esta manera la digitalización de los documentos históricos podrá garantizar una calidad óptima. El sistema de corrección de ortográfica se basa en la búsqueda de patrones dentro de un texto. Esta búsqueda trata de encontrar todas las coincidencias de un patrón dentro de un texto, teniendo en consideración que la coincidencia de patrón con el texto puede tener un número limitado de diferencias. Este problema tiene aplicaciones en recuperación de información, biología computacional y procesamiento de señales, entre otras. Como conclusión principal se obtiene que con el modelo de corrección basado en la búsqueda de patrones se alcanza un rendimiento de 80%, además el tiempo de procesamiento requerido para analizar una palabra es de tan solo 0.1seg lo cual refleja un alto rendimiento. Con esto, podemos concluir también que la metodología desarrollada para realizar la corrección de las palabras es una buena opción para este objetivo.