Tesis y Trabajos de Investigación PUCP

URI permanente para esta comunidadhttp://54.81.141.168/handle/123456789/6

El Repositorio Digital de Tesis y Trabajos de Investigación PUCP aporta al Repositorio Institucional con todos sus registros, organizados por grado: Doctorado, Maestría, Licenciatura y Bachillerato. Se actualiza permanentemente con las nuevas tesis y trabajos de investigación sustentados y autorizados, así como también con los que que fueron sustentados años atrás.
Ingresa a su web: Repositorio Digital de Tesis y Trabajos de Investigación PUCP

Explorar

Resultados de búsqueda

Mostrando 1 - 6 de 6
  • Ítem
    Aprendizaje automático no supervisado en segmentadores morfológicos para una lengua de escasos recursos caso de estudio: SHIWILU
    (Pontificia Universidad Católica del Perú, 2023-06-27) Asmat Ramirez, Evelyn Fiorella; Zapata del Río, Claudia María del Pilar; Oncevay Marcos, Felix Arturo
    El Shiwilu es considerada ‘seriamente en peligro’ porque es hablada principalmente por adultos mayores de forma parcial, poco frecuente y en contextos restringidos; además, no continúa siendo transmitida a nuevas generaciones. Este tipo de lenguas necesitan pasar por un proceso de revitalización (fortalecimiento) para garantizar que no se extingan y así fomentar el interés de sus hablantes. Además, su documentación es muy escasa debido a los pocos estudios lingüísticos realizados. A fin de elevar su status, se sugiere la creación de recursos y tecnología de corte lingüístico, como corpus monolingüe y bilingüe, diccionarios, reconocimiento de categorías gramaticales, analizadores morfológicos, etc. Sin embargo, la mayoría de las lenguas existentes no se beneficia con alguno de estos recursos y/o tecnologías, y por ello son consideradas como lenguas de escasos recursos. Debido a la falta de inversión, se requiere un enfoque en el que se busquen soluciones robustas a un bajo costo a través de herramientas independientes de la lengua, modelos de desarrollo de código abierto o algoritmos de aprendizaje automático no supervisado. Bajo este contexto, se identifica como problema central el desconocimiento de un enfoque adecuado para la segmentación morfológica de una lengua de escasos recursos; y para ello, el presente proyecto propone realizar una segmentación morfológica automática no supervisada en una lengua con estas características a partir de la identificación del tipo de enfoque, monolingüe o multilingüe, que ofrece mejores resultados en esta tarea.
  • Ítem
    Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño
    (Pontificia Universidad Católica del Perú, 2022-11-09) Ubaldo Gamarra, Victoria Alejandra; Oncevay Marcos, Felix Arturo
    En la actualidad, para los más de 30 millones de peruanos, la información a la que accedemos se encuentra mayormente en el idioma español. Sin embargo Perú es un país multilingüe, posee una gran riqueza cultural y lingüística con alrededor de 47 lenguas originarias. Para esta población encontrar textos, noticias y contenido en internet en su lengua nativa es una tarea complicada. Existe un limitado acceso a información como lecturas, textos, noticias u otros contenidos que en modalidad digital es muy escaso. Esto se debe a que los pocos ciudadanos que se comunican en lenguas nativas son de manera oral y algunos hacen uso del español sobre sus lenguas nativas. De ese modo, existen investigaciones en el campo de la inteligencia artificial donde a partir del poco material digital recolectado de lenguas nativas se construyeron corpus digitales para tareas de traducción automática y detección del lenguaje. Sin embargo, aún son corpus pequeños para elaborar traductores de calidad, presentan complicaciones en traducir textos completos, y además díficil el aprendizaje con algoritmos complejos, como redes neuronales profundas. Por este motivo se propone realizar una minería web de textos en la lengua originaria quechua sureño para incrementar la cantidad de oraciones y diversidad de dominios, evaluar la calidad de los nuevos textos en un modelo de traducción automática de quechua a español, y desarrollar una web de libre acceso de consulta al corpus creado.
  • Ítem
    Representación vectorial de relación de hiponimia e hiperonimia en español
    (Pontificia Universidad Católica del Perú, 2020-09-03) Utia Deza, Jose Vicente; Oncevay Marcos, Felix Arturo
    Actualmente, gracias a Internet y a la Web se dispone de información casi ilimitada, la cual está representada a nivel de textos en su mayoría. Así, dado que acceder a estos textos en su mayoría es de libre acceso, nace el interés por su manipulación de una manera automatizada para poder extraer información que se considere relevante. El presente trabajo de investigación se ubica dentro de la detección automática de relaciones léxicas entre palabras, que son relaciones que se establecen entre los significados de las palabras tal como se consigna en el diccionario. En particular, se centra en la detección de relaciones de hiponimia e hiperonimia, debido a que éstas son relaciones de palabras en las que una de ellas engloba el significado de otra o viceversa, lo cual podría considerarse como categorización de palabras. Básicamente, el método propuesto se basa en la manipulación de una representación vectorial de palabras denominado Word Embeddings, para resaltar especialmente áquellas que tengan relación jerárquica, proceso que se realiza a partir de textos no estructurados. Tradicionalmente, los Word Embeddings son utilizados para tareas de analogía, es decir, para detectar relaciones de sinonimia, por lo que se considera un poco más complejo utilizar estos vectores para la detección de relaciones jerárquicas (hiperonimia e hiponimia), por consecuencia se proponen métodos adicionales para que, en conjunto con los Word Embeddings, se puedan obtener resultados eficientes al momento de detectar las relaciones entre distintos pares de palabras.
  • Ítem
    A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language
    (Pontificia Universidad Católica del Perú, 2019-09-13) Gómez Montoya, Héctor Erasmo; Oncevay Marcos, Felix Arturo
    Para las comunidades más pequeñas y nativas en un país, es muy difícil encontrar información que se encuentre en su idioma original, esto debido a que su lengua no tiene el alcance ni la cantidad suficiente de hablantes, para poder seguir siendo transmitida. A este tipo de lengua se le denomina minoritaria o de pocos recursos. Una de las principales formas en las que el gobierno incentiva el proceso de multilingüismo es proporcionando educación en el idioma nativo a su población, tal es el caso de los hablantes de Shipibo-Konibo que se encuentran dispersos a lo largo de la amazonía del Perú. Ellos cuentan con colegios donde se les imparten clases en su lengua nativa para los niveles de primaria y secundaria. Sin embargo, una necesidad con la que cuentan los pobladores es que la cantidad de material educativo completamente traducido a Shipibo-Konibo es reducida. Esto debido a que el proceso de traducción es muy costoso y poco confiable. El Grupo de investigación en Inteligencia Artificial de la PUCP (IA-PUCP, ex GRPIAA) ha desarrollado una plataforma que utiliza corpus paralelos la creación de un modelo estadístico de traducción automática para las lenguas Shipibo-Konibo y español. Este modelo sufre de ciertas limitantes, entre las cuales tenemos: la cantidad de recursos bibliográficos y material completamente traducido, esto debido a que al ser una lengua minoritaria o de pocos recursos carecen de facilidades para la generación de nuevos corpus. Por otro lado, se desea mejorar el modelo actual en parámetros de eficiencia y obtener mejores resultados en las traducciones. En este contexto nace la pregunta que motiva el presente trabajo: ¿de qué manera podemos incrementar el corpus paralelo de forma eficiente y confiable para la mejora del modelo actual de traducción automática? Por consiguiente, en el presente trabajo se propone desarrollar un agente conversacional que permita la generación de nuevos corpus paralelos entre Shipibo-Konibo y español que permitan mejorar un modelo de traducción automática neuronal en las lenguas ya mencionadas.
  • Ítem
    Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
    (Pontificia Universidad Católica del Perú, 2019-02-15) Pereira Noriega, José Humberto; Oncevay Marcos, Felix Arturo
    Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.
  • Ítem
    Implementación de un corrector ortográfico para lenguas originarias del Perú. Caso de estudio: shipibo-konibo
    (Pontificia Universidad Católica del Perú, 2019-02-12) Alva Cohello, Carlo André; Oncevay Marcos, Felix Arturo
    En el Perú existen diversas lenguas originarias como el shipibo-konibo, asháninka, el kakataibo, entre otras [Rivera, 2001]. Estas lenguas se caracterizan porque son transmitidas a través de cuentos, poesía y otros medios orales de generación en generación por lo que la forma de aprender la lengua es variada. Esto provoca que haya diferencia en la forma de escribir entre las comunidades, incluso entre personas de una misma comunidad [Aikman, 1999]. Por esta razón, los textos que se escribieron en estas lenguas, como el shipibo-konibo, no dispusieron de un estándar ortográfico del cual guiarse, además que no tenían una necesidad de seguirlo. Sin embargo, gracias al apoyo del gobierno para impulsar la inclusión social, se implementó el programa “Incluir para crecer” [Jara Males, Gonzales Acer, 2015] que establece que la enseñanza en los niveles de primaria y secundaria de zonas rurales debe ser enseñada en la lengua originaria del lugar además del español. Por lo que se genera una necesidad de recursos para la enseñanza ya que se presenta una deficiencia en la ortografía por la variedad de enseñanza de manera oral. Además se realizó una encuesta a nivel nacional [Ministerio de educación del Perú, 2013] que indica que en el país se ha incrementado el uso de las tecnologías en la educación. De manera que los alumnos podrían mejorar su rendimiento con ayuda de la tecnología, si es que esta contase con recursos computacionales adecuados, logrando así tener un impacto positivo. Por lo descrito previamente, en este proyecto se afronta el problema de la carencia de apoyo y escases de recursos en la corrección ortográfica entre los hablantes de lenguas originarias en el Perú mediante la implementación un corrector ortográfico, utilizable desde una aplicación web. Para tener acceso al corrector y conseguir mayor difusión, se desarrollan servicios que son consumidos en la aplicación web, en la cual se integra el corrector ortográfico y un módulo de sugerencias al usuario.