Facultad de Ciencias e Ingeniería

URI permanente para esta comunidadhttp://54.81.141.168/handle/123456789/9119

Explorar

Resultados de búsqueda

Mostrando 1 - 7 de 7
  • Ítem
    Desarrollo de una base de datos léxica basada en sinonimia para Shipibo-Konibo
    (Pontificia Universidad Católica del Perú, 2021-11-24) Maguiño Valencia, Diego Arturo; Oncevay Marcos, Félix Arturo
    Este proyecto tiene como objetivo el desarrollo de una base de datos léxica basada en sinonimia (mejor conocida como WordNet) para la lengua Shipibo-Konibo. Se trabajó con el fin de generar recursos electrónicos para esta lengua que a pesar de ser la segunda más hablada en la amazonia posee escasos recursos lingüísticos. Se contó con el apoyo de lingüistas y un hablante nativo de Shipibo-Konibo durante el proceso de desarrollo y para la validación del mismo. Como base se usó un diccionario escaneado en Shipibo-Konibo y la WordNet en español disponible a través de Internet. Para que la lectura del diccionario fuera posible, se desarrolló un algoritmo con este fin, el cual separaba las palabras del diccionario y las guardaba de forma ordenada en una base de datos. Entre los datos guardados por cada término se encuentran sentidos, glosa en español, categoría gramatical y ejemplos de uso. Una vez que ya se disponía de la base de datos del diccionario, este se usó como entrada para el algoritmo de creación de la WordNet en Shipibo-Konibo. Este algoritmo consiste en tomar la glosa y ejemplos de uso de cada sentido de cada término del diccionario y compararla con todos los synsets de la WordNet en español para determinar con cual se encuentra más relacionado. Esto se calcula en base al modelo Word2Vec el cual es usado para agrupar palabras detectando similitudes en los vectores que las representan matemáticamente. Realizado el cálculo, está relación es guardada en una base de datos, una vez que se completa el algoritmo la base de datos resultante es la WordNet. También se implementó una interfaz web de consulta así hacer posible el acceso a cualquier usuario. Este recurso es muy útil para facilitar tareas como la desambiguación, extracción de información y traducción automática gracias a la flexibilidad en las búsquedas. Al tener un carácter multilingüe, la WordNet ayudará no solo a preservar sino también expandir el alcance y la posibilidad de integrar a la lengua con otras personas interesadas
  • Ítem
    Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
    (Pontificia Universidad Católica del Perú, 2019-02-15) Pereira Noriega, José Humberto; Oncevay Marcos, Felix Arturo
    Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.
  • Ítem
    Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital
    (Pontificia Universidad Católica del Perú, 2019-02-12) Espichán Linares, Alexandra Mercedes; Oncevay Marcos, Félix Arturo
    Debido a la revitalización lingüística en el Perú a lo largo de los últimos años, existe un creciente interés por reforzar la educación bilingüe en el país y aumentar la investigación enfocada en sus lenguas nativas. Asimismo, hay que considerar que en el Perú actualmente alrededor de 4 millones de personas hablan alguna de las 47 lenguas nativas conservadas. Por tanto, hay una gran variedad de lenguas con las cuales trabajar, por lo que sería de utilidad contar con herramientas automáticas que permitan agilizar algunas tareas en el estudio e investigación de dichas lenguas. De este modo, y desde el punto de vista de la informática, una de las primeras y principales tareas lingüísticas que incorporan métodos computacionales es la identificación automática de lenguaje, la cual se refiere a determinar el lenguaje en el que está escrito un texto dado, el cual puede ser un documento, un párrafo o incluso una oración. Este además es un paso esencial en el procesamiento automático de los datos del mundo real, donde una multitud de lenguajes pueden estar presentes, ya que las técnicas de procesamiento del lenguaje natural típicamente presuponen que todos los documentos a ser procesados están escritos en un lenguaje dado. Por lo tanto, este trabajo se enfoca en tres pasos: (1) en construir desde cero un corpus anotado digital para 49 lenguas y dialectos indígenas peruanos, (2) en adaptarse a los enfoques de aprendizaje de máquina estándar y profundo para la identificación de lenguas, y (3) en comparar estadísticamente los resultados obtenidos. Los resultados obtenidos fueron prometedores, el modelo estándar superó al modelo de aprendizaje profundo tal como se esperaba, con una precisión promedio de 95.9%. En el futuro, se espera que se aproveche el corpus y el modelo para tareas más complejas.
  • Ítem
    Implementación de un corrector ortográfico para lenguas originarias del Perú. Caso de estudio: shipibo-konibo
    (Pontificia Universidad Católica del Perú, 2019-02-12) Alva Cohello, Carlo André; Oncevay Marcos, Felix Arturo
    En el Perú existen diversas lenguas originarias como el shipibo-konibo, asháninka, el kakataibo, entre otras [Rivera, 2001]. Estas lenguas se caracterizan porque son transmitidas a través de cuentos, poesía y otros medios orales de generación en generación por lo que la forma de aprender la lengua es variada. Esto provoca que haya diferencia en la forma de escribir entre las comunidades, incluso entre personas de una misma comunidad [Aikman, 1999]. Por esta razón, los textos que se escribieron en estas lenguas, como el shipibo-konibo, no dispusieron de un estándar ortográfico del cual guiarse, además que no tenían una necesidad de seguirlo. Sin embargo, gracias al apoyo del gobierno para impulsar la inclusión social, se implementó el programa “Incluir para crecer” [Jara Males, Gonzales Acer, 2015] que establece que la enseñanza en los niveles de primaria y secundaria de zonas rurales debe ser enseñada en la lengua originaria del lugar además del español. Por lo que se genera una necesidad de recursos para la enseñanza ya que se presenta una deficiencia en la ortografía por la variedad de enseñanza de manera oral. Además se realizó una encuesta a nivel nacional [Ministerio de educación del Perú, 2013] que indica que en el país se ha incrementado el uso de las tecnologías en la educación. De manera que los alumnos podrían mejorar su rendimiento con ayuda de la tecnología, si es que esta contase con recursos computacionales adecuados, logrando así tener un impacto positivo. Por lo descrito previamente, en este proyecto se afronta el problema de la carencia de apoyo y escases de recursos en la corrección ortográfica entre los hablantes de lenguas originarias en el Perú mediante la implementación un corrector ortográfico, utilizable desde una aplicación web. Para tener acceso al corrector y conseguir mayor difusión, se desarrollan servicios que son consumidos en la aplicación web, en la cual se integra el corrector ortográfico y un módulo de sugerencias al usuario.
  • Ítem
    Herramienta de análisis y clasificación de complejidad de textos en español
    (Pontificia Universidad Católica del Perú, 2015-06-04) Pérez Urcia, Walter; Quispesaravia Ildefonso, André Raúl; Alva Manchego, Fernando Emilio
    La selección de textos es una de las responsabilidades principales de los profesores dentro del planeamiento del orden de exposición a textos para sus alumnos. Debido a la gran cantidad de textos disponibles y la diversidad de géneros y temas, esta tarea demanda mucho tiempo y está ligada a aspectos subjetivos del evaluador. Esto es un problema, sobre el cual proponemos una alternativa de automatización. Se toma como proyecto la implementación de una herramienta de análisis y clasificación de complejidad de tetos en español. Con ello se busca brindar una alternativa automatizada al problema de escalabilidad en complejidad de textos. Esto se refiere a la necesidad de tener un orden de textos evaluados por complejidad. Para ello evaluamos la complejidad utilizando las métricas de Coh-Metrix adaptadas al español. Este conjunto de métricas evalúa textos en inglés de acuerdo a los estudios de coherencia y cohesión que los autores de Coh-Metrix desarrollaron. En base a esta adatapación de Coh-Metrix se desarrolló un clasificador basado en técnicas de aprenizaje de máquina y un conjunto de textos en español conformado por fábulas y cuentos previamente clasificados. Finalmente estos componentes fueron unidos en una herraamienta web para la accesibilidad pública de la herramienta desarrollada.
  • Ítem
    Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres
    (Pontificia Universidad Católica del Perú, 2011-12-02) Salas Damián, Roberto Carlos
    Los sistemas de corrección usan como principio la lingüística computacional. En este contexto, un computador realiza un análisis ortográfico de los caracteres reconocidos por un OCR (Optical Chapter Recognition). Un OCR es un software que extraen de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto. El rendimiento de los sistemas de reconocimiento de caracteres es bajo cuando se trata de digitalizar documentos deteriorados debido a las manchas y otros factores que evitan que se reconozcan las palabras del texto original. Antes este problema, lo que se propone en esta tesis es la implementación de un sistema de corrección ortográfica a la salida del OCR, que permitirá mejorar su eficiencia al momento de reconocimiento del caracteres. De esta manera la digitalización de los documentos históricos podrá garantizar una calidad óptima. El sistema de corrección de ortográfica se basa en la búsqueda de patrones dentro de un texto. Esta búsqueda trata de encontrar todas las coincidencias de un patrón dentro de un texto, teniendo en consideración que la coincidencia de patrón con el texto puede tener un número limitado de diferencias. Este problema tiene aplicaciones en recuperación de información, biología computacional y procesamiento de señales, entre otras. Como conclusión principal se obtiene que con el modelo de corrección basado en la búsqueda de patrones se alcanza un rendimiento de 80%, además el tiempo de procesamiento requerido para analizar una palabra es de tan solo 0.1seg lo cual refleja un alto rendimiento. Con esto, podemos concluir también que la metodología desarrollada para realizar la corrección de las palabras es una buena opción para este objetivo.
  • Ítem
    Comprensión y generación de lenguaje natural en un sistema de diálogo usando inteligencia artificial para servicios telefónicos de información de cines
    (Pontificia Universidad Católica del Perú, 2011-05-09) Mesones Barrón, Carlos Enrique
    El presente documento es resultado de la investigación sobre automatización inteligente - comprensión y generación de lenguaje natural- en un Sistema de Diálogo, para optimar el servicio de atención al cliente actualmente brindado por un operador vía telefónica.