Tesis y Trabajos de Investigación PUCP

URI permanente para esta comunidadhttp://54.81.141.168/handle/123456789/6

El Repositorio Digital de Tesis y Trabajos de Investigación PUCP aporta al Repositorio Institucional con todos sus registros, organizados por grado: Doctorado, Maestría, Licenciatura y Bachillerato. Se actualiza permanentemente con las nuevas tesis y trabajos de investigación sustentados y autorizados, así como también con los que que fueron sustentados años atrás.
Ingresa a su web: Repositorio Digital de Tesis y Trabajos de Investigación PUCP

Explorar

Resultados de búsqueda

Mostrando 1 - 10 de 16
  • Ítem
    Intransitividad escindida en el asháninka del Tambo
    (Pontificia Universidad Católica del Perú, 2023-11-15) Contreras Gomez, Katherine Leith Fresia; Peña Torrejon, Jaime German
    La presente tesis ofrece un estudio descriptivo del fenómeno de la intransitividad escindida en el asháninka del Tambo (familia arawak) desde un acercamiento tipológico y funcional, en tanto nos interesa hallar la correspondencia entre una estructura formal y su propósito comunicativo en el mundo real (Hopper & Thompson 1980). Este último aspecto guarda un correlato significativo con esquemas cognitivos que le permiten al ser humano categorizar la experiencia por medio del lenguaje (DeLancey 1987). La intransitividad escindida consiste en la posibilidad de que el argumento de una construcción intransitiva (S) se codifique en ciertos contextos como el argumento más agentivo de una cláusula transitiva (A) y en otros, como el argumento más pacientivo de esta misma (P). La intransitividad escindida que exhibe el asháninka del Tambo presenta un condicionamiento discursivo a partir de la jerarquía de estatus de información en la que se sitúan las cláusulas, especialmente, es relevante el estatus de pico narrativo (Jones & Jones 1979). Los datos de esta investigación provienen de habla natural y, en menor medida, de elicitación, ya que la intransitividad escindida por motivación discursiva implica identificar elementos novedosos de aquellos ya establecidos dentro de una narración o con distintos grados de saliencia cognitiva.
  • Ítem
    Corrector ortográfico neuronal para errores ortográficos multilingües adversarios para lenguas amazónicas peruanas
    (Pontificia Universidad Católica del Perú, 2022-11-09) Cardoso Yllanes, Gerardo; Gómez Montoya, Héctor Erasmo
    Para combatir los ataques de ejemplos adversarios, se propuso implementar un modelo de reconocimiento de palabras y entrenarlo con oraciones creadas a través de diferentes técnicas de generación de data aumentada para cuatro lenguas amazónicas peruanas de pocos recursos: Shipibo-Konibo, Asháninka, Yanesha y Yine. Observamos que, para la gran mayoría de experimentos, el modelo propuesto logró corregir oraciones con palabras con errores ortográficos. Los modelos que fueron entrenados mediante oraciones creadas a través de los canales de errores de ambigüedad fonema-grafema y desnormalización; y, el modelo de ensamble, se desempeñaron mejor al momento de evaluarlos con los corpus creados por profesores de las lenguas. Finalmente, se implementó un prototipo del corrector ortográfico neuronal, en donde se encuentran todos los modelos entrenados en la presente investigación.
  • Ítem
    Awajunnum kuntin aidau: categorización etnozoológica en awajún
    (Pontificia Universidad Católica del Perú, 2022-06-14) Espejo Apikai, Hermenegildo; Peña Torrejon, Jaime German
    La presente investigación busca describir y analizar la categorización taxonómica propia de la cosmovisión awajún para las categorías que se pueden encontrar dentro del concepto de ANIMAL. A partir de la teoría de taxonomías etnolingüísticas propuesta por Berlin, B. (1992) Ethnobiological classification: principles of categorization of plants and animals in traditional societies, la tesis plantea que existen diferentes tipos de categorías etnozoológicas en awajún, algunas de las cuales cuentan con etiquetas terminológicas y otras son categorías encubiertas que no cuentan con una etiqueta terminológica, pero que de acuerdo con esta investigación conforman taxones para los hablantes awajún. La metodología sigue pasos de gabinete para extraer información de diccionarios, así como trabajo de campo y entrevistas a profundidad a hablantes de awajún de la variedad todavía poco descrita del Cenepa.
  • Ítem
    Desarrollo de una base de datos léxica basada en sinonimia para Shipibo-Konibo
    (Pontificia Universidad Católica del Perú, 2021-11-24) Maguiño Valencia, Diego Arturo; Oncevay Marcos, Félix Arturo
    Este proyecto tiene como objetivo el desarrollo de una base de datos léxica basada en sinonimia (mejor conocida como WordNet) para la lengua Shipibo-Konibo. Se trabajó con el fin de generar recursos electrónicos para esta lengua que a pesar de ser la segunda más hablada en la amazonia posee escasos recursos lingüísticos. Se contó con el apoyo de lingüistas y un hablante nativo de Shipibo-Konibo durante el proceso de desarrollo y para la validación del mismo. Como base se usó un diccionario escaneado en Shipibo-Konibo y la WordNet en español disponible a través de Internet. Para que la lectura del diccionario fuera posible, se desarrolló un algoritmo con este fin, el cual separaba las palabras del diccionario y las guardaba de forma ordenada en una base de datos. Entre los datos guardados por cada término se encuentran sentidos, glosa en español, categoría gramatical y ejemplos de uso. Una vez que ya se disponía de la base de datos del diccionario, este se usó como entrada para el algoritmo de creación de la WordNet en Shipibo-Konibo. Este algoritmo consiste en tomar la glosa y ejemplos de uso de cada sentido de cada término del diccionario y compararla con todos los synsets de la WordNet en español para determinar con cual se encuentra más relacionado. Esto se calcula en base al modelo Word2Vec el cual es usado para agrupar palabras detectando similitudes en los vectores que las representan matemáticamente. Realizado el cálculo, está relación es guardada en una base de datos, una vez que se completa el algoritmo la base de datos resultante es la WordNet. También se implementó una interfaz web de consulta así hacer posible el acceso a cualquier usuario. Este recurso es muy útil para facilitar tareas como la desambiguación, extracción de información y traducción automática gracias a la flexibilidad en las búsquedas. Al tener un carácter multilingüe, la WordNet ayudará no solo a preservar sino también expandir el alcance y la posibilidad de integrar a la lengua con otras personas interesadas
  • Ítem
    Data augmentation and subword segmentation for spell-checking in amazonian languages
    (Pontificia Universidad Católica del Perú, 2021-09-24) Alva Cohello, Carlo André; Oncevay Marcos, Félix Arturo
    En el Perú se han identificado 48 lenguas originarias, según la información extraída de la Base de Datos oficial de Pueblos Indígenas u originarios (BDPI). Estas son de tradición oral [BDPI, 2020]. Por lo que no había una forma oficial de enseñanza. El Instituto Linguistico de Verano (ILV) recopiló y documentó diversas lenguas nativas [Faust, 1973], como un primer intento para tener un documento formal para la enseñanza de una lengua originaria. Fue después que el Gobierno Peruano con su estrategia de inclusión social “Incluir para crecer” creó una guía oficial para la enseñanza de las lenguas originarias en su intento de normalizar el uso de estas lenguas [Jara Males, Gonzales Acer, 2015]. Como se menciona en [Forcada, 2016], el uso de tecnologías del lenguaje permite obtener una normalidad, incremento de literatura, estandarización y mayor visibilidad. En el caso de Perú, ha habido iniciativas, como analizadores morfológicos [Pereira-Noriega, et al., 2017] o correctores ortográficos [Alva, Oncevay, 2017], enfocados en las lenguas originarias de escasos recursos computacionales que pretenden apoyar el esfuerzo de revitalización, la educación indígena y la documentación de las lenguas [Zariquiey et al., 2019]. Enfocándose en lenguas amazónicas se realizó un proyecto utilizando redes neuronales para desarrollar un corrector ortográfico enfocado en las lenguas originarias con buenos resultados a nivel de precisión [Lara, 2020]. En ese trabajo, al disponer de poca cantidad de datos se generaron datos sintéticos con un método aleatorio los cuales al ser evaluados con las métricas CharacTER [Wang, et al., 2016] y BLEU [Papineni, et al., 2002] obtuvieron resultados bastante bajos. Además, las lenguas amazónicas al ser ricas a nivel morfológico y tener un vocabulario extenso es difícil representar palabras fuera del vocabulario, por lo que es recomendable usar sub-palabras como término medio [Wu, Zhao, 2018]. El presente proyecto desarrolla distintos métodos de generación de datos, diferentes al aleatorio, que son más robustos al considerar errores que son más cercanos a la realidad. A su vez, para reducir el costo computacional y mantener la capacidad de generar un vocabulario abierto, adicionalmente se entrena redes neuronales que reciban como entrada sub-palabras tales como sílabas y segmentos divididos por byte pair encoding (BPE). Finalmente, de los experimentos concluimos que hubo mejoras con los métodos y la segmentación propuesta y se tienen más recursos computacionales para nuestras lenguas amazónicas.
  • Ítem
    Ideologías lingüísticas sobre la lengua muchik en el discurso etnoidentitario en el norte peruano: autenticidad y mercantilización
    (Pontificia Universidad Católica del Perú, 2021-02-01) Tavera Peña, María Elizabeth; Zavala Cisneros, Virginia
    Este trabajo tiene por propósito analizar los discursos alrededor del idioma mochica o muchik, un idioma extinto desde las primeras décadas del siglo XX en la región norteña peruana de Lambayeque, que se pretende «rescatar» como parte de una reconfiguración identitaria regional. El contexto de esta revaloración de la lengua es el surgimiento de una nueva identidad étnica, que llamo el Nosotros étnico muchik, emergida a finales del siglo XX, y relacionada directamente con la nueva valoración de la región norteña motivada por el descubrimiento de las Tumbas Reales del Señor de Sipán en la década de 1980. Específicamente, propongo que, en la región Lambayeque, se puede identificar la circulación de dos ideologías lingüísticas sobre el muchik que deben ser analizadas no solo como representaciones de la lengua, sino también como prácticas sociales que impactan de modo diverso la realidad. La primera es la ideología de la autenticidad de la lengua muchik, según la cual esta lengua es construida como el idioma legítimo de los «actuales» descendientes de los legendarios mochicas y que es preciso traer del pasado para recuperar la «esencia» del pueblo muchik. La segunda es la ideología de la mercantilización de la lengua muchik, según la cual este idioma es construido como una etnomercancía (Comaroff & Comaroff, 2011) al ser instrumentalizado como un bien cultural atractivo para el consumo del sector turístico. De este modo, la lengua muchik no solo es valorada por su valor cultural, sino también por su potencial económico. Esta investigación se ubica teóricamente dentro de la lingüística sociocultural y el construccionismo social. A partir de un enfoque cualitativo, y siguiendo una metodología etnográfica y de análisis del discurso, pretendo aportar en los estudios lingüísticos sobre el poder de los discursos en las (re)configuraciones históricas, culturales y económicas de una región del Perú.
  • Ítem
    Un estudio del léxico iskonawa con atención al contacto con el shipibo-konibo
    (Pontificia Universidad Católica del Perú, 2021-01-29) Ingunza Torres, Adriano Mateo; Zariquiey Biondi, Roberto Daniel
    La presente tesis es un estudio sobre algunos efectos en el léxico iskonawa del contacto lingüístico con el shipibo-konibo. Ambas lenguas pertenecen a la familia lingüística pano lo cual plantea interesantes preguntas acerca del contacto entre lenguas emparentadas. Esta tesis tiene un objetivo general y dos específicos. El objetivo general de este trabajo es estudiar y entender la naturaleza de las interferencias léxicas provenientes del shipibo-konibo en el iskonawa. El primer objetivo específico consiste en explorar dicha naturaleza a la luz de la distinción entre aquellos casos en los que, considerando que ambas lenguas están emparentadas, las formas shipibas son cognadas con las formas iskonawa correspondientes a un mismo concepto, y los casos en los que las formas shipibo-konibo e iskonawa no manifiestan una relación de cognancia. Este estudio muestra que los datos analizados muestran una mayor presencia de los segundos. El segundo objetivo específico es evaluar la permeabilidad al préstamo con relación a su clasificación semántica. Para ello, se discute la noción de léxico básico y se argumenta que este dominio es el que presenta una mayor cantidad de préstamos. Este último resultado sugiere la necesidad de replantear la noción de léxico básico. Por otro lado, dada la cercanía genética entre ambas lenguas y el prolongado contacto entre ambas, el contacto entre iskonawa y shipibo-konibo configura una situación de contacto lingüístico muy interesante, a la que se le debe añadir el hecho de que el iskonawa es una lengua en un estado avanzado de obsolescencia. Esta tesis comprende el análisis de un corpus de aproximadamente 160 elementos presentes en el discurso iskonawa, que han sido identificados como shipibo-konibo a partir de un conjunto de criterios muy rigurosos. Las dos conclusiones principales son: i) en el corpus de préstamos shipibo-konibo en el discurso iskonawa analizado, se encuentra una tendencia muy marcada que favorece a los términos máximamente diferentes (no cognados), y ii) contrariamente a estudios previos sobre la permeabilidad de los campos semánticos en situaciones de contacto, el denominado “léxico básico” es el campo que presenta mayor permeabilidad al préstamo.
  • Ítem
    Estrategias de expresión de la posesión en nomatsigenga
    (Pontificia Universidad Católica del Perú, 2020-08-07) Effio Burgos, Sandra Leonor; Peña Torrejón, Jaime Germán
    La presente tesis tiene como objetivo principal realizar una descripción y análisis de las diferentes construcciones lingüísticas de posesión en la lengua nomatsigenga, la cual pertenece a la familia lingüística Arawak. Esta investigación se divide en cinco capítulos. En el Capítulo 1, se realiza una introducción sobre el pueblo nomatsigenga y algunas características lingüísticas de la lengua. Además, se presentan los objetivos de la investigación, así como la metodología y el trabajo de campo llevado a cabo. El Capítulo 2 consiste en la presentación del marco teórico sobre la posesión que se ha tomado en cuenta para esta tesis. En el capítulo 3, se recogen algunas notas sobre la posesión en las lenguas arawak con especial énfasis en las variedades de las ramas peruanas. Asimismo, se presenta una revisión de la literatura concerniente a la posesión en la lengua nomatsigenga. El Capítulo 4 presenta el análisis de los datos recolectados en el trabajo de campo. Este análisis se divide en dos partes: expresión morfosintáctica y predicativa. Finalmente, en el Capítulo 5, se mencionan las conclusiones que se desprenden de lo analizado en esta investigación
  • Ítem
    La comprensión lectora en niños castellanohablantes aprendices de shipibo como segunda lengua: el rol del vocabulario comprensivo y la fluidez de la lengua dominante y no dominante
    (Pontificia Universidad Católica del Perú, 2020-08-03) Cangana Bustamante, Gianinna; Fernández Flecha, María de los Ángeles
    El objetivo principal de esta investigación es analizar cuál es el rol que cumplen el vocabulario comprensivo y la fluidez en la lengua dominante (castellano) y no dominante (shipibo) en la comprensión lectora en la lengua no dominante (shipibo) en niños de segundo y tercero de primaria que asisten a una IEB en Lima. Se busca conocer si el vocabulario comprensivo y la fluidez, en castellano y en shipibo, influyen en la comprensión lectora en shipibo. El modelo empleado es el Simple View of Reading, propuesto por Gough y Tunmer (1986). La hipótesis que guía esta investigación es que, tanto el vocabulario comprensivo como la fluidez de las lenguas dominante (castellano) y no dominante (shipibo) influyen en la comprensión lectora en shipibo. El método aplicado consiste en un diseño experimental intrasujetos. Se emplean dos herramientas para medir las habilidades mencionadas: el Test de Vocabulario en Imágenes Peabody (PPVT-III) y la Batería de Evaluación de Procesos Lectores revisada (PROLEC-R), cada una con la adaptación o traducción requerida. Finalmente, los resultados muestran que el vocabulario comprensivo y la fluidez en la lengua dominante (castellano) no influyen en la comprensión lectora en la lengua no dominante (shipibo): las correlaciones solo son significativas si todas las tareas se evalúan en la misma lengua.
  • Ítem
    Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
    (Pontificia Universidad Católica del Perú, 2020-05-26) Lara Avila, César Jesús; Oncevay Marcos, Félix Arturo
    De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica.