Tesis y Trabajos de Investigación PUCP

URI permanente para esta comunidadhttp://54.81.141.168/handle/123456789/6

El Repositorio Digital de Tesis y Trabajos de Investigación PUCP aporta al Repositorio Institucional con todos sus registros, organizados por grado: Doctorado, Maestría, Licenciatura y Bachillerato. Se actualiza permanentemente con las nuevas tesis y trabajos de investigación sustentados y autorizados, así como también con los que que fueron sustentados años atrás.
Ingresa a su web: Repositorio Digital de Tesis y Trabajos de Investigación PUCP

Explorar

Resultados de búsqueda

Mostrando 1 - 4 de 4

Texto completo enlazado
Data augmentation and subword segmentation for spell-checking in amazonian languages
(Pontificia Universidad Católica del Perú, 2021-09-24) Alva Cohello, Carlo André; Oncevay Marcos, Félix Arturo
En el Perú se han identificado 48 lenguas originarias, según la información extraída de la Base de Datos oficial de Pueblos Indígenas u originarios (BDPI). Estas son de tradición oral [BDPI, 2020]. Por lo que no había una forma oficial de enseñanza. El Instituto Linguistico de Verano (ILV) recopiló y documentó diversas lenguas nativas [Faust, 1973], como un primer intento para tener un documento formal para la enseñanza de una lengua originaria. Fue después que el Gobierno Peruano con su estrategia de inclusión social “Incluir para crecer” creó una guía oficial para la enseñanza de las lenguas originarias en su intento de normalizar el uso de estas lenguas [Jara Males, Gonzales Acer, 2015]. Como se menciona en [Forcada, 2016], el uso de tecnologías del lenguaje permite obtener una normalidad, incremento de literatura, estandarización y mayor visibilidad. En el caso de Perú, ha habido iniciativas, como analizadores morfológicos [Pereira-Noriega, et al., 2017] o correctores ortográficos [Alva, Oncevay, 2017], enfocados en las lenguas originarias de escasos recursos computacionales que pretenden apoyar el esfuerzo de revitalización, la educación indígena y la documentación de las lenguas [Zariquiey et al., 2019]. Enfocándose en lenguas amazónicas se realizó un proyecto utilizando redes neuronales para desarrollar un corrector ortográfico enfocado en las lenguas originarias con buenos resultados a nivel de precisión [Lara, 2020]. En ese trabajo, al disponer de poca cantidad de datos se generaron datos sintéticos con un método aleatorio los cuales al ser evaluados con las métricas CharacTER [Wang, et al., 2016] y BLEU [Papineni, et al., 2002] obtuvieron resultados bastante bajos. Además, las lenguas amazónicas al ser ricas a nivel morfológico y tener un vocabulario extenso es difícil representar palabras fuera del vocabulario, por lo que es recomendable usar sub-palabras como término medio [Wu, Zhao, 2018]. El presente proyecto desarrolla distintos métodos de generación de datos, diferentes al aleatorio, que son más robustos al considerar errores que son más cercanos a la realidad. A su vez, para reducir el costo computacional y mantener la capacidad de generar un vocabulario abierto, adicionalmente se entrena redes neuronales que reciban como entrada sub-palabras tales como sílabas y segmentos divididos por byte pair encoding (BPE). Finalmente, de los experimentos concluimos que hubo mejoras con los métodos y la segmentación propuesta y se tienen más recursos computacionales para nuestras lenguas amazónicas.
Texto completo enlazado
Rendimiento ortográfico en niños de sexto grado de primaria de la Institución Educativa “José Joaquín Inclán”- Chorrillos
(Pontificia Universidad Católica del Perú, 2021-01-14) Segovia Moscoso, Sandra María; Villalaz Salas, Karina Alicia; Lescano López, Galia Susana; Stuva Silva, Maria Elena
El presente estudio tiene como objetivo comparar el rendimiento ortográfico en niños de sexto grado de primaria de la institución educativa “José Joaquín Inclán” del distrito de Chorrillos, a través ,de las dimensiones o tipos de la ortografía según García y Gonzales (2000), las cuales son: ortografía fonética, de reglas contextuales, visual o arbitraria y de reglas categóricas. La muestra estuvo conformada por 152 estudiantes de sexto grado de primaria de dicha institución. El estudio es de enfoque cuantitativo y la metodología sigue un diseño descriptivo- comparativo, en la cual se utilizó un instrumento creado por las autoras de esta investigación, a la cual se denominó: “Prueba de rendimiento ortográfico en el dictado de palabras”. Los resultados hallados arrojaron que no existen diferencias significativas en el rendimiento ortográfico en niños de sexto grado de primaria de la Institución Educativa José Joaquín Inclan- Chorrillos.
Texto completo enlazado
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
(Pontificia Universidad Católica del Perú, 2020-05-26) Lara Avila, César Jesús; Oncevay Marcos, Félix Arturo
De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica.
Texto completo enlazado
La construcción discursiva de las identidades ʺamixerʺ y ʺno-amixerʺ en el espacio virtual : un caso de racismo cultural justificado a través de la ortografía
(Pontificia Universidad Católica del Perú, 2012-11-30) Brañez Medina, Roberto Francisco; Zavala Cisneros, Virginia
A finales del siglo pasado, surgió una gran área académica conocida como la Comunicación-Mediada-por-Computadoras (CMC), motivada por la creciente expansión de Internet alrededor del mundo. Esta disciplina de corte interdisciplinario enfoca su interés en explorar cómo la comunicación mediada por las computadoras (mensajes de texto, chats, redes sociales, etc.) ha supuesto el replanteo de ciertos paradigmas, considerados universales, propios de la conversación cara-a-cara tradicionalmente asociada al plano oral. En esta investigación, me inscribo en este gran marco teórico para analizar la construcción de las identidades “amixer” y “no-amixer” en el espacio virtual. Este término se ha venido promocionando en Internet con un sentido peyorativo, en la medida que el “amixer” representa a un sujeto con una serie de características identitarias estigmatizadas que se entremezclan con prejuicios raciales: no solo se le construye como un personaje proveniente de los Andes, fenotípicamente feo, “cholo”, sino también como pobre, carente de educación y con mala ortografía. Este último aspecto es el que encamina gran parte de la presenta investigación, en tanto en el espacio virtual la escritura, y más puntualmente la ortografía, ha adquirido un papel más importante en ausencia de un contexto sonoro-visual. Así, el problema que motiva esta investigación es que la estigmatización de la que es víctima el “amixer” constituye un caso de lo que De la Cadena denomina racismo cultural (2004: 45); es decir, se pretende excusar en prejuicios a primera vista ajenos al racial, en este caso concreto, el ortográfico, una práctica racista. Para sostener esta postura, analizo los comentarios hechos a las fotografías colgadas en la ahora extinta web www.hi5amixer.com, página de facebook dedicada a la burla de los personajes construidos como “amixers” que estuvo abierta al público hasta finales de febrero de 2012 y llegó a registrar arriba de 90’000 seguidores y 27’000 fotografías. Trabajar con corpus virtual supone una serie de complicaciones debido a la naturaleza dinámica de Internet: el material digital puede ser editado o eliminado del ciberespacio con mucha facilidad. Para contrarrestar estos obstáculos, comencé por seleccionar un universo de cincuenta foticomes , los cuales fueron guardados e impresos para su posterior análisis. Todo este material ha sido constantemente revisado, y los ejemplos que presento en mi análisis forman parte de este universo. El Marco Teórico de la tesis puede organizarse en tres grandes áreas. En primer lugar, recurro a la noción de espacio de afinidad (Gee 2004) para definir mi escenario de trabajo, la página web hi5amixer.com. En segundo lugar, presento los lineamientos básicos del estudio de la construcción discursiva de la identidad (Bucholtz y Hall 2005), así como lo relacionado a la identidad virtual (Benwell y Stokoe 2006) y las herramientas del Análisis Crítico del Discurso (Fairclough 1992). Finalmente, adopto la noción de racismo cultural (De la Cadena 2004) y los principales conceptos teóricos vinculados a la idea de la ortografía como instrumento de jerarquización social (Clark e Ivanič 1997). Es principalmente sobre la base de estos estudios que reposa esta investigación; no obstante, en el transcurso del análisis recurro a nociones lingüísticas para el análisis micro de los comentarios como la teoría de la cortesía verbal (Brown y Levinson 1987) o la de los actos de habla (Searle 1969). En concreto, el análisis que presentaré se divide en cuatro secciones. Las dos primeras se inscriben en la dimensión representacional del lenguaje (Halliday 1968, citado por Fairclough 1992: 64): comienzo por estudiar cómo el “no-amixer” construye al “amixer” en términos de su nivel socioeconómico, educativo, geográfico, fenotípico, racial, en general, cultural; luego, me centro puntualmente en los prejuicios ortográficos asociados a este mismo personaje, esto es, la idea de que “el ‘amixer’ tiene mala ortografía”. En tanto, las dos últimas secciones se sitúan en la dimensión interpersonal del lenguaje (Halliday 1968, citado por Fairclough 1992: 64): presento a la selección idiomática del inglés y el “castellano amixer” como una estrategia discursiva interpersonal utilizada por el “no-amixer” para reforzar las identidades materia de análisis; y por último, me concentro en cómo la selección de una variedad normativa de castellano sirve en la interacción entre los construidos como “no-amixers” como una herramienta de jerarquización interna en esta comunidad. En resumen, en esta investigación comprobaremos que la construcción del personaje “amixer” supone un caso de racismo cultural, en la medida que se identifica en él al joven andino que llega a la capital, que no tiene educación, es pobre y tiene mala ortografía. Por su parte, la identidad del “no-amixer” se configura por oposición al primero: este se construirá como el joven capitalino que sí tiene buena educación, una posición socioeconómica estable y domina las principales convenciones ortográficas de la lengua normativa.

Tesis y Trabajos de Investigación PUCP

Explorar

Filtros

Ajustes

Ordenar por

resultados por página

Resultados de búsqueda