Show simple item record

dc.contributor.advisorOncevay Marcos, Félix Arturoes_ES
dc.contributor.authorMonsalve Escudero, Fabricio Andréses_ES
dc.date.accessioned2019-09-02T19:55:17Zes_ES
dc.date.available2019-09-02T19:55:17Zes_ES
dc.date.created2019es_ES
dc.date.issued2019-09-02es_ES
dc.identifier.urihttp://hdl.handle.net/20.500.12404/14894
dc.description.abstractDesde la aparición del computador, la comprensión lectora automática ha sido un tema de interés científico, resultando en diversas investigaciones y técnicas que le permitan a una máquina “comprender” diversos textos. La introducción del aprendizaje de máquina originó un gran cambio en este ámbito de estudio. Esto debido a que mientras los algoritmos de aprendizaje de máquina y procesamiento de lenguaje natural iban evolucionando, se necesitaba mayores cantidades de datos o ejemplos para poder aprender correctamente. Este problema fue abordado por varios estudios científicos, dando origen a un grupo significativo de conjuntos de datos enfocados a distintos tipos de comprensión lectora. Sin embargo, estos conjuntos de datos fueron creados solo para el idioma inglés ya que, hasta la actualidad, los trabajos relacionados a este ámbito se desarrollan en ese idioma. Por ello, hay pocas investigaciones enfocadas en comprensión lectora para otros idiomas como el español, ya que la creación de los conjuntos de datos necesarios demanda una gran cantidad de recursos (horas-hombre de expertos) para lograr un resultado de calidad, lo que hace muy costoso este objetivo. Por lo tanto, se propone una solución de menor costo, apoyándonos en la traducción y validación automática de un conjunto de datos de inglés a español. Específicamente, el conjunto de datos Stanford Question Answering Dataset (SQuAD), desarrollado por la Universidad de Stanford para la tarea de comprensión de lectura en inglés, cuenta con más de 100,000 pares de preguntas-respuestas planteadas sobre múltiples artículos de Wikipedia, y donde la respuesta a cada pregunta es un segmento de texto contenido explícitamente en los párrafos del artículo. Para lograr este objetivo, se usarán modelos de traducción automática y métricas de validación automática para traducción, para consecuentemente poder entrenar un modelo algorítmico de comprensión lectora en español, el cual podría permitir alcanzar los resultados del estado del arte para el inglés. Posteriormente, se desarrollará una interfaz de programación de aplicaciones (API), la cual servirá para la presentación de los resultados obtenidos. Esta solución representa un desafío computacional e informático debido al gran volumen de datos a tratar, para lo cual se deben realizar procesos eficientes y una correcta utilización de recursos, manteniendo así la viabilidad del proyecto. Asimismo, el uso y aplicación de los resultados obtenidos en este proyecto es de gran variedad, ya que, a partir del entrenamiento de un modelo algorítmico de comprensión lectora, se puede aplicar en sistemas de extracción de información, sistemas de tutoría inteligente, preguntas frecuentes, entre otros. Además, este proyecto busca dejar un precedente y brindar un punto de partida en futuras investigaciones sobre generación automática de conjuntos de datos para comprensión lectora en español, utilizando un enfoque en aprendizaje de máquina y procesamiento de lenguaje natural.es_ES
dc.language.isospaes_ES
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.rightsAtribución-NoComercial 2.5 Perú*
dc.rightsinfo:eu-repo/semantics/openAccesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc/2.5/pe/*
dc.subjectTraducción automáticaes_ES
dc.subjectLectura--Enseñanza con ayuda de computadorases_ES
dc.subjectProcesamiento de lenguaje natural (Computación)es_ES
dc.titleGeneración automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesaes_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
thesis.degree.nameIngeniero Informáticoes_ES
thesis.degree.levelTítulo Profesionales_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Facultad de Ciencias e Ingenieríaes_ES
thesis.degree.disciplineIngeniería Informáticaes_ES
dc.type.otherTesis de licenciatura
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#1.02.00es_ES
dc.publisher.countryPEes_ES
renati.advisor.dni46440101
renati.advisor.orcidhttps://orcid.org/0000-0001-7675-6208es_ES
renati.discipline612286es_ES
renati.levelhttps://purl.org/pe-repo/renati/level#tituloProfesionales_ES
renati.typehttps://purl.org/pe-repo/renati/type#tesises_ES


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Atribución-NoComercial 2.5 Perú
Except where otherwise noted, this item's license is described as Atribución-NoComercial 2.5 Perú