• Login
    View Item 
    •   DSpace Home
    • Tesis y Trabajos de Investigación PUCP
    • 3. Licenciatura
    • Facultad de Ciencias e Ingeniería
    • Ingeniería Informática
    • View Item
    •   DSpace Home
    • Tesis y Trabajos de Investigación PUCP
    • 3. Licenciatura
    • Facultad de Ciencias e Ingeniería
    • Ingeniería Informática
    • View Item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa

    xmlui.mirage2.item-list.thumbnail
    Date
    2019-09-02
    Fecha de creación
    2019-09-02
    Author
    Monsalve Escudero, Fabricio Andrés
    Metadata
    Show full item record
    URI
    http://hdl.handle.net/20.500.12404/14894
    Fuente
    Pontificia Universidad Católica del Perú
    Abstract
    Desde la aparición del computador, la comprensión lectora automática ha sido un tema de interés científico, resultando en diversas investigaciones y técnicas que le permitan a una máquina “comprender” diversos textos. La introducción del aprendizaje de máquina originó un gran cambio en este ámbito de estudio. Esto debido a que mientras los algoritmos de aprendizaje de máquina y procesamiento de lenguaje natural iban evolucionando, se necesitaba mayores cantidades de datos o ejemplos para poder aprender correctamente. Este problema fue abordado por varios estudios científicos, dando origen a un grupo significativo de conjuntos de datos enfocados a distintos tipos de comprensión lectora. Sin embargo, estos conjuntos de datos fueron creados solo para el idioma inglés ya que, hasta la actualidad, los trabajos relacionados a este ámbito se desarrollan en ese idioma. Por ello, hay pocas investigaciones enfocadas en comprensión lectora para otros idiomas como el español, ya que la creación de los conjuntos de datos necesarios demanda una gran cantidad de recursos (horas-hombre de expertos) para lograr un resultado de calidad, lo que hace muy costoso este objetivo. Por lo tanto, se propone una solución de menor costo, apoyándonos en la traducción y validación automática de un conjunto de datos de inglés a español. Específicamente, el conjunto de datos Stanford Question Answering Dataset (SQuAD), desarrollado por la Universidad de Stanford para la tarea de comprensión de lectura en inglés, cuenta con más de 100,000 pares de preguntas-respuestas planteadas sobre múltiples artículos de Wikipedia, y donde la respuesta a cada pregunta es un segmento de texto contenido explícitamente en los párrafos del artículo. Para lograr este objetivo, se usarán modelos de traducción automática y métricas de validación automática para traducción, para consecuentemente poder entrenar un modelo algorítmico de comprensión lectora en español, el cual podría permitir alcanzar los resultados del estado del arte para el inglés. Posteriormente, se desarrollará una interfaz de programación de aplicaciones (API), la cual servirá para la presentación de los resultados obtenidos. Esta solución representa un desafío computacional e informático debido al gran volumen de datos a tratar, para lo cual se deben realizar procesos eficientes y una correcta utilización de recursos, manteniendo así la viabilidad del proyecto. Asimismo, el uso y aplicación de los resultados obtenidos en este proyecto es de gran variedad, ya que, a partir del entrenamiento de un modelo algorítmico de comprensión lectora, se puede aplicar en sistemas de extracción de información, sistemas de tutoría inteligente, preguntas frecuentes, entre otros. Además, este proyecto busca dejar un precedente y brindar un punto de partida en futuras investigaciones sobre generación automática de conjuntos de datos para comprensión lectora en español, utilizando un enfoque en aprendizaje de máquina y procesamiento de lenguaje natural.
    Temas
    Traducción automática
    Lectura--Enseñanza con ayuda de computadoras
    Procesamiento de lenguaje natural (Computación)
    Collections
    • Ingeniería Informática

    DSpace software copyright © 2002-2016  DuraSpace
    Contact Us | Send Feedback
    Theme by 
    Atmire NV
     

     

    PoliticasVer Políticas

    Browse

    All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

    My Account

    LoginRegister

    Statistics

    View Usage Statistics

    DSpace software copyright © 2002-2016  DuraSpace
    Contact Us | Send Feedback
    Theme by 
    Atmire NV