Tesis y Trabajos de Investigación PUCP

URI permanente para esta comunidadhttp://54.81.141.168/handle/123456789/6

El Repositorio Digital de Tesis y Trabajos de Investigación PUCP aporta al Repositorio Institucional con todos sus registros, organizados por grado: Doctorado, Maestría, Licenciatura y Bachillerato. Se actualiza permanentemente con las nuevas tesis y trabajos de investigación sustentados y autorizados, así como también con los que que fueron sustentados años atrás.
Ingresa a su web: Repositorio Digital de Tesis y Trabajos de Investigación PUCP

Explorar

Resultados de búsqueda

Mostrando 1 - 3 de 3
  • Ítem
    Representación vectorial de relación de hiponimia e hiperonimia en español
    (Pontificia Universidad Católica del Perú, 2020-09-03) Utia Deza, Jose Vicente; Oncevay Marcos, Felix Arturo
    Actualmente, gracias a Internet y a la Web se dispone de información casi ilimitada, la cual está representada a nivel de textos en su mayoría. Así, dado que acceder a estos textos en su mayoría es de libre acceso, nace el interés por su manipulación de una manera automatizada para poder extraer información que se considere relevante. El presente trabajo de investigación se ubica dentro de la detección automática de relaciones léxicas entre palabras, que son relaciones que se establecen entre los significados de las palabras tal como se consigna en el diccionario. En particular, se centra en la detección de relaciones de hiponimia e hiperonimia, debido a que éstas son relaciones de palabras en las que una de ellas engloba el significado de otra o viceversa, lo cual podría considerarse como categorización de palabras. Básicamente, el método propuesto se basa en la manipulación de una representación vectorial de palabras denominado Word Embeddings, para resaltar especialmente áquellas que tengan relación jerárquica, proceso que se realiza a partir de textos no estructurados. Tradicionalmente, los Word Embeddings son utilizados para tareas de analogía, es decir, para detectar relaciones de sinonimia, por lo que se considera un poco más complejo utilizar estos vectores para la detección de relaciones jerárquicas (hiperonimia e hiponimia), por consecuencia se proponen métodos adicionales para que, en conjunto con los Word Embeddings, se puedan obtener resultados eficientes al momento de detectar las relaciones entre distintos pares de palabras.
  • Ítem
    Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa
    (Pontificia Universidad Católica del Perú, 2019-09-02) Monsalve Escudero, Fabricio Andrés; Oncevay Marcos, Félix Arturo
    Desde la aparición del computador, la comprensión lectora automática ha sido un tema de interés científico, resultando en diversas investigaciones y técnicas que le permitan a una máquina “comprender” diversos textos. La introducción del aprendizaje de máquina originó un gran cambio en este ámbito de estudio. Esto debido a que mientras los algoritmos de aprendizaje de máquina y procesamiento de lenguaje natural iban evolucionando, se necesitaba mayores cantidades de datos o ejemplos para poder aprender correctamente. Este problema fue abordado por varios estudios científicos, dando origen a un grupo significativo de conjuntos de datos enfocados a distintos tipos de comprensión lectora. Sin embargo, estos conjuntos de datos fueron creados solo para el idioma inglés ya que, hasta la actualidad, los trabajos relacionados a este ámbito se desarrollan en ese idioma. Por ello, hay pocas investigaciones enfocadas en comprensión lectora para otros idiomas como el español, ya que la creación de los conjuntos de datos necesarios demanda una gran cantidad de recursos (horas-hombre de expertos) para lograr un resultado de calidad, lo que hace muy costoso este objetivo. Por lo tanto, se propone una solución de menor costo, apoyándonos en la traducción y validación automática de un conjunto de datos de inglés a español. Específicamente, el conjunto de datos Stanford Question Answering Dataset (SQuAD), desarrollado por la Universidad de Stanford para la tarea de comprensión de lectura en inglés, cuenta con más de 100,000 pares de preguntas-respuestas planteadas sobre múltiples artículos de Wikipedia, y donde la respuesta a cada pregunta es un segmento de texto contenido explícitamente en los párrafos del artículo. Para lograr este objetivo, se usarán modelos de traducción automática y métricas de validación automática para traducción, para consecuentemente poder entrenar un modelo algorítmico de comprensión lectora en español, el cual podría permitir alcanzar los resultados del estado del arte para el inglés. Posteriormente, se desarrollará una interfaz de programación de aplicaciones (API), la cual servirá para la presentación de los resultados obtenidos. Esta solución representa un desafío computacional e informático debido al gran volumen de datos a tratar, para lo cual se deben realizar procesos eficientes y una correcta utilización de recursos, manteniendo así la viabilidad del proyecto. Asimismo, el uso y aplicación de los resultados obtenidos en este proyecto es de gran variedad, ya que, a partir del entrenamiento de un modelo algorítmico de comprensión lectora, se puede aplicar en sistemas de extracción de información, sistemas de tutoría inteligente, preguntas frecuentes, entre otros. Además, este proyecto busca dejar un precedente y brindar un punto de partida en futuras investigaciones sobre generación automática de conjuntos de datos para comprensión lectora en español, utilizando un enfoque en aprendizaje de máquina y procesamiento de lenguaje natural.
  • Ítem
    ExpertTI : an knowledge system for intelligent service desks using free text
    (Pontificia Universidad Católica del Perú, 2017-04-17) Bello Ruiz, Alejandro Toribio; Melgar, Andrés; Pizarro, Daniel; Melgar Sasieta, Héctor Andrés
    When many users consult service desks simultaneously, these typically saturate. This causes the customer attention is delayed more than usual. The service is perceived as lousy from the point of view of the customer. Increase the amount of human agents is a costly process for organizations. In addition, the amount of sta turnover in this type of service is very high, which means make frequent training. All this has motivated the design of a knowledge-based system that automatically assists both customers and human agents at the service desk. Web technology was used to enable clients to communicate with a software agent via chat. Techniques of Natural Language Processing were used in order the software agent understands the customer requests. The domain knowledge used by the software agent to understand customer requests has been codi ed in an ontology. A rule-based expert system was designed to perform the diagnostic task. This paper presents a knowledge-based system allowing client to communicate with the service desk through a chat system using free text. A software agent automatically executes the customer request. The agent software attempts to reach a conclusion using expert system and ontology. If achieved success, returns the response to the customer, otherwise the request is redirected to a human agent. Evaluations conducted with users have shown an improvement in the attention of service desks when the software developed is used. On the other hand, since the most frequent requests are handled automatically, the workload of human agents decreases considerably. The software has also been used to train new human agents which facilitates and reduces the cost of training.