Tesis y Trabajos de Investigación PUCP

URI permanente para esta comunidadhttp://54.81.141.168/handle/123456789/6

El Repositorio Digital de Tesis y Trabajos de Investigación PUCP aporta al Repositorio Institucional con todos sus registros, organizados por grado: Doctorado, Maestría, Licenciatura y Bachillerato. Se actualiza permanentemente con las nuevas tesis y trabajos de investigación sustentados y autorizados, así como también con los que que fueron sustentados años atrás.
Ingresa a su web: Repositorio Digital de Tesis y Trabajos de Investigación PUCP

Explorar

Resultados de búsqueda

Mostrando 1 - 7 de 7

Texto completo enlazado
Representación vectorial de relación de hiponimia e hiperonimia en español
(Pontificia Universidad Católica del Perú, 2020-09-03) Utia Deza, Jose Vicente; Oncevay Marcos, Felix Arturo
Actualmente, gracias a Internet y a la Web se dispone de información casi ilimitada, la cual está representada a nivel de textos en su mayoría. Así, dado que acceder a estos textos en su mayoría es de libre acceso, nace el interés por su manipulación de una manera automatizada para poder extraer información que se considere relevante. El presente trabajo de investigación se ubica dentro de la detección automática de relaciones léxicas entre palabras, que son relaciones que se establecen entre los significados de las palabras tal como se consigna en el diccionario. En particular, se centra en la detección de relaciones de hiponimia e hiperonimia, debido a que éstas son relaciones de palabras en las que una de ellas engloba el significado de otra o viceversa, lo cual podría considerarse como categorización de palabras. Básicamente, el método propuesto se basa en la manipulación de una representación vectorial de palabras denominado Word Embeddings, para resaltar especialmente áquellas que tengan relación jerárquica, proceso que se realiza a partir de textos no estructurados. Tradicionalmente, los Word Embeddings son utilizados para tareas de analogía, es decir, para detectar relaciones de sinonimia, por lo que se considera un poco más complejo utilizar estos vectores para la detección de relaciones jerárquicas (hiperonimia e hiponimia), por consecuencia se proponen métodos adicionales para que, en conjunto con los Word Embeddings, se puedan obtener resultados eficientes al momento de detectar las relaciones entre distintos pares de palabras.
Texto completo enlazado
Generación automática de resúmenes abstractivos mono documento utilizando análisis semántico y del discurso
(Pontificia Universidad Católica del Perú, 2017-09-20) Valderrama Vilca, Gregory Cesar; Sobrevilla Cabezudo, Marco Antonio
The web is a giant resource of data and information about security, health, education, and others, matters that have great utility for people, but to get a synthesis or abstract about one or many documents is an expensive labor, which with manual process might be impossible due to the huge amount of data. Abstract generation is a challenging task, due to that involves analysis and comprehension of the written text in non structural natural language dependent of a context and it must describe an events synthesis or knowledge in a simple form, becoming natural for any reader. There are diverse approaches to summarize. These categorized into extractive or abstractive. On abstractive technique, summaries are generated starting from selecting outstanding sentences on source text. Abstractive summaries are created by regenerating the content extracted from source text, through that phrases are reformulated by terms fusion, compression or suppression processes. In this manner, paraphrasing sentences are obtained or even sentences were not in the original text. This summarize type has a major probability to reach coherence and smoothness like one generated by human beings. The present work implements a method that allows to integrate syntactic, semantic (AMR annotator) and discursive (RST) information into a conceptual graph. This will be summarized through the use of a new measure of concept similarity on WordNet.To find the most relevant concepts we use PageRank, considering all discursive information given by the O”Donell method application. With the most important concepts and semantic roles information got from the PropBank, a natural language generation method was implemented with tool SimpleNLG. In this work we can appreciated the results of applying this method to the corpus of Document Understanding Conference 2002 and tested by Rouge metric, widely used in the automatic summarization task. Our method reaches a measure F1 of 24 % in Rouge-1 metric for the mono-document abstract generation task. This shows that using these techniques are workable and even more profitable and recommended configurations and useful tools for this task.
Texto completo enlazado
Implementación de un buscador semántico de documentos en el dominio de la lingüística
(Pontificia Universidad Católica del Perú, 2017-08-03) Malpartida Valverde, Diego Andrés; Melgar Sasieta, Héctor Andrés
La World Wide Web (WWW) ha mejorado considerablemente el acceso a la información digital. La búsqueda y navegación en la Web se han convertido en parte de nuestras vidas diarias, siendo los motores de búsquedas y herramientas de navegación Web un estándar que ha cambiado la forma en la que buscamos e interactuamos con la información. Sin embargo, la Web como la conocemos hoy está diseñada para que la información contenida en las páginas o documentos sea entendible por las personas y no por las computadoras. Es decir, las computadoras no poseen de una manera para procesar la semántica o significado de la información. Esto ocasiona que solo se puedan realizar búsquedas sintácticas de la información, en lugar de búsquedas semánticas. Las búsquedas sintácticas consisten en la recuperación de aquellos documentos cuyo contenido posee las palabras o frases ingresadas por el usuario en la consulta. Se basan en la similitud de cadenas de caracteres (las ingresadas por el usuario y las que contiene el documento). El problema con las búsquedas sintácticas es que se limitan a esta coincidencia de palabras y no consideran el significado de la información, lo que ha sido demostrado que genera imprecisión (mucha información irrelevante) en los resultados. En este contexto, en el Departamento de Humanidades de la universidad existe la necesidad de recuperar información de aproximadamente 2000 documentos lingüísticos para fines académicos. Una búsqueda convencional o sintáctica no sería una buena solución, ya que como se mencionó anteriormente retorna mucha información irrelevante. Entonces, se puede definir el problema central del proyecto como la dificultad para obtener información relevante de documentos en el dominio de la lingüística. Como alternativa de solución, el presente proyecto de fin de carrera implementa un buscador que emplee los conceptos y principios de la Web Semántica. Este tipo de buscador se basa en el análisis semántico de la consulta ingresada por el usuario y del contenido de los documentos, recuperando aquellos cuya representación semántica coincide con la de la consulta. A diferencia de la búsqueda sintáctica, este enfoque analiza el significado de las palabras o frases y no solo su representación sintáctica. El beneficio de las búsquedas semánticas es que permiten alcanzar una mayor precisión en los resultados obtenidos; es decir, brindan resultados de mayor relevancia para el usuario.
Texto completo enlazado
Método de extracción e identificación de lugares del mundo real en textos en español del género literario
(Pontificia Universidad Católica del Perú, 2015-06-04) Zevallos Franco, Melissa; Alva Manchego, Fernando Emilio
En este proyecto de fin de carrera se ha escogido abarcar el tema de Turismo Literario, resaltando principalmente la integración de una herramienta que ha existido durante años, el libro, con las nuevas tecnologías de Reconocimiento de Entidades Mencionadas (REM). Se propone implementar un método de extracción de lugares que se encargue de procesar las obras literarias con la finalidad de identificar los nombres de los lugares mencionados en dichos textos; para que éstos, finalmente, sean validados en el mundo real con el apoyo de una librería de información geográfica. Con el método implementado se va a obtener información, la cual puede ser utilizada para la construcción de herramientas que permitan difundir y aprovechar el Turismo Literario. Esta clase de turismo busca difundir los lugares reales que son mencionados en las obras literarias Estos escenarios pueden ser parques, restaurantes, pasajes, avenidas, entre otros lugares.
Texto completo enlazado
Diseño de una herramienta para la anotación semántica automática de documentos basados en ontologías en el dominio de la Ingeniería Informática
(Pontificia Universidad Católica del Perú, 2015-05-27) Espinoza Florez, Rodrigo Jesús; Melgar Sasieta, Héctor Andrés
Analizando la situación de la Web en la actualidad en cuanto a la gestión y búsqueda de la información que hay en ella, el siguiente documento propone una herramienta de anotación semántica automatizada como alternativa de solución al trato de la información que se genera en línea. Básicamente, una herramienta de anotación semántica puede contribuir con muchas otras aplicaciones como herramientas de búsqueda, de organización, repositorios, etc.; y al apoyarse en una ontología de un campo determinado, el desarrollo de la herramienta puede extenderse a otros campos específicos mientras se cuente con la información y los expertos respectivos en el modelado del conocimiento. El siguiente proyecto en específico será beneficioso para la búsqueda y organización de diferentes documentos del campo de las ciencias de la computación desarrollados tanto en la universidad como fuera. Esto supondría que todos los miembros de la comunidad universitaria pudieran tener acceso a todos los contenidos del campo sin tener que gastar muchos recursos como tiempo y dinero. Entre los principales beneficios está la reducción de tiempo en búsqueda de materiales de información del campo, así como evitar volver a generar conocimiento que ya se encuentra en la Web o ya ha sido investigado en la universidad. Por último, además de la información recopilada en la investigación de una herramienta de esta naturaleza, se propone un diseño y un conjunto de recursos para desarrollarla, los cuales fueron probados en un conjunto de documentos pertenecientes al campo de la ingeniería informática en la universidad.
Texto completo enlazado
Diseño de un modelo de recuperación de información usando expansión de consultas basadas en ontologías en el dominio de la ciencia de la computación
(Pontificia Universidad Católica del Perú, 2014-11-25) Carranza Chávez, Bonnie Gabriela; Melgar Sasieta, Héctor Andrés
A lo largo de los años, y particularmente a partir de la aparición del Internet, se ha venido dando un aumento en la cantidad de información disponible para ser consultada por las personas. Sin embargo, la aparición de los sistemas de recuperación de información ha contribuido a facilitar la búsqueda de información para los usuarios, disminuyendo los tiempos invertidos en dicha búsqueda, y hasta cierto punto, mejorando la relevancia de la información recuperada. Sin embargo, se ha identificado que aún persisten algunos elementos que dificultan la obtención de resultados relevantes tales como características propias del lenguaje natural como ambigüedad, desconocimiento del usuario respecto a qué puede ser relevante para él, entre otros. Ante esto, en el presente proyecto se propone una alternativa de solución de forma tal que los documentos recuperados sean en mayor medida relevantes. Esta recuperación se tratará bajo el enfoque específico de la expansión de consultas, proceso para el cual se emplearán modelos de conocimiento como lo son las ontologías.
Texto completo enlazado
Diseño de un modelo para la recuperación de documentos basado en ontologías en el dominio de la ingeniería informática
(Pontificia Universidad Católica del Perú, 2014-11-25) Gómez Montoya, Héctor Erasmo; Melgar Sasieta, Héctor Andrés
La selección de información relevante de documentos digitales es uno de los principales problemas para los estudiantes de pregrado de la especialidad de Ingeniería Informática. Para facilitar dicha tarea, es necesario un modelo que represente la relación entre las entidades en las que se define toda la información disponible. Por ello, se decidió llevar a cabo una revisión sistemática acerca de las posibles soluciones que representen dicho domino. Como resultado de la revisión realizada, se propone el uso de ontologías como estructura básica para la representación del conocimiento por su eficacia a la hora de realizar la recuperación. Además, se plantea utilizar un proceso de etiquetación semántica de documentos para relacionar cada documento digital con - al menos - una entidad de la ontología con la finalidad de poder realizar búsquedas mediante el uso de etiquetas y lenguaje natural. Se concluye que las ontologías son una estructura flexible y que soportan la recuperación de conocimiento en un dominio específico y que el modelo planteado cumple con las necesidades de búsqueda y etiquetación para los usuarios.

Tesis y Trabajos de Investigación PUCP

Explorar

Filtros

Ajustes

Ordenar por

resultados por página

Resultados de búsqueda