Agrupamiento de textos basado en la generación de Embeddings

Cachay Guivin, Anthony Wainer

dc.contributor.advisor	Beltrán Castañón, César Armando
dc.contributor.author	Cachay Guivin, Anthony Wainer
dc.date.accessioned	2022-08-19T23:11:42Z
dc.date.available	2022-08-19T23:11:42Z
dc.date.created	2022
dc.date.issued	2022-08-19
dc.identifier.uri	http://hdl.handle.net/20.500.12404/23159
dc.description.abstract	Actualmente, gracias a los avances tecnológicos, principalmente en el mundo de la informática se logra disponer de una gran cantidad de información, que en su mayoría son una composición de signos codificados a nivel computacional que forman una unidad de sentido, como son los textos. Debido a la variabilidad y alta volumetría de información navegable en internet hace que poder agrupar información veraz sea una tarea complicada. El avance computacional del lenguaje de procesamiento natural está creciendo cada día para solucionar estos problemas. El presente trabajo de investigación estudia la forma como se agrupan los textos con la generación de Embeddings. En particular, se centra en usar diferentes métodos para aplicar modelos supervisados y no supervisados para que se puedan obtener resultados eficientes al momento de toparse con tareas de agrupamiento automático. Se trabajó con cinco Datasets, y como resultado de la implementación de los modelos supervisados se pudo determinar que el mejor Embedding es FastText implementado con Gensim y aplicado en modelos basados en boosting. Para los modelos no supervisados el mejor Embedding es Glove aplicado en modelos de redes neuronales con AutoEncoder y capa K-means.	es_ES
dc.description.abstract	Nowadays, thanks to technological advances, mainly in the world of information technology, a large amount of information is available, most of which is a composition of signs encoded at a computational level that form a unit of meaning, such as texts. Due to the variability and high volume of navigable information on the Internet, grouping truthful information is a complicated task. The computational advance of natural language processing is growing every day to solve these problems. The present research work studies the way texts are clustered with the generation of Embeddings. In particular, it focuses on using different methods to apply supervised and unsupervised models so that efficient results can be obtained when encountering automatic clustering tasks. Five Datasets were worked with, and as a result of the implementation of the supervised models it was determined that the best Embedding is FastText implemented with Gensim and applied in models based on boosting. For the unsupervised models the best Embedding is Glove applied in neural network models with AutoEncoder and K-means layer.	es_ES
dc.language.iso	spa	es_ES
dc.publisher	Pontificia Universidad Católica del Perú	es_ES
dc.rights	info:eu-repo/semantics/openAccess	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-sa/2.5/pe/	*
dc.subject	Procesamiento en lenguaje natural (Informática)	es_ES
dc.subject	Inteligencia artificial	es_ES
dc.subject	Sistemas embebidos (Computadoras)	es_ES
dc.title	Agrupamiento de textos basado en la generación de Embeddings	es_ES
dc.type	info:eu-repo/semantics/masterThesis	es_ES
thesis.degree.name	Maestro en Informática con mención en Ciencias de la Computación	es_ES
thesis.degree.level	Maestría	es_ES
thesis.degree.grantor	Pontificia Universidad Católica del Perú. Escuela de Posgrado.	es_ES
thesis.degree.discipline	Informática con mención en Ciencias de la Computación	es_ES
dc.type.other	Tesis de maestría
dc.subject.ocde	https://purl.org/pe-repo/ocde/ford#1.02.00	es_ES
dc.publisher.country	PE	es_ES
renati.advisor.dni	29561260
renati.advisor.orcid	https://orcid.org/0000-0002-0173-4140	es_ES
renati.author.dni	71535030
renati.discipline	611087	es_ES
renati.juror	Pineda Ancco, Ferdinand Edgardo	es_ES
renati.juror	Beltran Castañon, Cesar Armando	es_ES
renati.juror	Gomez Montoya, Hector Erasmo	es_ES
renati.level	https://purl.org/pe-repo/renati/level#maestro	es_ES
renati.type	https://purl.org/pe-repo/renati/type#tesis	es_ES

Files in this item

Files	Size	Format	View
There are no files associated with this item.

This item appears in the following Collection(s)

Informática con mención en Ciencias de la Computación

Show simple item record

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess