Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales

dc.contributor.advisorBenites Sánchez, Luis Enrique
dc.contributor.authorZegarra López, Ángel Christopher
dc.date.accessioned2023-08-31T20:50:14Z
dc.date.available2023-08-31T20:50:14Z
dc.date.created2023
dc.date.issued2023-08-31
dc.description.abstractAunque la distribución normal es útil en una variedad de contextos, enfrenta ciertas limitaciones al modelar datos que contienen valores extremos. Estos valores pueden generar “colas” más pesadas en la distribución, en contraste con las colas más ligeras de la distribución normal. Por lo tanto, en tales circunstancias, la distribución normal contaminada se presenta como una alternativa efectiva. Este ajuste es especialmente significativo en aplicaciones como la agrupación basada en modelos. En este método, es habitual emplear distribuciones normales multivariadas como fundamento para la agrupación. No obstante, la estimación de parámetros puede verse afectada por la presencia de valores extremos. En este estudio, implementamos la distribución normal contaminada multivariada como base para la agrupación basada en modelos, tal como propone Tong y Tortora (2022). Explicamos las características del modelo y llevamos a cabo un estudio de simulación para contrastar su desempeño con la distribución normal multivariada y la distribución t multivariada. Finalmente, aplicamos un proceso de agrupación basado en una mezcla de distribuciones normales contaminadas multivariadas a un conjunto de datos reales. Estos datos se derivan de los resultados de la Evaluación de Habilidades Socioemocionales, una iniciativa implementada por el Ministerio de Educación de Perú en 2021.es_ES
dc.description.abstractThe normal distribution has limitations when modeling data with outliers. The presence of outliers implies heavier tails in the distribution; whereas, the normal distribution has very light tails. For this reason, the contaminated normal distribution is used as a better alternative to model in these cases. One of the applications where this change is pertinent is in model-based clustering. In this approach, using multivariate normal distributions as the basis for clustering is common practice; however, the parameter estimates may be biased due to the presence of outliers. In this thesis, the multivariate contaminated normal distribution is used as the basis for model-based clustering. The characteristics of the model were presented, as well as a simulation study that compares the performance of the model with respect to the multivariate normal distribution and the multivariate t-distribution. Finally, a clustering process was carried out based on a mixture of multivariate contaminated normal distributions to a data set of the results of the Socio-emotional Skills assessment, an operation implemented by the Ministry of Education of Peru in 2021.es_ES
dc.identifier.urihttp://hdl.handle.net/20.500.12404/25820
dc.language.isospaes_ES
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.publisher.countryPEes_ES
dc.rightsinfo:eu-repo/semantics/openAccesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by/2.5/pe/*
dc.subjectTeoría de las distribuciones (Análisis funcional)es_ES
dc.subjectModelos matemáticoses_ES
dc.subjectHabilidades sociales--Aspectos estadísticoses_ES
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#1.01.03es_ES
dc.titleClusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionaleses_ES
dc.typeinfo:eu-repo/semantics/masterThesises_ES
dc.type.otherTesis de maestría
renati.advisor.dni42987865
renati.advisor.orcidhttp://orcid.org/0000-0001-5998-7098es_ES
renati.author.dni72630105
renati.discipline542037es_ES
renati.jurorSal Y Rosas Celi, Victor Giancarloes_ES
renati.jurorBenites Sanchez, Luis Enriquees_ES
renati.jurorValdivieso Serrano, Luis Hilmares_ES
renati.levelhttps://purl.org/pe-repo/renati/level#maestroes_ES
renati.typehttps://purl.org/pe-repo/renati/type#tesises_ES
thesis.degree.disciplineEstadísticaes_ES
thesis.degree.disciplineEstadísticaes_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Escuela de Posgrado.es_ES
thesis.degree.levelMaestríaes_ES
thesis.degree.nameMaestro en Estadísticaes_ES
thesis.degree.nameMaestro en Estadísticaes_ES

Archivos

Colecciones