Estadística
URI permanente para esta colecciónhttp://54.81.141.168/handle/123456789/9075
Explorar
82 resultados
Resultados de Búsqueda
Ítem Texto completo enlazado Modelo de diagnóstico cognitivo longitudinal con estructura jerárquica de orden superior y atributos dependientes(Pontificia Universidad Católica del Perú, 2024-11-04) Villanueva Valerio, Cesar Manuel; Valdivieso Serrano, Luis HilmarDiagnosticar el estado de aprendizaje de los estudiantes y determinar las habilidades subyacentes que permitan la comprensión de ciertos temas representan un desafío complejo en el ámbito educativo. Existen numerosos factores, tanto generales como específicos, que pueden influir en el desempeño individual para dominar dichas habilidades. Además, para hacerlo más desafiante, estas podrían estar interrelacionadas, formando una jerarquía en donde unas son pre requisito para acceder a otras más avanzadas. Para abordar esta complejidad, se han desarrollado modelos de diagnóstico cognitivo que permiten construir perfiles detallados de las fortalezas y debilidades de los estudiantes en relación con habilidades específicas. Estos perfiles facilitan la creación de trayectorias de aprendizaje personalizadas, diseñadas para guiar a cada estudiante hacia el dominio de los conocimientos requeridos. Las trayectorias de aprendizaje representan secuencias de habilidades que los estudiantes deben adquirir para alcanzar un objetivo educativo determinado. Estas trayectorias son dinámicas y requieren una evaluación continua para garantizar que se ajusten a las necesidades individuales de cada estudiante. En este sentido, resulta fundamental contar con modelos de diagnóstico cognitivo que sean capaces de adaptarse a los nuevos requerimientos educativos y proporcionar información precisa sobre el progreso de los estudiantes. En este estudio, se analizarán dos modelos de diagnóstico cognitivo longitudinal de orden superior secuencial de reciente desarrollo. A través de un ejercicio de simulación y una aplicación con datos reales de una prueba matemática, se evaluará el desempeño la capacidad clasificadora de estos modelos. Esta investigación contribuirá con la difusión de esta clase de modelos para promover su uso en los procesos de aprendizaje.Ítem Texto completo enlazado Modelos de transición de clases latentes(Pontificia Universidad Católica del Perú, 2024-10-31) Minchola Alza, Ronald Eduardo; Valdivieso Serrano, Luis HilmarA pesar de que los modelos de clases latentes han recibido gran atención en la evaluación social y otros campos, estos modelos son estáticos o de corte transversal y hay poco trabajo investigativo en modelos longitudinales. Este trabajo estudia el análisis de transición de clases latentes (LTA), observando el cambio en la clasificación de clases a través del tiempo. Se desarrolla el modelo teórico para dos períodos y se extiende luego este para más de dos períodos, estudiándose sus parámetros y estimación a través del algoritmo de Esperanza- Maximización (EM). Se detallan también criterios para la selección de modelos definiendo teóricamente la razón de su uso. Finalmente, se realiza un estudio de aplicación en Mplus y en R sobre una base de datos de acoso escolar(bullying).Ítem Texto completo enlazado Modelos de regresión con mixtura de escala Gaussiana bajo regularización bayesiana(Pontificia Universidad Católica del Perú, 2024-09-09) Urbano Burgos, Alejandrina Margarita; Valdivieso Serrano, Luis HilmarLa presente tesis busca estudiar las propiedades, estimación y aplicación a dos conjuntos de datos reales de diversas técnicas de regularización bayesiana sobre un modelo de regresión lineal múltiple con mixtura de escala Gaussiana, modelo que incluye al de una regresión logística. Estas técnicas de regresión penalizada bayesiana plantean distribuciones a priori que realizan la penalización, introduciendo el concepto de esparcidad, el cual se refiere al hecho de que solo un reducido número de variables tengan valores distintos de cero en sus coeficientes de regresión; es decir, es una especie de truncamiento de coeficientes llevados a cero que produce a su vez modelos más manejables e interpretables. De particular interés en este trabajo, fue la comparación de las técnicas de regularización bajo penalización y las derivadas de introducir las prioris de Horseshoe y de Horseshoe + a los coeficientes de regresión del modelo. Mostrando en la presente tesis, de manera explícita, cómo realizar un muestreo de Gibbs para la estimación de estos modelos, detallando no solo las distribuciones condicionales completas necesarias; sino también como es posible, mediante el uso del paquete bayesreg de R, optimizar algunas de estas propuestas de muestreo.Ítem Texto completo enlazado Estimación de áreas pequeñas mediante modelos aditivos de ubicación, escala y forma aplicados a una encuesta de hogares en Perú(Pontificia Universidad Católica del Perú, 2024-08-09) Stehli Torrecilla, Hans; Valdivieso Serrano, Luis HilmarEl objetivo de la presente tesis es evaluar la robustez de los modelos aditivos de ubicación, escala y forma (GAMLSS) en una estimación en áreas pequeñas. Para ello, se realizan simulaciones estadísticas en donde se aplican estos modelos para diferentes distribuciones de la variable dependiente considerando distintos niveles de variabilidad entre las áreas, analizando la precisión de los resultados en cada caso. Asimismo, se realiza una aplicación utilizando la Encuesta Nacional de Hogares de Perú (ENAHO) del año 2017 para obtener indicadores de infraestructura de hogares y sus intervalos de confianza a nivel distrital para el departamento de Ica, además de contrastar las estimaciones con las cifras poblacionales obtenidas del Censo Nacional del mismo año. Los resultados revelan que los indicadores obtenidos mediante GAMLSS tienen un menor error cuadrático medio que aquellos estimados de manera directa, considerando el diseño muestral. Asimismo, se encuentra que los GAMLSS generan resultados más exactos respecto a los valores poblacionales, aunque ello depende de la heterogeneidad de las áreas. Este hallazgo es consistente aún bajo el supuesto de una variable dependiente de tipo dicotómica (balanceada o no balanceada) o de tipo numérica (discreta o continua). Asimismo, estas bondades son más evidentes si el tamaño de las muestras de las áreas es reducido. Finalmente, a través de la aplicación, se han obtenido estimaciones puntuales y intervalos de confianza para indicadores de acceso a saneamiento y número de habitaciones de las viviendas, correspondientes a 37 distritos del departamento de Ica.Ítem Texto completo enlazado Análisis de componentes principales evolutivos frente a segmentado: una comparación(Pontificia Universidad Católica del Perú, 2024-05-17) Purizaca Rosillo, Luis Guillermo; Camiz, SergioLa reducción de dimensionalidad, fundamental en el análisis estadístico multivariado, busca comprender estructuras complejas de datos extensos de forma reducida. El Análisis de Componentes Principales (PCA) es comúnmente empleado para estos fines, pero en series de tiempo, sus limitaciones surgen debido a que el PCA no considera la variación de la estructura de correlación entre las series de tiempo, así como la potencial autocorrelación existente. Este estudio se enfoca en presentar el PCA Evolutivo, una propuesta metodológica desarrollada por Camiz et al. (2011), diseñada específicamente para capturar las fluctuaciones en niveles de correlación presentes en este tipo de datos. Se procede a comparar los resultados obtenidos a través del PCA Evolutivo con aquellos generados por el método PCA Segmentado, desarrollado por Banko et al. (2011). Los resultados revelan que el PCA Evolutivo complementa la descripción de datos en comparación con el PCA y ofrece perspectivas distintas respecto al PCA Segmentado en la identificación de segmentos homogéneos, relacionados con cambios en correlación en el tiempo. Estas diferencias se atribuyen a las estrategias de construcción: el PCA Evolutivo sigue un enfoque basado en el índice de Calinski-Harabász, mientras que el PCA Segmentado se guía por el método bottom-up. La estabilidad del PCA Evolutivo depende de la ventana de tiempo, determinando la amplitud de los intervalos homogéneos. Por otro lado, el PCA Segmentado es más sensible a la cantidad de dimensiones retenidas, proporcionando mayor robustez al ajustar segmentos mediante una función de costos que disminuye con la retención de más componentes principales. Aplicamos los métodos en datos simulados y en series de tiempo de materias primas.Ítem Texto completo enlazado Aplicación de un modelo de riesgos competitivos bayesiano(Pontificia Universidad Católica del Perú, 2024-03-05) Saavedra Palacios, Erick Dennis; Sal Y Rosas Celi, Victor GiancarloEn el presente trabajo se presenta y discute el modelo de riesgos competitivos bayesiano propuesto por Vallejos y Steel (2017). Dentro del análisis se incluyó un estudio de simulación en donde se comparó los resultados de aplicar el modelo frecuentista con respecto al bayesiano, confirmando la eficiencia de este último con respecto al anterior. Finalmente, se aplicó este modelo a la base de datos de alumnos ingresantes a la Pontificia Universidad Católica del Perú entre los años 2004 a 2012. El resultado de la aplicación mostró como única variable significativa a si el alumno ingreso por la primera opción con respecto al haber ingresado por la vía tradicional la cual aumentaba la probabilidad de graduación y reducía la probabilidad de abandono.Ítem Texto completo enlazado Aprendizaje estadístico supervisado con máquina de soporte vectorial(Pontificia Universidad Católica del Perú, 2024-02-26) Falcón Cisneros, Sergio Daniel; Véliz Capuñay, Carlos NilbertoActualmente las organizaciones recolectan datos en grandes volúmenes y de fuentes muy variadas. Para dar sentido y convertir los datos en información útil es necesario utilizar técnicas que permitan encontrar y entender las relaciones ocultas en los datos. Generalmente, la relación que nos interesa estudiar es cómo predecir un evento utilizando un conjunto de variables. Sin embargo, muchas veces la relación entre los datos es muy compleja y no puede ser analizada adecuadamente usando las técnicas más conocidas, dado que éstas suelen tener supuestos que no necesariamente se cumplen. Por ello, es importante conocer técnicas de análisis más complejas y flexibles. Esta tesis busca ser un instrumento de ayuda en el aprendizaje y uso de nuevas técnicas para estudiar los datos, lo cual es relevante sobre todo en el medio local en el que este tema es poco conocido. Con este objetivo, presenta una revisión introductoria de la teoría del aprendizaje estadístico, la cual provee del marco teórico para que distintos métodos utilicen los datos para aprender, y usando este conocimiento puedan hacer predicciones sobre datos nuevos o diferentes. Luego se centra en un estudio exhaustivo del método de aprendizaje de Máquinas de Soporte Vectorial (SVM por sus siglas en inglés), introduciendo y aplicando las funciones Kernel. Este método se puede entender como una representación de los datos como puntos en el espacio, asignados de tal forma que exista una brecha grande que separe a los elementos diferentes. Finalmente se pone en práctica la teoría estudiada aplicando el método SVM a datos de clientes de una entidad financiera. Esta entidad financiera usa predominantemente técnicas de aprendizaje estadístico simples y con varios supuestos; particularmente usa una de estas técnicas en un modelo que predice la propensión a la compra y persistencia del producto Seguro de Protección de Tarjetas. Por ello, la presente tesis se centra en aplicar el método SVM para construir una alternativa a este modelo.Ítem Texto completo enlazado Regresión cuantílica binaria: un enfoque bayesiano basado en la distribución asimétrica de Laplace(Pontificia Universidad Católica del Perú, 2024-02-15) Baldeon Molleda, Dante Reynaldo; Bayes Rodríguez, Cristian LuisLa regresión cuantílica es una técnica estadística que permite analizar la relación entre variables en distintos cuantiles de la distribución de la variable respuesta. No obstante, su aplicación en variables respuesta binaria puede contraintuitivo, pues la definición tradicional de cuantiles se conceptualiza para variables continuas y no tienen una interpretación directa en una variable binaria. A pesar de que una variable de respuesta binaria sólo toma dos valores y no permite una definición tradicional de cuantiles, es posible extender la regresión cuantílica para modelar los cuantiles de la variable latente subyacente a la variable de respuesta binaria. Esta variable latente es continua y permite aplicar la regresión cuantílica en contextos donde la variable de respuesta sea binaria. En este estudio, adoptamos un enfoque bayesiano para la regresión cuantílica binarios basado en la distribución asimétrica de Laplace (ALD); aplicaremos el modelo en un conjunto de datos correspondiente a resultados de descarte de pruebas COVID-19 en pacientes oncológicos y estimaremos los coeficientes de la regresión mediante el paquete bayesQR desarrollado en R.Ítem Texto completo enlazado Modelamiento bayesiano espacial multivariado para datos de áreas(Pontificia Universidad Católica del Perú, 2024-01-19) Lopez Esquivel, Miguel Angel; Quiroz Cornejo, Zaida JesúsLas infecciones respiratorias son enfermedades que ingresan a nuestro tracto respiratorio afectando la faringe hasta a los pulmones y según la Organización mundial de salud es la causa más común de muertes en el mundo. En particular, en esta tesis se propone estudiar la relación entre la incidencia de infecciones respiratorias agudas (IRA) y la incidencia de neumonía en el Perú. Por un lado estas variables pueden estar correlacionadas, conforme aumenta el número de casos de una enfermedad también aumenta el de la otra. Por otro lado, si nos enfocamos en la incidencia de estas enfermedades a nivel provincial, esperamos que la incidencia de IRA sea similar en provincias vecinas, lo mismo esperamos que ocurra con la incidencia de neumonía. En este contexto, en esta tesis se propone estudiar la distribución espacial entre la incidencia de IRA y neumonía a nivel provincial en el Perú a través de un modelo espacial multivariado, el cual nos permite estudiar la distribución espacial de dos o más variables correlacionadas entre sí. En particular, se propone aplicar un modelo espacial multivariado con efectos aleatorios condicionales autoregresivos. Para conseguir implementar la inferencia bayesiana del modelo jerárquico espacial multivariado de forma eficiente se propone usar el método de integración aproximada anidada de Laplace (INLA).Ítem Texto completo enlazado Modelos de regresión paramétricos bivariados para el análisis de supervivencia: una aplicación a tiempos de infección y síntomas(Pontificia Universidad Católica del Perú, 2024-01-17) Arangoitia Fernández Baca, Jorge Víctor; Sal Y Rosas Celi, Victor GiancarloCuando se realizan estudios sobre tratamientos nuevos que pueden aplicarse a pacientes que sufren de una determinada enfermedad, un factor fundamental para evaluar la efectividad de dicho tratamiento es la determinación de si el paciente adquirió la enfermedad o no, y si presentó síntomas de dicha enfermedad, o no lo hizo. Dicho de otro modo, se requiere conocer (o estimar) el efecto que tuvo la aplicación del nuevo tratamiento en el tiempo en el cual el paciente adquirió la infección y el tiempo en el cual comenzó a presentar síntomas, variables que permiten determinar si el tratamiento pudo prevenir la enfermedad, o al menos ralentizar su propagación, y si pudo evitar o atenuar la aparición de síntomas. Es importante resaltar que el estudio del tiempo transcurrido hasta la ocurrencia de una infección o de la aparición de los síntomas, es un caso particular del análisis de supervivencia, rama de la estadística que tiene como objetivo el estudio del tiempo transcurrido hasta la ocurrencia de un evento, así como el efecto que tienen en dicho tiempo variables características propias de los individuos a los que les ocurre el evento, por ejemplo, en el caso de pacientes, se puede considerar el tratamiento que se le aplicó (el estándar o el nuevo), la edad, el género, entre otros. A estas últimas se les conoce como covariables. Así, el presente trabajo propone dos modelos paramétricos bivariados basados en distribuciones y métodos estadísticos utilizados en el análisis de supervivencia, modelos que permitirán estudiar el comportamiento conjunto del tiempo a infección y del tiempo a síntomas, considerando la relación intrínseca existente entre ambas variables. De esta manera, el método de estimación a utilizar será el modelo de tiempo de falla acelerado, modelo de regresión lineal en el cual se asume que el logaritmo del tiempo de infección y el logaritmo del tiempo de síntomas son iguales a una función lineal de las covariables más un error multiplicado por el parámetro de escala correspondiente a cada tiempo. En ese sentido, se cuentan con dos errores (uno para el tiempo de infección y otro para el de síntomas) que corresponden al componente aleatorio de la regresión, componente que se modelará de forma conjunta de las siguientes dos maneras: Asumiendo que ambos errores siguen una distribución bivariada de valores extremos. Asumiendo un modelo de cópulas, en la cual se asume que cada tiempo presenta una distribución marginal Weibull, y la relación de dependencia de ambos tiempos obedece a una cópula Gumbel. Finalmente, el método anterior se puede aplicar a una muestra determinada a fin de estimar los parámetros de las distribuciones asumidas, y de esta manera determinar el efecto que tienen cada una de las covariables en los tiempos de infección y de síntomas. En este trabajo en particular, se aplicará el modelo en el estudio de notificación de parejas, llevado a cabo por Golden en el 2005 y que tuvo como objetivo verificar si un grupo de pacientes presentó reinfección y síntomas de una enfermedad previa, así como el efecto de una nueva terapia sobre tales eventos.