Tesis y Trabajos de Investigación PUCP

URI permanente para esta comunidadhttp://54.81.141.168/handle/123456789/6

El Repositorio Digital de Tesis y Trabajos de Investigación PUCP aporta al Repositorio Institucional con todos sus registros, organizados por grado: Doctorado, Maestría, Licenciatura y Bachillerato. Se actualiza permanentemente con las nuevas tesis y trabajos de investigación sustentados y autorizados, así como también con los que que fueron sustentados años atrás.
Ingresa a su web: Repositorio Digital de Tesis y Trabajos de Investigación PUCP

Explorar

Resultados de búsqueda

Mostrando 1 - 10 de 11
  • Ítem
    Aprendizaje estadístico supervisado con máquina de soporte vectorial
    (Pontificia Universidad Católica del Perú, 2024-02-26) Falcón Cisneros, Sergio Daniel; Véliz Capuñay, Carlos Nilberto
    Actualmente las organizaciones recolectan datos en grandes volúmenes y de fuentes muy variadas. Para dar sentido y convertir los datos en información útil es necesario utilizar técnicas que permitan encontrar y entender las relaciones ocultas en los datos. Generalmente, la relación que nos interesa estudiar es cómo predecir un evento utilizando un conjunto de variables. Sin embargo, muchas veces la relación entre los datos es muy compleja y no puede ser analizada adecuadamente usando las técnicas más conocidas, dado que éstas suelen tener supuestos que no necesariamente se cumplen. Por ello, es importante conocer técnicas de análisis más complejas y flexibles. Esta tesis busca ser un instrumento de ayuda en el aprendizaje y uso de nuevas técnicas para estudiar los datos, lo cual es relevante sobre todo en el medio local en el que este tema es poco conocido. Con este objetivo, presenta una revisión introductoria de la teoría del aprendizaje estadístico, la cual provee del marco teórico para que distintos métodos utilicen los datos para aprender, y usando este conocimiento puedan hacer predicciones sobre datos nuevos o diferentes. Luego se centra en un estudio exhaustivo del método de aprendizaje de Máquinas de Soporte Vectorial (SVM por sus siglas en inglés), introduciendo y aplicando las funciones Kernel. Este método se puede entender como una representación de los datos como puntos en el espacio, asignados de tal forma que exista una brecha grande que separe a los elementos diferentes. Finalmente se pone en práctica la teoría estudiada aplicando el método SVM a datos de clientes de una entidad financiera. Esta entidad financiera usa predominantemente técnicas de aprendizaje estadístico simples y con varios supuestos; particularmente usa una de estas técnicas en un modelo que predice la propensión a la compra y persistencia del producto Seguro de Protección de Tarjetas. Por ello, la presente tesis se centra en aplicar el método SVM para construir una alternativa a este modelo.
  • Ítem
    Modelamiento bayesiano espacial multivariado para datos de áreas
    (Pontificia Universidad Católica del Perú, 2024-01-19) Lopez Esquivel, Miguel Angel; Quiroz Cornejo, Zaida Jesús
    Las infecciones respiratorias son enfermedades que ingresan a nuestro tracto respiratorio afectando la faringe hasta a los pulmones y según la Organización mundial de salud es la causa más común de muertes en el mundo. En particular, en esta tesis se propone estudiar la relación entre la incidencia de infecciones respiratorias agudas (IRA) y la incidencia de neumonía en el Perú. Por un lado estas variables pueden estar correlacionadas, conforme aumenta el número de casos de una enfermedad también aumenta el de la otra. Por otro lado, si nos enfocamos en la incidencia de estas enfermedades a nivel provincial, esperamos que la incidencia de IRA sea similar en provincias vecinas, lo mismo esperamos que ocurra con la incidencia de neumonía. En este contexto, en esta tesis se propone estudiar la distribución espacial entre la incidencia de IRA y neumonía a nivel provincial en el Perú a través de un modelo espacial multivariado, el cual nos permite estudiar la distribución espacial de dos o más variables correlacionadas entre sí. En particular, se propone aplicar un modelo espacial multivariado con efectos aleatorios condicionales autoregresivos. Para conseguir implementar la inferencia bayesiana del modelo jerárquico espacial multivariado de forma eficiente se propone usar el método de integración aproximada anidada de Laplace (INLA).
  • Ítem
    Un modelo Fay-Herriot espacial para la predicción del porcentaje de niños con anemia y riesgo de retraso del crecimiento en distritos no encuestados y en distritos con pocas observaciones disponibles
    (Pontificia Universidad Católica del Perú, 2023-02-24) Haro Abanto, Marcial Eduardo; Sikov, Anna
    La presente tesis tiene como objetivo realizar predicciones del nivel de prevalencia de anemia y riesgo de retraso del crecimiento en niños menores de 5 años, en distritos encuestados con observaciones faltantes y distritos no encuestados con niveles de pobreza mayor a 55% del país, con datos de la Encuesta Demográfica de Salud Familiar (ENDES) para el año 2019 y el censo nacional del 2017. Para alcanzar este objetivo se hace uso del modelo Fay-Herriot y su variante espacial. Este modelo permite obtener estimaciones fiables en dominios en los cuales el diseño muestral no tiene un nivel de inferencia aceptable. El uso de variables auxiliares obtenidas del censo a nivel de distrito permite implementar el modelo Fay- Herriot, obteniendo predicciones con un error de estimación menor a las estimaciones muestrales. En el caso de la variante espacial del modelo Fay-Herriot, este incluye correlaciones entre los efectos aleatorios de áreas vecinas. Además, se estima el error cuadrático medio de las predicciones obtenidas mediante los métodos de bootstrap paramétrico y no paramétrico. Los resultados muestran que los distritos de los departamentos de Puno, Cusco y Huancavelica tienen indicadores de anemia en niños menores de 5 años que superan el 48.5% en tanto que los distritos de los departamentos de Puno, Huancavelica y Tacna tienen indicadores de riesgo de retraso del crecimiento en niños menores de 5 años por encima del 45.5 %.
  • Ítem
    Método para la fusión de categorías usando técnicas de agrupamiento
    (Pontificia Universidad Católica del Perú, 2022-04-28) Farro Diaz, Victor Daniel; Bayes Rodriguez, Cristian Luis
    En la actualidad, muchas organizaciones disponen o tienen acceso a una gran cantidad y variedad de datos que les permiten tomar decisiones acordes en temas económicos, sociales, de educación, de salud, entre otros. Con frecuencia, los estudios que se realizan se enfocan en el objetivo de explicar una variable de interés utilizando un conjunto de variables explicativas; y si la relación de dependencia es lineal, se le conoce como modelo de regresión lineal. Los modelos de regresión lineal presentan su principal reto en la estimación de los parámetros de la regresión, que se consiguen a partir de la información obtenida mediante el análisis de las observaciones de una muestra previamente recogida. La complejidad de los modelos de regresión lineal aumenta con la existencia de covariables que son medidas en una escala nominal u ordinal, y que en muchas ocasiones presentan una gran cantidad de categorías, como por ejemplo: estado civil, grupo sanguíneo, entre otros. Lo habitual para modelar el efecto total de una covariable categórica es definir una categoría (o nivel) como línea base y utilizar variables ficticias para las otras categorías (o niveles). La presente tesis tiene como principal objetivo el desarrollo del método de fusión de efectos de covariables categóricas usando técnicas de agrupamiento PAM, propuesto por Malsiner-Walli, Pauger y Wagner (2018), y aplicarlo en un conjunto de datos reales relacionados a los ingresos monetarios de la población de Lima Metropolitana y Callao del primer trimestre del 2020.
  • Ítem
    Redes neuronales convolucionales para datos composicionales: Una aplicación a la industria textil de la moda
    (Pontificia Universidad Católica del Perú, 2022-04-07) Cotacallapa Amanqui, Pavel Arturo; Benites Sanchez, Luis Enrique
    En muchas situaciones prácticas es necesario el uso de modelos que puedan predecir una colección de datos limitados por un intervalo cuya suma sea una constante por cada unidad estadística. Este tipo de variable respuesta se conoce como datos composicionales. Por otro lado, el número de covariables que se usan para el entrenamiento de este tipo de modelos pueden provenir de datos asociados a imágenes como la intensidad de los pixeles. En ese contexto, se propone el uso de las redes neuronales convolucionales como una primera alternativa para intentar estimar este tipo de variable respuesta. Se utiliza la distribución de Dirichlet como distribución condicional de los datos y nalmente se propone una aplicación del modelo utilizando imágenes de prendas de vestir que se venden por catálogo en donde el objetivo es predecir las participaciones de las tallas que se venden por cada unidad estadística.
  • Ítem
    Modelos de regresión a la media con efectos mixtos para variable respuesta semicontinua
    (Pontificia Universidad Católica del Perú, 2021-09-01) Bautista Bautista, Luis Alberto; Valdivieso Serrano, Luis Hilmar
    En muchas situaciones se dispone de una variable aleatoria continua no negativa con asimetría positiva que eventualmente podría tomar el valor cero. Datos de esta naturaleza son llamados semicontinuos o cero-inflacionados y fueron tradicionalmente modelados usando el modelo de regresión de dos partes propuesto por Duan et al. (1983). En este modelo la variable respuesta sigue una distribución mixta de probabilidades conformada por una distribución de Bernoulli y una distribución continua no negativa. Una versión longitudinal de este modelo de regresión, pero que apunta a explicar la media de la variable de respuesta, fue propuesto por Smith et al. (2017). Este modelo planteaba, para su componente continua de respuesta, una distribución Log Skew Normal. El objetivo de este trabajo es estudiar un modelo alternativo al de Smith et al. (2017), que llamaremos, en general, un modelo de regresión a la media con efectos mixtos para respuestas semicontinuas, pues plantea una parametrización que permite estimar e interpretar los efectos de un conjunto de covariables sobre la media de las respuestas y no sobre la media condicionada a valores positivos. A diferencia del modelo de Smith et al. (2017), que hace uso de la distribución Log Skew Normal cero-inflacionada, nosotros modelaremos la respuesta con una distribución Gamma Generalizada cero-inflacionada. Este modelamiento, como se muestra, permite capturar de manera flexible ciertas características de los datos de respuesta, tales como, la asimetría y el comportamiento de las colas. Los resultados del estudio de simulación para el nuevo modelo mostraron un adecuado desempeño en la recuperación de sus parámetros, donde para la estimación de estos utilizamos un enfoque bayesiano y el uso de métodos MCMC Hamiltonianos. Por último, los resultados de su aplicación en el estudio longitudinal del efecto que ciertas variables podrán ejercer sobre la media de los gastos en educación de los hogares en el Perú, mostraron un mejor ajuste a los datos respecto al modelo de Smith et al. (2017), en base a los criterios de información ampliamente aplicado y de validación cruzada de Leave-one-out.
  • Ítem
    Brecha en ingresos por género en el sector salud implementación bayesiana
    (Pontificia Universidad Católica del Perú, 2021-04-26) Ormeño Meza, Rubén Aaron; Sal y Rosas Celi, Víctor Giancarlo
    La brecha salarial entre hombres y mujeres es un tema abordado con mucho énfasis en los últimos años y los profesionales del sector salud no son ajenos a esta problemática. En el desarrollo del presente trabajo de investigación se tuvo por objetivo implementar un modelo de regresiones gamma que permita modelar el ingreso del profesional de salud diferenciándolo según sexo, profesión y otras variables confusoras. La estimación de los parámetros se llevó a cabo desde una perspectiva bayesiana. Estos métodos de estimación se exploran mediante implementaciones computaciones con el software R y Stan. La ventaja principal de usar el enfoque bayesiano en el modelo de regresiones gamma es la posibilidad de añadir variables confusoras como componentes espaciales. Para ello, se define teóricamente el modelo y se explican los conceptos de geoestadística y modelos espaciales necesarios para el trabajo. Finalmente, el modelo se ilustra mediante una aplicación que usa una encuesta con representatividad nacional sobre el sistema de salud en el Perú.
  • Ítem
    Modelamiento del tiempo a la ocurrencia de un evento con tiempos discretos
    (Pontificia Universidad Católica del Perú, 2021-01-18) Huertas Quispe, Anthony Enrique; Bayes Rodríguez, Cristian Luis
    En este trabajo de tesis, se plantea estudiar el tiempo a la ocurrencia de un evento en un proceso discreto. Para ello, se considera un modelo mixtura de fracción de cura sobre una población segmentada en dos tipos de individuos: sujetos curados, o también denominados sobrevivientes a largo plazo, haciendo referencia a aquellos sujetos que no alcanzarán el evento de interés en estudio; y sujetos no curados, o también denominados sujetos susceptibles, quienes en un tiempo específico, experimentarán dicho evento de interés. Los objetivos principales de esta tesis, son el de estimar la fracción de cura, la cual está definida como la proporción de individuos curados al final del estudio, y estimar el tiempo de falla para los individuos susceptibles, entendiéndose como el tiempo a la ocurrencia del evento. Este análisis se llevará a cabo con la presencia de covariables y datos censurados, siendo la simulación e inferencia de los datos efectuados vía el software estadístico R, en donde los procesos de simulación abordarán distintos escenarios para evaluar la performance del modelo propuesto.
  • Ítem
    Una aplicación de la regresión de Cox con puntos de cambio en las covariables
    (Pontificia Universidad Católica del Perú, 2016-06-20) Trujillo Angeles, Lucía Inés; Doig Camino, Elizabeth
    El siguiente trabajo de tesis, estudiará el modelo de regresión de Cox con puntos de cambio en las covariables propuesto por Jensen y Lutkebohmert (2008), realizando el desarrollo y la aplicación para una base de líneas móviles postpago. El objetivo es obtener los parámetros de las covariables y el nuevo parámetro en el modelo que es el punto de cambio, para analizar la manera como estas covariables tienen influencia en la desactivación de una línea a solicitud del cliente.
  • Ítem
    Modelos alternativos de respuesta graduada con aplicaciones en la calidad de servicios
    (Pontificia Universidad Católica del Perú, 2015-07-20) Tarazona Vargas, Enver Gerald; Bazán Guzmán, Jorge Luis
    Los modelos politómicos de la Teoría de Respuesta al Ítem (TRIP) tienen como finalidad explicar la interacción existente entre los sujetos evaluados y los atributos de un test en aquellas situaciones en las cuales los atributos que lo componen tienen varias categorías de respuesta. Dentro de los distintos tipos de modelos TRIP, el Modelo de Respuesta Graduada General (GRM) propuesto originalmente por Samejima (1969, 2010), es un conjunto de modelos diseñados para aplicarse en aquellas situaciones en las cuales las categorías de respuesta son ordinales. En este trabajo se presenta una formulación general para los GRM, su clasificación y principales propiedades desde el punto de vista bayesiano. De manera específica, se muestra el Modelo de Respuesta Graduada Logístico de dos parámetros (2PL-GRM) como un caso particular de los GRM simétricos y el Modelo de Respuesta Graduada Logístico de Exponente Positivo (LPE-GRM) como un modelo asimétrico derivado de incorporar un parámetro de penalización que controla la curvatura de las Funciones de Respuesta a las Etapas de los Ítems (FREI). La estimación de ambos modelos fue realizada usando la inferencia bayesiana con Métodos Montecarlo vía Cadenas de Markov (MCMC) e implementada en R y WinBUGS. Se realizó un estudio de simulación con el _n de estudiar la precisión en la recuperación de parámetros para el Modelo 2PL-GRM obteniéndose resultados apropiados para las medidas de ajuste consideradas. Los modelos 2PL-GRM y LPE-GRM estudiados fueron aplicados al estudio de un cuestionario acerca de la satisfacción de clientes y comparados con el tradicional análisis clásico de los test. La muestra del estudio está formada por 5354 clientes de una empresa de telecomunicaciones que se comunicaron con el Call Center de atención al cliente por algún motivo (consulta, reclamo, pedido, etc.). A través del análisis de dimensionalidad de la escala se encontró que el cuestionario evalúa dos dimensiones de la satisfacción con la atención al cliente: la Accesibilidad (4 ítems) y el Desempeño del asesor (7 ítems). Los resultados indican, considerando diferentes criterios, que en ambas dimensiones el modelo LPE-GRM es mejor. Adicionalmente, ambos modelos ofrecen mejor información que el tradicional análisis clásico. Se sugiere realizar diferentes estudios de simulación para evaluar distintas condiciones para la inferencia del modelo LPE-GRM puesto que para las mismas condiciones de estimación MCMC se observa que puede ser más demorado debido a que presenta mayor autocorrelación que el modelo 2PL-GRM.