Tesis y Trabajos de Investigación PUCP

URI permanente para esta comunidadhttp://54.81.141.168/handle/123456789/6

El Repositorio Digital de Tesis y Trabajos de Investigación PUCP aporta al Repositorio Institucional con todos sus registros, organizados por grado: Doctorado, Maestría, Licenciatura y Bachillerato. Se actualiza permanentemente con las nuevas tesis y trabajos de investigación sustentados y autorizados, así como también con los que que fueron sustentados años atrás.
Ingresa a su web: Repositorio Digital de Tesis y Trabajos de Investigación PUCP

Explorar

Resultados de búsqueda

Mostrando 1 - 9 de 9
  • Ítem
    Viabilidad de modelos de Machine Learning en el sector Fintech Crediticio Peruano: una aproximación a través de la vigilancia tecnológica
    (Pontificia Universidad Católica del Perú, 2024-09-16) Herrera Ortega, Ryan André; Hernández Cenzano, Carlos Guillermo
    El presente trabajo de investigación desarrolla un estudio de vigilancia tecnológica aplicado a la búsqueda de nuevas formas de detectar casos de fraude y de mejorar la calificación crediticia de clientes dentro del ecosistema fintech de créditos, además de ofrecer un marco general de oportunidades y desafíos para su implementación en dicho sector. Dicho procedimiento toma como referencia artículos científicos, los cuales se someterán a análisis para detectar aportes clave para el objetivo en cuestión. Respecto del macroentorno nacional descrito por el análisis PESTEL, la población nacional está mostrando una tendencia marcada al uso de la banca digital como herramienta para realizar actividades financieras, desde transferencias hasta la solicitud de créditos, así como la construcción de modelos de negocio disruptivos a partir de la explotación de nuevas tecnologías y del conocimiento de segmentos de valor con demanda insatisfecha de servicios financieros, como en el caso de las PyMEs y la población no bancarizada. No obstante, los elevados casos de fraudes digitales y porcentajes de morosidad elevados, observados sobre todo en la banca empresarial y en delitos como la usura en los préstamos gota a gota, limitan el crecimiento sostenido de la tendencia descrita, ocasionando cierta aversión a la adopción de tecnologías digitales en la banca y la temprana desaparición de modelos de negocio disruptivos. Asimismo, la poca investigación a nivel Perú respecto del tema limita las oportunidades de explotación de información y conocimiento, lo cual se traduce en la escasez de capital humano especializado en tareas de investigación y desarrollo. Sobre el análisis bibliométrico y de patentes, se determinó que modelos de clasificación como redes neuronales, árboles de decisión (junto a su variante de bosques aleatorios) y las máquinas de vectores de soporte (SVM) son las mejores herramientas para la detección de fraudes y la clasificación crediticia. Asimismo, la combinación de estos modelos con potenciadores como los algoritmos genéticos y el uso de técnicas de boosting otorga mejores resultados de eficiencia y permite minimizar los falsos positivos y negativos dentro del análisis. Por otro lado, el uso de algoritmos generativos de información, como las redes neuronales generativas (GNN) y sus variantes, permite mitigar riesgos de sobreajuste en los modelos antes descritos mediante la reducción de sesgo con la generación de nuevas muestras a partir de la información existente. Finalmente, es necesario destacar que conceptos de ingreso reciente, como el modelo GPT desarrollado por OpenAI y los nuevos sectores de negocio (a nivel de fintech) que Perú puede integrar, como el caso de cambio de divisas y las criptomonedas, deben funcionar como impulso para fomentar la investigación y la inversión en dichos campos por parte del ecosistema startup peruano, tanto para actualizar sus propuestas de valor como para incrementar el capital humano especializado en dichos temas.
  • Ítem
    Redes neuronales convolucionales para datos composicionales: Una aplicación a la industria textil de la moda
    (Pontificia Universidad Católica del Perú, 2022-04-07) Cotacallapa Amanqui, Pavel Arturo; Benites Sanchez, Luis Enrique
    En muchas situaciones prácticas es necesario el uso de modelos que puedan predecir una colección de datos limitados por un intervalo cuya suma sea una constante por cada unidad estadística. Este tipo de variable respuesta se conoce como datos composicionales. Por otro lado, el número de covariables que se usan para el entrenamiento de este tipo de modelos pueden provenir de datos asociados a imágenes como la intensidad de los pixeles. En ese contexto, se propone el uso de las redes neuronales convolucionales como una primera alternativa para intentar estimar este tipo de variable respuesta. Se utiliza la distribución de Dirichlet como distribución condicional de los datos y nalmente se propone una aplicación del modelo utilizando imágenes de prendas de vestir que se venden por catálogo en donde el objetivo es predecir las participaciones de las tallas que se venden por cada unidad estadística.
  • Ítem
    Autonomous control of a mobile robot with incremental deep learning neural networks
    (Pontificia Universidad Católica del Perú, 2021-03-29) Glöde, Isabella; Morán Cárdenas, Antonio Manuel
    Over the last few years autonomous driving had an increasingly strong impact on the automotive industry. This created an increased need for artificial intelligence algo- rithms which allow for computers to make human-like decisions. However, a compro- mise between the computational power drawn by these algorithms and their subsequent performance must be found to fulfil production requirements. In this thesis incremental deep learning strategies are used for the control of a mobile robot such as a four wheel steering vehicle. This strategy is similar to the human approach of learning. In many small steps the vehicle learns to achieve a specific goal. The usage of incremental training leads to growing knowledge-base within the system. It also provides the opportunity to use older training achievements to improve the system, when more training data is available. To demonstrate the capabilities of such an algorithm, two different models have been formulated. First, a more simple model with counter wheel steering, and second, a more complex, nonlinear model with independent steering. These two models are trained incrementally to follow different types of trajectories. Therefore an algorithm was established to generate useful initial points. The incremental steps allow the robot to be positioned further and further away from the desired trajectory in the environ- ment. Afterwards, the effects of different trajectory types on model behaviour are investigated by over one thousand simulation runs. To do this, path planning for straight lines and circles are introduced. This work demonstrates that even simulations with simple network structures can have high performance.
  • Ítem
    Análisis predictivo de series temporales de temperatura corporal
    (Pontificia Universidad Católica del Perú, 2020-11-17) Cotrina Araujo, Nikol Alexandra; Rau Álvarez, José Alan
    Como un ser homeopático el ser humano presenta mecanismos de regulación de la temperatura que aseguran un óptimo funcionamiento del sistema fisiológico. Estos mecanismos de regulación tienen su centro de control e integración en el hipotálamo, que se encarga de mantener la temperatura corporal funcionando a ±1°C de la temperatura en reposo. Cuando la temperatura se encuentra fuera de este rango los sistemas biológicos comienzan a verse afectados. A efectos prácticos, el organismo puede dividirse en una parte central o nuclear, el cual estaría constituido por la cabeza y las cavidades torácica y abdominal; y una parte superficial, que está constituido por la piel, el tejido celular subcutáneo y el grueso de la masa muscular. De manera que, las temperaturas del núcleo y la piel serían las temperaturas central y periférica, respectivamente. La temperatura central (representada por las temperaturas oral, rectal, esofágica, membrana del tímpano, hipotalámica o de la sangre al pasar por cualquiera de los órganos de la parte central o nuclear) permanece relativamente constante, gracias a que es regulada y se mantiene dentro de límites bastante estrechos. Además, dentro de la práctica clínica, la temperatura es una de las variables que se encuentran en constante monitoreo pues resulta fundamental en la atención de pacientes con patologías agudas, ya que permite determinar si el paciente presenta un aumento en su temperatura central o fiebre que usualmente es asociado con el desarrollo de una infección. La fiebre es una respuesta fisiológica adaptativa frente a un agente patógeno, que mejora la respuesta del sistema inmune y evita la propagación de los agentes infecciosos. De hecho, “la elevación de la temperatura corporal en algunos grados puede aumentar la eficiencia de los macrófagos para destruir los microorganismos invasores, dificultando la replicación de diferentes microorganismos y otorgando una ventaja adaptativa al sistema inmune” (Gómez, 2008). Debido a lo anterior, la predicción del desarrollo de fiebre es importante pues, según el horizonte de predicción de este estado en el paciente, se puede permitir la obtención de un cultivo de sangre cuando el recuento de bacterias está en su punto máximo y, de esa manera, precisar el diagnóstico del paciente. Durante la práctica clínica, se registra la temperatura de los pacientes cada 8-12 h, sin embargo, tales mediciones no proporcionan información significativa en el diagnóstico de enfermedades. Por ello, el monitoreo continuo de la temperatura y el análisis de los registros obtenidos utilizando métodos analíticos podrían ayudar a revelar respuestas únicas de fiebre de los pacientes y en diferentes condiciones clínicas. Esta tesis analiza series de temperatura central de pacientes aplicando técnicas estadísticas de series temporales como modelos lineales ARIMA y modelos no lineales de redes neuronales recurrentes para predecir futuros incrementos de la temperatura central que permitiría anticipar el diagnóstico y tratamiento que podría recibir un paciente. Los modelos ARIMA y de Redes neuronales recurrentes fueron caracterizados con un análisis univariante, donde la variable estudiada es la Temperatura central. Por otro lado, los datos utilizados fueron recogidos con un equipo de Monitorización Continua de Temperatura, con un termómetro timpánico de infrarrojos denominado Thercom. Estos dispositivos se configuraron para realizar una determinación de temperatura central por minuto durante aproximadamente 24 horas. No obstante, debido a que la toma de datos de temperatura podría ser incómoda para los pacientes, hay momentos en las series en que los datos obtenidos contienen mediciones que podrían no ser fiables. La primera técnica empleada para el análisis de series temporales fue el modelo de Box-Jenkins o también llamados procesos autorregresivos integrados con media móvil (modelos ARIMA, por sus siglas en inglés) estos modelos pueden capturar las tendencias a corto plazo y las variaciones periódicas en las series temporales, sin embargo, estos no se ajustan a tendencias no lineales que pudiera tener la variable evaluada. Posteriormente, se probaron los modelos no lineales de redes neuronales recurrentes de Elman y se comparó la precisión de las predicciones de los modelos ARIMA, frente a los modelos de Elman usando como estadístico el error absoluto porcentual medio o MAPE para horizontes de 15, 30 y 60 minutos. Ambos modelos fueron desarrollados usando el software estadístico Rstudio con las librerías: “tseries”, para modelos ARIMA; “forecast”, para determinar las predicciones en modelos ARIMA y “RSNNS”, para modelar redes neuronales. Debido a la naturaleza de la variable temperatura central la precisión de los modelos debe ser tal que el error de predicción del modelo no debe ser mayor a 1°C, esto en promedio, implica que las predicciones del modelo deben tener un MAPE máximo admisible de 2.7%. Las predicciones de los modelos ARIMA para los 3 pacientes produjeron MAPEs menores a 3% en todos los horizontes de predicción, no obstante, los residuos obtenidos no siguen una distribución normal, aunque en todos los casos cumplían la hipótesis fundamental de que eran independientes. Además, se produjeron predicciones muy satisfactorias para los 3 pacientes en el horizonte de 15 minutos. Para los otros horizontes de tiempo, los modelos presentaban un intervalo de confianza con amplitud mayor a 2°C, aunque el MAPE producido seguía siendo aceptable. Para los modelos de redes neuronales se utilizaron como variables de entrada, el primer y el segundo retardo de la temperatura central. Como resultado, las predicciones de los modelos de redes de Elman se ajustaron a los datos de tal manera que se obtuvieron MAPEs inferiores a 0.5% para los 3 pacientes en los 3 horizontes de tiempo estudiados (15, 30 y 60 minutos). A pesar de la complejidad de la regulación fisiológica de la temperatura central, el usar retardos de la temperatura central como valores de entrada para el modelo de redes neuronales hace que la estructura del modelo se simplifique y que la predicción de los futuros valores pueda estimarse con modelos de una sola capa de manera satisfactoria, ajustándose a los datos en su escala real y produciendo errores mínimos.
  • Ítem
    Application on semantic segmentation with few labels in the detection of water bodies from PERUSAT-1 satellite's images
    (Pontificia Universidad Católica del Perú, 2020-07-02) Gonzalez Villarreal, Jessenia Margareth Marina; Beltrán Castañón, César Armando
    Remote sensing is widely used to monitor earth surfaces with the main objective of extracting information from it. Such is the case of water surface, which is one of the most affected extensions when flood events occur, and its monitoring helps in the analysis of detecting such affected areas, considering that adequately defining water surfaces is one of the biggest problems that Peruvian authorities are concerned with. In this regard, semi automatic mapping methods improve this monitoring, but this process remains a time-consuming task and into the subjectivity of the experts. In this work, we present a new approach for segmenting water surfaces from satellite images based on the application of convolutional neural networks. First, we explore the application of a U-Net model and then a transfer knowledge-based model. Our results show that both approaches are comparable when trained using an 680-labelled satellite image dataset; however, as the number of training samples is reduced, the performance of the transfer knowledge-based model, which combines high and very high image resolution characteristics, is improved
  • Ítem
    Metaphor identification for Spanish sentences using recurrent neural networks
    (Pontificia Universidad Católica del Perú, 2020-06-26) Alvarez Mouravskaia, Kevin; Alatrista Salas, Hugo
    Metaphors are an important literary figure that is found in books or and daily use. Nowadays it is an essential task for Natural Language Processing (NLP), but the dependence of the context and the lack corpus in other languages make it a bottleneck for some tasks such as translation or interpretation of texts. We present a classification model using recurrent neural networks for metaphor identification in Spanish sentences. We tested our model and his variants on a new corpus in Spanish and compared it with the current baseline using an English corpus. Our best model reports an F-score of 52.5% for Spanish and 60.4% for English.
  • Ítem
    Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
    (Pontificia Universidad Católica del Perú, 2020-05-26) Lara Avila, César Jesús; Oncevay Marcos, Félix Arturo
    De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica.
  • Ítem
    Modelamiento dinámico de los parametros de control de vuelo de una aeronave del tipo ala volante utilizando redes neuronales artificiales.
    (Pontificia Universidad Católica del Perú, 2019-01-21) Saito Villanueva, Carlos; Moran Cardenas, Antonio Manuel
    Esta tesis de investigación propone obtener el modelo aerodinámico de una aeronave del tipo ala volante utilizando redes neuronales artificiales con el fin de mejorar la performance del controlador de vuelo del sistema de navegación de un vehículo aéreo no tripulado. Actualmente la aeronave pierde altitud al momento de realizar los giros, y se entiende porque es un problema con el ángulo de cabeceo y velocidad de vuelo. El tipo de Red Neuronal Artificial (RNA) utilizada es de Back Propagation Dinámico y tiene dos capas intermedias con 100 neuronas cada una. Se utilizó este tipo de RNA porque permite entrenar un modelo dinámico como es el caso de una aeronave. Las variables de entrada utilizadas para el entrenamiento fueron: posición del elevador, posición de los alerones, posición del throtle y aceleraciones en los tres ejes de la aeronave. Las variables de salida fueron: ángulo de cabeceo, ángulo de alabeo, cambio en el tiempo de ángulo de cabeceo y alabeo, velocidad y altitud. Asimismo, se utilizó un “bias” para tomar en consideración fuerzas o perturbaciones que no se pueden medir. La metodología utilizada permitió realizar el modelado de manera satisfactoria del ángulo de cabeceo y velocidad. Los errores de entrenamiento fueron de 36% y 5.5% respectivamente. La validación de ambos parámetros fue de 68% y 3.38%. La metodología aplicada todavía necesita ser mejorada para obtener un error de entrenamiento satisfactorio en el ángulo de alabeo y mejorar los entrenamientos obtenidos para el ángulo de cabeceo y velocidad. Este trabajo demuestra que el modelamiento de una aeronave del tipo ala volante es más complejo que una aeronave convencional. Son pocos los trabajos de investigación sobre modelamiento de aeronaves que han realizado el modelamiento de este tipo de aeronaves. En la mayoría de los casos utilizan técnicas diferentes a las de RNA y realizan modelamiento lineal y no dinámico como se ha realizado en esta tesis.
  • Ítem
    Recuperación de la información musical por similitud usando redes neuronales
    (Pontificia Universidad Católica del Perú, 2013-04-08) Rojas Miguel, Jael Nora; Kong Moreno, Maynard Jorge
    En los últimos años, la distribución de música digital en la web ha permitido a los usuarios acceder a grandes cantidades de información musical, con ello surge la necesidad de obtener esa información de manera eficaz y eficiente. En la actualidad, los sistemas de recuperación han ayudado a los usuarios a encontrar información basada en texto, pero esos modelos tradicionales no son adecuados si deseamos encontrar canciones que se parezcan en contenido de audio, de allí la necesidad de modelar e implementar métodos de recuperación basado en audio musical. En este estudio se describe un sistema que permite recuperar y clasificar canciones por similitud basado en contenido de audio musical. Se aplica un modelo de red neuronal a características de canciones. Primero se obtiene descriptores de canciones polifónicas en formato mp3 con características tales como: Análisis Espectral, Patrones de ritmo, Histograma de ritmo. Segundo, se realiza un análisis estadístico para seleccionar los descriptores válidos. Finalmente se ingresa a una red neuronal estos descriptores y se entrena. El objetivo de este trabajo es implementar el sistema y determinar, a partir de los resultados experimentales, la eficiencia de acierto o no para clasificar y recuperar contenido de audio musical por similitud.