Tesis y Trabajos de Investigación PUCP
URI permanente para esta comunidadhttp://54.81.141.168/handle/123456789/6
El Repositorio Digital de Tesis y Trabajos de Investigación PUCP aporta al Repositorio Institucional con todos sus registros, organizados por grado: Doctorado, Maestría, Licenciatura y Bachillerato. Se actualiza permanentemente con las nuevas tesis y trabajos de investigación sustentados y autorizados, así como también con los que que fueron sustentados años atrás.
Ingresa a su web: Repositorio Digital de Tesis y Trabajos de Investigación PUCP
Explorar
6 resultados
Resultados de búsqueda
Ítem Texto completo enlazado Predicción de la aceptación de pedidos por parte de los repartidores en la industria de entregas a domicilio utilizando machine learning(Pontificia Universidad Católica del Perú, 2024-08-14) Alarcon Flores, Jorge Brian; Beltrán Castañón, César ArmandoLa industria de entregas a domicilio ha experimentado un auge significativo debido a la creciente demanda de los consumidores que buscan la comodidad de recibir productos y alimentos directamente en sus hogares. El avance de tecnologías y aplicaciones móviles ha impulsado el crecimiento de este mercado, permitiéndole adaptarse a las preferencias cambiantes de los consumidores [10] [19]. Sin embargo, un componente crítico en este proceso son los repartidores, quienes, tras la realización de un pedido por parte del cliente en la plataforma de la empresa, reciben notificaciones que les ofrecen una serie de pedidos sugeridos. Si aceptan, asumen la responsabilidad de recoger y entregar el pedido a los consumidores, así como la ganancia asociada, pero en ocasiones, los repartidores pueden declinar la aceptación de un pedido, lo que potencialmente conlleva a retrasos en la entrega, generando experiencias insatisfactorias para los usuarios. Este aspecto se presenta como un desafío significativo en la optimización de las operaciones de entrega a domicilio, el cual puede abordarse con soluciones de aprendizaje de máquina. En este artículo se presentan los resultados de la experimentación realizada con diversos modelos de aprendizaje de máquina, aplicándose la técnica de balanceo Smartly OverSampling con SMOTE. Los modelos se aplicaron a un conjunto de datos proporcionado por una institución latinoamericana líder en el sector de entregas a domicilio, reportando el algoritmo LightGBM, los mejores resultados con un AUC de 0.88 y un Average Precision Recall de 0.47.Ítem Texto completo enlazado Classifier based on straight line segments: an overview and theoretical improvements(Pontificia Universidad Católica del Perú, 2022-09-09) Medina Rodríguez, Rosario Alejandra; Beltrán Castañón, César ArmandoLiterature offers several supervised machine learning algorithms focused on binary classification for solving daily problems. Compared to well-known conventional classifiers, the Straight-line Segment Classifier (SLS Classifier) stands out for its low complexity and competitiveness. It takes advantage of some good characteristics of Learning Vector Quantization and Nearest Feature Line. In addition, it has lower computational complexity than Support Vector Machines. The SLS binary classifier is based on distances between a set of points and two sets of straight line segments. Therefore, it involves finding the optimal placement of straight line segment extremities to achieve the minimum mean square error. In previous works, we explored three different evolutive algorithms as optimization methods to increase the possibilities of finding a global optimum generating different solutions as the initial population. Additionally, we proposed a new way of estimating the number of straight line segments by applying an unsupervised clustering method. However, some interesting questions remained to be further analyzed, such as a detailed analysis of the parameters and base definitions of the optimization algorithm. Furthermore, it was straightforward that the straight-line segment lengths can grow significantly during the training phase, negatively impacting the classification rate. Therefore, the main goal of this thesis is to outline the SLS Classifier baseline and propose some theoretical improvements, such as (i) Formulating an optimization approach to provide optimal final positions for the straight line segments; (ii) Proposing a model selection approach for the SLS Classifier; and, (iii) Determining the SLS Classifier performance when applied on real problems (10 artificial and 8 UCI public datasets). The proposed methodology showed promising results compared to the original SLS Classifier version and other classifiers. Moreover, this classifier can be used in research and industry for decisionmaking problems due to the straightforward interpretation and classification rates.Ítem Texto completo enlazado Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning(Pontificia Universidad Católica del Perú, 2022-03-21) Matos Rios, Hans; Beltrán Castañón, César ArmandoLa generación de diálogo implica diseñar un programa para generar una conversación natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y otro programa de manera coherente y fluida. Desarrollar una conversación también depende del contexto y conocimiento del interlocutor, lo cual nos lleva a definir la existencia de niveles de complejidad conversacional, la cual se refiere a determinar que tan fácil o difícil de leer es un texto. En este aspecto, especialmente para el idioma español, no existe una herramienta que tenga un módulo propio que le permita clasificar textos en español por su complejidad textual. En el presente trabajo de fin de carrera se realiza el desarrollo de un módulo en el lenguaje de programación Python, el cual funciona como un Framework para identificar la complejidad textual de textos en español usando técnicas de Machine Learning. Para ello, en primer lugar, se implementaron 48 métricas de análisis de complejidad textual basadas en Coh-Metrix usando el lenguaje de programación Python. Dichas métricas convierten textos en español en datos numéricos con los cuales se entrenaron distintos modelos de Machine Learning, con el motivo de obtener el mejor modelo a utilizar con el Framework desarrollado, siendo este capaz de utilizar un modelo personalizado provisto por el usuario. Para ello, se necesitó obtener un corpus de 183 textos en español para realizar dicho entrenamiento, el cual fue obtenido al descargar textos educativos de nivel primaria y secundaria. Por último, se entrenó un chatbot con los textos obtenidos para el corpus, cuyas respuestas generadas fueron analizados con el Framework previamente desarrollado, identificando que el nivel de complejidad de dichas respuestas correspondía al nivel de los textos con los cuales el chatbot fue entrenado. En conclusión, en el presente proyecto de investigación se desarrolla un módulo de Python que funciona como un Framework, el cual es capaz de identificar la complejidad textual de textos en español, ya sea con el mejor modelo de Machine Learning utilizado en el presente proyecto o utilizando uno provisto por el usuario de la herramienta.Ítem Texto completo enlazado Implementación de un algoritmo de aprendizaje profundo basado en eventos para el problema de predicción de movimiento bursátil(Pontificia Universidad Católica del Perú, 2021-11-30) Bustamante Arce, Jaime Diego; Beltrán Castañón, César ArmandoLa predicción de precios bursátiles, acciones e índices siempre ha sido un tema de interés en el mundo financiero, no solo por su capacidad de originar grandes rentabilidades en poco tiempo, sino también por su volatilidad y complejidad. Así, desde que los mercados bursátiles fueron concebidos diferentes investigadores en variadas áreas han tratado de “vencerlo” prediciendo su comportamiento, como el índice S&P 500 que lista la cotización de las 500 corporaciones más líquidas de la Bolsa de New York. Uno de los enfoques es el fundamentalista, que busca predecirlo de acuerdo a las noticias en los medios de las empresas listadas en la Bolsa de Valores. Desde el lado informático, diversas técnicas han venido siendo aplicadas para realizar esta predicción como estadísticas y las clásicas herramientas de aprendizaje de máquina. Sin embargo, con el creciente aumento de volumen de información, se hace necesario aplicar técnicas que consigan lidiar con esta información no estructurada. Técnicas como redes profundas recurrentes (LSTM), se han mostrado ad-hoc para el manejo de información temporal, debido a que tienen de capacidad de memorizar hechos pasados, que persisten en el tiempo. En el presente trabajo se propone una metodología y conjunto de redes neuronales profundas para la predicción de movimiento bursátil a partir de eventos y noticias corporativas. Para ello no solo se considera la contextualización de palabras, sino también sus relaciones y composición semántica, estructura e historia para la predicción del índice S&P 500. En resumen, el presente proyecto obtiene resultados exitosos puesto que sobrepasan a los del estado del arte. Así, el conjunto de modelos neuronales propuestos puede ser usados como apoyo en la decisión de inversión diaria en el índice S&P 500.Ítem Texto completo enlazado Automatic lymphocyte detection on gastric cancer IHC images using deep learning(Pontificia Universidad Católica del Perú, 2018-01-19) García Ríos, Emilio Rafael; Beltrán Castañón, César ArmandoTumor-infiltrating lymphocytes (TILs) have received considerable attention in recent years, as evidence suggests they are related to cancer prognosis. Distribution and localization of these and other types of immune cells are of special interest for pathologists, and frequently involve manual examination on Immunohistochemistry (IHC) Images. We present a model based on Deep Convolutional Neural Networks for Automatic lymphocyte detection on IHC images of gastric cancer. The dataset created as part of this work is publicly available for future research.Ítem Texto completo enlazado Caracterización y clasificación automática de ríos en imágenes satelitales(Pontificia Universidad Católica del Perú, 2017-06-16) Brown Manrique, Kevin; Beltrán Castañón, César ArmandoEn los últimos años, el fenómeno conocido como cambio climático se está volviendo cada vez más notorio. Como resultado de este fenómeno, uno de los sectores que se verá más afectado será el de los recursos hídricos debido al impacto que se tendrá sobre el ciclo hidrológico y en los sistemas de gestión de agua, y a través de estos, en los sistemas socioeconómicos. Uno de los impactos conocidos es el conjunto de modificaciones en los patrones de precipitación y caudal de los ríos que afectarán a todos sus usuarios. Los caudales de ríos se forman por sedimentos que han sido y están siendo transportados por agua que fluye y por lo general se pueden clasificar en 4 formas básicas: rectos, meandros, trenzados y anastomosados. Es importante el tener reconocidos los distintos ríos y para ello no basta con conocer su localización sino además tener mapeadas las características de estos según su canal aluvial. Uno de los métodos tradicionales para caracterizar la morfología de un río (anchura, sinuosidad, características de inundación, etc.) es a través de trabajo de campo, que es costoso y demanda tiempo. Estos métodos no sólo consumen tiempo, sino que además, son extremadamente difíciles de llevar a cabo debido a que están sujetos a factores como inundaciones, mareas y tormentas que pueden hacer el lugar inaccesible y peligroso para recolectar información. El presente proyecto de fin de carrera propone una solución ante el problema de la dificultad y alto costo que supone la realización del trabajo de campo que permita caracterizar la morfología de un río. La solución planteada es una nueva técnica computacional para la caracterización automática de la morfología de los ríos, Dimensión Fractal Multi-escala, el cual aprovecha las características fractales de formación de elementos naturales como los ríos. El proyecto inicia con un proceso de limpieza de ruido a los datos de entrada que son esqueletos de ríos, para luego, por cada uno, aplicar el método de Crossing Number para obtener la multiplicidad de canal. Seguidamente, se elaborará una Curva Fractal aplicando el método de Dimensión Fractal Multiescala y de la curva obtenida se extraerán puntos de interés para generar un vector de características necesario para la clasificación. A continuación, se entrenará un clasificador empleando los vectores de características para generar un modelo predictivo. Finalmente, el modelo será evaluado mediante la clasificación de un nuevo esqueleto de río.