Tesis y Trabajos de Investigación PUCP

URI permanente para esta comunidadhttp://54.81.141.168/handle/123456789/6

El Repositorio Digital de Tesis y Trabajos de Investigación PUCP aporta al Repositorio Institucional con todos sus registros, organizados por grado: Doctorado, Maestría, Licenciatura y Bachillerato. Se actualiza permanentemente con las nuevas tesis y trabajos de investigación sustentados y autorizados, así como también con los que que fueron sustentados años atrás.
Ingresa a su web: Repositorio Digital de Tesis y Trabajos de Investigación PUCP

Explorar

Resultados de búsqueda

Mostrando 1 - 10 de 12
  • Ítem
    Segmentación de cultivos de uva de mesa a partir de imágenes aéreas y satelitales usando algoritmos de aprendizaje profundo
    (Pontificia Universidad Católica del Perú, 2024-10-29) Villarroel Segovia, Jamir Enrique; Flores Espinoza, Donato Andrés
    La teledetección ha ayudado a mejorar la gestión y el riego de los cultivos en los últimos años. A través de esta técnica, se ha logrado identificar aquellos cultivos de interés y extraer información de estos para el diagnóstico de enfermedades, la predicción de rendimiento de lotes de cultivos, el mapeo de cultivos y en la planificación de actividades de exportación. La uva es uno de los productos de agroexportación más importantes de Perú, generando grandes ingresos y aumentando anualmente. Si bien, la identificación de cultivos empezó a realizarse a partir de encuestas agrarias, luego se desarrolló técnicas basadas en algoritmos de aprendizaje automático tales como Random Forest (RF), Support Vector Machine (SVM), Artificial Neural Networks (ANN) para identificar diversos tipos de cultivos, entre ellos la uva, a nivel mundial. Estas técnicas presentaban buenos resultados; no obstante, el uso de algoritmos de aprendizaje profundo basados en segmentación semántica se popularizó por obtener mejores resultados que los anteriores y se comenzaron a emplear en los últimos años para la identificación de muchos cultivos. En esta tesis, se planteó identificar de forma automatizada los cultivos de uva de mesa. Para ello, se realizó la comparación de las arquitecturas U-Net, SegNet y DeepLabV3+ que realizan técnicas de segmentación semántica. Cada red fue entrenada y evaluada utilizando dos conjuntos de datos conformados por imágenes aéreas y satelitales de las zonas de interés. Asimismo, se calcularon los índices NDVI y SAVI en cada imagen aérea y satelital del conjunto de datos de entrenamiento, validación y prueba. Posteriormente, se añadió a cada imagen ambas bandas calculadas como una sexta y séptima capa adicional, ya que las imágenes aéreas y satelitales del conjunto de datos formado solo presentan 5 bandas espectrales: rojo, verde, azul, infrarrojo cercano y borde rojo. Se realizó el proceso de etiquetado, gracias a la información brindada por la empresa Vitícola S.A.C, con ayuda del NDVI para separar aquellas imágenes que presentan cultivos de uva en una etapa fenológica tardía y temprana en cada conjunto de datos. Con el fin de incrementar la cantidad de datos de entrada a la red, se utilizó la técnica de extracción de parches aleatorios, y se aplicaron procesos de reflexión y rotación para el entrenamiento de las 3 redes mencionadas. Finalmente, se compararon los resultados de prueba de estos algoritmos de clasificación y se determinó que tanto en los conjuntos de datos de imágenes aéreas con una etapa fenológica temprana y tardía, las redes SegNet y DeeplabV3+ fueron las que obtuvieron mejor desempeño con una precisión global de 95.21% y una mIoU de 0.8280, y una precisión global de 93.40 % y una mIoU de 0.7555 respectivamente. Asimismo, la red DeepLabV3+ obtuvo mejor desempeño promedio en el conjunto de datos de imágenes satelitales con una precisión global de 93.84 % y un mIoU de 0.8389.
  • Ítem
    Propuestas de mejoras operativas para ambulancias del SAMU usando algoritmos de localización y ruteo para minimizar la distancia total de viaje en el distrito de San Borja
    (Pontificia Universidad Católica del Perú, 2024-09-24) Vargas Guanilo, Gian Carlos Enrique; Murrugarra Munares, Ruth Isabel
    La presente investigación tiene como objetivo proponer mejoras relacionadas con la operativa de las ambulancias del Sistema de Atención Móvil de Urgencia (SAMU) en el distrito de San Borja, perteneciente a la ciudad de Lima Metropolitana. Para ello se describe la problemática actual, en la cual, el tiempo de atención de la emergencia no siempre cumple con el estándar internacional, el cual actualmente es de 8 minutos desde su reporte. A partir de esto se plantearon alternativas de solución por medio de dos algoritmos, el algoritmo Dijkstra, que es un algoritmo que optimiza la distancia recorrida y el segundo es el algoritmo Maximal Covering, que es un algoritmo que localiza puntos de atención desde los cuales se maximiza la atención, ambos algoritmos serán modelados con el lenguaje de programación Python. Con la implementación de estos algoritmos y sus combinaciones se plantearon seis escenarios de mejora, algunos aplicables en el corto plazo y otros en el mediano a largo plazo. Con la ayuda de la simulación de 300 emergencias se podrán comparar los escenarios planteados y en base a eso se realizarán sus respectivas conclusiones y recomendaciones.
  • Ítem
    Desarrollo de un algoritmo de Instance Placement en nubes privadas que soporte cargas de Alta Performance
    (Pontificia Universidad Católica del Perú, 2024-09-04) Córdova Alvarado, Rubén Francisco; Santiváñez Guarniz, César Augusto; Beltrán Castañón, César Armando
    El aumento de la capacidad computacional ha permitido el uso cada vez mayor de métodos computacionales para resolver problemas complejos de diferentes áreas, logrando tal incremento en la eficiencia y productividad que se dice que hemos empezado una nueva revolución industrial (la era del conocimiento). En esta nueva era, el uso de aplicaciones de alta, High-Performance Computing en inglés (HPC), es cada vez más común. Una forma de utilizar de manera eficiente los recursos computacionales es desplegar estas aplicaciones sobre recursos compartidos (paradigma de computo en la nube, sea esta pública o privada) en lugar de asignarlos a servidores de manera exclusiva, lo que puede resultar en tiempos muertos en el uso de alguno o todos los recursos. El problema de decidir la mejor forma de compartir recursos asignados a servidores ya sea como máquinas virtuales (VMs), contenedores, o en modo dedicado (bare metal) es llamado el problema de Instance Placement, y es fundamental para la performance de una plataforma de computo en la nube. El subproblema que se presenta cuando ya se decidió una asignación via VMs es el de VM Placement. El problema de Instance Placement es actualmente un problema abierto debido a que la solución online requiere el conocimiento no sólo de las demandas actuales y sus parámetros, sino también de las demandas futuras. Como un primer acercamiento a una solución, esta tesis busca diseñar e implementar un algoritmo de Offline Instance Placement donde el conjunto de demandas, su inicio y duración, así como sus estadísticas de uso son conocidas. El algoritmo busca asignar –de la mejor manera posible– los recursos de cómputo a instancias en una nube privada, considerando el tipo de carga a la que estas pertenecen y su nivel de servicio. Debido a que OpenStack es una de las soluciones más empleadas para nubes privadas, se toma como referencia el scheduler de OpenStack para comparar la utilidad de el algoritmo propuesto. Luego de realizar las pruebas, se obtuvo que el scheduler propuesto presenta una mayor utilidad que el scheduler de OpenStack para distintos tipos de cargas.
  • Ítem
    Algoritmo colonia de hormigas (ant colony) para el abastecimiento de medicinas entre hospitales regionales en el contexto de pandemia de covid-19
    (Pontificia Universidad Católica del Perú, 2024-04-11) Ramirez Osorio, Luis Denilson; Tupia Anticona, Manuel; Cueva Moscoso, Rony
    En el último año, los casos de personas contagiadas por COVID-19 se incrementó de manera alarmante dado a las distintas variantes que han ido surgiendo. Es por este motivo que es importante brindar atención oportuna de tal manera que los puestos de salud en las distintas regiones del Perú cuenten con el equipo y medicinas necesarias para tratar los contagios. De lo contrario, la falta de estos suministros puede ocasionar que no se satisfaga la demanda y agravar la salud de las personas que lo necesitan. Por ello, es importante contar con un plan de rutas para el abastecimiento de suministros a los centros de salud que cumpla con ciertos criterios y restricciones. En este sentido, elaborar un plan de rutas de forma eficiente y que sea óptima es una tarea complicada dado de que se trata de un problema algorítmicamente compleja que forma parte de problemas del tipo NP difícil al ser una variante del problema del vendedor viajero. Por esta razón, la solución a este tipo de problemas no puede ser resueltas por algoritmos exactos, sino que se prefiere emplear algoritmos metaheurísticos, dado que estos son más eficientes en cuanto a los tiempos de ejecución y eficaces al encontrar soluciones de tal manera que se respeten las restricciones del problema. El presente proyecto de tesis tiene como objetivo solucionar el problema presentado diseñando e implementando un algoritmo colonia de hormigas para dar solución al problema de ruteo de vehículos con capacidades en situaciones de emergencia puesto que está evidenciado que este algoritmo es perfecto para problemas de optimización enfocado a los problemas de ruteo. De este modo, se podrá definir el mejor plan de distribución y abastecimiento orientado a la realidad peruana durante la pandemia de COVID-19. Asimismo, se desarrolla el algoritmo voraz primero el mejor para tener una línea base sobre el cual poder comparar los resultados obtenidos y poder establecer la optimalidad del algoritmo colonia de hormigas. Finalmente, se analiza y se pone a prueba la implementación del algoritmo en una región del Perú con el fin de poder determinar el mejor plan de rutas para el abastecimiento de medicinas a los centros de salud.
  • Ítem
    Algoritmo metaheurístico para la optimización de consultas SQL en bases de datos distribuidas relacionales
    (Pontificia Universidad Católica del Perú, 2024-04-09) Sangama Ramirez, Jesus Angel Eduardo; Cueva Moscoso, Rony
    En el contexto empresarial, los datos tienen una importancia significativa tanto para la operación del día a día en una organización como para la toma de decisiones dentro de esta. Por ello, resulta vital que consultar dichos datos sea un proceso lo más eficiente posible. Para las bases de datos relacionales, una forma de lograr esto es la optimización de consultas SQL, y entre los diferentes métodos de optimización se encuentran los algoritmos metaheurísticos. El presente trabajo realiza una investigación de la literatura académica centrada en estos algoritmos aplicados a la optimización de consultas en bases de datos distribuidas relacionales y decide realizar una comparación entre el algoritmo genético (el cual cuenta con gran popularidad en este ámbito) y el memético, con el fin de evaluar si la aplicación de este último resulta viable para este tipo de optimización. Para lograr lo planteado anteriormente, el trabajo busca definir variables, parámetros y restricciones del problema de optimización de consultas; las cuales posteriormente son utilizadas para implementar adaptaciones propias de los algoritmos genético y memético orientadas a dicho problema. Finalmente, se realiza una comparación de eficacia y eficiencia entre ambas implementaciones a través de experimentación numérica. Tras finalizar todas las tareas anteriores, se concluye que se logró implementar un algoritmo memético para optimizar consultas SQL en bases de datos distribuidas relacionales cuyo rendimiento puede superar al algoritmo genético para escenarios de complejidad creciente (es decir, bases de datos con numerosas tablas y sitios).
  • Ítem
    Implementación de un algoritmo memético para la distribución de antenas wifi en almacenes de grandes dimensiones
    (Pontificia Universidad Católica del Perú, 2024-03-05) Burgos Chuqui, Rafael Jair; Cueva Moscoso, Rony
    En la actualidad, es indispensable tener un acceso rápido a la información en los almacenes con el fin de atender de forma óptima a las demandas del mercado. Esto es importante, porque el usar un almacén de empacado es necesario para tener un control del inventario, al mismo tiempo que se incrementa la productividad y se ahorra dinero al permitir que los clientes reciban sus productos a tiempo. Así como permitir una distribución de productos más eficientemente e incluso saber cuándo ya no se cuenta con stock. Sin embargo, el uso de almacenes tiene que ser complementado con una efectiva comunicación entre los trabajadores. Por tanto, el uso de redes Wi-Fi en almacenes tiene el potencial de permitir la rápida automatización de procesos intensivos tales como la recepción, el desembarco, almacenamiento, conteo de órdenes, recogidas y empaquetamientos. Debido a las razones mencionadas, se necesita tener una manera organizada de planificar el posicionamiento de antenas con el fin de evitar costos innecesarios y de aprovechar el mayor espacio posible. Hay implementaciones con algoritmos clásicos para problemáticas similares, pero se desea aprovechar la posibilidad de aplicar conceptos más modernos para afrontar esta situación. Es por esto que se plantea como objetivo el implementar un algoritmo memético para la optimización del posicionamiento de antenas Wi-Fi en un almacén rectangular de grandes dimensiones y los objetivos adicionales serán el apoyo para el desarrollo del proyecto. El proyecto de tesis pertenece al tema de algoritmos de optimización (que a su vez es perteneciente al área de ciencias de la computación). La solución permitirá determinar un conjunto de posiciones óptimas con el número de antenas Wi-Fi adecuadas para poder mejorar el uso de recursos sin perder señal. Es posible que se tomen consideraciones respecto a la complejidad de la infraestructura del almacén debido a que no todos los almacenes poseen la misma. Asimismo, la atenuación de la señal inalámbrica en las paredes del almacén planteado y el cambio energético en la intensidad de las antenas son aspectos que no serán considerados ya que se encuentran más relacionados al área de Ingeniería Electrónica. Con todo lo anterior mencionado, se busca verificar si realmente la implementación presentada logrará mejorar los resultados obtenidos mediante una implementación realizada con el algoritmo genético, que representa la implementación clásica de una solución a la problemática planteada.
  • Ítem
    Herramienta integrada para la curación de proteínas repetidas
    (Pontificia Universidad Católica del Perú, 2023-07-20) Bezerra Brandao Corrales, Manuel Alberto; Hirsh Martinez, Layla
    A finales de los años 1990, se identificó un conjunto de proteínas caracterizadas por tener patrones repetidos en su secuencia, lo que produce una estructura tridimensional repetitiva (Marcotte et al., 1999). Se han clasificado al menos 14% de proteínas encontradas en la naturaleza como repetidas, y presentan un rol crítico en procesos biológicos como la comunicación celular y el reconocimiento molecular (Brunette et al., 2015; Marcotte et al., 1999). Existe un creciente interés en el estudio de las proteínas repetidas debido a sus pliegues estructurales estables, una alta conversación evolutiva y un amplio repertorio de funciones biológicas (Chakrabarty & Parekh, 2022). Además, se estima que una de cada tres proteínas humanas son consideradas repetidas (Jorda & Kajava, 2010). La identificación, clasificación y curación de regiones de repetición en proteínas es un proceso complejo que requiere del procesamiento manual de expertos, gran capacidad computacional y tiempo. Existen diversos avances recientes y relevantes que aplican modelos de aprendizaje automático para la predicción de estructura tridimensional de proteínas y la predicción de clasificación de proteínas repetidas. Este tipo de aplicaciones resultan útiles para este proceso de curación. No obstante, a pesar de que este tipo de software son de libre acceso y de código abierto, no se cuenta con un servicio integrado que contemple las herramientas y bases de datos que soporten la investigación en proteínas repetidas. Por estos motivos, en este proyecto de investigación de plantea, diseña y desarrolla un servicio web integrado para la curación de proteínas repetidas. Con este objetivo, se ha considerado la integración con la base de datos de estructuras terciarias del Protein Data Bank (PDB) y la base de datos de predicciones de estructuras tridimensionales AlphaFold. Asimismo, se ha utilizado un modelo de redes neuronales que permite predecir la probabilidad de clasificación en cada clase de proteína repetida. Finalmente, con esta predicción, se implementó una mejora al algoritmo ReUPred para volver más eficiente el proceso de identificación de regiones y unidades de repetición. Este servicio ha sido desplegado utilizando computación en la nube en la página bioinformática.org de la cual es parte el laboratorio de investigación en Bioinformática de la Pontificia Universidad Católica del Perú. Este servicio permite que los investigadores no requieran contar con alta capacidad de procesamiento computacional para el proceso de curación de proteínas repetidas e integra los resultados totales obtenidos.
  • Ítem
    Desarrollo de recursos léxicos multi-dialécticos para el quechua
    (Pontificia Universidad Católica del Perú, 2023-03-13) Melgarejo Vergara, Nelsi Belly; Gómez Montoya, Héctor Erasmo
    Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación es construir una WordNet (base de datos léxica) para las variedades quechua sureño, central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló información de los diccionarios y se creó corpus paralelo quechua - español, se implementó un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado en español para cada variedad de la lengua quechua y finalmente se creó un modelo de etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %.
  • Ítem
    Desarrollo de una herramienta para la predicción de estructuras terciarias de proteínas repetidas a partir de su estructura primaria
    (Pontificia Universidad Católica del Perú, 2023-02-06) Palomino Chahua, Solange Estrella; Hirsh Martinez, Layla
    La predicción de estructuras de proteínas es uno de los retos más importantes de la biología y la bioinformática (Lopes et al., 2019). Esta última es el campo de investigación que se apoya en la computación para analizar la información relacionada a las macromoléculas biológicas como las proteínas (Xiong, 2006). Las proteínas son moléculas esenciales compuestas por varios cientos o miles de aminoácidos configurados de forma secuencial, lo cual se conoce como estructura primaria (Xiong, 2006). Esta organización se va plegando espontáneamente hasta resultar en una conformación tridimensional diferente una de otra denominada como estructura terciaria, la cual es fundamental para determinar la función de la proteína y realizarla de forma exitosa (Xiong, 2006). Hay muchas razones por las cuales la predicción de estructuras proteicas sigue siendo una problemática vigente. Una de ellas es que, actualmente, es mucho más complicado obtener estructuras tridimensionales que secuencias de proteínas, por lo cual existe una brecha cuantitativa entre ellas, que crece exponencialmente (Deng et al., 2018). Además, la determinación de las estructuras tridimensionales sigue siendo una tarea que requiere muchos recursos económicos, computacionales y algunos no renovables, como el tiempo (Lopes et al., 2019). En adición, se ha evidenciado una significativa ausencia de criterios de usabilidad en el desarrollo de muchas herramientas informáticas relacionadas a la predicción de las proteínas (Paixão-Cortes et al., 2018). Esto conlleva al gasto innecesario de tiempo y esfuerzo de los usuarios que deben interactuar con interfaces difíciles de entender (Bolchini et al., 2009). Esta situación se replica en proteínas específicas como las proteínas repetidas, las cuales son grupos de familias de proteínas que tienen propiedades particulares como la existencia de unidades de repetición en su estructura (Hirsh et al., 2016). Estas proteínas son importantes dado que se sabe que se relacionan con muchas enfermedades humanas en su proceso de diagnóstico y porque dan pie al desarrollo de nueva medicina (Burley et al., 2021; Kajava & Steven, 2006). No obstante, debido a su complejidad, aún se requieren esfuerzos para estudiarlas en temas como la predicción de sus estructuras (MSCA & RISE, 2018). Por todo ello, este proyecto de tesis busca proponer el desarrollo de una herramienta dedicada a la predicción de estructuras terciarias de proteínas repetidas a partir de sus estructuras primarias, la cual deberá cumplir con lineamientos de usabilidad. Se espera responder a la problemática planteando una plataforma web que sea amigable para el usuario, que permita obtener resultados en tiempos aceptables y que utilice un algoritmo de predicción que aplique inteligencia artificial y sea eficaz respecto a la evaluación de alineamientos estructurales. En primera instancia, se evaluarán distintos algoritmos de predicción de proteínas en general, para luego seleccionar uno y adaptarlo a los requerimientos de los especialistas en proteínas repetidas. Con ello, se crearán servicios y rutinas de ejecución que permitirán predecir estructuras terciarias de proteínas a partir de diversos tipos de datos de entrada. Posteriormente, se construirá la interfaz gráfica de la herramienta, partiendo de la definición de estándares y el desarrollo de un prototipo de alta fidelidad. Finalmente, se integrarán ambos componentes para conformar la herramienta completa, la cual será valorada a través de diversas pruebas funcionales y una evaluación de usabilidad. Cabe mencionar que esta última se realizará utilizando una herramienta enfocada a la evaluación de herramientas bioinformáticas.
  • Ítem
    Implementación de un algoritmo memético para optimizar la asignación de tablas a unidades de almacenamiento de bases de datos relacionales
    (Pontificia Universidad Católica del Perú, 2022-06-06) Lucas Ramos, Jhamir Arturo; Cueva Moscoso, Rony
    En la actualidad, los sistemas de bases de datos son considerados como un componente fundamental para casi cualquier organización, ya que estos sistemas permiten acceder a información puntual de forma segura y rápida, lo cual es clave para una correcta toma de decisiones y una adecuada atención a los usuarios. Sin embargo, debido al rápido desarrollo de las tecnologías de información, cada vez más sistemas de información generan enormes cantidades de datos y necesitan lidiar con estos de forma eficiente y, dado que las bases de datos relacionales juegan un rol vital en muchos sistemas de información, el rendimiento de estos mismos sistemas depende directamente del rendimiento del sistema de base de datos. En ese sentido, se considera crítico aplicar diversos métodos para optimizar el rendimiento del sistema de base de datos. Uno de estos métodos es la asignación de tablas, el cual consiste en distribuir de manera adecuada a las tablas de una base de datos en los dispositivos de almacenamiento disponibles. Dicho método es útil porque permite mejorar el rendimiento del sistema de base de datos y aprovechar de mejor manera los recursos de hardware disponibles. Sin embargo, muchas veces esta tarea se realiza considerando sólo algunas variables o factores al momento de tomar una decisión. Asimismo, existe una ausencia en el empleo de esta técnica por parte de muchos sistemas modernos. Esto, sumado al hecho de que la asignación suele realizarse de manera manual y también a que los estudios presentes en el estado del arte utilizan, en su gran mayoría, soluciones basadas en heurísticas o cálculos simples, las cuales pueden no brindar buenos resultados, conducen a que se realice una deficiente asignación de tablas a unidades de almacenamiento. Esta situación provoca un bajo rendimiento del sistema de base de datos, un deficiente funcionamiento de la entrada y salida de disco y que las tareas de administración sean más propensas a errores. Ante esta situación, se torna necesario el uso de métodos que automaticen y optimicen esta tarea, en ese sentido, el presente trabajo de tesis propone el diseño y la implementación de un algoritmo memético que permita optimizar la asignación de tablas a unidades de almacenamiento de bases de datos relacionales.