Informática con mención en Ciencias de la Computación

URI permanente para esta colecciónhttp://54.81.141.168/handle/123456789/51445

Explorar

Resultados de Búsqueda

Mostrando 1 - 10 de 71
  • Ítem
    Ontologías de dominio para dar soporte al proceso de creación de diccionarios monolingües
    (Pontificia Universidad Católica del Perú, 2024-10-17) Rebaza Valdivia, Carlos Alberto; Beltrán Castañón, César Armando; Brossard Núñez, Ian Paul
    Los diccionarios han sido, durante siglos, fundamentales para el entendimiento y la preservación de las lenguas. Fueron también la última palabra para resolver muchas discusiones, actuando como autoridades definitivas en cuestiones de significado y uso correcto de las palabras. La importancia de los diccionarios radica en su capacidad para proporcionar a los lectores una referencia confiable y precisa que facilita la comunicación efectiva y el aprendizaje. Sin embargo, la creación de un diccionario es una tarea ardua y meticulosa que puede llevar décadas en completarse. Este proceso implica la recopilación exhaustiva de datos léxicos, el análisis detallado de palabras y sus múltiples significados, y la verificación de su uso en diferentes contextos. Cada nueva edición de un diccionario requiere un esfuerzo considerable para incorporar cambios en el lenguaje, incluyendo la adición de nuevas palabras, la modificación de definiciones existentes y la eliminación de términos obsoletos. Esta labor intensa asegura que los diccionarios continúen siendo recursos valiosos y relevantes en un mundo en constante evolución. La lexicografía, la disciplina dedicada a la elaboración y estudio de diccionarios, enfrenta numerosos desafíos en su práctica. Más allá del diseño de la estructura del diccionario, el lexicógrafo debe lidiar con la complejidad de la lengua, donde uno de los mayores retos es la polisemia. Las palabras con múltiples significados requieren un tratamiento cuidadoso para asegurar que las definiciones sean precisas y relevantes para el contexto en el que se utilizarán. Este proceso implica no solo identificar todos los posibles significados de una palabra, sino también determinar cuál de estos es más adecuado para el lector objetivo del diccionario. Además, el lexicógrafo debe asegurarse de que las definiciones sean claras y comprensibles, evitando ambigüedades y proporcionando ejemplos de uso que ilustren adecuadamente cada significado. Este desafío se amplifica en un entorno lingüístico dinámico donde el lenguaje evoluciona constantemente, haciendo imprescindible la utilización de herramientas avanzadas que apoyen en la toma de decisiones y en la estructuración eficiente de las entradas del diccionario. Actualmente, tecnologías como TLex y Microsoft Word brindan herramientas que se enfocan en la edición y presentación de las entradas del diccionario, orientadas a detallar las definiciones seleccionadas y mejorar la calidad de su presentación. Sin embargo, el lenguaje es dinámico y evoluciona constantemente, comportándose como un ente vivo en constante evolución que refleja cambios sociales, culturales y tecnológicos. Palabras nuevas emergen, otras caen en desuso y los significados pueden transformarse con el tiempo. Este comportamiento evolutivo del lenguaje presenta un desafío significativo para la lexicografía tradicional. La propuesta de esta tesis es tratar el corpus lexicográfico como un ente orgánico que evoluciona, integrando ontologías y folksonomías para gestionar y adaptar este dinamismo. Las ontologías proporcionan una estructura jerárquica y organizada del conocimiento, permitiendo representar de manera precisa las relaciones entre los términos. Por otro lado, las folksonomías, que son sistemas de clasificación colaborativa, permiten analizar el uso real del lenguaje de manera más flexible y adaptativa. Al apoyarse en grafos de conocimiento, es posible realizar análisis detallados y visualizaciones que ayudan a identificar tendencias, relaciones y cambios en el uso del lenguaje. Este enfoque no solo facilita la actualización y mejora continua de los diccionarios, sino que también permite ofrecer definiciones más precisas y relevantes. Herramientas como las nubes de palabras (wordclouds) pueden proporcionar al lexicógrafo valiosa información sobre las definiciones y su composición léxica. Estas herramientas visualizan la frecuencia de uso de las palabras, sugiriendo qué términos son más comunes y, por ende, más fácilmente comprendidos por los lectores. Esto permite al lexicógrafo identificar rápidamente cuáles definiciones están compuestas por palabras de uso más frecuente, facilitando la creación de entradas más accesibles y relevantes. De igual manera, si algunas palabras dentro de las definiciones pudieran estar sujetas a algún tipo de censura, esta información puede ser comunicada al lexicógrafo, permitiéndole tomar decisiones informadas sobre qué definiciones incluir en el diccionario, acorde al público objetivo. Al integrar estas herramientas en el proceso lexicográfico, se mejora la precisión y relevancia de las definiciones, asegurando que el diccionario cumpla con las expectativas y necesidades de sus lectores.
  • Ítem
    Desarrollo de un algoritmo de Instance Placement en nubes privadas que soporte cargas de Alta Performance
    (Pontificia Universidad Católica del Perú, 2024-09-04) Córdova Alvarado, Rubén Francisco; Santiváñez Guarniz, César Augusto; Beltrán Castañón, César Armando
    El aumento de la capacidad computacional ha permitido el uso cada vez mayor de métodos computacionales para resolver problemas complejos de diferentes áreas, logrando tal incremento en la eficiencia y productividad que se dice que hemos empezado una nueva revolución industrial (la era del conocimiento). En esta nueva era, el uso de aplicaciones de alta, High-Performance Computing en inglés (HPC), es cada vez más común. Una forma de utilizar de manera eficiente los recursos computacionales es desplegar estas aplicaciones sobre recursos compartidos (paradigma de computo en la nube, sea esta pública o privada) en lugar de asignarlos a servidores de manera exclusiva, lo que puede resultar en tiempos muertos en el uso de alguno o todos los recursos. El problema de decidir la mejor forma de compartir recursos asignados a servidores ya sea como máquinas virtuales (VMs), contenedores, o en modo dedicado (bare metal) es llamado el problema de Instance Placement, y es fundamental para la performance de una plataforma de computo en la nube. El subproblema que se presenta cuando ya se decidió una asignación via VMs es el de VM Placement. El problema de Instance Placement es actualmente un problema abierto debido a que la solución online requiere el conocimiento no sólo de las demandas actuales y sus parámetros, sino también de las demandas futuras. Como un primer acercamiento a una solución, esta tesis busca diseñar e implementar un algoritmo de Offline Instance Placement donde el conjunto de demandas, su inicio y duración, así como sus estadísticas de uso son conocidas. El algoritmo busca asignar –de la mejor manera posible– los recursos de cómputo a instancias en una nube privada, considerando el tipo de carga a la que estas pertenecen y su nivel de servicio. Debido a que OpenStack es una de las soluciones más empleadas para nubes privadas, se toma como referencia el scheduler de OpenStack para comparar la utilidad de el algoritmo propuesto. Luego de realizar las pruebas, se obtuvo que el scheduler propuesto presenta una mayor utilidad que el scheduler de OpenStack para distintos tipos de cargas.
  • Ítem
    Evaluación de método para la detección automática de puntos de referencia (landmark detection) en imágenes en dos dimensiones de huellas plantares para el diseño de una plantilla ortopédica
    (Pontificia Universidad Católica del Perú, 2024-08-28) Donayre Gamboa, Gustavo Miguel; Fonseca Arroyo, Pablo Alejandro
    El presente trabajo de investigación evalúa la técnica de regresión de mapas de calor (heatmap regression - HR) para la detección automática de puntos de referencia (landmark detection) en imágenes médicas, específicamente en las imágenes de huellas plantares en dos dimensiones. El estudio se basa en la regresión de mapas de calor con aprendizaje profundo, una técnica que ha demostrado ser efectiva en la detección de puntos en rostros y en la estimación de la pose humana. Se propone un método automático para la detección de 8 puntos en las imágenes digitalizadas de huellas plantares que servirán de referencia para el diseño base de una plantilla ortopédica bidimensional, buscando así mejorar el proceso de fabricación de plantillas ortopédicas, que actualmente se realiza de forma manual y artesanal en la mayoría de los países de América Latina. La detección automática de estos puntos de referencia en las huellas plantares tiene el potencial de agilizar este proceso y mejorar la precisión de las plantillas. Los resultados del estudio mostraron un error absoluto promedio normalizado de 0.01017 en el conjunto de validación. Estas evaluaciones se llevaron a cabo utilizando una red convolucional U-Net, la cual consta de una ruta de codificación y compresión de imágenes para capturar el contexto, y una ruta de expansión simétrica que permite una localización precisa de puntos de interés en un tiempo razonable gracias al uso de los procesadores GPU actuales.
  • Ítem
    Marco de trabajo para el desarrollo de proyectos de analítica de datos
    (Pontificia Universidad Católica del Perú, 2024-08-09) Olivera Cokan, César Alberto; Bello Ruiz, Alejandro Toribio; Pow Sang Portillo, José Antonio
    El desarrollo de proyectos de analítica de datos en las organizaciones requiere de procesos bien definidos para su éxito. Existen procesos estándar de analítica de datos, como CRISP-DM, que han tenido una amplia adopción en las últimas décadas. Sin embargo, mediante una búsqueda sistemática de la literatura se ha podido evidenciar que muchas de las organizaciones a menudo no aplican CRISP-DM o procesos similares, como SEMMA y KDD, tal como están, sino que muchos de ellas adaptan estos marcos de trabajo para abordar requerimientos específicos en diversos contextos de la industria. Además, según estos estudios se evidencia que un grupo considerable de empresas emplea Scrum u otros marcos de trabajo para el desarrollo de software con el fin de llevar a cabo sus proyectos de analítica de datos, lo cual no es correcto pues estos marcos de trabajo no abordan las particularidades de un ciclo de vida de una solución analítica. Si bien CRISPDM es el marco de trabajo para analítica de datos más empleado, este mismo posee un conjunto de falencias enfocadas en diversos casos de uso o procesos de negocio que ha llevado a muchas organizaciones a adaptar este marco a sus necesidades. Hasta ahora no se ha sugerido ninguna adaptación que permita abordar las falencias que los diferentes dominios en la industria poseen. Este artículo aborda la propuesta del diseño de un marco de trabajo para proyectos de analítica de datos general denominado GEN-DA (Generic Data Analytics framework por sus siglas en inglés). GEN-DA extiende y modifica CRISP-DM para solucionar las diferentes falencias encontradas en la literatura y lograr un ciclo de vida del proyecto de analítica de datos que pueda ser empleado en todos los contextos de la industria. Este marco de trabajo ha sido diseñado y evaluado de forma iterativa empleando una metodología en ciencias del diseño gracias a la participación de expertos en analítica de datos mediante el método de validación por Juicio Experto. Los resultados obtenidos son alentadores y habilita la factibilidad de emplear este marco propuesto en un entorno real, cuyos resultados, se presume, que serán satisfactorios.
  • Ítem
    Aprendizaje profundo para transcripción de textos históricos manuscritos en español
    (Pontificia Universidad Católica del Perú, 2024-07-16) Choque Dextre, Gustavo Jorge; Beltrán Castañón, Cesar Armando
    El reconocimiento de textos historicos es considerado un problema desafiante debido a los muchos factores que ´ alteran el estado de los manuscritos y la complejidad de los diferentes estilos de escritura involucrados en este tipo de documentos; en los anos recientes se han creado muchos modelos de Reconocimiento de textos manuscritos ˜ enfocados en diversos idiomas como el ingles, chino, ´ arabe y japon ´ es entre otros, sin embargo no se han ´ encontrado muchas iniciativas de reconocimiento de texto orientadas al idioma espanol debido fundamentalmente ˜ a un escasez de datasets publicos disponibles para ayudar a solucionar la problem ´ atica en dicho idioma. ´ En esta publicacion se presenta la aplicaci ´ on de t ´ ecnicas de Deep Learning basadas en una arquitectura de ´ red neuronal encoder-decoder y convoluciones compuerta Gated-CNN las cuales en los ultimos ha demostrado ´ resultados sobresalientes para resolver dicha problematica, as ´ ´ı mismo se propone la aplicacion de mecanismos de ´ Transferencia de Aprendizaje para el reconocimiento de textos historicos en espa ´ nol. Los experimentos demuestran ˜ que la aplicacion de estos m ´ etodos puede brindar resultados sobresalientes, adem ´ as la aplicaci ´ on de otras t ´ ecnicas ´ tales como Aumentacion de Datos y Modelos de Lenguaje conllevan a mejoras significativas en los resultados finales. ´ Se propone ademas el uso de un nuevo dataset de textos hist ´ oricos en espa ´ nol conformado por 1000 elementos ˜ tomados de textos historicos peruanos referentes al siglo XVIII.
  • Ítem
    Predicción de un tiro penal de fútbol basado en la estimación de postura del jugador
    (Pontificia Universidad Católica del Perú, 2024-06-24) Mauricio Salazar, Josue Angel; Alatrista Salas, Hugo
    En este artículo se presenta una metodología innovadora para predecir un tiro penal en fútbol basado en la estimación de postura del jugador que ejecuta el disparo haciendo uso de dos herramientas de visión computacional como segmentación semántica en videos y la estimación de postura 3D mediante los métodos TAM y MMPose, respectivamente. Para ello, se construyó un corpus de videos de tiros penales y se han entrenado modelos de aprendizaje profundo para predecir la región del arco a la cual llegará el disparo. Los resultados muestran que el modelo llamado CNN 3D logra una mejor precisión con respecto a los otros modelos entrenados. Además, se ha medido la influencia de distintas partes del cuerpo con respecto a la tarea de predicción, mostrando que las piernas son las partes más influyentes. Por último, implementamos una herramienta web para el entrenamiento de porteros y jugadores de fútbol en tiros penales, ofreciendo de esta manera posibles mejoras en las tácticas de un disparo de tiro penal mediante el uso de la visión computacional.
  • Ítem
    Clasificación automática de eventos en videos de fútbol utilizando redes convolucionales profundas
    (Pontificia Universidad Católica del Perú, 2024-06-21) Laboriano Galindo, Alipio; Beltrán Castañón, César Armando
    La forma en que las nuevas generaciones consumen y experimentan el deporte especialmente el fútbol, ha generado oportunidades significativas en la difusión de contenidos deportivos en plataformas no tradicionales y en formatos más reducidos. Sin embargo, recuperar información con contenido semántico de eventos deportivos presentados en formato de video no es tarea sencilla y plantea diversos retos. En videos de partidos de fútbol entre otros retos tenemos: las posiciones de las cámaras de grabación, la superposición de eventos o jugadas y la ingente cantidad de fotogramas disponibles. Para generar resúmenes de calidad y que sean interesantes para el aficionado, en esta investigación se desarrolló un sistema basado en Redes Convolucionales Profundas para clasificar automáticamente eventos o jugadas que ocurren durante un partido de fútbol. Para ello se construyó una base de datos a partir de videos de fútbol descargados de SoccerNet, la cual contiene 1,959 videoclips de 5 eventos: saques de meta, tiros de esquina, faltas cometidas, tiros libres indirectos y remates al arco. Para la experimentación se utilizó técnicas de preprocesamiento de video, una arquitectura convolucional propia y se aplicó transfer learning con modelos como ResNet50, EfficientNetb0, Visión Transformers y Video Visión Transformers. El mejor resultado se obtuvo con una EfficentNetb0 modificada en su primera capa convolucional, con la cual se obtuvo un 91% accuracy, y una precisión de 100% para los saques de meta, 92% para los tiros de esquina, 90% para las faltas cometidas, 88% para los tiros libres indirectos y 89% para los remates al arco.
  • Ítem
    Generación de imágenes de acciones específicas de una persona utilizando aprendizaje profundo
    (Pontificia Universidad Católica del Perú, 2024-04-16) Morales Pariona, Jose Ulises; Beltran Castañon, Cesar Armando
    Desde que aparecieron las redes GAN, se han realizado varias investigaciones sobre cómo generar imágenes en diversos ámbitos, como la generación de imágenes, conversión de imágenes, síntesis de videos, síntesis de imágenes a partir de textos y predicción de cuadros de videos. Basándose mayormente en mejorar la generación de imágenes de alta resolución y la reconstrucción o predicción de datos. El propósito de este trabajo es implementar las redes GAN en otros ámbitos, como la generación de imágenes de entidades realizando una acción. En este caso se consideró 3 acciones de personas, que son los ejercicios de Glúteo, Abdomen y Cardio. En primer lugar, se descargaron y procesaron las imágenes de YouTube, el cual incluye una secuencia de imágenes de cada acción. Posteriormente, se separó dos grupos de imágenes, de una sola persona, y de personas diferentes realizando las acciones. En segundo lugar, se seleccionó el modelo InfoGAN para la generación de imágenes, teniendo como evaluador de rendimiento, la Puntuación Inicial (PI). Obteniendo como resultados para el primer grupo, una puntuación máxima de 1.28 y en el segundo grupo, una puntuación máxima de 1.3. En conclusión, aunque no se obtuvo el puntaje máximo de 3 para este evaluador de rendimiento, debido a la cantidad y calidad de las imágenes. Se aprecia, que el modelo si logra diferenciar los 3 tipos de ejercicios, aunque existen casos donde se muestran incorrectamente las piernas, los brazos y la cabeza.
  • Ítem
    Evaluación de modelos de segmentación semántica para el monitoreo de deslizamiento de tierra utilizando imágenes satelitales
    (Pontificia Universidad Católica del Perú, 2024-04-03) Yali Samaniego, Roy Marco; Fonseca Arroyo, Pablo Alejandro
    En el ámbito del aprendizaje automático, un desafío persistente es la disponibilidad de datos suficientes, especialmente en tareas de visión por computadora. Este desafío se amplifica cuando se trabaja con sensores remotos, donde las bases de datos etiquetadas para abordar problemas son escasas. Este manuscrito examina críticamente el monitoreo de deslizamientos de tierra en el paisaje peruano y presenta tres contribuciones en esta dirección. La primera contribución expande un conjunto de datos de imágenes satelital es sobre deslizamientos de tierra (Landslide4Sense) proveniente de territorios asiáticos, con 3799 imágenes debidamente etiquetadas. Reconociendo la dinámica geoespacial de Perú, se incrementó este conjunto de datos con 838 escenarios locales. Estas adiciones mantienen congruencia con el conjunto de datos original en términos de atributos y configuración, asegurando replicabilidad y escalabilidad para futuras investigaciones. La segunda evalúa varios modelos de segmentación semántica basados en la arquitectura U-net, reforzada por la función de pérdida de Entropía Cruzada Ponderada + Dice Loss, óptima en tareas de segmentación con conjuntos de datos desequilibrados. Los resultados permiten alcanzar un F1-Score del 75.5% con la arquitectura U-net (vanilla) superando el benchmark de referencia del 71.65%. La última contribución muestra un desarrollado integral para la adquisición de datos, procesamiento y entrenamiento/evaluación de modelos. Dado que este marco tiene el potencial de impulsar una aplicabilidad general de sistemas de segmentación a sistemas de monitoreo de deslizamientos de tierra, y detener un alcance más amplio a la comunidad académica y partes interesadas gubernamentales en Latinoamérica y en todo el mundo.
  • Ítem
    Aplicación del análisis de simetrías parciales en la restauración de objetos arqueológicos
    (Pontificia Universidad Católica del Perú, 2024-01-25) Pérez Sinticala, Carlos Enrique; Beltran Castañon, Cesar Armando
    La restauración de objetos es una tarea crucial en el ámbito de la reconstrucción tridimensional de objetos dentro del campo de la computación gráfica. En el caso de los objetos arqueológicos, esta labor adquiere una gran relevancia debido a la inmensa riqueza cultural que posee el Perú. Las muestras obtenidas suelen presentar imperfecciones por el deterioro inherente al paso del tiempo o por procesos de fragmentación y su restauración manual por usuarios expertos, que ha sido una práctica común, es costosa y poco eficiente, lo que hace necesario contar con métodos automáticos de restauración digital. En general, los procesos de restauración de objetos pueden ser divididos en dos categorías: los que completan objetos usando otros objetos como referencia y los que analizan el propio objeto, buscando detectar características repetitivas en el mismo. En esa segunda categoría, el análisis de simetrías es una de las principales técnicas de reconocimiento de patrones, los que serán expresados como transformaciones geométricas que al aplicarse permitirán completar los fragmentos perdidos. La presente tesis propone un algoritmo de detección de simetrías aproximadas parciales basado en propiedades diferenciales de la superficie del objeto tridimensional, representado por una malla de triángulos. Sobre la base de las simetrías detectadas, se propone un algoritmo de refinamiento, para luego proceder con el completado del objeto. La evaluación del algoritmo comprende el uso de objetos tridimensionales de los que se extrae los parámetros de las simetrías para medir su distancia con la simetría calculada por el algoritmo y la localización geométrica de sus vértices para, luego de simular una fractura retirando una porción del objeto, medir la congruencia del proceso de completado de la geometría faltante. Estos valores de congruencia del algoritmo propuesto son óptimos en la comparación con otros trabajos recientes del estado del arte.