Informática con mención en Ciencias de la Computación

URI permanente para esta colecciónhttp://54.81.141.168/handle/123456789/51445

Explorar

Resultados de Búsqueda

Mostrando 1 - 7 de 7
  • Ítem
    Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño
    (Pontificia Universidad Católica del Perú, 2022-11-09) Ubaldo Gamarra, Victoria Alejandra; Oncevay Marcos, Felix Arturo
    En la actualidad, para los más de 30 millones de peruanos, la información a la que accedemos se encuentra mayormente en el idioma español. Sin embargo Perú es un país multilingüe, posee una gran riqueza cultural y lingüística con alrededor de 47 lenguas originarias. Para esta población encontrar textos, noticias y contenido en internet en su lengua nativa es una tarea complicada. Existe un limitado acceso a información como lecturas, textos, noticias u otros contenidos que en modalidad digital es muy escaso. Esto se debe a que los pocos ciudadanos que se comunican en lenguas nativas son de manera oral y algunos hacen uso del español sobre sus lenguas nativas. De ese modo, existen investigaciones en el campo de la inteligencia artificial donde a partir del poco material digital recolectado de lenguas nativas se construyeron corpus digitales para tareas de traducción automática y detección del lenguaje. Sin embargo, aún son corpus pequeños para elaborar traductores de calidad, presentan complicaciones en traducir textos completos, y además díficil el aprendizaje con algoritmos complejos, como redes neuronales profundas. Por este motivo se propone realizar una minería web de textos en la lengua originaria quechua sureño para incrementar la cantidad de oraciones y diversidad de dominios, evaluar la calidad de los nuevos textos en un modelo de traducción automática de quechua a español, y desarrollar una web de libre acceso de consulta al corpus creado.
  • Ítem
    Generación de datos sintéticos usando Redes Generativas Adversariales para la minería de datos respetuosa de la privacidad
    (Pontificia Universidad Católica del Perú, 2021-05-28) Montalvo García, Peter Jonathan; Alatrista Salas, Hugo
    La minería de datos permite conocer patrones en grandes volúmenes de datos; pero dentro de estos datos puede haber información sensible que compromete la privacidad. En tal sentido, se han desarrollado técnicas para la minería de datos respetuosa de la privacidad, siendo la más utilizada la privacidad diferencial debido a las propiedades que otorga a los datos resultantes, de la mano de técnicas de aprendizaje profundo. Estas técnicas se han utilizado en conjuntos de datos de números escritos e imágenes, pero no en datos de georreferenciación. El presente trabajo tiene como objetivo medir la eficacia de los datos sintéticos generados a través redes generativas adversariales y privacidad diferencial en datos de georreferenciación. La generación de estos datos se hace a través de selección de datos, sanitización para la obtención de la base de datos sintéticos y evaluación a través de modelos de movilidad a partir de las trazas que sirven para medir la pérdida de información y el riesgo de divulgación. En líneas generales, los resultados demuestran que la aplicación de estas técnicas sobre datos de georreferencia da como producto un conjunto de datos sintéticos con una pérdida de información y riesgo de divulgación bajos, y se concluye que estos conjuntos de datos obtenido se puede realizar una minería de datos similar a la que se haría con los datos originales y sin comprometer información sensible.
  • Ítem
    Recommender systems using temporal restricted sequential patterns
    (Pontificia Universidad Católica del Perú, 2021-04-12) Samamé Jimenez, Hilda Ana; Alatrista Salas, Hugo; Núñez del Prado Cortez, Miguel
    Recommendation systems are algorithms for suggesting relevant items to users. Generally, the recommendations are expressed in what will be recommended and a value representing the recommendation's relevance. However, forecasting if the user will buy the recommended item in the next day, week, or month is crucial for companies. The present study describes a process to suggest items from sequential patterns under temporal restrictions.
  • Ítem
    Diseño de un proceso computacional basado en técnicas de minería de datos para el análisis del fenómeno de "El Niño"
    (Pontificia Universidad Católica del Perú, 2018-01-19) Díaz Barriga, Oscar Antonio; Alatrista Salas, Hugo
    El Perú es afectado recurrentemente por el fenómeno El Niño, el cual es un fenómeno climático que consiste en el aumento de la temperatura del mar en el Pacifico Ecuatorial. Este a su vez forma parte del ENSO (El Niño - Oscilación del Sur) que tiene un periodo de actuación de 2 a 7 años, con una fase cálida conocida como El Niño y una fase fría, La Niña. En la actualidad mediante un juicio experto se analizan las diversas fuentes de datos heterogéneas para poder encontrar posibles correlaciones útiles entre ellos. En el presente trabajo se propone un proceso computacional basado en técnicas de minería de datos que permita determinar la existencia de correlaciones espacio-temporales en relación a la temperatura superficial del mar y las variables meteorológicas pertenecientes a las regiones de la costa norte del Perú, en el periodo 2015 al 2016, último intervalo de tiempo en el que se presentó El Nino. Para esto se utiliza una metodología basada en KDD (Knowledge Discovery in Database), la cual está conformada por una serie de pasos como: la recolección de diferentes fuentes de datos, la integración en una base de datos explotable, limpieza y pretratamiento de los datos, creación de escenarios que permitan validar las posibles correlaciones, extracción de patrones mediante la librería SPMF y finalmente una propuesta de visualización, de los patrones encontrados, que permita comprender mejor el fenómeno. Los resultados obtenidos muestran la existencia de correlaciones espaciotemporales en las regiones del norte del Perú principalmente entre la temperatura de la superficie del mar y el caudal de los ríos de la costa, siendo estas correlaciones validadas por un experto miembro del IGP.
  • Ítem
    Análisis de publicaciones en una red social de microblogging para la detección automática de sucesos violentos durante manifestaciones públicas
    (Pontificia Universidad Católica del Perú, 2017-05-04) Oncevay Marcos, Félix Arturo; Melgar Sasieta, Héctor Andrés
    El activismo social en el Perú se encuentra en crecimiento, principalmente en las zonas urbanas y en los sectores de ingresos medios, donde las redes sociales han llegado a influir en las diversas acciones de la población, y en el modo de informar, influir y convocar a las personas. Es por ello que se han observado casos recientes como las marchas contra la Ley Laboral Juvenil o ‘Ley Pulpín’, donde se movilizó una gran cantidad de personas, y se podían observar dos manifestaciones en paralelo pero afines: en la calle y en las redes sociales, principalmente en Twitter. Sin embargo, a pesar de ser convocada como marcha pacífica, sucedieron actos de violencia y enfrentamientos, los cuales lamentablemente son frecuentes en la realidad peruana. En este contexto, se propone el desarrollo de un mecanismo para analizar los mensajes publicados en Twitter durante una manifestación real. El objetivo principal es identificar y caracterizar automáticamente los diferentes sucesos de violencia que pueden ocurrir durante la protesta. Para esto, luego de recolectar publicaciones de Twitter durante manifestaciones reales, se analizarán cuáles son las mejores técnicas a aplicar para el tratamiento y transformación de estos mensajes a información relevante para nuestro objetivo. El enfoque de esta investigación se plantea desde las áreas de la ingeniería del conocimiento (análisis del dominio del conocimiento sobre violencia), la minería de textos (detección, resumen y descripción de eventos a partir de textos) y el procesamiento de lenguaje natural. Finalmente, se calcularán métricas de evaluación sobre los sucesos violentos identificados, para validar la eficacia del procedimiento propuesto.
  • Ítem
    Revisión sistemática sobre la aplicación de ontologías de dominio en el análisis de sentimiento
    (Pontificia Universidad Católica del Perú, 2016-11-26) Olivares Poggi, César Augusto; Melgar Sasieta, Héctor Andrés
    El análisis de sentimiento es un área de creciente investigación en los campos del procesamiento de lenguaje natural y la recuperación de información. En los últimos años ha habido un aumento en la aplicación de técnicas semánticas en el análisis de sentimiento, en particular con el apoyo de la aplicación de ontologías de dominio. Sin embargo, en la literatura actual no se cuenta con un estudio que reporte de manera sistemática los beneficios alcanzados con la aplicación de ontologías de dominio al análisis de sentimiento. Esta revisión sistemática tiene por objetivos realizar dicha síntesis, reportar el grado de generalización de las investigaciones realizadas, verificar el aprovechamiento de la riqueza expresiva de las ontologías de dominio y señalar el estado del arte actual en la representación de las emociones humanas por medio de ontologías de dominio en su aplicación al análisis de sentimiento. Se identificó 9 distintos problemas del análisis del sentimiento a los que se aplicó ontologías de dominio y un total de 22 beneficios de dicha aplicación. Los beneficios más reportados son: (1) el soporte para una representación estructurada de las opiniones y la vinculación de datos; (2) mayor precisión y exhaustividad en la clasificación de la polaridad; y (3) soporte para la representación de modelos emocionales. Como investigación futura se sugiere profundizar en el empleo de ontologías de dominios para analizar el sentimiento a nivel de conceptos, modelar el proceso de análisis de sentimiento, estandarizar la elaboración de ontologías de productos e integrar diversos modelos emocionales, así como aprovechar mejor la expresividad semántica y capacidad de razonamiento de las ontologías de dominio.
  • Ítem
    Caracterización espacio temporal de la ecofisiología de la "apodanthera biflora" utilizando minería de patrones secuenciales
    (Pontificia Universidad Católica del Perú, 2016-10-28) Barturén Larrea, José Luis; Alatrista Salas, Hugo
    En los últimos años, los investigadores del Laboratorio de Ecología Evolutiva de la Universidad Peruana Cayetano Heredia (UPCH) han venido estudiando especies nativas del Bosque Seco Ecuatorial del norte del Perú. Este es el caso de la Apodanthera Biflora, raíz comestible de potencial uso alimentario e industrial. Con la finalidad de desarrollar planes de sostenibilidad y preservación de la especie, los expertos requieren realizar estudios más extensos sobre los factores que afectan las características nutricionales e industriales de la especie. Para determinar estos factores se deben descubrir correlaciones temporales a partir de fuentes de datos heterogéneas. Debido a la dificultad de explotar este tipo de datos no estandarizados ni agrupados, los métodos estadísticos tradicionales no son suficientes, por lo que se requiere herramientas permitan al experto identificar qué correlaciones temporales representan patrones frecuentes relevantes. El presente trabajo evalúa el uso de las técnicas de minería de patrones secuenciales y visualización espacial, con el objetivo de determinar si su aplicación facilita la obtención de patrones frecuentes relevantes a partir de distintas fuentes de datos heterogéneos relacionados a la Apodanthera Biflora. Para lograr este objetivo, se utiliza una metodología basada en el Descubrimiento de Conocimiento a partir de Bases de Datos (KDD por sus siglas en inglés), el cuál define fases para la selección, pre procesamiento, transformación, minería y evaluación (visualización) de los datos. Los resultados obtenidos demostraron que la técnica de minería de patrones secuenciales PrefixSpan y la visualización espacial, utilizando librerías de Google Maps API y D3 Js, permitieron a los expertos la obtención de patrones frecuentes relevantes. Así mismo, la técnica de transformación GIS para datos geográficos, y la técnica de discretización por entropía y frecuencia, han permitido el pre procesamiento de datos heterogéneos. A partir de las correlaciones descubiertas, los expertos identificaron patrones frecuentes relevantes, en las localidades de Chulucanas, Cerrato, El Morante, P. Mora y El Porvenir; principalmente relacionados a las características del suelo, precipitaciones y composición química de la raíz.