Extracción de información para la generación de reportes estructurados a partir de noticias peruanas relacionadas a crímenes
Acceso a Texto completo
Abstract
Actualmente, múltiples fuerzas policiales y agencias de inteligencia han decidido enfocar
parte de sus esfuerzos en la recolección de todo tipo de información sobre crímenes. Esto
con el objetivo de poder analizar los datos disponibles y utilizar los resultados de esta
tarea para la mejora de procesos actuales, e incluso, para la prevención de ataques y
delitos futuros.
No obstante, debido a la velocidad con la que se generan datos e información en la última
década, las técnicas de análisis tradicional han resultado en baja productividad y en un
uso ineficiente de recursos. Es por esta razón, que desde el campo de la informática, y
específicamente desde las ciencias de la computación, se vienen realizado múltiples
intentos para ayudar a identificar y obtener la información más importante dentro de estos
grandes volúmenes de datos.
Hasta el momento los estudios previos realizados para este dominio, abarcan desde la
predicción del lugar de un delito utilizando data numérica, hasta la identificación de
nombres y entidades en descripciones textuales. En este contexto, este trabajo propone la
creación de una herramienta de extracción de información para noticias relacionadas al
dominio criminal peruano. Buscando identificar automáticamente culpables, víctimas y
locaciones mediante los siguientes pasos: (1) Procesamiento y generación de un conjunto
de datos en base a noticias criminales, (2) Implementación y validación de algoritmos de
extracción e información, y (3) Elaboración de una interfaz de programación de
aplicaciones para el consumo del modelo desarrollado.
Los resultados obtenidos evidencian que el enfoque utilizado, basado en dependencias
sintácticas y reconocimiento de entidades nombradas, es exitoso. Además, se espera que en el futuro se puedan mejorar los resultados obtenidos con técnicas de procesamiento de lenguaje natural para dominios con pocos recursos.