Generación de datos sintéticos usando Redes Generativas Adversariales para la minería de datos respetuosa de la privacidad
Acceso a Texto completo
Abstract
La minería de datos permite conocer patrones en grandes volúmenes de datos; pero dentro
de estos datos puede haber información sensible que compromete la privacidad. En tal
sentido, se han desarrollado técnicas para la minería de datos respetuosa de la privacidad,
siendo la más utilizada la privacidad diferencial debido a las propiedades que otorga a los
datos resultantes, de la mano de técnicas de aprendizaje profundo. Estas técnicas se han
utilizado en conjuntos de datos de números escritos e imágenes, pero no en datos de
georreferenciación. El presente trabajo tiene como objetivo medir la eficacia de los datos
sintéticos generados a través redes generativas adversariales y privacidad diferencial en
datos de georreferenciación. La generación de estos datos se hace a través de selección de
datos, sanitización para la obtención de la base de datos sintéticos y evaluación a través de
modelos de movilidad a partir de las trazas que sirven para medir la pérdida de información
y el riesgo de divulgación. En líneas generales, los resultados demuestran que la aplicación
de estas técnicas sobre datos de georreferencia da como producto un conjunto de datos
sintéticos con una pérdida de información y riesgo de divulgación bajos, y se concluye que
estos conjuntos de datos obtenido se puede realizar una minería de datos similar a la que se
haría con los datos originales y sin comprometer información sensible.