Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico

Murillo, Danny; Saavedra, Dalys; Calderón, Huriviades

Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico

dc.contributor.author	Murillo, Danny
dc.contributor.author	Saavedra, Dalys
dc.contributor.author	Calderón, Huriviades
dc.date.accessioned	2018-11-30T21:52:59Z
dc.date.available	2018-11-30T21:52:59Z
dc.date.issued	2018-10-24	es_ES
dc.description.abstract	Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el lenguaje R el cual nos permite personalizar la extracción de datos implementando funciones de extracción de perfiles y publicaciones de una universidad. En las pruebas de extracción de datos realizadas con las herramientas web y online se logró un promedio de 2 a 8 horas para extraer un promedio de 55 perfiles y 1400 publicaciones, mientras que con el algoritmo se logra extraer la misma cantidad de perfiles y publicaciones en 4 minutos con datos estructurados en formato de tabla que pueden ser exportadas para su posterior uso. Estas pruebas fueron realizadas en un periodo de 1 año, depurando errores y mejorando tanto el tiempo de extracción de los datos de salida. Una de las limitantes del algoritmo es que en universidades con más de 2,000 perfiles, este, es bloqueado por GA debido a que el tiempo de extracción aumenta y considera que es un robot o araña quien escanea los datos, es por ello que se trabaja en mejorar el proceso de extracción. El trabajo realizado permite que este algoritmo sea una herramienta para quienes realizan análisis de datos de indicadores científicos o para quienes realizan análisis bibliométricos de revistas académicas y científicas con perfiles en GA.	es_ES
dc.identifier.uri	http://repositorio.pucp.edu.pe/index/handle/123456789/133795
dc.language.iso	spa	es_ES
dc.publisher	Consorcio Iberoamericano para la Educación en Ciencia y Tecnología (ISTEC)	es_ES
dc.publisher	Pontificia Universidad Católica del Perú	es_ES
dc.publisher.country	PE
dc.rights	info:eu-repo/semantics/openAccess	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/2.5/pe/	es_ES
dc.subject	Google Académico	es_ES
dc.subject	escaneado web	es_ES
dc.subject	Minería web	es_ES
dc.subject	Lenguaje R	es_ES
dc.subject	Análisis de datos	es_ES
dc.subject	Google Scholar	es_ES
dc.subject	Web Scraping	es_ES
dc.subject	Web Mining	es_ES
dc.subject	R Lenguage	es_ES
dc.subject	data analysis	es_ES
dc.subject.ocde	http://purl.org/pe-repo/ocde/ford#5.08.02
dc.title	Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico	es_ES
dc.type	info:eu-repo/semantics/conferenceObject	es_ES
dc.type.other	Congreso

Files

Original bundle

Now showing 1 - 3 of 3

Name:: Danny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdf
Size:: 1.46 MB
Format:: Adobe Portable Document Format
Description:: Presentación

Download

Name:: Danny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdf
Size:: 7.29 MB
Format:: Adobe Portable Document Format
Description:: Texto escrito de la ponencia

Download

Name:: 11_1 Dany Murillo.mp4
Size:: 166.8 MB
Format:
Description:: Video de la ponencia

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.54 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Ponencias