Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico

dc.contributor.authorMurillo, Danny
dc.contributor.authorSaavedra, Dalys
dc.contributor.authorCalderón, Huriviades
dc.date.accessioned2018-11-30T21:52:59Z
dc.date.available2018-11-30T21:52:59Z
dc.date.issued2018-10-24es_ES
dc.description.abstractEste trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el lenguaje R el cual nos permite personalizar la extracción de datos implementando funciones de extracción de perfiles y publicaciones de una universidad. En las pruebas de extracción de datos realizadas con las herramientas web y online se logró un promedio de 2 a 8 horas para extraer un promedio de 55 perfiles y 1400 publicaciones, mientras que con el algoritmo se logra extraer la misma cantidad de perfiles y publicaciones en 4 minutos con datos estructurados en formato de tabla que pueden ser exportadas para su posterior uso. Estas pruebas fueron realizadas en un periodo de 1 año, depurando errores y mejorando tanto el tiempo de extracción de los datos de salida. Una de las limitantes del algoritmo es que en universidades con más de 2,000 perfiles, este, es bloqueado por GA debido a que el tiempo de extracción aumenta y considera que es un robot o araña quien escanea los datos, es por ello que se trabaja en mejorar el proceso de extracción. El trabajo realizado permite que este algoritmo sea una herramienta para quienes realizan análisis de datos de indicadores científicos o para quienes realizan análisis bibliométricos de revistas académicas y científicas con perfiles en GA.es_ES
dc.identifier.urihttp://repositorio.pucp.edu.pe/index/handle/123456789/133795
dc.language.isospaes_ES
dc.publisherConsorcio Iberoamericano para la Educación en Ciencia y Tecnología (ISTEC)es_ES
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.publisher.countryPE
dc.rightsinfo:eu-repo/semantics/openAccesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/es_ES
dc.subjectGoogle Académicoes_ES
dc.subjectescaneado webes_ES
dc.subjectMinería webes_ES
dc.subjectLenguaje Res_ES
dc.subjectAnálisis de datoses_ES
dc.subjectGoogle Scholares_ES
dc.subjectWeb Scrapinges_ES
dc.subjectWeb Mininges_ES
dc.subjectR Lenguagees_ES
dc.subjectdata analysises_ES
dc.subject.ocdehttp://purl.org/pe-repo/ocde/ford#5.08.02
dc.titleImplementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académicoes_ES
dc.typeinfo:eu-repo/semantics/conferenceObjectes_ES
dc.type.otherCongreso

Archivos

Bloque original

Mostrando 1 - 3 de 3
Miniatura
Nombre:
Danny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdf
Tamaño:
1.46 MB
Formato:
Adobe Portable Document Format
Descripción:
Presentación
Miniatura
Nombre:
Danny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdf
Tamaño:
7.29 MB
Formato:
Adobe Portable Document Format
Descripción:
Texto escrito de la ponencia
No hay miniatura disponible
Nombre:
11_1 Dany Murillo.mp4
Tamaño:
166.8 MB
Formato:
Descripción:
Video de la ponencia

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
1.54 KB
Formato:
Item-specific license agreed upon to submission
Descripción:

Colecciones