dc.contributor.author | Murillo, Danny | |
dc.contributor.author | Saavedra, Dalys | |
dc.contributor.author | Calderón, Huriviades | |
dc.date.accessioned | 2018-11-30T21:52:59Z | |
dc.date.available | 2018-11-30T21:52:59Z | |
dc.date.issued | 2018-10-24 | es_ES |
dc.identifier.uri | http://repositorio.pucp.edu.pe/index/handle/123456789/133795 | |
dc.description.abstract | Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer
datos de perfiles y publicaciones de Google Académico (GA) utilizando Web
Scraping, técnica no estructurada de minería de datos que escanea los datos de
una página web. El código del algoritmo se crea utilizando el lenguaje R el cual nos
permite personalizar la extracción de datos implementando funciones de extracción
de perfiles y publicaciones de una universidad. En las pruebas de extracción de datos realizadas con las herramientas web y online se logró un promedio de 2 a 8
horas para extraer un promedio de 55 perfiles y 1400 publicaciones, mientras que
con el algoritmo se logra extraer la misma cantidad de perfiles y publicaciones en 4
minutos con datos estructurados en formato de tabla que pueden ser exportadas
para su posterior uso. Estas pruebas fueron realizadas en un periodo de 1 año,
depurando errores y mejorando tanto el tiempo de extracción de los datos de salida.
Una de las limitantes del algoritmo es que en universidades con más de 2,000
perfiles, este, es bloqueado por GA debido a que el tiempo de extracción aumenta
y considera que es un robot o araña quien escanea los datos, es por ello que se
trabaja en mejorar el proceso de extracción. El trabajo realizado permite que este
algoritmo sea una herramienta para quienes realizan análisis de datos de
indicadores científicos o para quienes realizan análisis bibliométricos de revistas
académicas y científicas con perfiles en GA. | es_ES |
dc.language.iso | spa | es_ES |
dc.publisher | Consorcio Iberoamericano para la Educación en Ciencia y Tecnología (ISTEC) | es_ES |
dc.publisher | Pontificia Universidad Católica del Perú | es_ES |
dc.rights | info:eu-repo/semantics/openAccess | es_ES |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/2.5/pe/ | es_ES |
dc.subject | Google Académico | es_ES |
dc.subject | escaneado web | es_ES |
dc.subject | Minería web | es_ES |
dc.subject | Lenguaje R | es_ES |
dc.subject | Análisis de datos | es_ES |
dc.subject | Google Scholar | es_ES |
dc.subject | Web Scraping | es_ES |
dc.subject | Web Mining | es_ES |
dc.subject | R Lenguage | es_ES |
dc.subject | data analysis | es_ES |
dc.title | Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico | es_ES |
dc.type | info:eu-repo/semantics/conferenceObject | es_ES |
dc.type.other | Congreso | |
dc.subject.ocde | http://purl.org/pe-repo/ocde/ford#5.08.02 | |
dc.publisher.country | PE | |