Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos

Murillo, Danny; Saavedra, Dalys; Quintero, Erika

dc.contributor		es-ES
dc.creator	Murillo, Danny
dc.creator	Saavedra, Dalys
dc.creator	Quintero, Erika
dc.date	2018-06-11
dc.date.accessioned	2018-06-14T18:33:59Z
dc.date.available	2018-06-14T18:33:59Z
dc.identifier	http://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807
dc.identifier	https://doi.org/10.33412/idt.v14.1.1807
dc.identifier.uri	http://ridda2.utp.ac.pa/handle/123456789/4932
dc.description	El objetivo de este artículo es hacer uso de la técnica Web Scraping para extraer datos de Google Scholar (GS)a través de diferentes métodos. El Web Scraping es una forma de minería de datos no estructurada, que permite extraer información de páginas web, escanear su código HTML y generar patrones de extracción de datos. Además, con el fin de realizar un análisis más profundo, se creó un algoritmo en el lenguaje R para comparar la velocidad de extracción de los datos y la eficiencia en el formato de salida de los datos. El artículo muestra las pruebas realizadas de estos métodos para medir la velocidad de extracción de los datos y buscar la mejor forma de extraer los datos de GS de forma estructurada.	es-ES
dc.format	application/pdf
dc.language	spa
dc.publisher	Universidad Tecnológica de Panamá	es-ES
dc.relation	http://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807/pdf
dc.relation	/ref/A. M. VELÁZQUEZ, “Tim Berners-Lee: «El papel no desaparecerá, siempre habrá cosas que nos guste leer en ese formato»,” 2012. [Online]. Available: http://www.lne.es/asturama/2012/02/15/tim-berners-lee-papel-desaparecera-habra-cosas-guste-leer-formato/1199452.html.
dc.relation	/ref/M. Castells, “Internet y la Sociedad Red,” La Factoría, vol. 14–15, pp. 1–12, 2001.
dc.relation	/ref/M. F. Berners-Lee, “Weaving the Web. HarperOne,” 1999.
dc.relation	/ref/J. R. Sánchez Carballido, “Perspectivas de la información en Internet: ciberdemocracia, redes sociales y web semántica,” Zer-Revista Estud. Comun., vol. 13; n.° 25, pp. 61–81, 2011.
dc.relation	/ref/L. C. Silva Ayçaguer, “El índice-H y Google Académico: una simbiosis cienciométrica inclusiva,” ACIMED, vol. 23, no. 3, pp. 308–322.
dc.relation	/ref/M. Oficial and E. N. Log, “Logística , Transporte Y Cadena De,” 2014.
dc.relation	/ref/D. Torres and Á. Cabezas, “Altmetrics : nuevos indicadores para la comunicación científica en la Web 2 . 0,” pp. 53–60, 2013.
dc.relation	/ref/UIAF, “Técnicas de minería de datos para la detección y prevención del lavado de activos y la fi nanciación del terrorismo (LA/FT),” p. 35, 2014.
dc.relation	/ref/J. C. Riquelme, R. Ruiz, and K. Gilbert, “Minería de datos: Conceptos y tendencias,” Intel. Artif., vol. 10, no. 29, pp. 11–18, 2006.
dc.relation	/ref/R. B. Penman and D. Martinez, “Web Scraping Made Simple with SiteScraper.”
dc.relation	/ref/H. Jiawei, M. Kamber, J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques. 2012.
dc.relation	/ref/D. I. Directions, T. Mining, U. K. Further, and H. Education, “The Value and Benefits of Text Mining,” no. March, 2012.
dc.relation	/ref/D. S. Danny Murillo, “Implementación de Plataforma Digital de Revistas Académicas y Científicas electrónicas en la Universidad Tecnológica de Panamá para mejorar su visibilidad a nivel nacional e internacional,” in Tecnología, innovación e investigación en los procesos de enseñanza-aprendizaje, 2016, pp. 936–947.
dc.relation	/ref/S. Shi, C. Liu, Y. Shen, C. Yuan, and Y. Huang, “AutoRM: An effective approach for automatic Web data record mining,” Knowledge-Based Syst., vol. 89, pp. 314–331, 2015.
dc.relation	/ref/V. Bharanipriya and V. K. Prasad, “Web Content Mining Tools : a Comparative Study,” Int. J. Inf. Technol. Knowl. Manag., vol. 4, no. 1, pp. 211–215, 2011.
dc.relation	/ref/F. Borrego, “Alternativas para realizar web scraping,” 2017. [Online]. Available: http://felicianoborrego.com/alternativas-para-realizar-web-scraping/.
dc.relation	/ref/M. Peshave, “How Search Engines Work and a Web Crawler Application,” 2010.
dc.relation	/ref/Scrapehero, “Scalable do-it-yourself scraping – How to build and run scrapers on a large scale,” 2015. [Online]. Available: https://www.scrapehero.com/scalable-do-it-yourself-scraping-how-to-build-and-run-scrapers-on-a-large-scale/.
dc.relation	/ref/R. Cotton, Learning R, O´RELLY. 2013.
dc.relation	/ref/K. Cichini, “GScholarScraper_3.1,” 2012. [Online]. Available: https://github.com/gimoya/theBioBucket-Archives/blob/master/R/Functions/GScholarScraper_3.1.R.
dc.relation	/ref/J. Keirstead, “Package Scholar,” 2015. [Online]. Available: https://cran.r-project.org/web/packages/scholar/index.html.
dc.relation	/ref/Extension Google Chrome, “Scraper,” 2015. [Online]. Available: https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd?utm_source=chrome-app-launcher-info-dialog.
dc.relation	/ref/Fminer, “FMiner Scraping,” 2015. [Online]. Available: http://www.fminer.com/.
dc.relation	/ref/Import.io, “Import.io,” 2016. [Online]. Available: https://www.import.io/.
dc.relation	/ref/E. Ferrara, P. De Meo, G. Fiumara, and R. Baumgartner, “Web data extraction, applications and techniques: A survey,” Knowledge-Based Syst., vol. 70, pp. 301–323, 2014.
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.source	2219-6714
dc.source	1680-8894
dc.source	I+D Tecnológico; Vol. 14, Núm. 1 (2018): Revista de I+D Tecnológico; 95-105	es-ES
dc.subject	Web Scraping, Google Scholar, minería de datos, lenguaje R, análisis de datos.	es-ES
dc.title	Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos	es-ES
dc.type	info:eu-repo/semantics/article
dc.type	info:eu-repo/semantics/publishedVersion

Files in this item

Files	Size	Format	View
There are no files associated with this item.

This item appears in the following Collection(s)

Vol. 14, Núm. 1 (2018): Revista de I+D Tecnológico [11]
La Universidad Tecnológica de Panamá se complace en presentar a la comunidad científica en general la segunda edición del año 2018 de la Revista I+D Tecnológico, correspondiente al volumen 14, número 2.

Show simple item record