*Google Scholar: no es oro todo lo que reluce*

Por *Isidro F. Aguillo*, The Cybermetrics Lab (CSIC); Miembro de ThinkEPI

*isidro.agui...@cchs.csic.es*



*Introducción*

El factor limitante en los estudios de la actividad científica,
especialmente los que utilizan técnicas cuantitativas, ha sido la
disponibilidad de bases de datos. Así, la bibliometría de las últimas
décadas no hubiera sido posible sin las bases de ISI/Thomson (Citation
Indexes), la explosión de la patentometría coincide con el acceso en abierto
de los servicios web de las organizaciones de patentes europeas,
estadounidenses y japonesas y, en fin, la cibermetría existe en buena medida
por las bondades de los motores de búsqueda comerciales.



En muchos casos dichas bases de datos no habían sido diseñadas
específicamente para la actividad bibliométrica y fue necesario (y todavía
lo es) realizar un importante esfuerzo de selección, limpieza, organización
y normalización de los resultados, antes de comenzar cualquier análisis.



Los costes eran enormes (acceso vía Dialog, adquisición de versiones en
CD-ROM) y lo siguen siendo (licencia nacional WoK), y además de ciertas
limitaciones legales estaban las de carácter técnico. Éstas son relevantes
para entender la tipología y profundidad de los trabajos bibliométricos
realizados en los 80s y los 90s. Era difícil exportar grandes cantidades de
registros, ciertos campos tenían múltiples valores (autores, direcciones,
citas) difíciles de segregar, había que repasar errores y normalizar
entradas, era complejo hacer correspondencias entre autores y sus
direcciones cuando varios de los primeros tenían la misma afiliación
institucional. La imposibilidad práctica de corresponder referencias con
artículos generalizó el uso de las citas *esperadas* (el infame factor de
impacto) en vez de utilizar las *observadas*. Otras interesantes
consecuencias fueron el desprecio hacia los recuentos fraccionados de los
cada día más frecuentes trabajos multiautorados, o el insólito filtrado
temático por categorías disciplinares de revistas o por selección de
palabras clave (¡en bases de datos sin auténtica indización!). Todo ello
motivado por las limitaciones de contenido y estructura de las bases de
datos, pero también por un intencionadamente capado sistema de gestión que
impedía una adecuada automatización de ciertos procesos.



La consecuencia directa es que el usuario final del trabajo del bibliómetra
(otros colegas, fundamentalmente aquellos objeto de análisis, y los gestores
de instituciones y de políticas científicas) apenas se reconociera en los
resultados, que podían pecar tanto de excesiva sencillez (plenos de errores)
como de inaguantable profundidad (tablas densísimas, sin ninguna utilidad
práctica). Hubo, y los sigue habiendo (cada vez menos, eso sí) trabajos
mediocres, pero quizá la principal carencia es la ausencia de escenarios
generales, con históricos de datos correctamente organizados y que evitara
la continua re-invención de la rueda a la que nos tiene acostumbrada esta
disciplina en nuestro país (aunque en este caso la culpa es compartida por
la inaudita ausencia de un manual de calidad, actualizado en castellano del
conjunto de las disciplinas cuantitativas).



Obviamente esta nota no es la primera que llama la atención sobre el cuidado
extremo que se ha de tener tanto a la hora de seleccionar las fuentes
bibliográficas como en el diseño de la extracción y utilización de los datos
correspondientes. Y es posible que esta admonición vuelva a caer en saco
roto.



*Google Scholar*

Para los afortunados que trabajan en instituciones que se pueden permitir el
indecente dispendio de tener contratadas las dos grandes bases de datos de
citas (WoK y Scopus), la labor bibliométrica se hizo un poco más difícil con
la aparición del nuevo producto de Elsevier. No sólo las bases de datos de
ambos productos eran diferentes (Scopus es ligeramente mayor y con menor
sesgo anglosajón), sino que las herramientas de consulta y extracción y los
indicadores (externos en el caso de Scopus) eran también distintos. A medio
plazo, sin embargo, las ventajas se impusieron, ya que la competencia mejoró
las prestaciones del WoK (ventanas de citación más amplias, nuevos
indicadores) y su cobertura geográfica (con cierto número de revistas no
anglosajonas, sobre todo de ciencias sociales y humanas, que al parecer
tienen un significativo menor impacto). A medio plazo trabajos de fusión de
ambas bases de datos proporcionaran una mejor idea de las bondades y
limitaciones de cada una de ellas, pero mientras tanto cabe esperar la
multiplicación de estudios disciplinares y/o temporales que remeden los ya
realizados previamente con ayuda de Wok.



En ese contexto aparece un nuevo e interesante actor, Google Scholar (
http://scholar.google.com/), la base de datos académica del famoso buscador.
Dentro de la estrategia global de Google de recolectar toda la información
posible (http://www.google.com/corporate/), la dificultad de indizar la
llamada internet invisible motivó el desarrollo de un producto que no
dependiera de los robots automáticos. La base de datos académica se nutre de
una serie de acuerdos con productores y distribuidores de bases de datos
académicas y científicas de todo el mundo, que ceden bajo distintas
condiciones (tanto la lista de suministradores como los detalles de los
contratos son secretos comerciales de Google) sus registros para la
construcción de Scholar.



Google proporciona ciertos valores añadidos (citas, enlaces, etiquetas)
además de añadir la gigantesca sección académica de la web visible que sí
aparece en el buscador general.

El resultado es una gran base de datos bibliográfica multidisciplinar que
incluye citas a los diferentes artículos (fundamentalmente como ayuda a la
recuperación). Es decir, es el tercer gran sistema de citas junto con el WoK
y Scopus, con la ventaja de su mayor tamaño y el hecho fundamental de ser de
acceso gratuito. Se trata de un producto todavía en versión beta (¡desde
2004!), cuyo futuro no está garantizado y que al parecer es mantenido por un
equipo muy reducido. Todo ello podría explicar la falta de normalización
documental que sería muy necesaria en un producto multifuente tan
heterogéneo formal y sustantivamente.



A pesar de los distintos problemas documentales de Google Scholar, la
reciente aparición de un software gratuito (“Publish or Perish”
http://www.harzing.com/pop.htm) que permite la captura directa de los
registros y calcula automáticamente diversos indicadores (incluyendo
distintas variantes del índice h) ha renovado y generalizado el interés por
Scholar en la comunidad bibliométrica. En la bibliografía al final de esta
nota figura una selección de artículos que tratan fundamentalmente dos
áreas: la comparación directa de Google Scholar con las otras grandes bases
de datos de citas (Wok y Scopus) y la utilización de registros de Scholar
para la realización de estudios bibliométricos.



*Los árboles no dejan ver el bosque*

La opacidad de Google respecto a las fuentes que utiliza (y la evolución
temporal de dicha cobertura, que parece se incrementó significativamente en
los últimos años) ha dificultado el análisis global del buscador académico.
De hecho, el diseño de muchos estudios comparativos implicaba utilizar
básicamente instituciones y autores de reconocido prestigio, para los que se
obtenía una cierta equivalencia con los resultados obtenidos en los
productos de “calidad contrastada” (basados más o menos en núcleos de
Bradford). Las diferencias en los estudios disciplinares se atribuían a
diferencias de cobertura y, en fin, otras discrepancias se atribuían a
problemas y limitaciones técnicas que se trataban de describir y evaluar o
simplemente se citaban sin más, como pretexto.



En el curso de un estudio cibermétrico sobre la distribución institucional
de los contenidos recogidos en Google Scholar, descubrimos que las
discrepancias son mayores de lo que se estimaba y que, de hecho, esta base
no es comparable a WoK o Scopus, y su uso bibliométrico puede estar
desaconsejado como norma general. Se recogieron los registros totales (al
menos con resumen) que aparecen en Scholar para dos grupos de dominios
internet: 225 Top Level Domains (incluyendo dominios nacionales como .es,
.fr o .it, y los genéricos tales como .com, .org o .net) y 10.442 dominios
universitarios (por ejemplo: ucm.es, harvard.edu u ox.ac.uk). De la primera
población se obtuvo un total de 86 millones de registros, de los que 55
millones (el 64%) correspondían a dominios genéricos, lo que cabría esperar
de productores y distribuidores comerciales (.com) u organizaciones sin
ánimo de lucro fuertemente presentes en este “mercado” (.org). Hay que tener
en cuenta que Google Scholar muestra registros únicos, que “unifican”
duplicados, es decir registros que pueden aparecer en repositorios
institucionales o páginas personales pero que están también recogidos en
distribuidores comerciales.



El segundo grupo (universidades) proporcionó 9 millones de registros, lo que
supone un 10,6% del total obtenido en la estimación global, lo que implica
que hay alrededor de un cuarto de los contenidos que bajo bandera nacional
(dominio propio) son provistos desde instituciones no universitarias
(productores locales, centros de investigación, portales, bibliotecas y
repositorios digitales). La muestra universitaria puede utilizarse para un
análisis en más profundidad, aunque hay que advertir que en muchos casos se
trata de producción hospedada, es decir además de trabajos publicados por
personal de la institución se pueden encontrar contribuciones de terceros,
tales como presentaciones en congresos celebrados en la universidad
hospedadora o material didáctico producido por otros autores pero puesto a
disposición (posiblemente sin cobertura contractual) por el profesorado
propio. En dicho análisis aparecen las sorpresas ya que, tras los EUA, los
siguientes países mejor representados son respectivamente España, Brasil y
Taiwán (por delante de Japón, Alemania. Canadá y Reino Unido). Entre los
veinte primeros aparecen también Costa Rica, México o Indonesia.



Descendiendo a nivel institucional, tras Harvard (base de datos de
astronomía) se encuentran Pennsylvania State University (CiteSeerX), la
Universidad de La Rioja (Dialnet), Johns Hopkins University (MUSE), Catie en
Costa Rica (base de datos de agronomía), Universidad Complutense de Madrid
(CompluDoc) o la Universidad Autónoma del Estado de México (Redalyc). Es
decir, de acuerdo con las actuales políticas institucionales, sus páginas
web buscan reflejar no sólo la producción de “excelencia” de la universidad,
sino todos los resultados independientemente de su calidad y tipo e incluso
hospedando producción de terceros, ya puntualmente o exhaustivamente como
parte de consorcios amplios. Y Google Scholar está recogiendo y reflejando
todo ello (y cada vez más, a medida que las iniciativas Open Access vayan
triunfando, aunque sea lentamente).



En resumen, Google Scholar es una interesante herramienta de recuperación de
información, con limitaciones derivadas de su falta de control documental,
que se pueden soslayar dado su tamaño y el hecho de ser gratuita. La oferta
de citas bibliográficas claramente incrementa su valor, pero la evolución
reciente la aleja cada día más de aquellas que filtran contenidos de acuerdo
con criterios de calidad (¿impacto?). Este ruido extra desaconseja un uso
liberal en los estudios bibliométricos, especialmente aquellos que tengan
fines evaluativos.



*Referencias*

Bar-Ilan, Judit (2007). Which h-index? A comparison of WoS, Scopus and
Google Scholar. Scientometrics 74(2):257–271.



Bar-Ilan, Judit (2009). A Closer Look at the Sources of Informetric
Research. Cybermetrics, 13: Paper 4.

http://www.cindoc.csic.es/cybermetrics/articles/v13i1p4.pdf



Bar-Ilan, Judit (2010) Citations to the "Introduction to informetrics"
indexed by WOS, Scopus and Google Scholar. Scientometrics 82 (3), 495-506



Beel, Joeran; Gipp, Bela (2010). Academic search engine spam and Google
Scholar's resilience against it. Journal of Electronic Publishing, 13 (3)



García-Pérez, M. A. (2010). Accuracy and completeness of publication and
citation records in the Web of Science, PsycINFO, and Google scholar: A case
study for the computation of h indices in psychology. Journal of the
American Society for Information Science and Technology, 61 (10), 2070-2085



Harzing, A. and R. van der Wal. (2008). Google Scholar as a new source for
citation analysis. Ethics in Science and Environmental Politics, 8(1):61–73



Harzing, A. and R. van der Wal. (2008). A Google Scholar h-index for
journals: An alternative metric to measure journal impact in economics and
business. Journal of the American Society for Information Science,
60(1):41–46.



Jacsó, Peter (2008). Google Scholar revisited. Online Information Review, 32
(1), 102-114



Jacso, Peter (2010). Savvy searching pragmatic issues in calculating and
comparing the quantity and quality of research through rating and ranking of
researchers based on peer reviews and bibliometric indicators from Web of
science, Scopus and Google Scholar. Online Information Review, 34 (6),
972-982



Kousha, Keyvan; Thelwall, Mike (2008). Sources of Google Scholar citations
outside the Science Citation Index: A comparison between four science
disciplines. Scientometrics74(2):273–294



Li, J., Burnham, J.F., Lemley, T., Britton, R.M. (2010). Citation analysis:
Comparison of web of science, scopus, scifinder, and google scholar. Journal
of Electronic Resources in Medical Libraries, 7(3), 196-217



Mayr, Phillip; Walter, Anne-Kathrin (2007). An exploratory study of Google
Scholar. Online Information Review 31 (6), pp. 814-830.



Meho, L.; K. Yang (2007). Impact of data sources on citation counts and
rankings of LIS faculty: Web of Science vs. Scopus and Google Scholar.
Journal of the American Society for Information Science and Technology,
58:2105–25.



Mikki, S. (2010). Comparing Google Scholar and ISI Web of Science for earth
sciences. Scientometrics 82 (2), 321-331



Torres-Salinas, Daniel, Ruiz-Pérez, Rafael, Delgado-López-Cózar, Emilio
(2008). Google Scholar como herramienta para la evaluación científica, El
profesional de la información, 18 (5): 501-510



White, Bruce (2006). Examining the claims of Google Scholar as a serious
Information Source. New Zealand Library & Information Management Journal, 50
(1): 11-24


*Isidro F. Aguillo*
<:o:p>*The Cybermetrics Lab, Centro de Ciencias Humanas y Sociales (CCHS)
Consejo Superior de Investigaciones Científicas (CSIC)
*<::o:p>*Albasanz, 26-28. 28037 Madrid, Spain*
<:::o:p>*http://internetlab.cindoc.csic.es/*<http://internetlab.cindoc.csic.es/>
<::::o:p>


----------------------------------------------------
Los archivos de IWETEL  pueden ser consultados en: 
                http://listserv.rediris.es/archives/iwetel.html
----------------------------------------------------

Responder a