Investigación reproducible

En la última entrada discutía la necesidad de abrir nuestros datos a otros investigadores. ¿Por qué es esencial esto? Por un lado, la disponibilidad de este tipo de datos permite a otros investigadores (sobre todo doctorandos sin pelas, esto es tautológico) realizar análisis secundarios que quizás no se nos ocurrieron a nosotros o, habiéndosenos ocurridos, no tuvimos el tiempo o la capacidad para desarrollar. Dado lo costoso que es realizar observaciones directas, el abrir los datos a otros permite un ahorro considerable y sacarle el máximo provecho a las inversiones (generalmente públicas en nuestro campo) realizadas en esta materia. Pero tan importante como ello es que permite a otros investigadores reproducir nuestros resultados y, de esta forma, operar como un control de calidad adicional.

La idea de investigación reproducible como dicen por aquí “is all the rage” estos días. Poco a poco se está convirtiendo en el nuevo estándar. En parte ello obedece al creciente reconocimiento de que el sistema de “peer review” es insuficiente para frenar el fraude científico. El testimonio de Stanley Young al Comite de Ciencia, Espacio y Tecnología (USA) deja bastante claras las razones por las que si nos interesa la integridad científica tenemos que invertir en una mayor transparencia. Este artículo de Roger Peng también señala algunas de las razones por las que este proceso es importante.

Transparencia, e investigación reproducible, va más allá de la publicación de los datos que empleamos en nuestras investigaciones, como planteaba en mi última entrada. Transparencia, como señala Stanley Young en este testimonio “significa que los protocolos del estudio, el código empleado en los análisis estadísticos, y las bases de datos… deberían ponerse a disposición del público tan rápido como sea posible”. Los días en que uno se podía escudar en simplemente presentar los resultados y la descripción de los métodos para pasar el filtro de publicación van a ir progresivamente quedándose atrás.

Y esto es una buena noticia, aunque también significa más trabajo. Significa que a la hora de publicar tenemos que ser capaces de poner a disposición del público código y bases de datos limpias. Afortunadamente, cada vez existen más instrumentos que facilitan este proceso, al menos en el ámbito cuantitativo. Uno de los puntos fuertes de R, por ejemplo, es su vinculación al movimiento de investigación reproducible. Vale, uno puede publicar la sintaxis empleada en SPSS, pero a no ser que trabajes para una institución que tenga la licencia para este programa, o que estés dispuesto a pagar los más de 5000 dólares que cuesta una licencia, ya me dirás lo reproducible que es un análisis hecho con SPSS. Y SPSS es barato cuando lo comparas con SAS. El carácter gratuito de R le da una gran ventaja en este sentido. Cualquier persona podrá reproducir tus análisis si has usado R. Y hay una serie de “paquetes” en R que facilitan el proceso de generar código limpio y análisis reproducible (RStudio y su uso de knitr son mis favoritos, para una lista más exhaustiva pincha aqui, o este para una charla sobre como usarlos).

En una entrada pasada hablaba sobre el futuro de la REIC. La tendencia hacia investigación reproducible es algo más que la dirección de la REIC tendrá que tomar en consideración a la hora de apostar por el salto de calidad de la revista. En una reciente entrada en su blog Will Lowe discutía y expandía los análisis de un artículo que investigaba la relación entre políticas editoriales que incentivan la investigación reproducible y una serie de características de estas revistas (incluyendo su índice de impacto). Los análisis se centraban en revistas de ciencia política, pero es posible que las conclusiones puedan generalizarse más allá de este campo. Los resultados mostraban una clara relación entre la adopción de políticas de datos (“estos han de facilitarse con el artículo”) y el índice de impacto de las revistas. Como Will Lowe señala:

“it could be that better journals are better because they have a data policy, or that they try to signal their quality by having one, or that a data policy increases citation rates and thus the journal’s impact factor, or that some other factors generate high impact factors and the desire for a data policy. That is, of course, not settled by anything we’ve done here. Nevertheless, knowing the impact factor and audience of a journal apparently tells you quite a lot about whether it’s going to have a data policy.”

En cualquier caso, y a pesar de las objeciones que seguro que se plantearan a este tipo de políticas en nuestro país (“yo, ¿mis datos? ¿Qué los haga públicos? ¿Con el trabajo que me ha costado?”), la tendencia es clara y las razones que apuntan a ella son también persuasivas.

4 thoughts on “Investigación reproducible

  1. pero yo creo que en España esta cuestión no está aun muy clara, existe un gran recelo y en ocasiones no es para menos, dado que el plagio está al orden del día. Yo misma lo sufrí en mis carnes cuando durante la carrera presenté un trabajo que escribí durante mi estancia en Sheffield y despues me lo encontré publicado en un Congreso, o no quiero pensar mal a lo mejor leyó exactamente lo mismo que yo y llegó a las mismas conclusiones.jj.

    • Hola Encarna,

      En este punto yo estoy totalmente de acuerdo con Gary King, que argumenta que la mejor defensa frente al plagio es precisamente la apertura y la transparencia. Si dejas un registro abierto y publico de tu contribucion sera mas dificil que nadie presente tus ideas como suyas, ya que ya existira un registro publico en el que tu las has presentado como tuyas. Este vinculo lleva a un video producido por Harvard University que abunda en algunas de estas ideas y donde Gary King presenta este argumento: http://www.youtube.com/watch?v=jD6CcFxRelY&hd=1

Leave a comment