Recursos para aprender R para criminólogos

 [For the English speakers, just announcing a bunch of R resources I am developing. Still very much alpha version (available from github). Comments welcome.]

Quienes que me conocéis mejor sabéis que me interesan las aplicaciones cuantitativas en criminología. Es una de mis pasiones y un tema sobre el que gira casi toda mi docencia aquí en Manchester, donde a raíz de una subvención reciente que hemos recibido estamos desarrollando una serie de experiencias para tratar de mejorar la formación cuantitativa de nuestros alumnos convirtiendo a Manchester en un centro de excelencia en este tipo de docencia.

Durante los últimos 3 años académicos me he centrado fundamentalmente en rediseñar nuestro modulo sobre Análisis de Datos para Criminólogos en la licenciatura, que enseñamos usando el modelo de la clase invertida (flipped classroom) y que he conseguido migrar al R Commander (un intuitivo GUI para R) sin que haya supuesto un trauma para nuestros alumnos. Estaba hasta las narices de hacerle publicidad gratis a IBM por un producto notablemente inferior y más costoso (SPSS). En la actualidad estoy trabajando en los materiales de un nuevo módulo sobre “Crime Mapping” y análisis de datos espaciales, para los alumnos de tercero, y actualizando los materiales para la versión de Análisis de Datos que damos en el master.

En el master no tenemos mucho tiempo para virguerías. Tengo tan solo 16 horas para este módulo y nos llegan a menudo alumnos con escasa o nula formación, por lo que prácticamente hay que empezar también desde cero, pero por dar algo a los que ya vienen con una base más sólida, introducimos los temas con R, pero no con el R Commander, sino con R puro y duro.

Por aquello del espíritu abierto, estoy experimentando con poner todos los materiales en un repositorio public de github. Una de las chulerías de la última versión de R Studio es que hace innecesario salir del entorno R para publicar, lo que facilita la publicación en HTML usando Pandoc Markdown. En fin, básicamente lo que esta entrada pretende hacer es anunciar que estos materiales (aún en fase de desarrollo) están disponibles para quien quiera utilizarlos. Podéis encontrar estos recursos para aprender R aquí.

Si alguien tiene interés en reutilizarlos para su propia docencia estos materiales vienen con una creative common licence. En otras palabras, usar y reciclar pero sin ánimo de lucro. Cuando tenga los ficheros en una versión más acabada también exportare a este repositorio los ficheros en markdown, lo cual hará más fácil este reciclaje si estáis familiarizados con R Studio y knitr.

Hasta entonces, si alguien tiene sugerencias o comentarios, please get in touch!

Advertisements

Tarde, pero aquí están los reyes magos

Y traen mirra (libros gratis), incienso (cursos gratis) y oro (un estilo de vida). Este post continua el espíritu de celebración del año internacional de la estadística. Como diría el profesor Garicano: “los tres fundamentos claves necesarios para salir adelante en la economía de conocimiento son: un nivel avanzado de confianza en el uso de las matemáticas y la estadística; una capacidad elevada para escribir un argumento, no solo correcto gramaticalmente, sino razonado con claridad y convicción; y un nivel avanzado de inglés” (por cierto la historia de Nate Silver a la que se refiere la cuenta el propio Nate en un bestseller internacional que es muy recomendable para aprender a pensar como un analista de datos, una buena revisión aqui).

Primero los libros gratis. Son de nivel avanzado, pero de muy buena calidad en cada uno de sus campos:

“Networks, crowds and markets” de David Easley y Jon Kleinberg que os será de gran utilidad a quienes penséis en términos de redes sociales. El análisis de redes sociales se ha convertido en una de las técnicas más de moda fuera y dentro de la criminología. Cada vez se presentan más artículos y ponencias en congresos científicos de criminología empleando este tipo de enfoques. Este libro es un excelente tratado sobre el tema.

“The Elements of Statistical Learning: Data Mining, Inference, and Prediction” de Trevor Hastie, Robert Tibshirani, y Jerome Friedman. Este es menos especializado que el anterior, pero de un nivel más avanzado. Hay quien lo considera una especie de biblia y en el link encontrareis los programas empleados en los ejemplos (todos usando R). Os vendrá bien a quienes ya tengáis nociones básicas de regresión y modelos generales lineares. El mundo no se acaba ahí. En criminología la idea de “machine learning” (neural networls, generalised boosted regression, random forest, etc) todavía no se ha desarrollado mucho. Le damos mucho bombo a otro tipo de técnicas también sofisticadas como análisis multinivel o modelos de variables latentes. Sin embargo, el mundo de “data mining” puede dar lugar a aplicaciones de gran utilidad y es un terreno relativamente virgen. El director en funciones de NIJ, por ejemplo, ha jugado un papel clave en el uso de generalised boosted regression para poder identificar efectos causales en estudios observacionales (un ejemplo aquí). Esta semana me la he pasado usando su paquete twang en R, que implementa este enfoque, para estimar el efecto causal de pertenecer a bandas en varios dominios. Mientras que Richard Berk, otro monstruo, ha sido un pionero en el uso de random forests y técnicas similares para mejorar la capacidad predictiva de los instrumentos que emplean los operarios del sistema de justicia penal a la hora de diagnosticar peligrosidad (ver por ejemplo aquí).

Segundo, los cursos gratis. Ya he mencionado varias veces a los massive online open courses. Simplemente recordaros que están a punto de empezar los de este semestre. En Coursera  Roger Peng “Computing for Data Analysis”(una introducción a R en cuatro semanas empezó la semana pasada), mientras que el muy apetecible “Data Analysis” de Jeff Leek, empieza en 10 días. Ambos cursos requieren haber tomado al menos un curso de introducción a la estadística y ambos, como es habitual estos días, usan R. El curso de Jeff tiene muy buena pinta y es eminentemente moderno en su enfoque, parece que hablara de “reproducibility” (como hacer análisis para que otros puedan repetirlo) y simulación (como una forma de chequear nuestros resultados). Si estáis empezando en esto, el curso “en Stanford” de Sebastian Thrun, todo un genio que ha llegado muy lejos, se puede tomar en cualquier momento, y el 30 de enero empieza en edX una introducción muy básica a la estadística ofrecida por Berkeley University. ¡Ya podréis fardar luego de haber estudiado allí!

Y, last but not least, el oro: un estilo de vida. En estos días en los que uno se puede sentir particularmente cabreado con el top 2% y con muy buenas razones, pues uno se puede sentir particularmente inclinado para, como dicen en Inglaterra,  “to give two fingers” “to the man”. A mi particularmente me cabrea de qué forma están socavando el internet por razones puramente económicas y están produciendo algo que no es lo que teníamos. Simplemente nos quieren poseer. ¿Paranoia? Este es un buen estudio sobre el modelo comercial de Apple que quizás os puede persuadir a quienes todavía penséis que es cool ser un Mac. En fin, que es hora de pensar en alternativas. Y aquí es donde entra el maravilloso mundo open code que todavía nos ofrece lo mejor del proyecto de solidaridad, participación, y de compartir que soñábamos en los días iniciales del internet. ¿A qué viene todo este rollo? En fin que existe una alternativa al uso de las herramientas tecnológicas comerciales que empleamos para el análisis de datos y su publicación (en ponencias, artículos, blogs, etc). Muchas de estas alternativas (Vim en vez de otros editores de texto, Beamer en vez de power point, R en vez de cualquier programa de análisis de datos, etc.) de hecho son mucho más flexibles y potentes que los productos comerciales que nos venden, y de hecho incluso hay quien piensa que el conocimiento y manejo de las mismas es un buen indicio en tu currículo o cuanto menos manda una señal sobre qué tipo de científico eres. Jeromy Anglim, un psicólogo australiano, tiene en su blog numerosas entradas discutiendo el uso de este tipo de herramientas. Aquí os dejo una buena entrada en su blog que comienza a contar su transición, como científico social cuantitativo, a Ubuntu, una de las distribuciones de Linux más populares (¿por qué pagar por tu sistema operativo cuando tienes la excelente calidad de Linux?). Su blog está lleno de consejos prácticos  y recursos para facilitar la transición. ¿O queréis ser esclavos de Microsoft y Apple toda vuestra vida? La transición requiere esfuerzo, es un cambio fundamental y radical, pero todo lo que merece la pena en esta vida es así.

PS: Os prometo volver a un tema más sustantivo en mi próxima entrada: el futuro de la probación en Inglaterra y Gales.

Feliz 2013: el año internacional de la estadística

Efectivamente, la ASA ha declarado el 2013 el año internacional de la estadística. Vivimos en una época dorada en este campo. Se habla mucho de “the age of big data”, de como las nuevas tecnologías han contribuido al desarrollo masivo de enormes bases de datos, susceptibles de análisis estadístico, y que pueden facilitar el desarrollo económico y social. El conflicto entre Facebook, Apple, Google y todas las demás grandes corporaciones (“esclavizandonos” sin que nos enteremos al uso de sus particulares aplicaciones de uso “gratuito”) es una “guerra” por la acumulación de datos que tienen un alto valor económico si pensáis en el potencial que los mismos tienen en materia de marketing, control de mercados, etc. Pero no solamente es en el ámbito comercial en el que existe una necesidad creciente por analistas cualificados. El movimiento a favor de una “open data society” en el que el acceso a datos recogidos con nuestros impuestos sirva también como un mecanismo democrático que permita un mayor rendimiento de cuentas de nuestros gobernantes también ha ganado bastante momento fuera de nuestras fronteras. Cada vez existe una mayor facilidad para acceder a bases de datos que tienen el potencial de mejorar nuestro conocimiento del mundo que habitamos. En España, como evidencia adicional de la necesidad de una profunda reforma institucional, seguimos a remolque y sin que nuestros gobernantes parezcan enterarse de que va la película. Aunque se han dado pasos para que dejemos de ser un outlier en cuanto a la regulación del acceso a información y para facilitar el acceso, los pasos que se están dando son demasiado tímidos y como siempre en nuestro país parecen asumir que con cambiar la lay se cambia la realidad. Como sabéis la SEIC tuvo que demandar al gobierno una mayor apertura en materia de datos policiales y, aunque con el cambio de gobierno, se volvió a la práctica tradicional, un tanto mas aperturista, seguimos a años luz de lo que es práctica común fuera de nuestras fronteras (con numerosos problemas de calidad en estas estadísticas y una difusión muy limitada en formatos muy restrictivos). Esperemos que poco a poco esto vaya cambiando.

Al menos a nivel académico criminológico en España hemos seguido evitar, hasta el momento, las fobias numéricas disfrazadas de discurso teórico que han dominado durante demasiado tiempo a la criminologia británica. Uno de los legados tristes de la criminologia critica ha sido el fomento de una actitud cultural dentro de la criminologia británica muy despectiva frente a todo lo cuantitativo. Ello ha tenido un impacto muy negativo. No es exagerado decir que la calidad media de la formación estadística en los grados de criminologia españoles, a pesar de su juventud, tiene poco que envidiar a la que se imparte en las universidades británicas (en Manchester, no obstante, estamos mejor). Aunque, la verdad, decir esto, no es decir mucho, dado que la formación media en estas materias dentro de los grados de criminologia en el Reino Unido es francamente lamentable. Y esto no lo digo yo, es algo que la British Academy, HEFCE, ESRC y otras organizaciones han lamentado sobre la docencia de las ciencias sociales, en sentido amplio, en el Reino Unido. Si os detenéis a analizar la formación previa de los muy pocos “criminólogos” “británicos” cuantitativos, veréis que o son guiris o no son criminólogos de formación (Jonathan Jackson, Brian Francis, Ben Bradford, Susan McVie), o las dos cosas a la vez (Machi Tseloni). De ahí, que el gobierno británico haya declarado esta un área de prioridad y de vital importancia estrategia. La Nuffield Foundation hace unos meses anunciaba un nuevo programa de financiación para tratar de remediar este problema por medio de la creación de centros de excelencia docente en métodos cuantitativos en las ciencias sociales (en Manchester esperamos ser uno de ellos). Estas medidas, la cantidad de datos disponibles y de fácil acceso, y la calidad de investigadores cuantitativos que atrae la universidad británica posiblemente contribuirá a remediar este problema histórico. Se nota que algo ha cambiado en el aire. Aunque hay quienes, dentro de la criminologia británica, siguen con sus obcecados dogmatismos proponiendo que todo lo cuantitativo es inferior, facha , y despreciable (como Jock Young que se refiere a nosotros como “datasaurios” que practican criminologia vudú), cada vez hay mas voces que se resisten a este tipo de insultos y simplificaciones. Garland, en una muy recomendable reciente revisión del ultimo libro de Young, hacia una critica demoledora de este tipo de planteamientos. Como Garland concluía, con la elegancia que típicamente le caracteriza (es de los que te clavan la daga envuelta en seda y con una sonrisa enternecedora): “My sense of the present conjuncture, at least as it affects the United States and the United Kingdom, is that it is a moment shaped by 30 years of New Right politics that have removed the restraints on finance capitalism imposed by the New Deal and Bretton Woods; increased the power of the wealthiest elites; and subordinated national economic governance and welfare state protections to the demands of global markets. As a result, structural sociology, class analysis and the rigorous connection of societal processes to community, household and individual outcomes have never been more important. This is true if we wish to explain the everstarker inequalities of income, employment, health and life chances that open markets and resurgent capitalism have produced. And it is true if we wish to trace the social forces, institutional mechanisms, and, yes, cultural processes, through which the political economy and social ecology exert their complex determinations in the sphere of crime and punishment—consequences that include mass imprisonment, social exclusion and a distinctive culture of control that persists even as crime rates decline. If criminologists are to understand the social structures and institutional processes that produce crime and punishment in what Young terms ‘The Exclusive Society’ (the cultural aspects of which he has insightfully described), then numbers, datasets, statistical analyses and sophisticated quantitative research—together with sharply defined concepts, classifications and categories—will be an indispensable part of that endeavour. ”.

En este año internacional de la estadística en nuestro país deberíamos, por tanto, seguir el camino iniciado: fomentar una criminologia en la que exista un respeto mutuo sin discriminar por razones metodológicas y seguir peleando por una mayor apertura y calidad de los datos sobre seguridad y justicia penal que nos permitan tener un debate informado, racional y ponderado sobre temas de justicia penal en nuestro país En cuanto a lo primero las buenas noticias son abundantes. Nunca ha sido tan fácil aprender estadística y análisis de datos. Al margen de los massive online open courses de UDACITY, edX y Coursera (a los que pronto de sumaran las unis británicas a través de la plataforma Future Learn), existen recursos como la Khan Academy, y cientos de blogs y otros recursos universitarios (la UCLA es uno de mis favoritos). Y ya ni tan siquiera tenemos que ser esclavos de SPSS, STATA, o SAS, gracias a programas gratuitos y open code como R. Mi propósito es de aquí a un par de años hacer disponible todos mis materiales docentes en este ámbito (bases de datos, workbooks, etc) de forma gratuita a través de este blog. Así que si os interesa el tema, seguid pendientes. El director económico de Google, Hal Varian, lo decía con bastante claridad la capacidad para analizar datos cuantitativos va a ser uno de las habilidades profesionales mas valiosas del futuro. Olvidémonos de nuestros prejuicios y fobias y pongámonos las pilas en este ano de celebración.