Predecir el futuro (Parte Segunda): las promesas y peligros de la evaluación de riesgos

En los últimos años, coincidiendo con el hype sobre big data y predictive analytics, se habla mucho de criminológica computacional o de los algoritmos. El profesor norteamericano Richard Berk ha sido uno de los más claros proponentes de este tipo de enfoques. En su trabajo esto ha consistido en la aplicación de algoritmos y prácticas científicas desarrolladas en el campo del aprendizaje de máquinas para tratar de mejorar la predicción de los instrumentos de evaluación de riesgo que se emplean en el contexto de la justicia penal. Como apuntaba en una entrada anterior, la idea de predictive policing ha ido ganando terreno en el contexto anglosajón y, me consta que los Mossos están colaborando con el departamento de matemáticas de la UdG para tratar de desarrollar este tipo de modelos en el contexto catalán. Berk está convencido que el uso de técnicas avanzadas desarrolladas por estadísticos e informáticos (i.e., en particular random forests, que no tengo ni idea de cómo se traduce correctamente al castellano: ¿bosques aleatorios?) pueden reducir el error de clasificación de estos instrumentos.

Este tipo de promesas ha encontrado un nicho adecuado para su proliferación en el actual contexto cultural. En fin, en Occidente siempre hemos sido unos vendidos a la idea del progreso a mano de la ciencia. Dentro del tema de predictive policing, como ya apuntaba en una entrada anterior, hay empresas privadas que se han dado cuenta de que aquí hay dinero y con muy poco pudor (ver aquí, o aquí) están promoviendo particulares modelos que no son nada baratos. Se está generando toda una industria con intereses financieros considerables que condicionan la crítica a estos modelos, al margen que la evidencia sobre su valor aún es muy incipiente, como destacaba un informe de la RAND Corporation hace un par de años.

Predictive policing hasta el momento ha estado centrado en predicciones a nivel de área. Pero progresivamente se está empezando a desplazar hacia el territorio de las predicciones individuales. En la entrada anterior precisamente planteamos un ejemplo concreto de ello al hablar de VIOGEN. De igual manera, también vemos como la predicción empieza a jugar un papel más determinante no solamente a nivel policial, sino incluso en la fase de determinación de la pena (el muy controvertido “evidence-based sentencing”) – lo cual representa una transformación frente al pasado nada trivial. Resumiendo un poco: (1) aunque es cierto que la predicción en el campo de justicia penal tiene una muy larga historia sobre todo en el campo penitenciario (no exenta de controversia técnica o inspirada en enfoques de justicia); (2) desarrollos tecnológicos, culturales y económicos están expandiendo su campo de acción lo que está generando un mayor escrutinio y debate sobre estas prácticas.

Esta expansión está generando todo tipo de respuestas. En el reciente congreso de la Sociedad Europea de Criminología en Oporto hubo al menos un par de mesas en las que se discutían estos desarrollos. Adam Edwards, de la Universidad de Cardiff y colaborador en el proyecto COSMOS (que intentan usar datos de twitter para este tipo de propósitos), clasifica las reacciones en tres categorías: la de los entusiastas (ver por ejemplo la charla TED de Anne Milgram), la de los críticos (ver el paper de Sonjia Starr), y la de los escépticos (entre los que se cuenta el propio Edwards). En España, mi muy estimado colega y una de las autoridades nacionales en evaluación de riesgo, el Profesor Antonio Andres Pueyo, entraba a describir y valorar alguno de estos desarrollos en un blog reciente en un tono generalmente positivo que se hace eco del PSA-Court desarrollado por la fundación que tiene como vice-presidente a la entusiasta Anne Milgram, asi como de otros instrumentos empleados en contextos diversos.

Yo soy de los que ve el vaso medio vacío. De los escépticos. Creo que, para mi evidentemente, es importante tratar de mejorar las decisiones que se toman en el ámbito penal y que puede haber espacio para el uso de modelos predictivos en este contexto. Pero creo que tenemos que andarnos con mucho ojo al respecto, por una serie de razones.

Primero, porque como dicen los daneses es “difícil hacer predicciones, sobre todo predicciones sobre el futuro”. Esto no quiere decir que sea imposible, pero simplemente reconocer que a día de hoy nos queda mucho recorrido por delante. El meta análisis de Seena Fazel y sus colegas (2012) concluía que “after 30 years of development, the view that violence, sexual, or criminal risk can be predicted in most cases is not evidence based. This message is important for the general public, media, and some administrations who may have unrealistic expectations of risk prediction”  y que, para fines penales, “risk assessment tools in their current form can only be used to roughly classify individuals at the group level, and not to safely determine criminal prognosis in an individual case”. Uno puede o no compartir esta conclusión. Pero cuanto menos hay que reconocer que el debate existe y deberíamos ponerlo al frente de cualquier propuesta.

Segundo, porque realmente existen problemas de algoritmos discriminatorios y esto es algo sobre lo que la comunidad matemática e informática está cada vez más concienciada a medida que las técnicas desarrolladas en el campo de aprendizaje de máquinas se emplean en contextos como el penal. Anne Milgram en su respuesta a un artículo del New York Times sobre estos problemas mostraba una candidez injustificada. Decir que el instrumento que ellos investigaron no discrimina “porque no toma en consideración variables como raza” es no entender cómo funcionan las técnicas de aprendizaje de máquinas. Esto lo explica muy bien Moritz Hardt: “a learning algorithm is designed to pick up statistical patterns in training data. If the training data reflect existing social biases against a minority, the algorithm is likely to incorporate these biases. This can lead to less advantageous decisions for members of these minority groups. Some might object that the classifier couldn’t possibly be biased if nothing in the feature space speaks of the protected attributed, e.g., race. This argument is invalid. After all, the whole appeal of machine learning is that we can infer absent attributes from those that are present. Race and gender, for example, are typically redundantly encoded in any sufficiently rich feature space whether they are explicitly present or not.” (ver también el reciente artículo de Barocas y Selbts, 2015).

Pensemos en un ejemplo. A menudo se dice que un buen predictor de la conducta futura es la conducta pasada. En justicia penal no tenemos medidas “objetivas” de conducta pasada, pero podemos tener “proxies” como detenciones o intervenciones penales ejecutadas contra un determinado sujeto. Estas proxies si pueden ser empleadas en nuestros modelos. Sin embargo, estas proxies no solamente miden conducta pasada, también miden los sesgos del sistema de justicia penal, que no suele detener o procesar por igual a blancos y negros, inmigrantes y nacionales, etc. Incorporar estas proxies, por tanto, también incorpora en el modelo el sesgo del sistema de justicia penal. No nos olvidemos, por otra parte, que la medida que generalmente se utiliza para validar modelos predictivos (lo que vamos a predecir) en el ámbito de la justicia penal son… err… datos de las justicia penal sobre nuevos delitos (que no suele detener o procesar por igual a blancos y negros, inmigrantes y nacionales, etc).

La comunidad científica y jurídica está tratando de trabajar sobre estos problemas. Las conferencias sobre “Fairness, Accountability and Transparency in Machine Learning”, que solamente llevan dos años funcionando, se han convertido en uno de los foros en los que se discute este tipo de cuestiones. Pero como digo, tenemos que andarnos con ojo y ser muy conscientes de los problemas que este tipo de modelos traen consigo. Como Barocas y Selbst (2015) plantean “addressing the sources of this unintentional discrimination and remedying the corresponding deficiencies in the law will be difficult technically, difficult legally, and difficult politically” y “there are a number of practical limits to what can be accomplished computationally.”

De lo que no cabe duda es que estamos en un momento histórico en el que realmente, dada la magnitud de los retos, es fascinante trabajar sobre este tipo de temas, tanto en el lado más técnico, como en el lado más político y jurídico.

Predecir el futuro (Parte Primera): la reforma de VioGen

Recientemente se anunciaba que el Ministerio de Interior planifica la sustitución de VioGen por un nuevo instrumento de valoración policial del riesgo de violencia de género. Posiblemente esto no es sino una respuesta a la crisis de turno (al haberse destacado un número elevado de homicidios en el que el riesgo pronosticado fue bajo). En la actualidad lidero un proyecto financiado por el Economic and Social Research Council para investigar los instrumentos empleados en el Reino Unido (DASH) y tratar de construir un modelo que clasifique mejor que el actual, con lo cual este tipo de noticias me interesa particularmente.

El uso de este tipo de instrumentos por parte de la policía se desarrolló inicialmente en Estados Unidos, como una forma de gestionar el mayor volumen de casos que resultaron de la criminalización de este tipo de situaciones y también como un mecanismo para tratar de desarrollar una respuesta más individualizada.  España, a diferencia de lo que ocurre en muchos otros países generalmente considerados más desarrollados, tiene la fortuna de contar con un sistema de implantación nacional construido sobre una herramienta informática de uso común entre los profesionales de la justicia penal que responden a este fenómeno.  Este modelo ha servido de inspiración a otros países de nuestro entorno cultural.

Desgraciadamente no todo lo que se puede escribir sobre VioGen puede tener el mismo carácter laudatorio. Existen una serie de aspectos sobre el mismo y, fundamentalmente, sobre su desarrollo que resultan más cuestionables. El primero es la opacidad y falta de transparencia ligada a su construcción y evaluación científica. Existe una amplia bibliografía científica sobre los instrumentos empleados fuera de España. Eso permite a la comunidad científica, esos puñeteros escépticos organizados, ponderar sus limitaciones y plantear posibles vías para su mejora. En un contexto en el que cada vez somos más conscientes de la necesidad de replicación científica y que ningún estudio por sí mismo puede convertirse en la respuesta definitiva, la transparencia sobre métodos y resultados es fundamental (y mucho más democrático). Evidence based policy no significa simplemente colaborar con la Universidad. Evidence based policy significa permitir que la base científica de las políticas sea objeto del examen de la comunidad científica. Eso no se puede hacer con las puertas cerradas.

Lo muy poquito que se encuentra en el dominio público sobre la base científica de VioGen se centran en una presentación de power point elaborada por colegas de la Universidad Autónoma de Madrid y una tesis doctoral elaborada por Jorge Zurita Bayona. Hilton y sus colegas (2004) han criticado como en Norte América una buena parte de la investigación sobre estos instrumentos ha utilizado métodos más orientados a la construcción de test psicológicos que al desarrollo y evaluación de modelos predictivos. Y lo poco que hay en España de literatura gris sobre VioGen, aunque ofrece datos interesantes, también da la sensación de que en España hemos pecado de lo mismo. Ninguno de estos estudios ofrece respuestas inequívocas a dos cuestiones fundamentales en relación con VioGen.

En primer lugar, a día de hoy, y por más que he buscado, rebuscado, y preguntado a personas relevantes, aún no he conseguido averiguar cuál es el error de clasificación que resulta cuando se aplica VioGen. Cualquier predicción genera falsos positivos y falsos negativos. Es absolutamente fundamental conocer, por tanto, el error de clasificación de un instrumento cuya función esencial es clasificar a las víctimas en distintos niveles de riesgo. Sin embargo, a día de hoy ese error de clasificación (si es que ha sido estimado y tengo mis serias dudas dado el silencio generalizado a mis preguntas) no se encuentra en el dominio público. Y, francamente, el error de clasificación de los instrumentos que han sido evaluados fuera de nuestras fronteras no es como para tirar cohetes, ni los métodos empleados para producir dichas estimaciones, como decía Hilton y sus colegas, han sido siempre los más apropiados.

Type-I-and-II-errors1-625x468

A día de hoy, tampoco existe nada publicado sobre la praxis de la aplicación de este instrumento. Los ítems que conforman el instrumento son los suficientemente ambiguos como para generar entendimientos variados, los atributos de los agentes de policía que tienen que desarrollar estos instrumentos también varían, y todo lo que sabemos de la literatura comparada en estos temas es que estos factores pueden condicionar de forma muy notable la calidad de las evaluaciones que se realizan y, por tanto, también del error de clasificación. En España, a diferencia de lo que ocurre en el Reino Unido, no existen organismos con la función de fiscalizar la labor policial por medio de auditorías de su labor. La última gran auditoria sobre estas cuestiones en el Reino Unido destacó problemas serios en la forma en que DASH, el instrumento utilizado en el Reino Unido, es aplicado por la policía. El College of Policing está trabajando en estas cuestiones en la actualidad. Dudo mucho que en España la aplicación sea tal que no existan problemas en su aplicación y, sin embargo, no sabemos nada al respecto.

Espero que la reforma del instrumento que promete el Ministerio de Interior se desarrolle de forma un tanto más transparente. Sin embargo, de momento lo único que sabemos es que se planea utilizar un instrumento con más predictores. Esto no es ni mucho menos garantía de mejor clasificación. Un instrumento con más “predictores” no nos da mejor clasificación, nos da un instrumento con más predictores. Cantidad no es equivalente a calidad. En predicción, en ciencia en líneas generales, buscamos soluciones parsimoniosas.  Como Einstein decía “everything should made as simple as possible, but not simpler” o J.H. Holland “model building is the art of selecting those aspects of a process that are relevant to the question being asked” (el énfasis es mío). De hecho, no es descabellado pensar que más predictores pueden degradar la calidad del instrumento, no solo por una cuestión matemática, sino porque en definitiva estamos dándole más trabajo al agente que lo cumplimenta y, en la medida que la información sobre los factores de riesgo procede fundamentalmente de la víctima, estamos haciendo el encuentro entre agente y víctima más gravoso e intrusivo para la víctima. La experiencia británica sugiera que no deberíamos tener demasiada fe en obtener respuestas demasiado fiables en estos contextos. ¿Le abriría usted su vida al primer agente de policía que se planta en su casa? Todo esto tiene el potencial efecto de incrementar el error de medición de los factores de riesgo que a su vez tiene el consabido efecto, ampliamente discutido en la literatura estadística y de aprendizaje de máquinas, de degradar las predicciones resultantes. De hecho, esta es mi hipótesis fundamental para explicar lo mal que predicen los instrumentos empleados en el Reino Unido.

A quien le interese el tema, no le vendría mal leer la reciente entrada escrita por mi querido colega el Profesor Antonio Andres Pueyo en su blog sobre la prevención de la violencia legal de género.

In Valencia with Ben Bradford (sort of)

Today I’m attending a workshop in Valencia. Ben Bradford and a team of researchers from the Universidad de Valencia are presenting the final report of a study funded by the Open Society on the use and consequences of stop and search by Spanish police. The report is quite interesting. If you can read Spanish it was distributed as a pdf (here). Even if you don’t read good Spanish you may be able to get the gist of the tables.

Basically, they found out what was expected. The Spanish State is not very good at “open data”, as I have discussed in this blog in various occasions. Ethnic minorities are disproportionately targeted, adjusting for some confounders. And stop and search has an impact on attitudes toward the police (e.g., police legitimacy). Ben played a role in design and analysis and brought to the project the insights from their work on procedural justice.

Unfortunately, I will be in Valencia only virtually. Via a Skype connection. Providing it works. Thus, no paella and sunshine for me nor opportunities to catch up informally with well-liked colleagues and friends. Plus I could not see/attend the full event. Teaching has those drawbacks.

This is the gist of what I plan to say. I think it is a great and much needed study and that our Valencian colleagues have made a wonderful contribution. Seriously, in Spain is not easy to do empirical criminology with money, perhaps even less so if it has a bit of a critical edge to it. Without the support of external organisations such as the Open Society is really hard to do research of certain kind. Let’s now hope someone takes notice (always the optimist) and that this generate some momentum in the rather langid field of Spanish police research.

I’ve been busy, you know!?

Clases terminadas, ¡Yeah! Largas filas en mi puerta de estudiantes buscando desesperadamente ayuda con sus proyectos de análisis de datos en el último minuto y que (¡todavía!) no entienden lo que es una variable categórica, doctorandos felices de que ahora no tengo la excusa de la vorágine de las clases para darles un poquito más de cariño,  una montaña de exámenes y papers que corregir a partir del 15 de Mayo, y todos esos proyectos pendientes de que terminaran las clases (he perdido la cuenta de ellos: err… escribir más frecuentemente en el blog, aprender cómo funciona QuantumGIS y GRASS, 7 o 8 papers pendientes, visionar alguno de los cursos de Coursera, preparar los materiales para mi nuevo curso en crime mapping y analisis espaciales de la delincuencia, pillar una raspberry pi para juguetear con Python, etc). Lluvia y frio. Hmmm… primavera académica en Manchester. ¡Cuando uno ha crecido con primaveras de feria, sol, cervezita con tomatito aliñado en la Plaza del Salvador, y flores de azahar esto es duro!

Al menos me han regalado un jazmín (a falta de naranjos tendré que apañarme) y estoy optimizando mi workflow, dos papers recientemente aceptados: uno sobre  controles policiales en Policing and Society y otro sobre el uso de encuestas para medir la pertenencia a bandas en el European Journal of Criminology. Y otro que esta también prácticamente aceptado en el Journal of Research in Crime and Delinquency (ya colgare el link cuando salga) sobre el impacto de la pertenencia a bandas.Y tal y como estan las cosas por el patio nacional no deberia quejarme de la  dichosa nube.

todos los dias.

Legitimidad, actuación policial y minorías étnicas

Recientemente el Consejo de Europa publicaba su tercera opinión sobre el tratamiento de minorías en España. El documento no tiene desperdicio. Aunque el énfasis de muchas de las valoraciones se centra en la situación de los gitanos, también aborda otros colectivos y temas. En lo que a un criminólogo respecta se realizan una serie de consideraciones sobre la lucha contra los delitos racialmente motivados y sobre el uso de perfiles étnicos en las paradas de identificación. Como sabéis este es un tema sobre el que tengo un particular interés. El Consejo de Europa insiste en la necesidad de que este tipo de perfiles étnicos dejen de emplearse, en mejorar la formación de los agentes de policía en este ámbito, y en el desarrollo de sistemas de datos que permitan evaluar la existencia de discriminación a manos de la justicia y la policía. Dudo que en el Ministerio de Interior y en el de Justicia de pronto les vaya a dar por copiar a los ingleses y obligar por ley a la recopilación y publicación de este tipo de datos. Eso sería transparencia de verdad, algo de lo que en España entendemos y respetamos muy poco. Pero mientras más sean las voces que demanden este tipo de información mejor. Mientras tanto en lugar de fomentar la idea de una policía que actúa correctamente aquí tenemos lo que tenemos (i.e., indultos a policías condenados por brutalidad). Volvemos a Tyler, ¿así queremos fomentar la obediencia al derecho y el respeto a la institución policial?