Predecir el futuro (Parte Primera): la reforma de VioGen

Recientemente se anunciaba que el Ministerio de Interior planifica la sustitución de VioGen por un nuevo instrumento de valoración policial del riesgo de violencia de género. Posiblemente esto no es sino una respuesta a la crisis de turno (al haberse destacado un número elevado de homicidios en el que el riesgo pronosticado fue bajo). En la actualidad lidero un proyecto financiado por el Economic and Social Research Council para investigar los instrumentos empleados en el Reino Unido (DASH) y tratar de construir un modelo que clasifique mejor que el actual, con lo cual este tipo de noticias me interesa particularmente.

El uso de este tipo de instrumentos por parte de la policía se desarrolló inicialmente en Estados Unidos, como una forma de gestionar el mayor volumen de casos que resultaron de la criminalización de este tipo de situaciones y también como un mecanismo para tratar de desarrollar una respuesta más individualizada.  España, a diferencia de lo que ocurre en muchos otros países generalmente considerados más desarrollados, tiene la fortuna de contar con un sistema de implantación nacional construido sobre una herramienta informática de uso común entre los profesionales de la justicia penal que responden a este fenómeno.  Este modelo ha servido de inspiración a otros países de nuestro entorno cultural.

Desgraciadamente no todo lo que se puede escribir sobre VioGen puede tener el mismo carácter laudatorio. Existen una serie de aspectos sobre el mismo y, fundamentalmente, sobre su desarrollo que resultan más cuestionables. El primero es la opacidad y falta de transparencia ligada a su construcción y evaluación científica. Existe una amplia bibliografía científica sobre los instrumentos empleados fuera de España. Eso permite a la comunidad científica, esos puñeteros escépticos organizados, ponderar sus limitaciones y plantear posibles vías para su mejora. En un contexto en el que cada vez somos más conscientes de la necesidad de replicación científica y que ningún estudio por sí mismo puede convertirse en la respuesta definitiva, la transparencia sobre métodos y resultados es fundamental (y mucho más democrático). Evidence based policy no significa simplemente colaborar con la Universidad. Evidence based policy significa permitir que la base científica de las políticas sea objeto del examen de la comunidad científica. Eso no se puede hacer con las puertas cerradas.

Lo muy poquito que se encuentra en el dominio público sobre la base científica de VioGen se centran en una presentación de power point elaborada por colegas de la Universidad Autónoma de Madrid y una tesis doctoral elaborada por Jorge Zurita Bayona. Hilton y sus colegas (2004) han criticado como en Norte América una buena parte de la investigación sobre estos instrumentos ha utilizado métodos más orientados a la construcción de test psicológicos que al desarrollo y evaluación de modelos predictivos. Y lo poco que hay en España de literatura gris sobre VioGen, aunque ofrece datos interesantes, también da la sensación de que en España hemos pecado de lo mismo. Ninguno de estos estudios ofrece respuestas inequívocas a dos cuestiones fundamentales en relación con VioGen.

En primer lugar, a día de hoy, y por más que he buscado, rebuscado, y preguntado a personas relevantes, aún no he conseguido averiguar cuál es el error de clasificación que resulta cuando se aplica VioGen. Cualquier predicción genera falsos positivos y falsos negativos. Es absolutamente fundamental conocer, por tanto, el error de clasificación de un instrumento cuya función esencial es clasificar a las víctimas en distintos niveles de riesgo. Sin embargo, a día de hoy ese error de clasificación (si es que ha sido estimado y tengo mis serias dudas dado el silencio generalizado a mis preguntas) no se encuentra en el dominio público. Y, francamente, el error de clasificación de los instrumentos que han sido evaluados fuera de nuestras fronteras no es como para tirar cohetes, ni los métodos empleados para producir dichas estimaciones, como decía Hilton y sus colegas, han sido siempre los más apropiados.

Type-I-and-II-errors1-625x468

A día de hoy, tampoco existe nada publicado sobre la praxis de la aplicación de este instrumento. Los ítems que conforman el instrumento son los suficientemente ambiguos como para generar entendimientos variados, los atributos de los agentes de policía que tienen que desarrollar estos instrumentos también varían, y todo lo que sabemos de la literatura comparada en estos temas es que estos factores pueden condicionar de forma muy notable la calidad de las evaluaciones que se realizan y, por tanto, también del error de clasificación. En España, a diferencia de lo que ocurre en el Reino Unido, no existen organismos con la función de fiscalizar la labor policial por medio de auditorías de su labor. La última gran auditoria sobre estas cuestiones en el Reino Unido destacó problemas serios en la forma en que DASH, el instrumento utilizado en el Reino Unido, es aplicado por la policía. El College of Policing está trabajando en estas cuestiones en la actualidad. Dudo mucho que en España la aplicación sea tal que no existan problemas en su aplicación y, sin embargo, no sabemos nada al respecto.

Espero que la reforma del instrumento que promete el Ministerio de Interior se desarrolle de forma un tanto más transparente. Sin embargo, de momento lo único que sabemos es que se planea utilizar un instrumento con más predictores. Esto no es ni mucho menos garantía de mejor clasificación. Un instrumento con más “predictores” no nos da mejor clasificación, nos da un instrumento con más predictores. Cantidad no es equivalente a calidad. En predicción, en ciencia en líneas generales, buscamos soluciones parsimoniosas.  Como Einstein decía “everything should made as simple as possible, but not simpler” o J.H. Holland “model building is the art of selecting those aspects of a process that are relevant to the question being asked” (el énfasis es mío). De hecho, no es descabellado pensar que más predictores pueden degradar la calidad del instrumento, no solo por una cuestión matemática, sino porque en definitiva estamos dándole más trabajo al agente que lo cumplimenta y, en la medida que la información sobre los factores de riesgo procede fundamentalmente de la víctima, estamos haciendo el encuentro entre agente y víctima más gravoso e intrusivo para la víctima. La experiencia británica sugiera que no deberíamos tener demasiada fe en obtener respuestas demasiado fiables en estos contextos. ¿Le abriría usted su vida al primer agente de policía que se planta en su casa? Todo esto tiene el potencial efecto de incrementar el error de medición de los factores de riesgo que a su vez tiene el consabido efecto, ampliamente discutido en la literatura estadística y de aprendizaje de máquinas, de degradar las predicciones resultantes. De hecho, esta es mi hipótesis fundamental para explicar lo mal que predicen los instrumentos empleados en el Reino Unido.

A quien le interese el tema, no le vendría mal leer la reciente entrada escrita por mi querido colega el Profesor Antonio Andres Pueyo en su blog sobre la prevención de la violencia legal de género.

Congresos

Recientemente me ha llegado publicidad de un par de congresos que a lo mejor os interesan. El primero es el congreso español de sociología. Hasta ahora los sociólogos españoles han estado muy desvinculados de la criminología. A pesar de que fuera de nuestras fronteras la criminología se ha desarrollado fundamentalmente como una disciplina que nace de la sociología, en nuestro país el input de los juristas y los psicólogos ha sido más importante. Poquito a poco esto parece estar cambiando. Diego Torrente, uno de los outliers, señala que este año el congreso español tendrá una sección dedicada a la sociología jurídica y a la criminología. Por otro lado, el Instituto Internacional de Sociología Jurídica en Oñati organiza un congreso sobre perspectivas internacionales en violencia de género. ¿Quién dice que los académicos nos pasamos el verano descansando?

No todo es gris

Acabo de recibir el último numero del European Journal of Criminology, el correspondiente al mes de noviembre. ¡Y ya podían haberlo titulado “El suplemento español”! En el mismo aparecen artículos: de Pepe Cid y Joel Marti sobre desistencia (lo que Pepe se empeña en llamar“desistimiento”, usando este malsonante sinónimo a pesar del muy diferente significado de este término en el Código Penal); de Jorge Rodriguez y Ana Safranoff sobre violencia doméstica con datos de la macroencuesta de malos tratos; y de Cesar San-Juan, Laura Vozmediano y Anabel Vergara sobre miedo al delito y medidas personales de protección en el contexto urbano. Estoy por ponerme la camiseta de la roja, sacar la bandera y ponerme a dar gritos en el pasillo del departamento. Puede que suene un poco a guasa sevillana lo que voy a decir, pero la verdad es que es un momento histórico. Nunca antes una revista internacional de criminología había tenido tanto contenido producido por investigadores españoles. Como decimos por nuestra tierra, será que el hambre agudiza el ingenio. Está claro que ganas y talento no nos falta para producir investigación de calidad, lo que nos falta y lo que nos limita es la falta de apoyo institucional.