Predecir el futuro (Parte Primera): la reforma de VioGen

Recientemente se anunciaba que el Ministerio de Interior planifica la sustitución de VioGen por un nuevo instrumento de valoración policial del riesgo de violencia de género. Posiblemente esto no es sino una respuesta a la crisis de turno (al haberse destacado un número elevado de homicidios en el que el riesgo pronosticado fue bajo). En la actualidad lidero un proyecto financiado por el Economic and Social Research Council para investigar los instrumentos empleados en el Reino Unido (DASH) y tratar de construir un modelo que clasifique mejor que el actual, con lo cual este tipo de noticias me interesa particularmente.

El uso de este tipo de instrumentos por parte de la policía se desarrolló inicialmente en Estados Unidos, como una forma de gestionar el mayor volumen de casos que resultaron de la criminalización de este tipo de situaciones y también como un mecanismo para tratar de desarrollar una respuesta más individualizada.  España, a diferencia de lo que ocurre en muchos otros países generalmente considerados más desarrollados, tiene la fortuna de contar con un sistema de implantación nacional construido sobre una herramienta informática de uso común entre los profesionales de la justicia penal que responden a este fenómeno.  Este modelo ha servido de inspiración a otros países de nuestro entorno cultural.

Desgraciadamente no todo lo que se puede escribir sobre VioGen puede tener el mismo carácter laudatorio. Existen una serie de aspectos sobre el mismo y, fundamentalmente, sobre su desarrollo que resultan más cuestionables. El primero es la opacidad y falta de transparencia ligada a su construcción y evaluación científica. Existe una amplia bibliografía científica sobre los instrumentos empleados fuera de España. Eso permite a la comunidad científica, esos puñeteros escépticos organizados, ponderar sus limitaciones y plantear posibles vías para su mejora. En un contexto en el que cada vez somos más conscientes de la necesidad de replicación científica y que ningún estudio por sí mismo puede convertirse en la respuesta definitiva, la transparencia sobre métodos y resultados es fundamental (y mucho más democrático). Evidence based policy no significa simplemente colaborar con la Universidad. Evidence based policy significa permitir que la base científica de las políticas sea objeto del examen de la comunidad científica. Eso no se puede hacer con las puertas cerradas.

Lo muy poquito que se encuentra en el dominio público sobre la base científica de VioGen se centran en una presentación de power point elaborada por colegas de la Universidad Autónoma de Madrid y una tesis doctoral elaborada por Jorge Zurita Bayona. Hilton y sus colegas (2004) han criticado como en Norte América una buena parte de la investigación sobre estos instrumentos ha utilizado métodos más orientados a la construcción de test psicológicos que al desarrollo y evaluación de modelos predictivos. Y lo poco que hay en España de literatura gris sobre VioGen, aunque ofrece datos interesantes, también da la sensación de que en España hemos pecado de lo mismo. Ninguno de estos estudios ofrece respuestas inequívocas a dos cuestiones fundamentales en relación con VioGen.

En primer lugar, a día de hoy, y por más que he buscado, rebuscado, y preguntado a personas relevantes, aún no he conseguido averiguar cuál es el error de clasificación que resulta cuando se aplica VioGen. Cualquier predicción genera falsos positivos y falsos negativos. Es absolutamente fundamental conocer, por tanto, el error de clasificación de un instrumento cuya función esencial es clasificar a las víctimas en distintos niveles de riesgo. Sin embargo, a día de hoy ese error de clasificación (si es que ha sido estimado y tengo mis serias dudas dado el silencio generalizado a mis preguntas) no se encuentra en el dominio público. Y, francamente, el error de clasificación de los instrumentos que han sido evaluados fuera de nuestras fronteras no es como para tirar cohetes, ni los métodos empleados para producir dichas estimaciones, como decía Hilton y sus colegas, han sido siempre los más apropiados.

Type-I-and-II-errors1-625x468

A día de hoy, tampoco existe nada publicado sobre la praxis de la aplicación de este instrumento. Los ítems que conforman el instrumento son los suficientemente ambiguos como para generar entendimientos variados, los atributos de los agentes de policía que tienen que desarrollar estos instrumentos también varían, y todo lo que sabemos de la literatura comparada en estos temas es que estos factores pueden condicionar de forma muy notable la calidad de las evaluaciones que se realizan y, por tanto, también del error de clasificación. En España, a diferencia de lo que ocurre en el Reino Unido, no existen organismos con la función de fiscalizar la labor policial por medio de auditorías de su labor. La última gran auditoria sobre estas cuestiones en el Reino Unido destacó problemas serios en la forma en que DASH, el instrumento utilizado en el Reino Unido, es aplicado por la policía. El College of Policing está trabajando en estas cuestiones en la actualidad. Dudo mucho que en España la aplicación sea tal que no existan problemas en su aplicación y, sin embargo, no sabemos nada al respecto.

Espero que la reforma del instrumento que promete el Ministerio de Interior se desarrolle de forma un tanto más transparente. Sin embargo, de momento lo único que sabemos es que se planea utilizar un instrumento con más predictores. Esto no es ni mucho menos garantía de mejor clasificación. Un instrumento con más “predictores” no nos da mejor clasificación, nos da un instrumento con más predictores. Cantidad no es equivalente a calidad. En predicción, en ciencia en líneas generales, buscamos soluciones parsimoniosas.  Como Einstein decía “everything should made as simple as possible, but not simpler” o J.H. Holland “model building is the art of selecting those aspects of a process that are relevant to the question being asked” (el énfasis es mío). De hecho, no es descabellado pensar que más predictores pueden degradar la calidad del instrumento, no solo por una cuestión matemática, sino porque en definitiva estamos dándole más trabajo al agente que lo cumplimenta y, en la medida que la información sobre los factores de riesgo procede fundamentalmente de la víctima, estamos haciendo el encuentro entre agente y víctima más gravoso e intrusivo para la víctima. La experiencia británica sugiera que no deberíamos tener demasiada fe en obtener respuestas demasiado fiables en estos contextos. ¿Le abriría usted su vida al primer agente de policía que se planta en su casa? Todo esto tiene el potencial efecto de incrementar el error de medición de los factores de riesgo que a su vez tiene el consabido efecto, ampliamente discutido en la literatura estadística y de aprendizaje de máquinas, de degradar las predicciones resultantes. De hecho, esta es mi hipótesis fundamental para explicar lo mal que predicen los instrumentos empleados en el Reino Unido.

A quien le interese el tema, no le vendría mal leer la reciente entrada escrita por mi querido colega el Profesor Antonio Andres Pueyo en su blog sobre la prevención de la violencia legal de género.

Advertisements

2 thoughts on “Predecir el futuro (Parte Primera): la reforma de VioGen

  1. Hola Juan José. Muy interesante. Soy uno de los responsables del Sistema VioGén. Asumimos la culpa de no publicar sobre el Sistema, pero es más por “pereza académica” (nos come el día a día) que por “oscurantismo”, puesto que siempre estamos encantados de enseñar el Protocolo de Valoración Policial del Riesgo (que efectivamente estamos tratando de mejorar) a quién esté interesado, de primera mano. Si vas a pasar por Madrid en algún momento no dejes de contactar con nosotros y te lo enseñamos. Además está en prensa una publicación sobre el VPR en vigor.

    • Querido Jose Luis,

      Gracias por tu comentario y tu invitacion. Estoy seguro de que no es oscurantismo. Soy tambien muy consciente de las limitaciones que existen en los ministerios espanoles con relacion al tema de investigacion, en fin no hay los recursos personales que existen en otras latitudes para este tipo de temas. Estoy seguro de que esto juega un mayor papel que la “pereza”.

      Tienes los detalles de dicha publicacion? Me serian de gran utilidad. Puedes arrojar algo de luz sobre el tema del error de clasificacion? Y que metodos pensais emplear para validar el nuevo instrumento? Como indicaba al principio de la entrada estamos metidos de lleno en esta tema, colaborando con el College of Policing y varias fuerzas policiales (de momento Greater Manchester, South Wales, Essex, Cheshire) y tambien podeis contar con nuestro equipo para lo que sea.

      De hecho, una de las cosas que voy a ver si consigo financiacion aqui en el Reino Unido es para organizar un taller de intercambio de experiencias. Y estaria muy bien, si consigo dicha financiacion, si pudierais enviar algun delegado. Una de las cosas que a los Britanicos les puede venir muy bien es comprobar que se puede construir una herramienta informatica centralizada. Aqui cada fuerza policial va por su lado y eso crea todo tipo de problemas. Si prefieres podemos discutir estas cosas por correo electronico.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s