Smart cities, smart policing?

I’m just back from lovely Barcelona where I was presenting a paper in a conference on smart cities organised by the UOC. It was a well organised event with a number of really interesting presentations. I learned indeed a lot. Daniel Quercia presented some truly amazing work on mapping familiarity of people with different parts of cities, perceptions of areas, and his work on smell maps (pointers here, here, here, and here). Maybe the ggplot2 graphics/maps had already biased me. Wim Vanobberghen talked about more bottom up approaches to smart cities and the notion of city labs. And Prof. Bert-Jaap Koops talked about privacy and data protection as a zombie and discussed a number of helpful avenues for re-thinking our ideas about these issues in today’s uber-connected society.

I presented a paper on smart cities and smart policing. You can find it here. The whole thesis is that for the most part policing has helped to shape and perpetuate our understanding of smart cities from a top down approach. This vision of smart cities emphasises a very technocratic vision “that is dictated by business potential, commercial logic and efficiency thinking” and it is “closely related to the technologically deterministic idea of a “control room” for the city”. In contrast more bottom up approaches emphasise the idea of the empowered individual.

The idea that integrated data sharing and analytical technology would help the police to do a better job is something anybody that has observed the transformation of police practice in the world of GIS can certainly testify to. GIS technology has certainly played a big role here in terms of how police communicates with the public (think the website), has managed performance (think CompStat and the target culture that dominated policing during the Labour years in the UK), and has informed analysis of and responses to crime problems (think hot spots policing). These applications, however, have not been in my humble opinion sufficiently critical or self-reflective.

I have several concerns in this regard. First, ok we know the data is problematic. Donald Campbell and Goodhart could have told you so. Yet we (even very smart people) tend to use it as if it is not. Recording has become so dodgy that UK Statistics Authority de-registered police data as national statistics and a parliamentary enquiry had to be launched. HMIC also looked into it (I can hear now my Spanish readers/colleagues weeping at the level of auditing and rigour that these enquiries and steps suggest). Critically, we have a limited understanding of the systematic part of bias on recording practices, which mean it is difficult to adjust for it in any model. To this we need to add the fact that we have a limited understanding of how spatio-temporal attributes affect reporting practices, certainly in the UK. The international literature suggest that there are neighbourhood factors that come into play here. So the noise is systematic. Therefore, we need to do better. We need more work on this, both in terms of understanding these factors, but critically in terms of thinking on how we can then use this knowledge to adjust our maps and local estimates. This has implications for communication to the public and crime analysis, but also for evaluation of strategies. We need to move away from hot spots evaluations that rely exclusively or primarily in just crime data.

Regarding communication specifically, I still think presenting crime maps to the public is a double edge sword. You could say this can be empowering and consistent with a more bottoms up approach to policing. And yes I’m all up for open data and transparency. Hell, I can be a pain about it. Ask Pepe Cid about my insistence to develop policies for SEIC requiring authors to deposit their data in open repositories. But we don’t live in a world of black and white. First, let’s remember the data are dodgy to start with and the general public is not being sufficiently informed in how this is the case when the data is presented to them. I also agree with Alex Singleton and Chris Brundson on the issue of spurious precision. At the very least, the maps should come with stronger health warnings NOT ON THE SMALL PRINT. Why do you have to click on “Use the Data” (you got to be a nerd to do that) and process … words of text before you are provided (a rather technical for the average Joe and Jane) of the process of locational anonyimisation? It is true I find the maps helpful for teaching purposes and to persuade students that Chris Grayling has no f*****g clue when he compares Moss Side with Baltimore in the 90s (i.e., a bad year in Moss Side is a good weekend in Baltimore and it is the bars in the city centre you need to avoid if you want to escape a bruising). Indeed, when I was buying a house, I did check the maps. I can be a bit hypocritical but not stupid. And yet, and yet… These maps will more or less correctly identify some areas as problematic. Do we really want to make that very clear to everybody with internet connection? I don’t know. There’s a literature on the impact of crime on house prices, insurance, and community reputations preventing investment and contributing to stigmatise their local residents. Ok, you don’t need the public crime maps for this. But they possibly don’t help either. Maruna talk about how in the process of desistance offenders engage in redemption scripts that in some ways recount their personal history. Would this be possible if you tattoo in their forehead what they have done in the past? I think that at the very least we need to be asking these questions rather than assume that just because there may be some benefits to publicise crime maps we should go down that route. When we were doing our ethnographic work on gangs, many of the regeneration agencies we encounter were adamant that in their areas they didn’t have gangs (they did). But there’s a reason why they put forward that vision. Their job is to regenerate areas and this kind of characterisations are not terribly helpful in the process. Let’s also not forget these maps help to reinforce a particularly narrow and skewed vision of what crime is all about (you won’t see in police uk a map of fraud or insider trading) and what the police mission is all about (chasing crime: contrast this with Jerry’s presentation, start around minute 12). Although, of course, we cannot map what matters, if we don’t really measure what matters.

Critically, I’m not clear how these models and uses can be made compatible with a more bottom-up, participatory and democratic understanding of smart cities (and by that extension of policing). I think the future is concerning. The increasing availability of new surveillance “sensors” raises important questions about privacy. The shift from trying to detect hotspots to predicting individual offending (particularly within a policing context, in corrections and probation this is far from new) raises equally concerning questions. And this is not just a US thing. The MET, at the very least, explored similar technologies (check the presentation from Muz) in the context of gang crime with the help of Accenture. It is not only civil libertarians that are concerned with these applications of data mining techniques. Machine learning and data scientists are also increasingly aware of the implications of their models and have initiated an ongoing debate about fairness and transparency of algorithms used for decision making on areas that matter to citizens. Initiatives such as data justice are worth keeping an eye on. There is money to be made by selling predictive modelling to the police. And some are taking an unashamedly aggressive and partly misleading approach to the branding and marketing of their products. There is indeed potential to be explored. But is essential we take a more critical and reflective approach and not be seduced by the sirens of technological progress. The history of policing is full of errors that resulted in skewed priorities associated with the adoption of new technologies. Let’s learnt from the past. Let’s experiment. But let’s not rush to put “solutions” into production and let’s think about not only whether these solutions “work” but also whether they are fair and just.

Alice Goffman “On the Run”

La SEIC tuvo la gracia de poner mi blog en el último boletín de la misma, con lo cual ahora no me queda otra que actualizarlo. Comencé con el blog pensando que, en fin, nunca podría llegar a alcanzar las cotas de gente como Andrew Gelman (a entrada por día), pero que por lo menos me daría para escribir una entrada al mes. Varios semestres más tardes la realidad de las demandas de la vida académica me han dado otra perspectiva. A pesar de ello, intentare darle un poco de más vidilla al blog en los próximos meses.

Y rápidamente comenzar con traer aquí el debate que se ha generado sobre el último libro de Alice Goffman. Esta academica norteamericana publicó un libro “On the run”, su primer libro, que tuvo una recepción critica muy buena. Esta, por ejemplo, es la revisión de Tim Newburn. Sin embargo, más recientemente se ha generado un auténtico revuelo sobre este trabajo y a Alice no han dejado de crecerle los enanos. Desde algunos sectores, su trabajo fue muy criticado.

Esta última semana leía, vía twitter, un par de artículos en la prensa norteamericana (New York magazine and The Huffington Post) sobre el caso que van un poco más allá del análisis superficial y un poco persecutorio que se ha generado. Estos dos artículos están muy bien como material de clase para discutir distintos aspectos sobre la investigación etnográfica (i.e., aspectos éticos, fact-checking, etc.), particularmente cuando se hace para investigar aspectos relacionados con la delincuencia.  En un contexto en el que ideas sobre reproducibilidad se plantean como solución, al menos parcial, al problema del fraude en la investigación cuantitativa, también plantea cuestiones sobre como adoptar este tipo de prácticas en el caso de la investigación cualitativa.

Aún no he tenido tiempo para leer el libro, pero ciertamente es uno de los que intentare llevarme en mi bolsa de playa. Esta es una TED talk de Alice, por si se os apetece una tapita. And yes, she is the daughter of Ervin.

Salidas laborales

Mirar aqui. Aunque menciono el tema del tipo de alumno, tambien ha que destacar que aqui hay una variable que puede confundir mucho. Me consta que en Girona en la primera cohorte habia mucho policia registrado. Es decir, a la hora de valorar estos datos hay que tomar muy en cuenta si los alumnos vienen directamente del bachillerato o son profesionales con un puesto fijo que estan haciendo la titulacion en ratos libres.


Recursos para aprender R para criminólogos

 [For the English speakers, just announcing a bunch of R resources I am developing. Still very much alpha version (available from github). Comments welcome.]

Quienes que me conocéis mejor sabéis que me interesan las aplicaciones cuantitativas en criminología. Es una de mis pasiones y un tema sobre el que gira casi toda mi docencia aquí en Manchester, donde a raíz de una subvención reciente que hemos recibido estamos desarrollando una serie de experiencias para tratar de mejorar la formación cuantitativa de nuestros alumnos convirtiendo a Manchester en un centro de excelencia en este tipo de docencia.

Durante los últimos 3 años académicos me he centrado fundamentalmente en rediseñar nuestro modulo sobre Análisis de Datos para Criminólogos en la licenciatura, que enseñamos usando el modelo de la clase invertida (flipped classroom) y que he conseguido migrar al R Commander (un intuitivo GUI para R) sin que haya supuesto un trauma para nuestros alumnos. Estaba hasta las narices de hacerle publicidad gratis a IBM por un producto notablemente inferior y más costoso (SPSS). En la actualidad estoy trabajando en los materiales de un nuevo módulo sobre “Crime Mapping” y análisis de datos espaciales, para los alumnos de tercero, y actualizando los materiales para la versión de Análisis de Datos que damos en el master.

En el master no tenemos mucho tiempo para virguerías. Tengo tan solo 16 horas para este módulo y nos llegan a menudo alumnos con escasa o nula formación, por lo que prácticamente hay que empezar también desde cero, pero por dar algo a los que ya vienen con una base más sólida, introducimos los temas con R, pero no con el R Commander, sino con R puro y duro.

Por aquello del espíritu abierto, estoy experimentando con poner todos los materiales en un repositorio public de github. Una de las chulerías de la última versión de R Studio es que hace innecesario salir del entorno R para publicar, lo que facilita la publicación en HTML usando Pandoc Markdown. En fin, básicamente lo que esta entrada pretende hacer es anunciar que estos materiales (aún en fase de desarrollo) están disponibles para quien quiera utilizarlos. Podéis encontrar estos recursos para aprender R aquí.

Si alguien tiene interés en reutilizarlos para su propia docencia estos materiales vienen con una creative common licence. En otras palabras, usar y reciclar pero sin ánimo de lucro. Cuando tenga los ficheros en una versión más acabada también exportare a este repositorio los ficheros en markdown, lo cual hará más fácil este reciclaje si estáis familiarizados con R Studio y knitr.

Hasta entonces, si alguien tiene sugerencias o comentarios, please get in touch!

¿Cómo leer los resultados de encuestas? Reflexiones en torno a la encuesta europea de violencia contra la mujer

Este miércoles pasado la Agencia de Derechos Fundamentales de la Unión Europea presentaba los resultados de una encuesta social sobre la violencia de género. Esta encuesta representa posiblemente el proyecto de encuesta europea más ambicioso y sofisticado sobre esta materia. Sin embargo, la forma en que se presentaron los resultados no representa necesariamente un ejemplo de buena práctica; algo que posiblemente viene exacerbado por la cultura mediática en la que estamos inmersos y la dimensión política en esta área.

La prensa, ya lo sabemos, tiende a sensacionalizar y a distorsionar. Generalmente, se queda con los resultados más destacados en las notas de prensa emitidas por los investigadores o en los resúmenes ejecutivos de los informes de investigación. Así, “El Pais”, por ejemplo, nos contaba en titulares que “El 22% de las europeas ha sufrido violencia machista de su pareja”. En el texto del artículo se abundaba una de cada tres mujeres europeas ha sufrido violencia sexual y/o física y un 5% de mujeres europeas dijo haber sido violada.

Es en buena parte normal. Los periodistas no son investigadores sociales. Y somos los investigadores sociales los que tenemos que hacer el trabajo más fácil para ellos y para otros consumidores de este tipo de informes.

Desgraciadamente, por numerosas razones, los investigadores a veces pecamos de falta de suficiente rigor y cautela cuando presentamos este tipo de resultados al público en general. ¿Por qué? Muchas razones:

  • Hay que justificar con resultados impactantes el dineral que ha costado el proyecto
  • La visibilidad de los resultados tiene implicaciones en promocionarnos profesionalmente, sobre todo en un momento en el que se espera que las ciencias tengan “impacto” en la sociedad
  • Una forma de llamar atención sobre problemas sociales es dar la sensación de que estos afectan a un número muy importante de personas.
  • La fama tira

Sin embargo, es necesario el rigor. Y lo cierto es que un científico social generalmente confronta este tipo de informes de forma muy diferente a como lo hace un periodista o cualquier otra persona sin formación, en parte porque nuestro trabajo es evaluar la calidad de los resultados que se realizan en cualquier estudio, pero también porque somos conscientes de la presión que existe para presentarlos de forma un tanto hiperbólica. ¿Qué hace un profesional de la investigación social?

1)      No se para a leer el resumen ejecutivo, eso vendrá luego. Lo primero es irse tirado al Informe Técnico con los detalles metodológicos del estudio. Aquí miraremos varias cosas.

2)      ¿Cómo se administró la encuesta? El “gold standard” en este área usa una combinación de CAPI (Computer Assisted Personal Interviewing) para las preguntas sobre aspectos menos delicados con CASI (Computer Assissted Self Interviewing) para las preguntas más duras (todas las que preguntan sobre victimación violenta). El Crime Survey of England and Wales, por ejemplo, emplea este método que se ha demostrado es más eficaz a la hora de medir la victimación violenta. La Encuesta Europea uso entrevistas personales en el domicilio de las entrevistas, usando laptops en la mayoría de los países (solamente CAPI), lo que significa que las estimaciones sobre violencia son significativamente más bajas que si se hubiera usado CASI. La encuesta europea al final de la entrevista tenía un componente en el que se les pedía a las entrevistadas que rellenaran 6 preguntas adicionales sobre abuso de forma más confidencial (en un papel por si mismas que se metía en un cuestionario). Cuestiones presupuestarias posiblemente determinaron esta solución a medio camino.

3)      ¿Cuál es el tamaño muestral? En torno a las 42,000 entrevistas para toda Europa, lo que es un tamaño bastante decente para una encuesta de victimación, a unas 1500 entrevistas por país, lo que es entendible (desde un punto de vista presupuestario) pero que para una encuesta de victimación es limitado. Determinados comportamientos violentos que son más serios y relativamente menos comunes (por ejemplo, la violación) son más difíciles de estimar a nivel nacional con estos tamaños muestrales.  Algunas cosas son simplemente inestimables con estos tamaños nacionales como veremos más adelante.

4)      ¿Cuál es la tasa de respuesta? Un bastante pobre 42%. La mayoría de las personas que componían la muestra aleatoria no participaron en la encuesta. Aunque los métodos para computar la tasa de respuesta no son enteramente comparables la tasa de respuesta de la Crime Survey of England and Wales 2010-2011 fue 68%. Más preocupante es el hecho de que la tasa de respuesta varia muy notablemente de país a país: un 18.5%  en Luxemburgo a un 72.6% en Chipre. En España nos quedamos por debajo de la media, a un 31.1%. Estas variaciones complican sobremanera cualquier comparacion entre paises, ya que las muestras no son igualmente representativas entre ellos. A nivel individual, si quienes participan no se distinguen de forma notable de quienes no participan esto no es un problema. Pero es posible que las personas que no participan sean diferentes de quienes no lo hacen. Con tasas de respuesta tan baja esto es más probable. El problema es cuando aquello en lo que los participantes difieran de los no participantes (i.e., clase social) esté relacionado con lo que queremos estimar (i.e., violencia contra la mujer) porque entonces nuestras estimaciones estarán un tanto viciadas. Generalmente se trata de compensar esto por medio de complejos procesos de ponderación. Esta encuesta emplea procesos de ponderación para reducir el error de medición ajustando por grupo de edad y tomando en consideración si el individuo vivía en una zona rural o urbana. Pero no llega más allá, aunque presenta datos para argumentar que el sesgo posiblemente no es muy serio. La Crime Survey of England and Wales hasta el 2009 empleaba un procedimiento similar, pero a partir de entonces emplearon un nuevo procedimiento (p. 88) que daba mejores resultados.

5)      El resumen ejecutivo presenta estimaciones puntuales, pero lo que realmente nos interesan son los intervalos de confianza. Toda estimación basada en una encuesta viene con un margen de error. Las muestras no son un reflejo exacto de la población. Aunque en esta muestra un 21.6% de mujeres, como dicen los titulares, han podido sufrir algún tipo de violencia por parte de sus parejas, eso no significa que el porcentaje vaya a ser el mismo exactamente en la población. Esto es solo una estimación, conjetura o aproximación con un margen de error.

Sin entrar demasiado en tecnicismos, en las ciencias sociales empleamos intervalos de confianza que nos dan una idea más adecuada de cuál es el probable valor en la población.  Los investigadores preferimos que se reporten los resultados de encuestas usando intervalos de confianza porque no solamente nos dan una idea de cuál es este posible valor, sino que también nos dan una idea de lo precisa que es esta estimación.

Es solamente en el Informe Técnico (Tabla 10.1) que se nos ofrece esta información y solo en relación con algunas medidas incluidas en la encuesta. Así, sabemos que el intervalo de confianza para la violencia física o sexual oscila entre 20.4% y 22.8%. Si tomáramos repetidas muestras de la misma población el 95% de estas muestras nos darían proporciones de violencia comprendidas en esta horquilla (aunque el informe dice que “there is a 95 % probability that the true value of an indicator can be found between the lower and upper bounds of the confidence interval”, en teoría esto no es una interpretación correcta, el intervalo o incluye, o no incluye el valor en la población, la probabilidad es 1 o 0, pero esto nunca lo podemos saber).

Un buen estudio es uno que nos permite derivar intervalos de confianza que no son demasiado amplios. Un intervalo de confianza demasiado amplio simplemente no es terriblemente útil. Muchos factores influyen en lo amplio que un intervalo de confianza es, entre ellos el tamaño muestral (y, por consiguiente, lo raro que es aquello que queremos estimar). De ahí que las encuestas de victimación empleen tamaños muestrales tan amplios. Necesitamos muchos casos para poder producir intervalos de confianza de utilidad.

Este tipo de cuestiones importan y mucho. Por ejemplo, en Estados Unidos durante mucho tiempo algunos investigadores proponían que la National Violence Against Women Survey (que ejerce una influencia importante como modelo en la encuesta europea) nos daba una medida mejor de la violación que la encuesta nacional de victimación de los Estados Unidos porque empleaba preguntas más adecuadas y como resultado ofrecía una estimación puntual anual más elevada (i.e., “detectaba más violencia”): 8.7 por mil frente a 1.9 por mil. El problema es que mientras que la National Violence Against Women Survey conto con una muestra de 8000 mujeres y 8000 hombres la National Crime Victimization Survey cuenta con una muestra de cerca de 160,000 personas. Esta imagen resume el problema:

Fuente: Rand and Rennison, 2005.

Fuente: Rand and Rennison, 2005.

El intervalo de confianza es tanto para las violaciones como para la violencia física mucho más estrecho para la National Crime Victimization Survey. Y aunque la estimación puntual de la violación para la National Violence Against Women Survey es mucho mayor, en realidad la diferencia no significa mucho, porque no hay una diferencia significativa entre las dos encuestas. Mientras que la NCVS nos dice que hay entre 200,000 y 312,000 violaciones anuales en Estados Unidos. La NVAWS nos dice que hay entre -39,000 a cerca de dos millones de violaciones. How useful is that?Otra muestra hipotética empleando los mismos procedimientos que la National Violence Against Women Survey podrian habernos dato estimaciones puntuales incluso más bajas que los de la National Crime Victimization Survey. El margen de error es tan grande que no podemos decir realmente que estamos detectando más violencia con la National Violence Against Women Survey.

¿Por qué el intervalo de confianza para la violencia física no es tan brutalmente mayor para la National Violence Against Women Survey en comparación con el de la NCVS? Pues porque hay más casos de violencia física, por lo que resulta más fácil producir una estimación más fiable aunque la muestra total es menor.

Si observamos ahora la Tabla 10.1 del Informe Técnico de la encuesta europea vemos porque decía anteriormente que los tamaños muestrales nacionales pueden ser problemáticos. Mientras que los intervalos de confianza para las estimaciones europeas son aceptables, cuando nos fijamos en los intervalos de confianza para las estimaciones nacionales vemos que estos son considerablemente más amplios.

Los autores de la encuesta solamente nos ofrecen estos intervalos de confianza para determinadas medias: violencia desde los 15 años (violencia histórica). Pero no para otras medidas posiblemente más interesantes, como violencia en los últimos doce meses. ¿Por qué? Posiblemente porque solamente a nivel europeo sería posible producir estimaciones con intervalos de confianza decentes para algunas cosas. Y claro, a nadie (investigadores, empresas que se lucran de este tipo de estudios) les gusta quedar mal.

Fijaros en las estimaciones americanas para violación. Incluso si empleamos el dato del National Violence Against Women Survey de 8.9 por mil (el Informe de la Encuesta Europea no nos ofrece un dato similar, aunque la Tabla 2.7 sugiere que la estimación posiblemente es similar). Eso significa que para las muestras nacionales tendremos como promedio en torno a 27 víctimas de violación. El Home Office y el Office of National Statistics no nos ofrece estimaciones cuando se tiene información de menos de 50 individuos en la Crime Survey of England and Wales porque se considera que simplemente no existe suficiente información para poder ofrecer estimaciones fiables.

Para violencia física las cosas son un poco mejor. Con un 7%, por ejemplo, como promedio de violencia física por la pareja eso nos da como promedio unas 105 víctimas por encuesta nacional, lo que da para más juego, aunque habría que tomar en cuenta variación en torno a ese promedio y la anchura de los intervalos de confianza. La Tabla 2.3 en el Informe Principal nos da una idea de la seriedad del problema. Aquí los autores de la encuesta han combinado violencia física y sexual (sumar estas variedades les da más casos) y aun así vemos que en muchas celdas las estimaciones vienen entre paréntesis porque en aquellos países incluso sumando no llega a los 30 casos. No los 50 que se emplean en el Reino Unido, sino 30.

En resumen hacer comparaciones entre países sobre el nivel de violencia actual (en los 12 meses previos a la encuesta) con esta encuesta no es muy recomendable. A pesar de que el estudio se presenta como una encuesta comparativa en realidad es más útil para entender la prevalencia de este fenómeno en Europa que para hacer comparaciones entre países europeos, al menos en relación con violencia actual.

6)      ¿Qué estamos midiendo y reportando? Esta encuesta, como muchas otras encuestas sobre violencia contra la mujer prestan una atención francamente injustificada en medir y destacar prevalencia a lo largo de la vida. Este es un contraste muy significativo con otras áreas de investigación criminológica donde se valora producir estimaciones de prevalencia de comportamiento delictivo o de consumo de drogas en los 12 meses previos. ¿Por qué solo en los 12 meses previos? Primero porque existe mucho menos error de medición. La memoria, incluso cuando se trata de eventos traumáticos, juega malas pasadas. En estadística siempre hay un trade-off entre bias and variance, pero en este caso los criminólogos tienen muy claro lo que es preferible. Segundo porque es mucho más fácil interpretar asociaciones entre violencia y otras cosas que midamos en la encuesta. Y tercero porque desde un punto de vista político es simplemente más importante saber qué es lo que está pasando ahora que lo que fue el problema históricamente. Esto no quiere decir que no tenga ningún sentido medir prevalencia de violencia histórica (a lo largo de la vida), pero es mucho más importante ofrecer estimaciones fiables de lo que está ocurriendo ahora y entender cuáles son los factores de riesgo de este comportamiento (algo que con la violencia histórica es prácticamente imposible de valorar).

¿Por qué entonces la obsesión con la prevalencia de la violencia histórica? Uno, por razones puramente técnicas. Es más fácil pretender que podemos hacer comparaciones cros-nacionales porque al poder detectar más eso nos va a dar suficientes casos para ello. Pero, really, ¿cuál es el significado de estas comparaciones? ¿Cómo las vas a explicar cuando no sabes cuando pasaron? Dos, porque seguimos en este campo de investigación con la idiotez de los “advocacy numbers”, con pensar que si decimos que hay muchísimas mujeres que sufren violencia estamos favoreciendo la causa de las mujeres que sufren violencia. No hay más que ver las muchas declaraciones que se han hecho a la luz de la presentación de estos resultados.

¿Funciona esto como estrategia de movilización? Francamente, no lo se. Pero como científico social me parece terrible. Si partimos de la base de que lo que nos ofrece información más interesante es la prevalencia en los 12 meses previos podríamos rediseñar estos cuestionarios de forma que nos ofrezcan información de mucha más utilidad para llegar a un entendimiento más completo de este fenómeno. Todo el tiempo y espacio que perdemos en hacer estas preguntas, es tiempo que no podemos dedicar a otras. Por otra parte, como ciudadano concienciado con el excesivo uso de respuestas penales frente al delito, el populismo subyacente en este tipo de estrategias también me preocupa.

7)      ¿Qué estamos realmente midiendo? ¿Qué significa decir que el 21.6% de las mujeres sufren violencia física o sexual a manos de sus parejas? Una de las cuestiones que cualquier científico social siempre valora cuando se enfrenta a estas cifras es cuál es la definición que se está empleando, que preguntas se utilizan para desarrollar esta estimación, y como se decide clasificar a una persona como víctima de violencia en función de las respuestas a estas preguntas.

Mucho, mucho, mucho se ha escrito sobre este tema. Yo incluido. Y esta entrada ya se está extendiendo demasiado. Pero si quiero hacer algunas reflexiones al respecto.

Primero, contar como víctimas todas las personas que responden que sí a algunos de estos ítems es problemático, porque lleva a sobreestimar la magnitud de la violencia. Las encuestas de victimación de mayor calidad tienen mucho cuidado (ver pp. 71 y siguientes) de asegurarse que lo que están midiendo realmente son actos delictivos, lo que se hace sobre la base de preguntas de seguimiento. Esto es algo que la literatura sobre medición de violencia sexual ha destacado como importante.

Segundo, en relación con la violencia en la pareja es muy importante considerar que hay violencias y hay violencias. No podemos meterlo todo en un mismo cajón de sastre. A la hora de valorar los resultados de estas encuestas esto hay que tenerlo en cuenta y casi que sería una obligación de los investigadores ofrecer resultados sobre la base de los distintas constelaciones de violencia, desde las más leves a las más serias, que se encuentran en este campo. Esto es particularmente importante porque a pesar de que estas encuestas sociales representativas de la población general no son el instrumento óptimo para documentar las violencias más serias (lo que la literatura llama “terrorismo patriarcal”) son estas violencias lo que sabemos que la gente tiene en su mente cuando está pensando en violencia en la pareja (y por tanto se sorprende cuando ve resultados como los de esta encuesta). Esto es, por tanto, un poco manipulador.

Eso no quiere decir que estas encuestas no sean útiles (o que solamente tengamos que prestar atención a las violencias más serias), pero es importante saber qué es lo que estamos midiendo y describiendo cuando decimos que el 21.6% de las mujeres sufre violencia a manos de sus parejas y presentamos estos datos al público en general. Hacerlo de una forma descontextualizada, insisto a mí personalmente me parece manipulador y poco honesto.

8)      ¿Por qué estas encuestas no son óptimas para documentar la violencia más seria? Todas las encuestas de victimación tienden a infravalorar la violencia más seria. Parte del problema estriba en que la violencia más seria es rara. Y por tanto uno necesita muestras muy muy grandes para poder encontrar personas que la han experimentado. Pero es que además las encuestas sociales de este tipo generalmente no son representativas de toda la población. A la hora de construir las muestras se suelen realizar una serie de exclusiones. Si son, como es esta muestra, encuestas basadas en hogares, se suelen excluir “no hogares” (i.e., hospitales, cárceles, personas sin hogar, casas de refugio para mujeres maltratadas, etc.). Lo mismo ocurre con esta encuesta. Evidentemente las personas que estamos excluyendo del marco muestral tienden a ser personas que presentan un particular riesgo de victimación violenta (estas en el hospital porque te han lesionado, muchas mujeres delincuentes o sin techo han sufrido abuso en el pasado, las casas de mujeres maltratadas obviamente acogen mujeres maltradas, etc.). Generalmente si uno quiere entender mejor las experiencias de las mujeres que sufren violencia particularmente severa es mejor trabajar con muestras más especializadas. Y sabemos que sus experiencias difieren de forma importante de la experiencia de las mujeres que clasificamos como víctimas de violencia en encuestas como la Europea.

¿Significa todo lo que he dicho hasta ahora que este es un mal estudio? No. En muchos sentidos es un muy buen estudio; excelente si se quiere profundizar en la violencia contra la mujer en Europa. Pero hay que entender para lo que sí sirve y para lo que no sirve tanto. Y sobre todo, como investigadores afiliados a estos proyectos, creo que tenemos una responsabilidad de asegurarnos que la publicidad que reciben se hace clarificando muy mucho para que sirven y para que no sirven.

Dos puntualizaciones finales.

1)      Reproducibilidad y evaluación. Al público le hace falta poder valorar estos resultados. En cambio, estos se han publicado de forma limitada. Primero, solamente contamos con los cuestionarios en inglés, con lo cual uno se tiene que creer que realmente la traducción ha funcionado. Mi experiencia personal me dice que nunca funciona al 100% y por tanto es fundamental que los mismos se publiquen ya. No hay ninguna excusa para que no esté publicados. Y lo mismo con los datos. Estas encuestas cuestan un pastón, a ti y a mí (porque esto sale de nuestros impuestos). Los análisis presentados son superficiales en gran medida. Es esencial que investigaciones pagadas con dinero público acaben siendo publicadas de forma que la comunidad científica pueda explotarlos para avanzar nuestro conocimiento sobre la materia. Desgraciadamente mi experiencia con esta agencia es que aunque en principio te dicen que están abiertos a la publicación de los datos, en la práctica esto no se hace con la suficiente prontitud. La Encuesta sobre Paradas de Identificación Policial del 2008  (hace ya 6 años) que tambien realizaron aún no ha sido puesta a disposición de la comunidad científica. Esto es totalmente inaceptable.

2)      A pesar de todo lo que he dicho, realmente creo que el cuestionario empleado está bien en líneas generales. Es mejorable en algunos aspectos, pero está bien. Y sobre todo a la hora de medir violencia física y sexual es mucho, pero que mucho mejor que el de la Macroencuesta española sobre malos tratos (que realmente no se puede considerar una encuesta de violencia física y sexual, cansado estoy ya de repetir esto en numerosos foros y publicaciones). A ver si se enteran en el Ministerio. Lo dudo.

Corrupción: informe de la Comisión Europea

Hoy la prensa nacional reporta el informe sobre corrupción que acaba de publicar la Comisión Europea. Como veo que a los editores de la prensa digital española (ni El País, Diario.Es, La Vanguardia, El Mundo, y no me he querido meter más) parece que la idea de generar un vínculo al url de la información externa sobre la que dan una noticia les parece demasiado revolucionaria (señores que vivimos en el siglo XXI), aquí os lo dejo. No le leído aún, pero parece contener información interesante.


¿De qué sirve ponerse guapo/a para presentar si luego a nuestros datos los vestimos que da pena?

Soy consciente de que una buena parte de los españoles que hacemos criminología, sobre todo los de mi generación, tenemos una formación jurídica en la que el análisis y la visualización de datos no han jugado un papel muy importante. Eso con independencia de que luego unos más y otros menos hayamos hecho pinitos en este campo. Quizás por ese déficit inicial me notaréis más papista que el Papa en estas cuestiones algunas veces. Pero es que me irrita mucho cuando veo algunos power points, articulos enviados a nuestra revista, o informes: nos deja como colectivo en mal lugar y no es el mejor ejemplo para nuestros alumnos.

Así que para quienes os encontréis en esta tesitura, y ahora que se acerca el congreso de Granada, una serie de consejos básicos:

  • Nunca, nunca, nunca, nunca presentéis gráficos en tres dimensiones (a no ser que estéis representado un proceso tridimensional, e.g., el hiperplano que resulta de una modelo con dos predictores). ¿A bar chart in 3-d? Nunca. Es hortera, distorsiona, y no añade nada.
  • Nunca uséis pie-charts. Pie charts are evil. Y lo que es peor todo el mundo (que sabe) lo sabe (1, 2, 3, 4, just google “pie charts are evil” and keep looking at similar comments). No hagáis el ridículo ni un día más. No hay nada que un pie chart pueda hacer que una tabla de frecuencias o un bar chart, o, better, un Cleveland plot no haga major.
  • Siempre siempre siempre label appropriately your charts! No quiero dar ejemplos identificativos porque no es la intención dejar en mal lugar a nadie. Pero si yo leo un mapa con colores yo quiero saber lo que los colores representan mirando al mapa. Un gráfico debe ser self-explanatory by itself (sin necesidad de tener que mirar en la siguiente pagina o en el texto). The text in the labels and title ought to precisely define what each number represented by the graphical elements of the chart means. Same for all the legends.
  • Y ya que hablamos de colores. Nada demasiado chillón (¿saldrías a la calle vestido con esos colores?) y, a ser posible, que tome en cuenta lo mucho que se ha escrito sobre el uso de colores en gráficos.
  • Evita el exceso de tinta. Los datos, mejor desnudos. Y no pienses que los “defaults” de programas como Excel o SPSS necesariamente representan buenas soluciones. Muchas, muchas veces no lo son.

Esos son consejos básicos que no requieren mucho trabajo seguir y harán que vuestro trabajo sea percibido de otra forma.

No son caprichosos. Son consejos basados en el trabajo sobre la percepción psicológica de información visual, sobre lo que se ha escrito mucho.  Si estáis interesado hay una literatura abundante sobre el tema, sobre todo ahora que los periodistas han entrado a saco en el dato-periodismo.

Si queréis aprender un poco más sobre visualización de datos recomiendo el curso de Alberto Cairo en el Knight Center of Journalism, fue editor gráfico del Mundo y Epoca (en Brasil), y ahora da clases a dato-periodistas (y quien quiera) sobre visualización de datos en un MOOC gratuito que es muy recomendable. Existen también numerosos blogs como, por ejemplo, el de Stephen Few. Y en cuanto podáis pasaros al wonderful world of ggplot2 (este libro es genial), el mejor paquete de R para generar visualizaciones.