L’abbecedario dei diagrammi | FlowingData e Virtual Beauty

Questo video, che ho trovato su FlowingData, ma concepito da Jane Nisselson, la fondatrice e l’anima di Virtual Beauty, è l’aperitivo a un più vasto progetto sui diagrammi. È così bello che non posso evitare di segnalarvelo e di consigliarvi vivamente di interiorizzarlo e farlo vostro. Aiuterà il vostro senso critico a distinguere i diagrammi e i grafici vistosi ma inutili e sbagliati (sono onnipresenti), da quelli utili e belli (anzi: utili e perciò belli). Sono 3′ e 19″: più di un singolo spot televisivo, ma meno di una di quelle raffiche di spot che ti sparano nel prime time:

Ed ecco come lo commenta la stessa Jane Nisselson sul sito di Virtual Beauty:

Diagrams are everywhere — from the established conventions of highway signs to the newly emerging visualizations appearing on social networking websites.  Most people have a personal experience of diagrams whether drawing directions or figuring out how to operate a new computer. Yet very few people are familiar with how we read or construct diagrams.

This short film introduces the language of diagrams and their role in visual thinking and communication. As only a film can do, it reveals the vocabulary “in the wild” and in the context of making and using diagrams.

This pilot film is intended as a teaser for a larger examination diagrams — from patent offices and computer-produced assembly instructions to data visualizations and MRIs. Diagrams are an ideal subject for a popular film on a scientific topic because they are both accessible and ubiquitous, providing a great vehicle for initiating a broad public to an essential tool of communication and creativity across all disciplines in science and engineering.

Distinction: Visionary Grant award 2009, Gordon Research Conference, as part of The Scripps Research Institute’s Visualization in Science and Education Grant from NSF. Principal Investigator: Professor Jeff Nickerson of the Stevens Institute of Technology. The award is intended to seed new interdisciplinary research.

Presentation: Gordon Research Conference on Visualization in Science & Education (July 10-15, 2011).

The film is based on “Visualizing Thought” by Barbara Tversky. Published in “Topics in Cognitive Science” Volume 3, Issue 3, pages 499–535, July 2011.

Film Credits: Soundtrack: Pat Irwin. Edit: Alex Bingham. Camera: Claudia Christensen, Oren Eckhaus, Brian Jackson, Sean Sigler, Ian Vollmer.

Resto in attesa del seguito del progetto e vi terrò informati.

Nate Silver, il vincitore morale delle elezioni americane

Non sono né Barack Obama né Mitt Romney i vincitori delle elezioni americane, ma Nate Silver, l’uomo che vedete fotografato qui sotto.

Nate Silver

salon.com

Nate Silver ha meno di 35 anni (li compie il 13 gennaio del 2013) e una laurea in economia. Dopo la laurea, ha lavorato per quasi 4 anni alla KPMG. Un lavoro che lo annoiava profondamente, tanto da indurlo a sviluppare – durante l’orario d’ufficio – un software per prevedere le prestazioni e la carriera dei giocatori di baseball, PECOTA. Baseball e statistica erano le sue passioni fin dall’infanzia. Licenziatosi dalla KPMG, Silver si è mantenuto giocando a poker online, seguendo la strada che prima di lui aveva già seguito un precursore delle teorie sulla probabilità, Gerolamo Cardano. Nel 2007 cominciò a occuparsi anche di previsioni politiche, dapprima con lo pseudonimo di Poblano. Nel marzo del 2008 iniziò il suo blog, FiveThirtyEight.com (538 sono i collegi che eleggono il presidente degli Stati Uniti) e il 30 maggio 2008 Poblano rivelò la sua vera identità ai lettori. Nell’elezione del 2008 azzeccò la previsione del candidato vincitore i 49 Stati su 50. Il 25 agosto 2010 Silver e il suo blog migrarono al New York Times.

Nonostante la maggiore incertezza della campagna presidenziale di quest’anno, la mattina del 6 novembre Silver arrivò a prevedere per Obama una probabilità di vittoria del 90,9%, suscitando non poco scetticismo. Invece, ha fatto ancora meglio di 4 anni fa, anche se gli altri osservatori davano come “in bilico ” il risultato di 9 Stati, azzeccando tutti e 50 gli Stati più il District of Columbia.

538 prediction

salon.com

Sto leggendo il suo libro, The Signal and the Noise e ve ne parlerò tra poco. Nel frattempo, godetevi questo clip in cui spiega (seriamente) il suo metodo:

Qui lo spiega all’interno di una trasmissione comica (dovete accontentarvi del link).

Si possono prevedere i risultati delle olimpiadi?

La risposta è certamente affermativa. Ma come? I modi possono essere innumerevoli, dal famoso polpo Paul alle previsioni ragionate degli economisti (che come noto sono in grado di prevedere razionalmente un risultato e il suo contrario).

Fabio Radicchi, un giovane fisico romano, ha applicato un modello statistico. Il post di Samuel Arbesman dove ho trovato la notizia (“Universal Laws at the Olympics and Predictions for 2012“, Wired Science Blogs: Social Dimension, 25 luglio 2012) colloca il lavoro di Radicchi nell’ambito delle spiegazioni matematiche delle performance umane, di cui riporta esempi riferiti agli anni Settanta e Ottanta (qui e qui). Studiare i limiti delle performance umane sotto il profilo statistico è particolarmente interessante (per uno statistico, va da sé), perché ci stiamo per definizione concentrando su una coda della distribuzione (quella degli atleti migliori; io sto in quell’altra, naturalmente), mentre la statistica dà il meglio di sé quando si parla di medie e di distribuzioni normali. Esiste però un’intera branca della statistica, la teoria dei valori estremi, che studia proprio questi aspetti.

Medaglie d'oro

wired.com

Il ragionamento di Radicchi è abbastanza semplice da spiegare (l’articolo “Universality, Limits and Predictability of Gold-Medal Performances at the Olympic Games” si può scaricare liberamente): si ipotizza che il miglioramento relativo dei record obbedisca a una legge universale e che tenda al raggiungimento di un valore limite. Radicchi usa il medagliere olimpico (in primo luogo le medaglie d’oro, ma anche quelle d’argento e di bronzo, per 3 motivi:

  1. sono disponibili osservazioni per oltre un secolo (i primi giochi dell’era moderna si disputarono nel 1896);
  2. i dati sono dettagliati e regolarmente distribuiti nel tempo (ogni 4 anni);
  3. nella stragrande maggioranza delle discipline, la performance del vincitore della medaglia d’oro approssima piuttosto fedelmente il miglior risultato conseguibile in quel momento storico, data la rilevanza e il prestigio della manifestazione.

Sulla base di queste premesse, l’articolo si propone:

  1. di mostrare che i miglioramenti della performance obbediscono a una legge universale;
  2. di stimare i valori limite del miglioramento di performance;
  3. di prevedere i risultati (in termini di performance) delle olimpiadi di Londra.

* * *

Per quanto riguarda il primo aspetto, Radicchi mostra che i miglioramenti relativi nella performance del vincitore della medaglia d’oro in due edizioni consecutive delle olimpiadi tende ad avvicinarsi a un valore limite e che i miglioramenti stessi (non le prestazioni in termini assoluti) sono distribuiti normalmente. Radicchi registra questa regolarità in 55 discipline olimpiche.

Vediamo qui l’esempio, piuttosto chiaro, dei 400 m piani maschili.

Radicchi 1

plosone.org

Nel primo quadrante della figura (a) si presenta la stima migliore del valore limite (il record insuperabile per i 400 m piani maschili è stimato in 41′ e 62 centesimi). La significatività statistica del risultato è molto elevata e il secondo e terzo quadrante (b e c) mettono a confronto la distribuzione normale teorica (in nero) con quella misurata da Radicchi sui risultati effettivi. Infine, nel quarto quadrante si vede che il risultato non dipende dalle particolari edizioni dei giochi olimpici e che la distribuzione è stazionaria.

I risultati conseguiti sono particolarmente importanti perché sono generalizzati, cioè applicabili a un numero elevato di discipline olimpiche. Radicchi li spiega così:

At each new edition of the Games, gold-medal performances get, on average, closer to the limiting performance value. The average positive improvement observed in historic performance data can be motivated by several factors: as time goes on, athletes are becoming more professionals, better trained, and during the season have more events to participate in; the pool for the selection of athletes grows with time, and, consequently there is a higher level of competition; the evolution of technical materials favors better performances. On the other hand, there is also a non null probability that winning performances become worse than those obtained in the previous edition of the Games (i.e., relative improvement values are negative). All these possibilities are described by a Gaussian distribution that accounts for various, in principle hardly quantifiable, factors that may influence athlete performances: meteorological and geographical conditions, athletic skills and physical condition of the participants, etc.

* * *

L’applicazione dello stesso modello e delle stesse procedure di stima a una pluralità di discipline olimpiche permette a Radicchi di determinare per ognuna il valore limite e, al tempo stesso, di stimarne la bontà. La validità del modello è riscontrata per l’intera gamma delle corse (dai 100 m alla maratona), per i record che riguardano la distanza e l’altezza (i diversi tipi di salto in lungo e in alto) e nel nuoto.

Nella figura qui sotto qualche esempio: Per la maratona il limite è stimato in 5771,44 secondi (1h36’11″ e 44 centesimi), per il salto in alto femminile in 8,12 m, per i 100 m maschili e femminili rispettivamente in 8,28″ e 9,12″.

radicchi 2

plosone.org

* * *

Infine, ecco le previsioni dei risultati in alcune discipline per Londra 2012, come emergono da modello di Radicchi:

Radicchi 3

plosone.org

Il baseball, il copyright e Wikipedia

La storia la racconta Robinson Meyer, scrittore e musicista che vive nei pressi di Chicago, sull’edizione online di The Atlantic del 18 luglio 2012: MIT Economist: Here’s How Copyright Laws Impoverish Wikipedia. In Italia l’ha ripresa Luca De Biase sul suo blog: Abhishek Nagaraj e il copyright:

Secondo l’economista del Mit Abhishek Nagaraj il copyright peggiora l’informazione disponibile per le conoscenze condivise universalmente. (Atlantic).

Non stupisce: probabilmente il copyright è connesso proprio a un concetto contrario a quello dell’accesso universale: è un sistema che insiste sull’idea che l’accesso a informazioni speciali e di speciale valore meriti una barriera alla circolazione e un pagamento che ne sostenga la produzione, ma creando una condizione per cui chi se lo può permettere mantiene a distanza in termini di conoscenze da chi non se lo può permettere o non riesce a capirne il valore.

La valutazione politica di questa situazione non può che essere diversa per le diverse sensibilità. Ma indubbiamente Nagaraj ha trovato un modo per descriverla in modo molto concreto.

Ecco, Luca De Biase mi perdonerà (o forse no, perché è la seconda volta in poche settimane che dissento da lui), ma mi sembra che non abbia colto fino in fondo il senso dell’articolo di Robinson Meyer e della ricerca di Abhishek Nagaraj (se sono io che sbaglio, chiedo scusa in anticipo con il capo coperto di cenere).

Robinson Meyer riconosce ab initio, nelle prime frasi del suo articolo, che la faccenda del copyright è ingarbugliata e richiederebbe una conoscenza enciclopedica (forse più quella del demone di Laplace che di Aristotele). Ma proprio per questo – sostiene – in primo luogo non funziona; in secondo è troppo complessa per essere riconducibile alle diverse sensibilità politiche (come le chiama De Biase):

Everyone knows that the flow of information is complex and tangled in society today — so thank goodness for copyright law! Truly, no part of our national policy is as coherent, in the interest of the public or as updated for the Internet age as that gleaming tome in the US Code.
Not.
Unless you’re reppin’ the MPAA, you probably know that the modern copyright regime doesn’t work. You don’t have to believe in radical copyleftism — or even progressivism — to understand this. But it’s hard to know how the current body of law governing copyright and intellectual property affects individual works, simply because of the way communication, and ideas in general, work. One thing connects to another, and pulling apart the causes from the effects requires an Aristotle-like familiarity with contemporary culture.

Proprio per la complessità della questione (anche se il giudizio negativo sul fatto che l’attuale normativa statunitense sul copyright non funziona è nettissimo) Robinson Meyer sta ben attento a sottolineare che il valore della ricerca di Abhishek Nagaraj sta proprio nel fatto di essere circoscritta a Wikipedia e al rapporto tra qualità delle conoscenza e esistenza o meno delle limitazioni imposte dal copyright.

But one MIT economist, Abhishek Nagaraj, who recently presented his work at Wikimania, has found a way to test how the copyright law affects one online community — Wikipedia — and how digitized, public domain works dramatically affect the quality of knowledge.

Abhishek Nagaraj

mit.edu

La storia della ricerca di Abhishek Nagaraj (giovanissimo studente di PhD del second’anno) è affascinante e trae spunto dalla digitalizzazione e pubblicazione, nel 2008, da parte di Google di molte riviste americane, tra cui l’autorevole Baseball Digest, dedicato (lo dice il nome stesso) ai giocatori di baseball e riccamente illustrato.

Basball Digest

theatlantic.com

Google ha digitalizzato tutti i numeri del Baseball Digest da luglio del 1945 al 2008. Ma attenzione, per effetto di una clausola della legge statunitense sul copyright tutti gli articoli antecedenti il 1964 sono entrati nel pubblico dominio, mentre quelli successivi a quella data sono ancora protetti dalla tutela del copyright. La ricerca di Abhishek Nagaraj si è concentrata sul quarantennio fino al 1984 e si è sviluppata in questi passi fondamentali:

  1. Su Wikipedia opera un gruppo di tifosi di baseball che cura la redazione e l’aggiornamento dei campioni di baseball. Questi non hanno impiegato molto a scoprire la nuova fonte, rappresentata dai numeri digitalizzati di Baseball Digest. Il risultato, misurato da Abhishek Nagaraj, è che gli articoli sui campioni All-Stars riferiti al periodo 1945-1984 sono aumentati in media di 5.200 parole per articolo. Questo mette in evidenza con sufficiente chiarezza che i redattori di Wikipedia hanno ampiamente utilizzato il nuovo materiale.
  2. A questo punto Abhishek Nagaraj ha suddiviso il materiale di Baseball Digest in 2 parti: i numeri fino al 1964, ormai “fuori diritti” (gruppo di controllo, nel linguaggio degli esperimenti clinici), e quelli del ventennio successivo, tuttora tutelati (gruppo di trattamento).
  3. Confrontando i due insiemi, Abhishek Nagaraj è stato in grado di misurare gli effetti del sussistere o meno del copyright sugli articoli sui campioni di baseball pubblicati su Wikipedia, in termini di lunghezza del testo, numero di immagini e traffico generato.
  4. La lunghezza degli articoli (in generale aumentato, come si è detto) non appare influenzata dall’esistenza o meno della tutela del copyright: questo perché è piuttosto agevole aggirarla semplicemente parafrasando il testo.
  5. Non così per le immagini. Prima della digitalizzazione di Baseball Digest, gli articoli riferiti al primo ventennio presentavano in media 0,183 immagini per articolo e quelli del secondo ventennio 0,158. Dopo la digitalizzazione, la frequenza delle immagini è aumentata sensibilmente, ma con una fondamentale differenza nei due gruppi: nel primo, quello dove le immagini erano di dominio pubblico, sono salite a 1,15 immagini per articolo in media; nel secondo, dove le immagini erano sotto copyright, si rilevano 0,667 immagini per articolo. Pertanto, la presenza del copyright scoraggia l’uso dell’immagine in poco meno della metà dei casi.
  6. Tutto questo ha anche avuto un effetto sensibile sul traffico generato e sulla popolarità delle pagine. Gli articoli pre-1964 che erano già “popolari” (nel 10% più consultato) hanno visto un incremento di popolarità del 70%; ma anche quelli del 10% meno popolare hanno comunque visto crescere la loro popolarità del 15%. Inoltre, gli articoli pre-1964 sono stati “corretti” più di frequente. Entrambi questi effetti sono comprensibili, dal momento che è noto che gli algoritmi di Google premiano le voci in cui sono presenti immagini e che sono state aggiornate più di recente.
  7. Abhishek Nagaraj – che è uno statistico serio – ha sottoposto i suoi risultati a una serie di controlli (dal talento dei giocatori, al loro essere mancini, alla durata della loro carriera) per escludere che questi fattori possano avere influito sui risultati del suo esperimento.

Queste le sue conclusioni:

Copyright law affects to some degree what information makes its way onto Wikipedia, but what it more strongly affects is how we use that information once it’s there. In other words, digitizing any knowledge increases an article’s text, but only digitizing public domain images makes articles more frequently updated and visited.

Abhishek Nagaraj mette a disposizione sul web le slide della sua presentazione e vi consiglio vivamente di andarle a guardare, per seguire meglio il suo esperimento.

Scoop: perché Napoleone ha licenziato Laplace

Napoleone aveva una grande passione per gli uomini di scienza e fu tra i primi a cogliere le potenzialità della statistica per il governo (autoritario) dello Stato.

Napoleone Bonaparte

wikipedia.org

Laplace, dal canto suo, aveva una straordinaria capacità di voltare gabbana, politicamente parlando: figlio di piccoli proprietari terrieri, fu fervente repubblicano durante la rivoluzione, ma si mise poi al servizio di Napoleone che nel 1799 lo nominò ministro dell’interno.

Laplace

wikipedia.org

Laplace durò nella carica soltanto 6 settimane. Questa la motivazione del licenziamento, vergata dallo stesso Napoleone. Che serva di lezione a tutti noi tecnici e scienziati, quando ci viene la tentazione di darci alla politica:

«Géomètre de premier rang, Laplace ne tarda pas à se montrer administrateur plus que médiocre; dès son premier travail nous reconnûmes que nous nous étions trompé. Laplace ne saisissait aucune question sous son véritable point de vue: il cherchait des subtilités partout, n’avait que des idées problématiques, et portait enfin l’esprit des ‘infiniment petits’ jusque dans l’administration.»

«Matematico di prima categoria, Laplace non ha tardato a dimostrarsi un amministratore più che mediocre; dal suo primo lavoro noi abbiamo subito compreso che ci eravamo sbagliati. Laplace non coglieva alcuna questione sotto il suo giusto punto di vista: cercava delle sottigliezze ovunque, aveva solo idee problematiche, e infine portava lo spirito dell’”infinitamente piccolo” perfino nell’amministrazione.»

Consoliamoci pensando che, nonostante questa disavventura, Napoleone continuò ad apprezzarne il valore come matematico e nel 1806 lo nomino conte dell’impero. Laplace sopravvisse alla grande anche alla restaurazione borbonica, riuscendo a diventare marchese nel 1817.

IMU: giornalismo cialtrone e giornalismo che pensa

Il 14 luglio 2012, il Corriere della sera , il quotidiano italiano più diffuso (su carta) ha pubblicato questo articolo o, meglio, questa tabella:

VERSAMENTI IMU

I versamenti Imu provincia per provincia

Dalla Provincia di Roma il contributo maggiore

Versamenti I.M.U. per provincia aggiornati alle deleghe del 4 luglio 2012

Corriere

Ecco, questa è una tabella che si potrebbe portare a scuola per spiegare agli alunni delle medie (o come diavolo si chiama adesso la scuola che frequentano i ragazzi tra gli 11 e i 13 anni) come non si fa informazione usando i numeri. Perché l’unica cosa che si può vedere da questa tabella, espressa in valori assoluti, è che quanto più estesa e popolosa è una provincia, tanto maggiori sono stati i versamenti IMU. Tante grazie. Ci sarebbe da preoccuparsi, e molto, se non fosse così.

Una tabella con oltre 100 righe e 4 colonne. Più di 300 valori assoluti. Numeroni dell’ordine dei milioni. Contenuto informativo prossimo a zero.

E infatti l’unico commento che accompagna la tabella è: «Dalla Provincia di Roma il contributo maggiore.»

Mi perdonerà il bravo Donato Speroni, che sul Corriere della sera cura l’ottimo blog Numerus, se chiedo il suo parere?

Peraltro, il Corriere non è solo: non c’è quasi mattina che il Giornale Radio Rai (direttore Antonio Preziosi, come ci ricordano ossessivamente) non ci scodelli la statistica quotidiana: sul consumo di carne (o di canne), sul numero di canarini d’appartamento o sulle cadute sulle scale: invariabilmente, «guida la classifica la Lombardia» mentre «è la Val d’Aosta il fanalino di coda». Non sarà perché sono fenomeni legati alla dimensione demografica e la Lombardia è la regione più popolosa d’Italia e la Val d’Aosta la meno popolosa?

Il Post, quotidiano online diretto da Luca Sofri, pubblica la medesima notizia il 15 luglio, ma dà al ben più titolato Corriere una bella lezione di data journalism (a mio insindacabile giudizio, naturalmente).

Chi ha pagato più IMU

La classifica dei versamenti della tassa per province: ad Aosta 348 euro per abitante, a Crotone si è pagato un quinto

15 luglio 2012

Il Ministero dell’Economia ha pubblicato sul suo sito i dati sulla riscossione dell’IMU nelle diverse province, che vedono le cifre principali raccolte naturalmente nelle città più grandi. Questo è invece l’elenco ordinato col criterio delle cifre versate in rapporto alla popolazione di ogni provincia: criterio genericamente indicativo, ma si tengano in considerazione le caratteristiche della tassa, legata alle proprietà immobiliari e non ai residenti.

Province Importo Comune Importo Stato Importo totale Per abitante
1 Aosta 24.776.388 19.882.991 44.659.379 348,28
2 Savona 50.802.597 39.952.061 90.754.658 315,22
3 Olbia-Tempio 24.844.571 20.869.932 45.714.503 289,59
4 Imperia 30.354.199 24.625.774 54.979.973 246,94
5 Genova 130.789.989 84.073.246 214.863.235 243,41
6 Roma 630.649.797 370.136.938 1.000.786.735 238,62
7 Livorno 46.779.773 30.521.283 77.301.056 225,40
8 Sondrio 21.410.399 18.806.325 40.216.724 219,56
9 Grosseto 28.465.404 21.149.214 49.614.618 217,46
10 Milano 401.759.658 279.225.674 680.985.332 215,73
11 Bologna 128.781.561 84.752.768 213.534.328 215,27
12 Ravenna 49.281.640 35.037.026 84.318.666 214,85
13 Rimini 39.971.859 30.350.075 70.321.933 213,55
14 Bolzano 64.162.165 43.861.107 108.023.273 212,79
15 Trento 62.732.543 49.365.123 112.097.666 211,72
16 Lecco 42.323.478 29.675.518 71.998.995 211,66
17 Parma 53.399.925 39.649.481 93.049.407 210,46
18 Belluno 24.469.296 19.984.698 44.453.995 208,24
19 Como 73.049.594 50.394.193 123.443.787 207,47
20 Lucca 46.129.209 33.121.927 79.251.136 201,25
21 L’Aquila 25.307.823 19.587.192 44.895.014 200,86
22 Siena 33.221.516 21.131.992 54.353.507 199,36
23 Vercelli 19.799.714 15.516.631 35.316.345 196,68
24 Piacenza 31.470.976 23.854.993 55.325.969 190,86
25 Pisa 48.426.556 31.096.433 79.522.989 190,35
26 Firenze 114.855.034 74.688.102 189.543.135 189,90
27 Torino 263.008.636 165.203.697 428.212.333 185,99
28 Pordenone 35.239.864 23.260.785 58.500.649 185,53
29 Padova 104.608.599 65.395.840 170.004.439 181,98
30 Verona 96.411.322 70.563.694 166.975.017 181,46
31 Alessandria 45.763.860 33.744.184 79.508.044 180,45
32 Forli’ 41.550.437 29.427.278 70.977.715 179,47
33 Verbania 16.168.673 12.935.530 29.104.203 178,28
34 Biella 18.933.959 13.475.923 32.409.882 174,46
35 Vicenza 89.298.657 62.545.083 151.843.740 174,38
36 Ferrara 37.591.842 25.174.991 62.766.833 174,36
37 Trieste 26.835.119 14.248.462 41.083.581 173,67
38 Viterbo 32.346.490 22.816.404 55.162.894 172,23
39 Prato 26.645.498 16.259.176 42.904.674 171,77
40 Novara 36.303.990 26.706.401 63.010.391 169,47
41 Cuneo 54.053.754 44.092.570 98.146.324 165,70
42 Massa Carrara 19.849.424 13.603.074 33.452.498 164,06
43 Brescia 114.385.842 90.699.576 205.085.419 163,28
44 Udine 51.395.476 36.740.713 88.136.188 162,76
45 Venezia 80.078.272 58.983.319 139.061.591 161,11
46 Reggio Emilia 48.374.261 35.914.055 84.288.316 158,93
47 Treviso 83.738.700 55.506.159 139.244.859 156,76
48 Modena 62.650.181 46.257.291 108.907.471 155,38
49 Bergamo 96.486.474 73.558.628 170.045.102 154,76
50 Gorizia 13.009.760 8.525.893 21.535.653 151,23
51 Monza e della Brianza 77.990.732 49.591.489 127.582.221 150,16
52 Varese 75.662.840 55.341.745 131.004.586 148,32
53 La Spezia 27.147.287 18.712.161 45.859.448 148,02
54 Cremona 30.228.123 22.549.918 52.778.041 145,15
55 Ancona 40.857.179 28.557.066 69.414.245 144,30
56 Arezzo 29.087.790 21.189.520 50.277.310 143,79
57 Pistoia 24.169.306 17.910.024 42.079.330 143,59
58 Teramo 25.113.959 19.615.343 44.729.301 143,25
59 Chieti 32.689.374 24.039.034 56.728.408 142,85
60 Pavia 43.304.196 34.457.136 77.761.333 141,82
61 Pescara 27.102.364 18.577.914 45.680.278 141,34
62 Perugia 55.335.408 39.572.783 94.908.192 141,27
63 Bari 105.926.577 69.669.856 175.596.434 139,51
64 Macerata 26.158.156 19.151.923 45.310.079 139,26
65 Rovigo 19.185.090 14.898.182 34.083.273 137,50
66 Lodi 17.814.547 13.325.239 31.139.786 136,78
67 Latina 42.680.562 32.756.314 75.436.876 135,75
68 Mantova 31.104.844 24.837.882 55.942.725 134,66
69 Isernia 6.513.210 4.903.237 11.416.447 128,72
70 Taranto 43.217.328 31.002.054 74.219.382 127,96
71 Pesaro e Urbino 26.546.482 20.363.561 46.910.044 127,83
72 Terni 17.257.336 12.698.104 29.955.440 127,65
73 Campobasso 17.164.583 12.190.850 29.355.433 127,03
74 Siracusa 29.035.266 22.080.239 51.115.505 126,44
75 Ascoli Piceno 15.203.982 11.802.663 27.006.646 126,16
76 Foggia 46.617.385 33.360.921 79.978.306 124,80
77 Cagliari 41.848.024 27.576.216 69.424.240 123,27
78 Brindisi 27.643.540 21.023.493 48.667.033 120,69
79 Asti 14.569.729 12.087.531 26.657.261 120,25
80 Fermo 11.801.738 9.568.241 21.369.980 120,11
81 Sassari 23.929.863 16.426.698 40.356.560 119,67
82 Barletta-Andria-Trani 27.511.876 19.207.881 46.719.757 118,92
83 Rieti 10.387.988 7.965.068 18.353.056 114,37
84 Trapani 27.912.021 21.491.545 49.403.566 113,15
85 Ragusa 19.851.794 15.612.690 35.464.485 111,33
86 Nuoro 10.295.352 7.185.071 17.480.423 108,79
87 Lecce 47.807.771 37.823.789 85.631.560 104,99
88 Napoli 186.044.399 131.557.889 317.602.288 103,09
89 Salerno 65.296.817 46.123.017 111.419.834 100,40
90 Catania 63.810.586 44.737.574 108.548.161 99,58
91 Caserta 52.030.026 37.956.510 89.986.536 98,19
92 Carbonia-Iglesias 7.317.680 5.343.436 12.661.117 97,51
93 Matera 11.449.288 8.206.080 19.655.368 96,48
94 Messina 33.898.011 28.739.442 62.637.452 95,81
95 Benevento 16.249.173 11.298.458 27.547.631 95,69
96 Frosinone 26.649.942 19.477.570 46.127.512 92,59
97 Cosenza 36.799.232 29.284.851 66.084.083 89,95
98 Agrigento 22.665.108 18.040.423 40.705.531 89,66
99 Avellino 22.630.090 16.483.323 39.113.414 89,07
100 Palermo 61.296.693 48.842.284 110.138.977 88,14
101 Ogliastra 2.906.551 2.144.392 5.050.942 87,14
102 Oristano 8.313.041 6.021.515 14.334.556 86,23
103 Catanzaro 15.414.836 13.292.874 28.707.711 77,88
104 Potenza 16.453.665 13.228.919 29.682.583 77,34
105 Reggio Calabria 24.005.630 19.286.732 43.292.362 76,36
106 Medio Campidano 4.485.138 3.300.443 7.785.581 76,02
107 Caltanissetta 11.380.951 9.157.362 20.538.312 75,58
108 Enna 6.825.290 5.660.862 12.486.152 72,39
109 Vibo Valentia 5.990.941 5.175.933 11.166.875 67,04
110 Crotone 6.155.166 5.477.671 11.632.837 66,62

Perché questa tabella contiene molta più informazione dell’altra? Perché il giornalista sa (anche se non ce lo spiega benissimo) che i valori vanno normalizzati, cioè espressi in termini tali da eliminare il fattore di scala, e che un modo grezzo ma efficace di farlo è di osservare i versamenti pro capite, cioè per residente. E a questo punto si vede bene quello che nella tabella del Corriere non si vedeva (i valori assoluti sono gli stessi e vengono dalla stessa fonte): che l’imposta colpisce di più le province dove ci sono più proprietà immobiliari in proporzione al numero di residenti. Cioè, ad esempio, dove ci sono più seconde case: e infatti, nelle prime 15 province della graduatoria ci sono sì quelle delle 2 maggiori metropoli italiane (Roma e Milano), dove i prezzi unitari e le rendite sono più elevati, ma le altre sono tutte province a spiccata vocazione turistica marina o montana.

Rapallo

Rapallo & hotelmiro.net

Bastava poco, no?

Birra e chiesa dividono l’America

Birra e religione possono andare insieme? Sì, secondo una vecchia boutade: «Everybody needs to believe in something. I believe I’ll have another beer.»

Homer Simpson

2spare.com

È riportata di frequente sulle t-shirt e da molti attribuita a Homer Simpson (che probabilmente l’ha detta).

Ma è abbastanza certo che la battuta sia stata originariamente scritta e pronunciata da W. C. Fields (William Claude Dukenfield, 1880-1946), in genere in questa piccola variante: «Everybody’s got to believe in something. I believe I’ll have another drink.»

Con altrettanta sicurezza si può affermare che W. C. vestiva meglio di Homer.

In occasione dell’Indipendence Day, il 4 luglio, che i cittadini americani passano tradizionalmente tra cerimonie religiose, barbecue innaffiati di birra e fuochi d’artificio, floatingsheep.org – un sito creato e gestito da un gruppo di giovani geografi di diverse università statunitensi e inglesi – ha analizzato la geografia dei tweet contenenti, rispettivamente, la parola “church” (chiesa) o la parola “beer” (birra).

L’iniziativa nasce all’interno del progetto Dolly (Data On Local Life and You: Bringing Local Geodata to the People – questi sono proprio ossessionati dalle pecore), volto a costruire un sito web per condividere e rappresentare cartograficamente statistiche ufficiali e dati derivanti dalle interazioni sociali, per consentire ai cittadini di meglio analizzare i luoghi in cui vivono e operano. Il progetto sta costruendo un database che raccoglie tutti i tweet georeferenziati a partire da dicembre del 2011 (siamo nell’ordine dei 5 milioni di messaggi al giorno).

Poiché il progetto Dolly non è ancora operativo, per celebrare il 4 luglio e per darci un primo assaggio delle sue potenzialità gli estrosi geografi di floatingsheep.org hanno raccolto tutti i tweet inviati tra il 22 e il 28 giugno dal territorio degli Stati Uniti continentali (esclusi Alaska e Hawaii, per capirci), a condizione che fossero georeferenziati (sono tuttora un’esigua minoranza, tra l’1 e il 3% di tutti i tweet inviati, ma si tratta pur sempre di circa 10 milioni di messaggi). Poi hanno estratto quelli contenenti la parola church (17.686 tweet, per la metà inviati domenica 24) o beer (14.405 tweets più uniformemente distribuiti durante la settimana).

Vediamo subito la mappa, prima di entrare in qualche dettaglio tecnico.

Beer vs. Church

floatingsheep.org

Come forse riuscite a leggere, si tratta delle frequenze relative dell’occorrenza dei due termini a livello di contea.

L’uso della georeferenziazione dei tweet presenta dei problemi (un articolo fondamentale lo trovate qui). È importante sottolineare che nell’analisi sono stati utilizzati i dati relativi al luogo da cui il messaggio è stato inviato (spesso da terminali dotati di GPS) e non quelli registrati nel profilo dell’utente, e che nel 90% dei casi questo consente una precisione geografica al livello del comune (dell’agglomerato urbano) o migliore.

A livello di contea, Los Angeles ha il primato per il numero di tweet rilevanti registrati. Dallas è la città più religiosa (chiesa batte birra 178 a 83), San Francisco la più birrosa (191 a 46). Naturalmente, trattandosi di tweet (149 caratteri), l’occorrenza della parola chiesa non è garanzia dell’intenzione religiosa del mittente (“@pamela vorrei visitare la tua chiesa dalla cupole gemelle”), né viceversa (“@donegidio per fioretto mi asterrò dalla birra per 6 mesi”). Malgrado questi limiti, l’analisi consegna una geografia definita in modo impressionante. in cui si individua chiaramente la Bible Belt negli Stati del sud e una netta prevalenza della birra nel New England, sulla East Coast e nel Midwest.

C’è dunque un beer divide negli Stati Uniti? Per approfondire la questione, i geografi di floatingsheep.org hanno utilizzato il test I di Moran per misurare l’auto-correlazione spaziale. I risultati sono statisticamente molto significativi. Senza entrare troppo nei dettagli, la mappa sottostante mostra quali contee con un numero elevato di tweet con la parola chiesa sono vicine a contee con le stesse caratteristiche (in rosso), e quali contee a prevalenza di birra sono prossime a contee con le stesse caratteristiche (in blu). La divisione tra nord e sud è nettissima, a segnalare la riconoscibilità di pratiche profondamente radicate anche quando le si rileva con riferimento alle tecnologie di comunicazione più aggiornate.

Birra e chiesa: Moran's I

floatingsheep.org

E balza agli occhi la rassomiglianza con la mappa dei risultati elettorali del 2008 (in blu le contee dove hanno vinto i democratici, in rosso quella a maggioranza repubblicana).

Mappa elettorale 2008 per contea

Mark Newman, umich.edu

Forecasting and Tomorrow’s Jobs Report | Jared Bernstein | On the Economy

Jared Bernstein è un economista del lavoro statunitense ed è attualmente tra i consulenti di Barack Obama. Potete trovare qui una sua biografia un po’ meno sintetica.

Jared Bernstein

reuters.com

Ha un blog – On the Economy: Facts, Thoughts and Commentary by Jared Bernstein – da cui ho tratto l’articolo che segue (pubblicato il 5 luglio 2012, alla vigilia della pubblicazione dei dati di giugno sull’occupazione negli USA, e ripreso da Salon.com).

Forecasting and Tomorrow’s Jobs Report

I had a chat with a friend the other day – a prominent academic economist whose name I won’t disclose so he doesn’t get shunned in the faculty room – wherein we bemoaned the state of a) micro-theory (predicts implausible elasticities that never show up in the data; marginal product theory – a core premise – looking ever more suspect*) and b) macro-theory (a terrible muddle these days, as Paul K stresses).

But we agreed that econometrics still rules. Sure, there are those who practice eCONomeTRICKS, but “we regard them with scorn” (extra points for those who can source that quote without Google—even more points for those who can identify why it fits in an econometrics post).

I used to have decent econometrics – statistical analysis of economic data – chops, especially for a former musician/social worker, but alas, no more. I can still reliably run reduced form regressions and the Kalman Filter using the structural (or “state-space”) model I associate with Andrew Harvey (see previous link). But I simply haven’t kept up with the cutting edge stuff, though luckily, I know folks who have.

All of which brings me to the fool’s errand of forecasting employment growth for tomorrow’s jobs report. The consensus is for about 100K. I run a couple of models. At this point in the month, I run a regression of the log changes in payrolls on the lagged quarterly payroll growth, the monthly average of 4-wk UI claims, and the ADP (again, all in log changes) and forecast one month ahead (using the actual UI and ADP data for June).

I also try to tease out the longer term trend using the Kalman filter on the NSA data – this is a very good way to get at the underlying recent trend, which right now is running at around 90K, which is actually close to what I get with the standard time series regression noted above. So that’s about what I expect tomorrow, though given the confidence interval of 100K around these data along with the monthly revisions, the firm birth/death modeling – well, I don’t know anyone who has a great track record on this one.

However, that’s less a critique of econometrics than a warning about realistic expectations when forecasting high-frequency data.

Jared Bernstein

salon.com

Poche mie considerazioni:

  1. Beati i cittadini di paesi (che non sono moltissimi, temo) in cui un consulente del governo può permettersi di avere un blog e di dire liberamente la sua “senza filtro” e senza doversi nascondere dietro un nom de plume.
  2. l’asterisco nel primo capoverso rinvia a questa gustosa nota:
    The great Joe Stiglitz gave a talk recently at the LSE on his new book on inequality (I also interviewed Joe the other day).  Anyway, a bit into the interview, he tells the LSE students, and I’m paraphrasing, “You know, that marginal product theory you’re learning around wage setting—it’s not true…you still have to learn it, but it doesn’t really work.”
  3. Paul K è chiaramente Paul Krugman.
  4. eCONomeTRICKS è un gioco di parole.
  5. Ho dovuto usare Google, ma “we regard them with scorn” è un verso della canzone The Folk Song Army di Tom Lehrer.
  6. Per la cronaca, il dato pubblicato oggi è + 80.000.

Il maiale, la scolastica e i metadati (8)

Leggendo un romanzo che recensirò tra breve, mi è tornato alla mente un brano che ricordavo abbastanza precisamente, e che avevo letto anni fa su un bellissimo e memorabile saggio di Marco d’Eramo. Soltanto la pigrizia mi aveva trattenuto dal ricercarlo (è quando cerchi su un libro di carta che apprezzi la rapidità – e la pulizia, se il libro è vecchiotto e polveroso – della ricerca informatica su un testo digitale) e dal condividerlo con voi (il che ha implicato un lavoretto di trascrizione, che non vi farò pesare più di tanto).

Ma andiamo con ordine. Il tema è ancora una volta quello dei metadati, su cui stiamo conducendo una lacunosa riflessione. Le precedenti puntate le trovate qui: ink: prima, seconda, terza, quarta, quinta, sesta e settima.

Il libro di Marco d’Eramo è questo: Il maiale e il grattacielo. Chicago: una storia del nostro futuro. Milano: Feltrinelli. 1995 (ma io faccio riferimento all’edizione che ho, che è la prima nell’Universale economica, del 1999).

Una piccola digressione: in un post di ieri attribuivo ad AD il merito di avermi fatto amare, se non conoscere, Astor Piazzolla. E oggi mi accorgo, vedi la coincidenza, che le va ascritto anche il merito di avermi fatto apprezzare questo libro, che è stato un suo regalo.

Il maiale e il grattacielo

anobii.com

Marco d’Eramo ci sta spiegando la trasformazione di Chicago, da capitale della manifattura agro-alimentare a capitale del commercio agro-alimentare e della sua finanza. Ma ci spiega che al tempo stesso questo processo ridefinisce il modo di pensare alle merci, attraverso la standardizzazione, e la natura delle merci stesse. È un passo che ci fa toccare con mano l’immane potenza dell’astrazione – per parafrasare Hegel – e le conseguenze materiali che un processo che apparentemente avviene tutto nel pensiero ha sulla realtà immediata.Tra i maestri di Marco d’Eramo, oltre a Bourdieu, c’è evidentemente anche Marx. L’astrazione di cui vediamo la potenza è quella della standardizzazione – un’ossessione americana – ma è anche quella dei metadati, che definendo le categorie concettuali ridefiniscono la realtà. È un tema che in continuazione si ripropone ai nostri occhi: ad esempio, tutte le volte che un intervento normativo o di regolazione retroagisce sul quadro delle “convenienze” e delle “opportunità” e, per questa via, sulla struttura produttiva ed economica. La drammatica crisi che stiamo attraversando è anche, anzi forse è soprattutto, una crisi non dei soggetti economici e sociali, ma dell’ecosistema in cui essi si muovono.

I tagli del maiale

fioruccifood.it/

Ma questo è un discorso che ci porterebbe lontano. Facciamo parlare Marco d’Eramo:

Il commercio di prodotti agricoli e dei loro futures ha fatto la grandezza di Chicago, l’ha plasmata. Nel frattempo ha modificato i prodotti agricoli stessi, ha “ridefinito” i buoi, i manzi, il grano, il legname. Uno dei problemi con i contratti in avanti è che bisogna avere ben chiari gli standard della merce futura da vendere e comprare. Quale qualità di grano, quale percentuale di umidità, quale deviazione dalla media è consentita. Per poterla vendere come se fosse denaro, bisogna che la merce stessa sia scambiabile ed equivalente.

Se non c’è standardizzazione non c’è mercato dei futures e, a sua volta, il mercato dei futures può vendere e comprare solo beni standardizzati. E il mercato dei futures rappresenta solo la forma finanziaria per cui nelle società opulente la merce-cibo è disponibile sempre, ovunque, nei supermercati, con qualità controllabili, con caratteristiche paragonabili. Non ci si stanca mai di riflettere sulla potenza dispiegata dalla standardizzazione, sui meccanismi che essa è in grado di generare, dalle prese dei telefoni che funzionano solo se sono tutte uguali, alle viti e ai bulloni che compriamo indifferentemente da un ferramenta o da un altro perché sappiamo che passo e calibri sono standardizzati, intercambiabili. In tutto l’immenso territorio degli Stati Uniti, camper e roulotte possono attingere acqua in tutti campeggi perché prese e bocchettoni sono uniformi. Nathan Rosenberg ha mostrato come nel 1800 la standardizzazione sia stata il fulcro dell’innovazione tecnologica creando l’industria delle macchine utensili. A contrario, chi oggi usa il computer sa quali guai crei la mancanza di uno standard comune nel software.

Perché sia possibile un mercato dei futures agricoli, il singolo contratto deve essere il più determinato possibile: va stabilito quando si può contrattare, quali sono i minimi limiti di oscillazione, quando la data di consegna, quale l’esposizione massima, qual è l’unità da scambiare. Nel caso di beni già immateriali come le monete, è facile determinare le caratteristiche della “partita”: una sterlina inglese è uguale a un’altra sterlina. Ma quando si comprano manzi o maiali, come si fa a essere sicuri della quantità e qualità della merce che si compra? Ci si premunisce esigendo criteri uniformi di qualità, quantità, peso, volume…, anche se nel mondo delle macchine, degli utensili e delle monete la standardizzazione sembra più naturale, più intrinseca, in quanto questi strumenti sono artificiali, pensati per essere standard. Molto di più colpisce la standardizzazione in una gallina, un uovo, un vitello, un porcellino o una qualità di grano.

Niente è lasciato al caso. A questo scopo, si deve stabilire che il bovino vivo (live cattle, unità di 40.000 lb, circa 18 tonnellate) deve essere composto da animali ognuno di 1.050-1.200 libbre (480-540 chili) di peso medio, con un massimo di deviazione individuale di 100 libbre. Nei futures del legname si stabilisce per l’unità (4.400 metri cubi) un massimo di umidità del 19%; il legno deve essere tagliato in assi rettangolari, legato con nastri d’acciaio, avvolto in carta, in pacchi di assi di lunghezza omogenea non minore di 2,4 e non più lunga di 6 metri, soddisfacente i criteri federali per il legno da costruzione, proveniente solo dai seguenti stati Usa e province canadesi – California, Idaho, Montana, Nevada, Oregon, Washington, Wyoming, British Columbia e Alberta – e così via con altre definizioni.

Ma il primo passo in assoluto è creare una discontinuità, stabilire un criterio discontinuo di classificazione che istituisca un numero limitato di qualità per ogni prodotto, mettiamo cinque e solo cinque qualità diverse di carote, ordinate in modo che la qualità 1 sia la più a buon mercato e la qualità 5 sia la più cara. Creare queste qualità, nominare questi tipi diversi di carota, è un’operazione commerciale ma è anche – senza scherzi – un’operazione epistemologica

In natura infatti non crescono carote tutti uguali di qualità 1 o pere tutte uguali di qualità 2, ma carote, pere e frutti di sapori, qualità e misure diverse, anche se simili, che l’uomo raggruppa arbitrariamente sotto un unico nome. Per esempio, nel grano, le diverse specie si differenziano in modo quasi continuo, con scatti lievissimi per dimensioni dei chicchi, tenore di umidità, consistenza, colore e potere nutritivo della farina prodotta. A questa scala continua di beni che la natura ci porge, perché essi diventino merce scambiabile in astratto, su carta, il mercante di futures deve sostituire una graduatoria discontinua di limitate qualità diverse: qualità 1, 2, 3…

Queste qualità definiscono una zona, un’area in cui sono raggruppati grani diversi che poi vengono tutti catalogati con lo stesso nome. Due grani molto simili possono trovarsi in qualità diverse perché vicini al limite tra le qualità, come paesi contigui in nazioni diverse perché sulla frontiera. Ora, non conviene coltivare specie della qualità bassa vicino al limite con la qualità alta; meglio coltivare specie situate verso il basso della qualità alta, che rende di più. La definizione interviene così nella selezione delle specie, favorendo sempre le specie situate verso il basso delle qualità superiori e sfavorendo le specie situate verso l’alto delle qualità inferiori. Intere varietà situate in queste zone sfavorite scompariranno, a causa di una definizione originariamente arbitraria.

Definire per esempio cinque e solo cinque tipi di mele farà sì che le mele prodotte saranno tutte di cinque e non più di cinque tipi. Senza saperlo, il mercato dei futures affronta e risolve a modo suo la discussione medievale sugli universali, il dibattito tra nominalisti e realisti, quando gli scolastici cercarono di risolvere il dilemma se i nomi delle cose sono pura convenzione, alito di voce, o se le idee corrispondano alla realtà oggettiva di ciò di cui esse sono l’idea, o se ancora esse hanno una realtà propria indipendente da noi che le pensiamo e dagli oggetti che vediamo. Per vendere e comprare un bue-futuro, il mercato deve definire “il bue ideale”, “l’idea di bue”. Una volta definita quest’idea, fissato lo standard, la realtà del bue allevato deve adeguarvisi, altrimenti non trova mercato. Negli Stati Uniti ogni anno migliaia di tonnellate di mele sono buttate perché di dimensioni inferiori di qualche millimetro a quelle fissate dagli standard ufficiali. Qui, per quanto all’inizio derivi da una pura convenzione arbitraria, il nome della cosa produce la sua cosa. Non solo. Esso ne definisce l’essenza, la quidditas, e perciò esclude dalla sua sostanza tutto ciò che non rientra nella definizione. Nel mercato dei futures di manzo non è definito il sapore della bistecca, come nei futures delle mele non è definito il sapore, ma solo la varietà, la dimensione, il colore. Quindi la quidditas della mela, la “melità” è definita dal colore, dalla consistenza, dalla dimensione, più in generale dalla forma, ma non dal sapore. E se il sapore è troppo “definito”, esso si scosta dalla norma. Meglio un non sapore che un sapore troppo preciso. Quella stessa definizione che si disinteressa del sapore della cosa tende a produrre cose senza sapore.

Ecco perché nei supermercati le galline sono tutte uguali, le mele hanno identiche dimensioni, le arance hanno indistinguibili colori. E nulla ha sapore. Per poter essere sottomessa al mercato dei futures. Perché i signori di Chicago (e New York, e Hong Kong, e Londra, e Singapore) possano scommetterci, puntarci, non nelle bische clandestine, come i comuni mortali, ma nei grandi templi del denaro, nel “culpii”, come li chiama Oipaz, il protagonista del bellissimo romanzo dello storico inglese Edward Thompson. [pp. 41-44]

Colore e qualità delle mele dell'Alto Adige

freshplaza.it

Come sceglie la sua partner uno statistico

Con questa infografica, nel febbraio del 2012 Drake Mortimer ha chiesto alla sua fidanzata Stacy Green di sposarlo. L’infografica è diventata virale (si stima sia stata vista 50 milioni di volte) e, sì, Stacy e Drake si sono sposati.

Emanuele Colombo ne ha tratto un video:

Iscriviti

Ricevi al tuo indirizzo email tutti i nuovi post del sito.

Unisciti agli altri 77 follower