I numeri portano sempre dolore

Togliti di mezzo, Matrix. Hai fatto il tuo tempo.

La profonda realtà dei numeri, quanto essi contribuiscano a tessere le nostre esistenze, quanto – per quanto dolorosa – la sensibilità ai numeri e la conoscenza quantitativa contribuiscano a farci umani: tutto questo è raccontato, con grandissima poesia, nei 9 minuti di questo film del regista ceco Robert Hloz girato in Corea.

Guardatelo con attenzione.

Mi ringrazierete.

Quando i giornali parlano di scienza a sproposito, di chi è la responsabilità?

Se lo chiede David Spiegelhalter, un professore di statistica che dirige il Winton programme for the public understanding of risk dell’Università di Cambridge e di cui abbiamo già parlato in questo blog, qui e qui.

understandinguncertainty.org

Leggi il seguito di questo post »

L’uovo di Galileo e il gesuita strapazzato

Il brano è uno dei più famosi del Saggiatore di Galileo Galilei, ma l’idea di scherzarci sopra e di cimentarmi nella parafrasi in italiano moderno dell’italiano secentesco del nostro è per me una tentazione troppo forte (come Oscar Wilde, «I can resist everything except temptation»).

wikimedia.org/wikipedia/commons

Leggi il seguito di questo post »

L’abbecedario dei diagrammi | FlowingData e Virtual Beauty

Questo video, che ho trovato su FlowingData, ma concepito da Jane Nisselson, la fondatrice e l’anima di Virtual Beauty, è l’aperitivo a un più vasto progetto sui diagrammi. È così bello che non posso evitare di segnalarvelo e di consigliarvi vivamente di interiorizzarlo e farlo vostro. Aiuterà il vostro senso critico a distinguere i diagrammi e i grafici vistosi ma inutili e sbagliati (sono onnipresenti), da quelli utili e belli (anzi: utili e perciò belli). Sono 3′ e 19″: più di un singolo spot televisivo, ma meno di una di quelle raffiche di spot che ti sparano nel prime time:

Ed ecco come lo commenta la stessa Jane Nisselson sul sito di Virtual Beauty:

Diagrams are everywhere — from the established conventions of highway signs to the newly emerging visualizations appearing on social networking websites.  Most people have a personal experience of diagrams whether drawing directions or figuring out how to operate a new computer. Yet very few people are familiar with how we read or construct diagrams.

This short film introduces the language of diagrams and their role in visual thinking and communication. As only a film can do, it reveals the vocabulary “in the wild” and in the context of making and using diagrams.

This pilot film is intended as a teaser for a larger examination diagrams — from patent offices and computer-produced assembly instructions to data visualizations and MRIs. Diagrams are an ideal subject for a popular film on a scientific topic because they are both accessible and ubiquitous, providing a great vehicle for initiating a broad public to an essential tool of communication and creativity across all disciplines in science and engineering.

Distinction: Visionary Grant award 2009, Gordon Research Conference, as part of The Scripps Research Institute’s Visualization in Science and Education Grant from NSF. Principal Investigator: Professor Jeff Nickerson of the Stevens Institute of Technology. The award is intended to seed new interdisciplinary research.

Presentation: Gordon Research Conference on Visualization in Science & Education (July 10-15, 2011).

The film is based on “Visualizing Thought” by Barbara Tversky. Published in “Topics in Cognitive Science” Volume 3, Issue 3, pages 499–535, July 2011.

Film Credits: Soundtrack: Pat Irwin. Edit: Alex Bingham. Camera: Claudia Christensen, Oren Eckhaus, Brian Jackson, Sean Sigler, Ian Vollmer.

Resto in attesa del seguito del progetto e vi terrò informati.

Nate Silver, il vincitore morale delle elezioni americane

Non sono né Barack Obama né Mitt Romney i vincitori delle elezioni americane, ma Nate Silver, l’uomo che vedete fotografato qui sotto.

Nate Silver

salon.com

Nate Silver ha meno di 35 anni (li compie il 13 gennaio del 2013) e una laurea in economia. Dopo la laurea, ha lavorato per quasi 4 anni alla KPMG. Un lavoro che lo annoiava profondamente, tanto da indurlo a sviluppare – durante l’orario d’ufficio – un software per prevedere le prestazioni e la carriera dei giocatori di baseball, PECOTA. Baseball e statistica erano le sue passioni fin dall’infanzia. Licenziatosi dalla KPMG, Silver si è mantenuto giocando a poker online, seguendo la strada che prima di lui aveva già seguito un precursore delle teorie sulla probabilità, Gerolamo Cardano. Nel 2007 cominciò a occuparsi anche di previsioni politiche, dapprima con lo pseudonimo di Poblano. Nel marzo del 2008 iniziò il suo blog, FiveThirtyEight.com (538 sono i collegi che eleggono il presidente degli Stati Uniti) e il 30 maggio 2008 Poblano rivelò la sua vera identità ai lettori. Nell’elezione del 2008 azzeccò la previsione del candidato vincitore i 49 Stati su 50. Il 25 agosto 2010 Silver e il suo blog migrarono al New York Times.

Nonostante la maggiore incertezza della campagna presidenziale di quest’anno, la mattina del 6 novembre Silver arrivò a prevedere per Obama una probabilità di vittoria del 90,9%, suscitando non poco scetticismo. Invece, ha fatto ancora meglio di 4 anni fa, anche se gli altri osservatori davano come “in bilico ” il risultato di 9 Stati, azzeccando tutti e 50 gli Stati più il District of Columbia.

538 prediction

salon.com

Sto leggendo il suo libro, The Signal and the Noise e ve ne parlerò tra poco. Nel frattempo, godetevi questo clip in cui spiega (seriamente) il suo metodo:

Qui lo spiega all’interno di una trasmissione comica (dovete accontentarvi del link).

Si possono prevedere i risultati delle olimpiadi?

La risposta è certamente affermativa. Ma come? I modi possono essere innumerevoli, dal famoso polpo Paul alle previsioni ragionate degli economisti (che come noto sono in grado di prevedere razionalmente un risultato e il suo contrario).

Fabio Radicchi, un giovane fisico romano, ha applicato un modello statistico. Il post di Samuel Arbesman dove ho trovato la notizia (“Universal Laws at the Olympics and Predictions for 2012“, Wired Science Blogs: Social Dimension, 25 luglio 2012) colloca il lavoro di Radicchi nell’ambito delle spiegazioni matematiche delle performance umane, di cui riporta esempi riferiti agli anni Settanta e Ottanta (qui e qui). Studiare i limiti delle performance umane sotto il profilo statistico è particolarmente interessante (per uno statistico, va da sé), perché ci stiamo per definizione concentrando su una coda della distribuzione (quella degli atleti migliori; io sto in quell’altra, naturalmente), mentre la statistica dà il meglio di sé quando si parla di medie e di distribuzioni normali. Esiste però un’intera branca della statistica, la teoria dei valori estremi, che studia proprio questi aspetti.

Medaglie d'oro

wired.com

Il ragionamento di Radicchi è abbastanza semplice da spiegare (l’articolo “Universality, Limits and Predictability of Gold-Medal Performances at the Olympic Games” si può scaricare liberamente): si ipotizza che il miglioramento relativo dei record obbedisca a una legge universale e che tenda al raggiungimento di un valore limite. Radicchi usa il medagliere olimpico (in primo luogo le medaglie d’oro, ma anche quelle d’argento e di bronzo, per 3 motivi:

  1. sono disponibili osservazioni per oltre un secolo (i primi giochi dell’era moderna si disputarono nel 1896);
  2. i dati sono dettagliati e regolarmente distribuiti nel tempo (ogni 4 anni);
  3. nella stragrande maggioranza delle discipline, la performance del vincitore della medaglia d’oro approssima piuttosto fedelmente il miglior risultato conseguibile in quel momento storico, data la rilevanza e il prestigio della manifestazione.

Sulla base di queste premesse, l’articolo si propone:

  1. di mostrare che i miglioramenti della performance obbediscono a una legge universale;
  2. di stimare i valori limite del miglioramento di performance;
  3. di prevedere i risultati (in termini di performance) delle olimpiadi di Londra.

* * *

Per quanto riguarda il primo aspetto, Radicchi mostra che i miglioramenti relativi nella performance del vincitore della medaglia d’oro in due edizioni consecutive delle olimpiadi tende ad avvicinarsi a un valore limite e che i miglioramenti stessi (non le prestazioni in termini assoluti) sono distribuiti normalmente. Radicchi registra questa regolarità in 55 discipline olimpiche.

Vediamo qui l’esempio, piuttosto chiaro, dei 400 m piani maschili.

Radicchi 1

plosone.org

Nel primo quadrante della figura (a) si presenta la stima migliore del valore limite (il record insuperabile per i 400 m piani maschili è stimato in 41′ e 62 centesimi). La significatività statistica del risultato è molto elevata e il secondo e terzo quadrante (b e c) mettono a confronto la distribuzione normale teorica (in nero) con quella misurata da Radicchi sui risultati effettivi. Infine, nel quarto quadrante si vede che il risultato non dipende dalle particolari edizioni dei giochi olimpici e che la distribuzione è stazionaria.

I risultati conseguiti sono particolarmente importanti perché sono generalizzati, cioè applicabili a un numero elevato di discipline olimpiche. Radicchi li spiega così:

At each new edition of the Games, gold-medal performances get, on average, closer to the limiting performance value. The average positive improvement observed in historic performance data can be motivated by several factors: as time goes on, athletes are becoming more professionals, better trained, and during the season have more events to participate in; the pool for the selection of athletes grows with time, and, consequently there is a higher level of competition; the evolution of technical materials favors better performances. On the other hand, there is also a non null probability that winning performances become worse than those obtained in the previous edition of the Games (i.e., relative improvement values are negative). All these possibilities are described by a Gaussian distribution that accounts for various, in principle hardly quantifiable, factors that may influence athlete performances: meteorological and geographical conditions, athletic skills and physical condition of the participants, etc.

* * *

L’applicazione dello stesso modello e delle stesse procedure di stima a una pluralità di discipline olimpiche permette a Radicchi di determinare per ognuna il valore limite e, al tempo stesso, di stimarne la bontà. La validità del modello è riscontrata per l’intera gamma delle corse (dai 100 m alla maratona), per i record che riguardano la distanza e l’altezza (i diversi tipi di salto in lungo e in alto) e nel nuoto.

Nella figura qui sotto qualche esempio: Per la maratona il limite è stimato in 5771,44 secondi (1h36’11” e 44 centesimi), per il salto in alto femminile in 8,12 m, per i 100 m maschili e femminili rispettivamente in 8,28″ e 9,12″.

radicchi 2

plosone.org

* * *

Infine, ecco le previsioni dei risultati in alcune discipline per Londra 2012, come emergono da modello di Radicchi:

Radicchi 3

plosone.org

Il baseball, il copyright e Wikipedia

La storia la racconta Robinson Meyer, scrittore e musicista che vive nei pressi di Chicago, sull’edizione online di The Atlantic del 18 luglio 2012: MIT Economist: Here’s How Copyright Laws Impoverish Wikipedia. In Italia l’ha ripresa Luca De Biase sul suo blog: Abhishek Nagaraj e il copyright:

Secondo l’economista del Mit Abhishek Nagaraj il copyright peggiora l’informazione disponibile per le conoscenze condivise universalmente. (Atlantic).

Non stupisce: probabilmente il copyright è connesso proprio a un concetto contrario a quello dell’accesso universale: è un sistema che insiste sull’idea che l’accesso a informazioni speciali e di speciale valore meriti una barriera alla circolazione e un pagamento che ne sostenga la produzione, ma creando una condizione per cui chi se lo può permettere mantiene a distanza in termini di conoscenze da chi non se lo può permettere o non riesce a capirne il valore.

La valutazione politica di questa situazione non può che essere diversa per le diverse sensibilità. Ma indubbiamente Nagaraj ha trovato un modo per descriverla in modo molto concreto.

Ecco, Luca De Biase mi perdonerà (o forse no, perché è la seconda volta in poche settimane che dissento da lui), ma mi sembra che non abbia colto fino in fondo il senso dell’articolo di Robinson Meyer e della ricerca di Abhishek Nagaraj (se sono io che sbaglio, chiedo scusa in anticipo con il capo coperto di cenere).

Robinson Meyer riconosce ab initio, nelle prime frasi del suo articolo, che la faccenda del copyright è ingarbugliata e richiederebbe una conoscenza enciclopedica (forse più quella del demone di Laplace che di Aristotele). Ma proprio per questo – sostiene – in primo luogo non funziona; in secondo è troppo complessa per essere riconducibile alle diverse sensibilità politiche (come le chiama De Biase):

Everyone knows that the flow of information is complex and tangled in society today — so thank goodness for copyright law! Truly, no part of our national policy is as coherent, in the interest of the public or as updated for the Internet age as that gleaming tome in the US Code.
Not.
Unless you’re reppin’ the MPAA, you probably know that the modern copyright regime doesn’t work. You don’t have to believe in radical copyleftism — or even progressivism — to understand this. But it’s hard to know how the current body of law governing copyright and intellectual property affects individual works, simply because of the way communication, and ideas in general, work. One thing connects to another, and pulling apart the causes from the effects requires an Aristotle-like familiarity with contemporary culture.

Proprio per la complessità della questione (anche se il giudizio negativo sul fatto che l’attuale normativa statunitense sul copyright non funziona è nettissimo) Robinson Meyer sta ben attento a sottolineare che il valore della ricerca di Abhishek Nagaraj sta proprio nel fatto di essere circoscritta a Wikipedia e al rapporto tra qualità delle conoscenza e esistenza o meno delle limitazioni imposte dal copyright.

But one MIT economist, Abhishek Nagaraj, who recently presented his work at Wikimania, has found a way to test how the copyright law affects one online community — Wikipedia — and how digitized, public domain works dramatically affect the quality of knowledge.

Abhishek Nagaraj

mit.edu

La storia della ricerca di Abhishek Nagaraj (giovanissimo studente di PhD del second’anno) è affascinante e trae spunto dalla digitalizzazione e pubblicazione, nel 2008, da parte di Google di molte riviste americane, tra cui l’autorevole Baseball Digest, dedicato (lo dice il nome stesso) ai giocatori di baseball e riccamente illustrato.

Basball Digest

theatlantic.com

Google ha digitalizzato tutti i numeri del Baseball Digest da luglio del 1945 al 2008. Ma attenzione, per effetto di una clausola della legge statunitense sul copyright tutti gli articoli antecedenti il 1964 sono entrati nel pubblico dominio, mentre quelli successivi a quella data sono ancora protetti dalla tutela del copyright. La ricerca di Abhishek Nagaraj si è concentrata sul quarantennio fino al 1984 e si è sviluppata in questi passi fondamentali:

  1. Su Wikipedia opera un gruppo di tifosi di baseball che cura la redazione e l’aggiornamento dei campioni di baseball. Questi non hanno impiegato molto a scoprire la nuova fonte, rappresentata dai numeri digitalizzati di Baseball Digest. Il risultato, misurato da Abhishek Nagaraj, è che gli articoli sui campioni All-Stars riferiti al periodo 1945-1984 sono aumentati in media di 5.200 parole per articolo. Questo mette in evidenza con sufficiente chiarezza che i redattori di Wikipedia hanno ampiamente utilizzato il nuovo materiale.
  2. A questo punto Abhishek Nagaraj ha suddiviso il materiale di Baseball Digest in 2 parti: i numeri fino al 1964, ormai “fuori diritti” (gruppo di controllo, nel linguaggio degli esperimenti clinici), e quelli del ventennio successivo, tuttora tutelati (gruppo di trattamento).
  3. Confrontando i due insiemi, Abhishek Nagaraj è stato in grado di misurare gli effetti del sussistere o meno del copyright sugli articoli sui campioni di baseball pubblicati su Wikipedia, in termini di lunghezza del testo, numero di immagini e traffico generato.
  4. La lunghezza degli articoli (in generale aumentato, come si è detto) non appare influenzata dall’esistenza o meno della tutela del copyright: questo perché è piuttosto agevole aggirarla semplicemente parafrasando il testo.
  5. Non così per le immagini. Prima della digitalizzazione di Baseball Digest, gli articoli riferiti al primo ventennio presentavano in media 0,183 immagini per articolo e quelli del secondo ventennio 0,158. Dopo la digitalizzazione, la frequenza delle immagini è aumentata sensibilmente, ma con una fondamentale differenza nei due gruppi: nel primo, quello dove le immagini erano di dominio pubblico, sono salite a 1,15 immagini per articolo in media; nel secondo, dove le immagini erano sotto copyright, si rilevano 0,667 immagini per articolo. Pertanto, la presenza del copyright scoraggia l’uso dell’immagine in poco meno della metà dei casi.
  6. Tutto questo ha anche avuto un effetto sensibile sul traffico generato e sulla popolarità delle pagine. Gli articoli pre-1964 che erano già “popolari” (nel 10% più consultato) hanno visto un incremento di popolarità del 70%; ma anche quelli del 10% meno popolare hanno comunque visto crescere la loro popolarità del 15%. Inoltre, gli articoli pre-1964 sono stati “corretti” più di frequente. Entrambi questi effetti sono comprensibili, dal momento che è noto che gli algoritmi di Google premiano le voci in cui sono presenti immagini e che sono state aggiornate più di recente.
  7. Abhishek Nagaraj – che è uno statistico serio – ha sottoposto i suoi risultati a una serie di controlli (dal talento dei giocatori, al loro essere mancini, alla durata della loro carriera) per escludere che questi fattori possano avere influito sui risultati del suo esperimento.

Queste le sue conclusioni:

Copyright law affects to some degree what information makes its way onto Wikipedia, but what it more strongly affects is how we use that information once it’s there. In other words, digitizing any knowledge increases an article’s text, but only digitizing public domain images makes articles more frequently updated and visited.

Abhishek Nagaraj mette a disposizione sul web le slide della sua presentazione e vi consiglio vivamente di andarle a guardare, per seguire meglio il suo esperimento.