Somiglianze di famiglia: metadati (4)

Promesse da marinaio. Non avevamo finito. “Dissi, vissi e mi contraddissi” è un mio motto. Consideratelo un commento a La classificazione dei bassotti (e anche un suo disvelamento).

Due brani di Wittgenstein:

Considera, ad esempio, i processi che chiamiamo “giochi”. Intendo giochi da scacchieri, giochi di carte, giochi di palla, gare sportive, e via discorrendo. Che cosa è comune a tutti questi giochi? – non dire: “deve esserci qualcosa di comune a tutti, altrimenti non si chiamerebbero ‘giochi’ “– ma guarda se ci sia qualcosa di comune a tutti. – Infatti, se li osservi, non vedrai certamente qualche cosa che sia comune a tutti, ma vedrai somiglianze, parentele, e anzi ne vedrai tutta una serie. Come ho detto: non pensare, ma osserva! – Osserva, ad esempio, i giochi da scacchiera, con le loro molteplici affinità. Ora passa ai giochi di carte: qui trovi molte corrispondenze con quelli della prima classe, ma molti tratti comuni sono scomparsi, altri ne sono subentrati. Se ora passiamo ai giochi di palla, qualcosa di comune si è conservato, ma molto è andato perduto. Sono tutti ‘divertenti’? Confronta il gioco degli scacchi con quello della tria oppure c’è dappertutto un perdente o un vincente o una competizione tra giocatori? Pensa allora ai solitari. Nei giochi con la palla c’è vincere e perdere; ma quando un bambino getta la palla contro un muro e la riacchiappa, questa caratteristica è sparita. Considera quale parte abbiano abilità e fortuna. E quanto sia differente l’abilità negli scacchi da quella nel tennis. Pensa ora ai girotondi: qui c’è l’elemento del divertimento, ma quanti degli altri tratti caratteristici sono scomparsi! E così possiamo passare in rassegna molti altri gruppi di giochi. Veder somiglianze emergere e sparire. E il risultato di questo esame suona: Vediamo una rete complicata di somiglianze che si sovrappongono e si incrociano a vicenda. Somiglianze in grande e in piccolo.

[…]

Non posso caratterizzare queste somiglianze meglio che con l’espressione “somiglianze di famiglia”; infatti le varie somiglianze che sussistono tra i membri di una famiglia si sovrappongono e si incrociano nello stesso modo: corporatura, tratti del volto, colore degli occhi, modo di camminare, temperamento, ecc. ecc. – E dirò: i ‘giochi’ formano una famiglia. E nello stesso modo formano una famiglia, ad esempio, i vari tipi di numeri. Perché chiamiamo una certa cosa ‘numero’? Forse perché ha una – diretta – parentela con qualcosa che finora si è chiamato numero; e in questo modo, possiamo dire, acquisisce una parentela indiretta con altre cose che chiamiamo anche così. Ed estendiamo il nostro concetto di numero così come, nel tessere un filo, intrecciamo fibra con fibra. E la robustezza del filo non è data dal fatto che una fibra corre per tutta la sua lunghezza ma dal sovrapporsi di molte fibre una all’altra. Se però qualcuno dicesse: “Dunque c’è qualcosa di comune a tutte queste formazioni, – vale a dire la disgiunzione di tutte queste comunanze” – io risponderei: qui ti limiti a giocare con una parola. Allo stesso modo si potrebbe dire: un qualcosa percorre tutto il filo, – cioè l’ininterrotto sovrapporsi di queste fibre.

Wittgenstein, Ludwig (1967). Ricerche filosofiche. Torino: Einaudi. 1967.

Pubblicato su Statistica. 9 Comments »

Classici dei metadati (e poi la finiamo): la mappa dell’impero

Tutti citano questo racconto di Borges a memoria, ed è difficile da ritrovare nella sua sterminata produzione. Quindi, nel consueto spirito di servizio, eccolo qui, a completare una trilogia:

“In quell’Impero l’arte della cartografia raggiunse tale perfezione che la mappa d’una sola provincia occupava tutta la città, e la mappa dell’Impero tutta una provincia. Col tempo codeste mappe smisurate non soddisfecero e i collegi dei cartografi eressero una mappa dell’Impero che uguagliava in grandezza l’Impero e coincideva puntualmente con esso. Meno dedite allo studio della cartografia, le generazioni successive compresero che quella vasta mappa era inutile e non senza empietà l’abbandonarono alle inclemenze del sole e degl’inverni. Nei deserti dell’Ovest rimangono lacere rovine della mappa, abitate da animali e mendichi; in tutto il Paese non è altra reliquia delle discipline geografiche.”

(“Del rigore nella scienza”. Jorge Luis Borges. Tutte le opere, 1. Milano: Mondadori. 1984)

Pubblicato su Statistica. 4 Comments »

Ancora metadati: la classificazione dei bassotti

In un famoso racconto, una creatura di Cortazar decide di classificare in modo definitivo i bassotti.

Individuato il primo gruppo, formato da 8 bassotti, si accorge che deve a sua volta suddividerlo in tre sottogruppi – “bassotti baffuti, bassotti tipo pugile e bassotti stile segretario di ministero” – composti rispettivamente di 3, 3 e 2 bassotti.

Separatili sulla base delle nuova suddivisione, si rende conto però che il primo sottogruppo non è omogeneo, “perché due bassotti baffuti appartenevano al tipo roditore, mentre quello che restava era senza alcun dubbio un bassotto di taglio giapponese”.

Messo da parte quest’ultimo, si accinge ad annotare le caratteristiche del sottogruppo dei due roditori nella cartella dei suoi lavori scientifici, quando si girano di profilo: “mentre il primo roditore era un bassotto brachicefalo, l’altro bassotto metteva in evidenza un cranio molto più adatto per appenderci un cappello che per calzarlo”.

“Fu così – conclude Cortazar – che il sottogruppo le si dissolse tra le mani; quanto al resto, non vale neppure la pena di parlarne”.

(“La loro fede nelle scienze”. Julio Cortazar. I racconti. Torino: Einaudi-Gallimard. 1994. Riconosco con gratitudine a Phoebe il merito di aver attirato la mia attenzione su questo racconto e di averne sottolineato l’attinenza ai metadati.)

Pubblicato su Statistica. 4 Comments »

42: l’importanza dei metadati

Questo è un apologo che illustro sempre ai miei studenti (che non lo capiscono) per spiegare che i dati senza metadati non servono a niente.

Secondo la Guida galattica per gli autostoppisti di Douglas Adams (trilogia in cinque parti pubblicata in Italia da Mondadori), gli scienziati di una specie di esseri super-intelligenti multi-dimensionali costruì il più grande computer di tutto lo spazio e di tutti i tempi, Deep Thought, affinché calcolasse la risposta ultima della questione fondamentale sulla vita, l’universo e tutto quanto. Dopo sette milioni e mezzo di anni di calcolo, il computer dà la risposta: 42.

“42!” – gridò Loonquawl, il capo degli scienziati – “Tutto qui il risultato di sette milioni e mezzo di anni di lavoro?”

“Ho controllato con scrupolo: la risposta è esatta” – rispose il computer – “Ma se devo essere onesto, il problema è che non avete mai saputo quale fosse la domanda!”

L’apologo finisce qui, per quanto riguarda i metadati. La storia continua, e forse in futuro ve la racconterò…

Pubblicato su Statistica. 8 Comments »

Il bue di Galton e la democrazia: una modesta proposta

All’inizio del suo fortunato libro sulla saggezza delle folle (The Wisdom of Crowds, New York: Doubleday, 2004), James Surowiecki racconta un aneddoto su Francis Galton, uno dei padri fondatori della statistica. Nell’autunno del 1906 Galton, ormai 85enne, visitò una fiera zootecnica a Plymouth, attratto dai suoi interessi in tema di eugenetica. Le sue convinzioni in materia – non limitate al bestiame, ma estese all’ereditarietà nelle società umane – erano che soltanto pochi individui avessero i caratteri necessari a mantenere una popolazione in buona salute. Aveva inventato due discipline, l’antropometria e la psicometria, per misurare le caratteristiche fisiche e mentali, pervenendo alla conclusione che “la stupidità di molti uomini e donne era così grande da non credersi” e che soltanto se il controllo del potere restava saldamente nelle mani dei pochi migliori la società poteva prosperare.

Al centro di una piccola folla era esposto un bue, e per sei pence si poteva scommettere sul suo peso, una volta macellato; chi si fosse avvicinato di più al peso effettivo avrebbe vinto un premio in danaro. Galton notò, con la consueta acutezza, che la situazione si prestava a un esperimento scientifico: non c’era la possibilità che le scommesse fossero influenzate dall’oratoria di un imbonitore; il costo del biglietto scoraggiava i burloni e la prospettiva del premio spingeva ciascuno a fare del suo meglio. Soprattutto, la composizione degli scommettitori era assai varia: accanto ad allevatori e macellai esperti, c’era un gran numero di curiosi e di visitatori occasionali (“lo scommettitore medio – commentò Galton – non era probabilmente più competente a giudicare il peso del bue, di quanto non sia l’elettore medio nel giudicare il merito di una proposta politica, e anche la varietà dei gruppi era analoga”).

A questo punto, Galton chiese agli organizzatori della riffa di poter disporre per qualche giorno dei biglietti e – dopo averne eliminati tredici illeggibili – tabulò in ordine crescente le 787 stime e calcolò un insieme di misure statistiche. Sulla base del principio democratico “un voto, un valore” – osservò Galton nel resoconto dell’esperimento (“Vox populi”, Nature, No. 1949, Vol. 75, March 7, 1907) – il valore centrale rappresentava la scelta della maggioranza, cioè la vox populi, perché tutti gli altri valori sarebbero stati respinti come troppo elevati o troppo bassi da una maggioranza dei votanti. Il valore centrale stimato dai partecipanti risultò essere di 1.207 libbre, a fronte di un valore vero, misurato dopo la macellazione dell’animale, di 1.198 libbre. La stima di un’accozzaglia piuttosto casuale di visitatori della fiera zootecnica, in altre parole, si era avvicinata molto al peso reale, con un’approssimazione inferiore all’1 per cento!

Questo non era quello che Galton, sulla base delle sue convinzioni, si sarebbe aspettato; ma poiché nell’uomo la deontologia scientifica prevaleva sulle opinioni, per quanto radicate e radicali, la conclusione dell’articolo riconosce i meriti della democrazia: “Questo risultato, ritengo, va a merito dell’attendibilità di un giudizio democratico più di quanto ci si potesse aspettare”.

Questo punto d’arrivo richiama quello attribuito a un altro grande conservatore, Winston Churchill: “It has been said that democracy is the worst form of government except all the others that have been tried”.

Tutto bene, quindi? Sulla base dell’esperimento di Galton, ci possiamo aspettare che il giudizio formulato da 787 visitatori di una fiera zootecnica, o da 945 deputati e senatori, per quanto incompetenti sull’oggetto di deliberazione, si avvicini alla scelta migliore? Non c’è modo di migliorare la democrazia?

In realtà, non è del tutto chiaro se Galton stabilisca un parallelismo tra i partecipanti alla lotteria zootecnica e il corpo elettorale, o i suoi rappresentanti. Nella prima ipotesi, il ragionamento si applicherebbe soltanto ai casi di democrazia diretta, in cui l’insieme degli elettori sia chiamato a “giudicare il merito di una proposta politica”. Questo caso è abbastanza raro in Italia, dove l’istituto del referendum è regolamentato piuttosto restrittivamente (non accade così in altri paesi europei, come la Svizzera, in cui gli elettori sono chiamati spesso a esprimersi in materia legislativa).

Nelle democrazie rappresentative, invece, il corpo elettorale sceglie un certo numero di rappresentanti, cui delega il compito di assumere, in sua vece, le decisioni politiche. In questa seconda ipotesi, il ragionamento di Galton dovrebbe applicarsi ai membri eletti del parlamento. Tuttavia, i 945 deputati e senatori italiani non sembrano avere i requisiti necessari: la circostanza che le scelte siano influenzate dall’oratoria fa parte delle regole del gioco democratico; non vi sono costi espliciti tali da scoraggiare i burloni o gli irresponsabili; non ci sono forti incentivi a fare del proprio meglio (salvo quello della rielezione, che, però, non è legato alla singola valutazione politica). Soprattutto, i 945 parlamentari non hanno la necessaria “varietà”: non si tratta certo di un’accozzaglia di esperti, curiosi e visitatori occasionali, quanto di un contingente di persone che – quale che ne sia la motivazione – hanno fatto della politica la loro professione.

In questo caso, dunque, le premesse statistiche dell’applicabilità del ragionamento di Galton vengono meno. Per migliorare la democrazia si apre piuttosto la possibilità di sorteggiare i membri del parlamento, in modo che siano al tempo stesso rappresentanti e rappresentativi del corpo elettorale.

Pubblicato su Statistica. 6 Comments »

Chiara, Patrizia e i romani scomparsi

PATRIZIA: Hai visto quest’articolo? “L’Istat si è perso 187mila romani”. Un esercito di desaparecidos, dice il giornale. Mi sa che il presidente dell’Istat è peggio di Pinochet!

CHIARA: Veramente, quella era la giunta militare argentina di Videla. Anche se non è che Pinochet sia stato molto meglio…

PATRIZIA: Comunque, non cambiare discorso. Il fatto resta gravissimo: all’Istat non conoscono l’ABC del loro mestiere, oppure lo conoscono e non lo praticano. Evidentemente ha ragione Ichino: dentro la pubblica amministrazione italiana si annida una maggioranza di nullafacenti, che prospera a spese dei cittadini che pagano le tasse, cioè a nostre spese. Gli statistici, con tutte quelle aree di scienziati che si danno, non sono meglio degli altri. Ma lo sai che il censimento – lo dice l’articolo – è costato 430 milioni di euro?

CHIARA: Vabbè, che sarà mai. Sono poco più di 7 euro a testa…

PATRIZIA: Sempre quei tuoi calcoli pignoli. E anche sbagliati. Non mi interessa sapere quanto ha pagato ogni cittadino, ma quanto ha intascato ciascuno dei fannulloni dell’Istat. Quanti sono, poi? C’è scritto nell’articolo?

CHIARA: No, ma io lo so. Sono circa 2.500 e quindi sarebbero 172mila euro a dipendente, un’enormità. Ma è un calcolo senza senso, perché il censimento è un’operazione molto complessa, cui non prende parte soltanto l’Istat, ma anche le strutture del ministero dell’interno, la rete delle camere di commercio e tutti i Comuni. Sono i Comuni, in particolare, a scegliere e a pagare i rilevatori. Il grosso dei soldi va quindi ai Comuni e, per loro tramite, all’esercito dei rilevatori.

PATRIZIA: Sarà. Ma resta il fatto dell’incompetenza: come è possibile perdersi per strada quasi 200mila persone. Ma ti rendi conto che è una città delle dimensioni di Trieste?

CHIARA: Aspetta! Ma per poter dire che a Roma ci sono 200mila persone in più rispetto a quelle censite dall’Istat (e dal Comune di Roma!) bisogna avere un altro dato, per fare il confronto.

PATRIZIA: Ma certo! Vediamo se l’articolo lo dice… Ecco: la differenza nasce dal confronto con l’anagrafe.

CHIARA: Ma allora le cose cambiano. Qui stiamo confrontando due numeri, due misurazioni della popolazione di Roma – tra l’altro, di tutte e due sono responsabili insieme, anche se con compiti e responsabilità diversi, sia l’Istat sia il Comune di Roma… Due numeri, dicevo, uno che viene dai registri dell’anagrafe, che spero bene che a Roma siano informatizzati da tempo, e l’altro dai questionari raccolti con il censimento. Come fa l’articolo a sapere qual è il dato giusto?

PATRIZIA: Quello dell’anagrafe, ovvio!

CHIARA: Mica tanto. Se il dato dell’anagrafe fosse esatto, non ci sarebbe bisogno di fare il censimento. Basterebbe farsi stampare la situazione alla mezzanotte tra il 20 e 21 ottobre 2001 dall’archivio dell’anagrafe. Il problema è che anche nell’anagrafe ci sono errori. Hai mai cambiato residenza?

PATRIZIA: Sì, mi sono spostata da Crotone a Torino dodici anni fa. Ci hanno impiegato mesi a registrare il cambio di residenza, non mi è nemmeno arrivato il certificato elettorale in tempo…

CHIARA: Lo vedi? E questo è un caso semplice. Poi ci sono quelli che per loro convenienza, o per motivi ancora meno trasparenti, o per distrazione, o per pigrizia, o perché pressati da problemi più importanti non segnalano il cambiamento di residenza. E poi, naturalmente, ci sono gli errori degli impiegati e quelli del software. Nessuno è perfetto, no? Per questo, in occasione del censimento, si fa un riallineamento dell’anagrafe.

PATRIZIA: Cioè, mi stai dicendo che i numeri del censimento sono quelli giusti, e che quelli dell’anagrafe sono sbagliati?

CHIARA: No, sto cercando di riflettere, e di non prendere per oro colato quello che scrivono i giornali. Anche nel censimento ci possono essere molti errori, soprattutto quando le persone che dovrebbero essere censite non si trovano o non si fanno trovare: pensa ai single che stanno fuori tutta la giornata, alle persone anziane e diffidenti che non aprono la porta a nessuno… Te l’avevo detto che fare il censimento è complicato. Il lavoro non finisce con la raccolta e lo spoglio dei questionari: sono necessarie una serie di operazioni per garantire la qualità dei dati censuari.

PATRIZIA: Adesso sei capziosa, oltre che pignola. Come a dire che il numero vero della popolazione di Roma non esiste, o non si può conoscere…

CHIARA: Capziosa… Io preferisco pensare che sto esercitando il mio senso critico. Vedi, quando diciamo che una cosa è vera, usiamo la stessa parola per riferirci a situazioni diverse. Ci sono le cose logicamente vere: una proposizione è vera o falsa sulla base di un sistema di proposizioni elementari, di connettori logici e di tabelle di verità. Pensa a un teorema matematico. Ci sono le cose empiricamente vere, quelle su cui la scienza, o la comunità degli scienziati sono sostanzialmente d’accordo: la terra gira intorno al sole. Qui si aprono questioni filosofiche intricate…

PATRIZIA: Ecco, risparmiamele!

CHIARA: Il punto, infatti, è un altro: usiamo i termini “vero” e “falso” anche in altri contesti. Ti faccio un esempio: quanto sei alta? Un metro e sessanta? Un metro e sessantatre? 1.632 millimetri? Queste risposte sono tutte vere, e tutte false, al tempo stesso. Sono “false” perché dipendono dalla precisione dello strumento di misura e dal modo in cui la misura è effettuata (posso usare un muro con tacche graduate, come nei polizieschi, o un metro a fettuccia, o uno strumento laser) e dalle circostanze e dal momento in cui prendo la misura (se ti misuro la sera dopo che sei stata in piedi tutto il giorno sei un pochino più bassa che la mattina appena alzata; anche se sei in piedi o sdraiata fa differenza).

PATRIZIA: Comincio a capire dove vuoi arrivare…

CHIARA: In un certo senso, “il numero vero” della tua statura non esiste e non si può conoscere. In un altro, tutti questi numeri sono “veri”, rispetto alle misure sicuramente sbagliate (tre millimetri, due chilometri o addirittura un chilo o un litro!). Quello che conta sono due elementi. Primo, che le procedure della misurazione siano trasparenti, rispondano a criteri accettati dalla comunità scientifica e possano essere controllate da chi è interessato a farlo. Secondo, che la precisione della misura sia adeguata allo scopo della misurazione, cioè alle esigenze conoscitive che l’hanno motivata.

PATRIZIA: Ho capito. E nel caso del censimento?

CHIARA: Nel caso del censimento, uno degli scopi primari è – come ti ho detto – quello di allineare il risultato delle registrazioni amministrative delle anagrafi e quello di un conteggio effettuato indipendentemente. Una differenza tra le due misure è attesa e fisiologica, e tende a essere più grande nei comuni maggiori, dove sia il funzionamento dell’anagrafe sia le operazioni censuarie sono più complessi. Non ho dubbi che Istat e Comune di Roma possano migliorare e allineare le loro stime…

PATRIZIA: Sì, ma l’articolo non ci ha aiutato a giungere a queste conclusioni, e anzi mi aveva messo su una strada falsa. I giornalisti dovrebbero documentarsi meglio prima di scrivere, e provare a spiegarsi meglio. Altrimenti è disinformazione.

CHIARA: Forse. Certamente ci devono dare tutti gli elementi per formarci un’opinione razionale, più che emotiva. Poi sta a noi lettori avere la sensibilità e gli strumenti per esercitare il nostro senso critico.

Pubblicato su Statistica. 2 Comments »