Cosa si intende per Open Data : un percorso, non un traguardo. Diverso dal Data Journalism

Intervengo nella discussione di qualche tempo fa, a cui hanno partecipato Titti Cimmino e Maurizio Napolitano, per aggiungere un po’ di note a margine.
Per avere il quadro completo, serve leggerli:
-> Open Data: non avevo capito niente. Lo zeitgeist italiano è l’ignoranza?
-> ma cosa vuol dire open data?

Non ripeto le osservazioni fatte da entrambi, meritano e danno una lettura generale che appoggio in pieno.
Il concetto che vorrei far passare è questo: fare Open Data non è il punto di arrivo, ma solo uno step importante su un percorso assai più grande. Quello di usare il Web al suo massimo potenziale. Non solo a livello tecnico, ma sociale a tutto tondo.
E per fare questo percorso, serve delimitare correttamente ogni passaggio intermedio: se un anno fa in Italia poteva esserci un po’ di confusione sul tema dato pubblico != open data, ( all’evento Fammi Sapere avevo dedicato proprio un aspetto di questo passaggio ) ora dopo materiali e discussioni a disposizione, questo non è più possibile.

Il percorso dei dati verso la Linked Open Data cloud
Si potrebbe citare il Linked Open Data come punto di arrivo, almeno tecnico, per dire: ma voglio rafforzare quest’idea.

Siamo in un percorso, e non arriveremo tanto presto alla fine.
Abilitare davvero a livelli corretti l’Open Data in Italia, sia a livello di PA che a livello di privati, potrebbe essere il volano per cambiare le regole di questo Paese, e poi se non ora, quando?

Giusto perchè la prossima settimana sarà una settimana calda sul fronte Open Data, con molte novità in arrivo… stay tuned :) ( qualcosa ha anticipato Gigi Cogo nel post “Liberateli” ), ma anche Napo aggiunge nel suo ultimo post sulla sanatoria dei dati pubblici un po’ di anticipazioni:

Questo autunno italiano appena arrivato ha in pentola parecchie sorprese che sono state in parte anticipate con le mosse di ISTAT e ENEL e sempre più sono le pubbliche amministrazioni che stanno seguendo questo percorso (si veda il recente caso di Bologna), senza dimenticare le promesse del ministro della funzione pubblica e innovazione su un portale dei dati aperti italiano entro la fine dell’anno.

Insomma, tra l’altro tutto questo non è tutto quello che bolle in pentola, per cui i prossimi giorni saranno di fuoco davvero.
Per inciso, io porterò il tema a SMAU Milano, con la presentazione ufficiale di Apps4italy, il contest nazionale sui dati pubblici in fase di lancio, ma ne riparlerò.

Ora il tema degli Open Data è diventato sicuramente una moda, per cui serve costantemente rilanciare quello che la velocità di propagazione di una moda crea come effetto secondario. Porta certamente consapevolezza ad una massa critica, ma tende a perdere pezzi per strada sull’idea di base, distorcendola purtroppo.
Partirei dalla presentazione che farà oggi sempre Gigi ( un vulcano direi ) all’Università di Padova:

Per i curiosi sul percorso tecnico, questa recente presentazione apre molte riflessioni:

Faccio un primo elenco, non certamente esaustivo, di alcune cosuccie da sistemare in giro:

  • quando si parla di Open Data, ci si riferisce ad una dimensione ben precisa. La scala delle 5 stelline nominata anche da Titti che avevo usato per correggere il tiro anche per quanto riguarda Spaghetti Open Data, rappresenta un percorso di adozione, come ho già detto. La stessa che ha giustamente usato anche Gigi nella presentazione qui sopra. Il fatto che su SOD ci siano moltissimi dati pubblici, ma pochi Open Data, deve essere ricordato. E può risultare utile stimolare l’arrivo di tutti i dati presenti e citati alle 3 stelline, ovvero al livello degli Open Data. L’idea di base era quella di innescare un processo, in effetti. Ora SOD è una mailing-list, il catalogo sarà integrato in CKAN attraverso il gruppo di lavoro dedicato. Se vorrete dare una mano siamo qui.
  • il blog del Sole24Ore dal titolo OpenData blog, ha avuto un percorso interessante. Credo sia dovuto all’essere un aggregato di autori diversi. Ma soprattutto dagli obiettivi iniziali, che erano e sono più legati al tema del Data Journalism ( Roberto ne parla spesso nel suo blog e molto bene direi ) che a quello degli Open Data, in effetti, come emerge dalla pagina introduttiva:

    Vi è, dunque, un terreno maturo per avviare, attraverso questo blog, una sperimentazione su due fronti: proponiamo alle organizzazioni pubbliche e private un ambiente nel quale mettere a disposizione dei lettori on line dati strutturati; vogliamo, al contempo, rendere ai nostri lettori un servizio; narrando, ci auguriamo in forma innovativa, storie a partire dai dati e mettendo a loro disposizione informazioni e dati fruibili, anche in forma aggregata.

    Maurizio lo aveva già fatto notare in un commento, a dire il vero. Non si parla di Open Data, ma di racconti sui dati, e aggregazione di dati strutturati.
    Non sono la stessa cosa.

    Avere un tema del genere in casa del Sole24Ore è importante perchè trasmette autorevolezza all’argomento dati in generale, visto forse ancora come tema geek e tema di frontiera. In più veder utilizzare i widget del framework SIMILE, è stato molto bello, ci sono affezionato .)… ( visto che ne parlo dal 2006 praticamente )

    La cosa che merita attenzione poi, è che usando questi tool, si deve preparare il dato da mostrare in un formato aperto, ma poco conosciuto, il formato JSON. Potrebbe essere interessante renderlo facilmente scaricabile così come il formato CSV, al posto solo di inserirlo nel sorgente della pagina HTML.
    Il pubblico che lo utilizzerebbe sarebbe più smanettone, e magari tecnico, ma consideriamo questa possibilità. Il lavoro era già stato fatto.
    Per esempio, in questo post sul referendum è presente la timeline con il link dei dati in CSV, ma niente link ai dati in JSON che sono mostrati. Visto che uno dei plus di questo strumento è quello di tenere separati i livelli del dato e della sua presentazione, sfruttiamo il massimo potenziale dello scenario usato.

    Ma ci sono anche altri errori di fondo in diversi punti del blog che si potrebbero correggere, tra cui:

    • in un altro post, sulle imprese di Walter Bonatti che usa il widget SIMILE per la timeline è presente un’ulteriore incoerenza: i dati vengono proposti in formato Excel 2007, un formato ancor più difficile da digerire in mancanza della suite Microsoft. Quando poi sarebbe presente il formato JSON visualizzato attraverso la timeline.

    • il post sulle case fantasma è molto bello: utilizzo della mappa da Open Street Map e dati in formato CSV. Poi però l’icona per il download mostra il formato Excel. Non sono la stessa cosa, uno è un formato libero, l’altro un formato proprietario, anche se standard de facto per i dati strutturati. E questo mi pare sia successo in diversi post.
  • per citare un altro caso che ho visto in Rete, ReteCamere sta iniziando ad interagire con il mondo Open Data, e probabilmente nelle prossime settimane ne vedremo delle belle. ( si stanno muovendo per aumentare i dati a disposizione ) Intanto però grazie forse alla confusione in giro, scrive che fa Open Data senza una chiara licenza associata, e con dati in formato XLS. Serve correggere questa svista al più presto, perchè questo non è Open Data.

Segnalazioni che possono aiutare a creare un quadro più organico, che vengano messe sul tavolo come quelle per l’apertura dei dati di Enel e della relativa correzione di licenza.

I dati sono conversazione? E certo che sì!
E se facessimo un po’ di attenzione ai dati interoperabili, fare mashup sarebbe proprio semplice semplice ( senza dipendenze troppo elevate da sistemi proprietari ) :)
Qui sotto ad esempio in 5 minuti, il mashup delle due timeline elecate sopra: referendum e imprese di Walter Bonatti.I dati in JSON scaricabili a questo indirizzo:
–> http://labs.dagoneye.it/mashupshacks/data.js

Sulla licenza annessa, bella domanda: li ho presi dal blog del Sole, per cui se loro non la dichiarano, che licenza sarà? :)