Cosa si intende per Open Data : un percorso, non un traguardo. Diverso dal Data Journalism

Intervengo nella discussione di qualche tempo fa, a cui hanno partecipato Titti Cimmino e Maurizio Napolitano, per aggiungere un po’ di note a margine.
Per avere il quadro completo, serve leggerli:
-> Open Data: non avevo capito niente. Lo zeitgeist italiano è l’ignoranza?
-> ma cosa vuol dire open data?

Non ripeto le osservazioni fatte da entrambi, meritano e danno una lettura generale che appoggio in pieno.
Il concetto che vorrei far passare è questo: fare Open Data non è il punto di arrivo, ma solo uno step importante su un percorso assai più grande. Quello di usare il Web al suo massimo potenziale. Non solo a livello tecnico, ma sociale a tutto tondo.
E per fare questo percorso, serve delimitare correttamente ogni passaggio intermedio: se un anno fa in Italia poteva esserci un po’ di confusione sul tema dato pubblico != open data, ( all’evento Fammi Sapere avevo dedicato proprio un aspetto di questo passaggio ) ora dopo materiali e discussioni a disposizione, questo non è più possibile.

Il percorso dei dati verso la Linked Open Data cloud
Si potrebbe citare il Linked Open Data come punto di arrivo, almeno tecnico, per dire: ma voglio rafforzare quest’idea.

Siamo in un percorso, e non arriveremo tanto presto alla fine.
Abilitare davvero a livelli corretti l’Open Data in Italia, sia a livello di PA che a livello di privati, potrebbe essere il volano per cambiare le regole di questo Paese, e poi se non ora, quando?

Giusto perchè la prossima settimana sarà una settimana calda sul fronte Open Data, con molte novità in arrivo… stay tuned :) ( qualcosa ha anticipato Gigi Cogo nel post “Liberateli” ), ma anche Napo aggiunge nel suo ultimo post sulla sanatoria dei dati pubblici un po’ di anticipazioni:

Questo autunno italiano appena arrivato ha in pentola parecchie sorprese che sono state in parte anticipate con le mosse di ISTAT e ENEL e sempre più sono le pubbliche amministrazioni che stanno seguendo questo percorso (si veda il recente caso di Bologna), senza dimenticare le promesse del ministro della funzione pubblica e innovazione su un portale dei dati aperti italiano entro la fine dell’anno.

Insomma, tra l’altro tutto questo non è tutto quello che bolle in pentola, per cui i prossimi giorni saranno di fuoco davvero.
Per inciso, io porterò il tema a SMAU Milano, con la presentazione ufficiale di Apps4italy, il contest nazionale sui dati pubblici in fase di lancio, ma ne riparlerò.

Ora il tema degli Open Data è diventato sicuramente una moda, per cui serve costantemente rilanciare quello che la velocità di propagazione di una moda crea come effetto secondario. Porta certamente consapevolezza ad una massa critica, ma tende a perdere pezzi per strada sull’idea di base, distorcendola purtroppo.
Partirei dalla presentazione che farà oggi sempre Gigi ( un vulcano direi ) all’Università di Padova:

Per i curiosi sul percorso tecnico, questa recente presentazione apre molte riflessioni:

Faccio un primo elenco, non certamente esaustivo, di alcune cosuccie da sistemare in giro:

  • quando si parla di Open Data, ci si riferisce ad una dimensione ben precisa. La scala delle 5 stelline nominata anche da Titti che avevo usato per correggere il tiro anche per quanto riguarda Spaghetti Open Data, rappresenta un percorso di adozione, come ho già detto. La stessa che ha giustamente usato anche Gigi nella presentazione qui sopra. Il fatto che su SOD ci siano moltissimi dati pubblici, ma pochi Open Data, deve essere ricordato. E può risultare utile stimolare l’arrivo di tutti i dati presenti e citati alle 3 stelline, ovvero al livello degli Open Data. L’idea di base era quella di innescare un processo, in effetti. Ora SOD è una mailing-list, il catalogo sarà integrato in CKAN attraverso il gruppo di lavoro dedicato. Se vorrete dare una mano siamo qui.
  • il blog del Sole24Ore dal titolo OpenData blog, ha avuto un percorso interessante. Credo sia dovuto all’essere un aggregato di autori diversi. Ma soprattutto dagli obiettivi iniziali, che erano e sono più legati al tema del Data Journalism ( Roberto ne parla spesso nel suo blog e molto bene direi ) che a quello degli Open Data, in effetti, come emerge dalla pagina introduttiva:

    Vi è, dunque, un terreno maturo per avviare, attraverso questo blog, una sperimentazione su due fronti: proponiamo alle organizzazioni pubbliche e private un ambiente nel quale mettere a disposizione dei lettori on line dati strutturati; vogliamo, al contempo, rendere ai nostri lettori un servizio; narrando, ci auguriamo in forma innovativa, storie a partire dai dati e mettendo a loro disposizione informazioni e dati fruibili, anche in forma aggregata.

    Maurizio lo aveva già fatto notare in un commento, a dire il vero. Non si parla di Open Data, ma di racconti sui dati, e aggregazione di dati strutturati.
    Non sono la stessa cosa.

    Avere un tema del genere in casa del Sole24Ore è importante perchè trasmette autorevolezza all’argomento dati in generale, visto forse ancora come tema geek e tema di frontiera. In più veder utilizzare i widget del framework SIMILE, è stato molto bello, ci sono affezionato .)… ( visto che ne parlo dal 2006 praticamente )

    La cosa che merita attenzione poi, è che usando questi tool, si deve preparare il dato da mostrare in un formato aperto, ma poco conosciuto, il formato JSON. Potrebbe essere interessante renderlo facilmente scaricabile così come il formato CSV, al posto solo di inserirlo nel sorgente della pagina HTML.
    Il pubblico che lo utilizzerebbe sarebbe più smanettone, e magari tecnico, ma consideriamo questa possibilità. Il lavoro era già stato fatto.
    Per esempio, in questo post sul referendum è presente la timeline con il link dei dati in CSV, ma niente link ai dati in JSON che sono mostrati. Visto che uno dei plus di questo strumento è quello di tenere separati i livelli del dato e della sua presentazione, sfruttiamo il massimo potenziale dello scenario usato.

    Ma ci sono anche altri errori di fondo in diversi punti del blog che si potrebbero correggere, tra cui:

    • in un altro post, sulle imprese di Walter Bonatti che usa il widget SIMILE per la timeline è presente un’ulteriore incoerenza: i dati vengono proposti in formato Excel 2007, un formato ancor più difficile da digerire in mancanza della suite Microsoft. Quando poi sarebbe presente il formato JSON visualizzato attraverso la timeline.

    • il post sulle case fantasma è molto bello: utilizzo della mappa da Open Street Map e dati in formato CSV. Poi però l’icona per il download mostra il formato Excel. Non sono la stessa cosa, uno è un formato libero, l’altro un formato proprietario, anche se standard de facto per i dati strutturati. E questo mi pare sia successo in diversi post.
  • per citare un altro caso che ho visto in Rete, ReteCamere sta iniziando ad interagire con il mondo Open Data, e probabilmente nelle prossime settimane ne vedremo delle belle. ( si stanno muovendo per aumentare i dati a disposizione ) Intanto però grazie forse alla confusione in giro, scrive che fa Open Data senza una chiara licenza associata, e con dati in formato XLS. Serve correggere questa svista al più presto, perchè questo non è Open Data.

Segnalazioni che possono aiutare a creare un quadro più organico, che vengano messe sul tavolo come quelle per l’apertura dei dati di Enel e della relativa correzione di licenza.

I dati sono conversazione? E certo che sì!
E se facessimo un po’ di attenzione ai dati interoperabili, fare mashup sarebbe proprio semplice semplice ( senza dipendenze troppo elevate da sistemi proprietari ) :)
Qui sotto ad esempio in 5 minuti, il mashup delle due timeline elecate sopra: referendum e imprese di Walter Bonatti.I dati in JSON scaricabili a questo indirizzo:
–> http://labs.dagoneye.it/mashupshacks/data.js

Sulla licenza annessa, bella domanda: li ho presi dal blog del Sole, per cui se loro non la dichiarano, che licenza sarà? :)

Pubblicato da

Matteo Brunati

Sono un appassionato di tecnologie e di Web in senso lato... Open Data, Semantic Web ed economia della conoscenza. Questi appunti mi servono per capire e condividere l'evoluzione sociale che la Rete abilita attorno a noi. Queste sono le mie briciole di pane per non perdermi nel viaggio.

4 pensieri riguardo “Cosa si intende per Open Data : un percorso, non un traguardo. Diverso dal Data Journalism”

  1. Ciao!
    intanto bel post. Davvero. Hai messo a nudo difficili problemi di comunicazione del senso delle iniziative online. E tra l’altro, della differenza che c’é tra parlare di dati, parlare di open data, parlare di visual data storytelling e, più in generale, tra parlare e fare tutte queste cose :). E poi c’é il problema della massa critica e della noia che attanaglia le persone “normali” che non capiscono cosa vuol dire JSON, ma capiscono benissimo se “vedono” a cosa possono servire i dati “aperti”.
    Poiché il tuo post merita ben più dello spazio di un commento ti invito sin d’ora ad una colazione, seduti a chiacchierare di open data, come si conviene, qui al Sole a Milano.
    Ma nel frattempo alcune precisazioni generali: noi non produciamo, generalmente, dati; ma siamo un editore il nostro scopo è quello di “raccontare”. Quindi la licenza è quella del fornitore, citato e linkato, che volta per volta ce li rilascia. Per i “nostri” dati specifichiamo quale licenza applichiamo (a seconda dei casi, in genere qualche tipo di CC, come recentemente per i contenuti testuali http://www.thewebobserver.it/2011/10/13/il-sole24oreco-apre-alla-condivisione-social-dei-contenuti/).
    Il tema excel/csv/Json si incrocia con quello precedente, aggiungendo un punto che ritengo discriminante, sulla computazione: quando applico delle logiche matematiche, statistiche o di altro tipo sui dati, in un CSV queste non sono mai trasparenti all’utente. Cosa si dovrebbe fare, nel caso? E’ una domanda aperta, magari inizieremo proprio da questa davanti al cappuccino promesso :).

    1. Ciao Andrea, scusami del ritardo, grazie del commento.
      Per la colazione a Milano, grazie e basta organizzarsi: io venerdì prossimo sono a Milano tutto il giorno, se riesci a venire a SMAU volentieri poi ci mettiamo d’accordo. Altrimenti sentiamoci per metterci d’accordo. Quello che ritengo fondamentale è creare quel giusto equilibrio comunicativo tra tutti gli elementi che hai elencato, per farli comprendere nella giusta connotazione, complessa quanto si vuole, ma reale.
      Altrimenti poi è sempre più difficile fare quegli step successivi nel percorso dell’utilizzo del Web al suo massimo potenziale, si sono creati troppi ostacoli.

      Quindi la licenza è quella del fornitore, citato e linkato, che volta per volta ce li rilascia. Per i “nostri” dati specifichiamo quale licenza applichiamo (a seconda dei casi, in genere qualche tipo di CC, come recentemente per i contenuti testuali http://www.thewebobserver.it/2011/10/13/il-sole24oreco-apre-alla-condivisione-social-dei-contenuti/).

      Capito, e bellissima la questione della gestione della condivisione del testo. Il problema è che non è semplice da trovare la licenza associata, soprattutto sul singolo dato del singolo dataset. E’ il caso forse, di facilitare questo processo per l’utente.

      Il tema excel/csv/Json si incrocia con quello precedente, aggiungendo un punto che ritengo discriminante, sulla computazione: quando applico delle logiche matematiche, statistiche o di altro tipo sui dati, in un CSV queste non sono mai trasparenti all’utente. Cosa si dovrebbe fare, nel caso? E’ una domanda aperta, magari inizieremo proprio da questa davanti al cappuccino promesso

      Ci penso un attimo: tu intendi a livello di licenza ed anche su livello di condivisione del processo innescato, utile da legare al semplice dato no?

  2. tu intendi a livello di licenza ed anche su livello di condivisione del processo innescato, utile da legare al semplice dato no?

    Io intendo su due livelli: il primo è quello della licenza, un tema che, al pari di quello dei formati, a onor del vero, non padroneggio bene; uso due dataset che hanno licenze differenti e li lego da un algoritmo più o meno originale, generando un terzo dataset. quale licenza si applica? quale licenza di applica al mio lavoro originale di computazione? (più semplice) quale licenza al tuo lavoro di rappresentazione del risultato della mia analisi?

    La seconda ha strettamente a che fare con un tema che, personalmente, ritengo fortemente correlato con il concetto di “open data”, che è quello di “peer data review”; ho spesso trovato che errori grossolani di processo sul dataset “grezzo” iniziale porta a risultati fuorvianti, se non proprio a cantonate; talvolta si tratta di mere espressioni di un punto di vista (mostro solo l’aspetto di cui ho interesse a mostrare, nascondendo i dati di base e il processo analitico che mi hanno portato al risultato), talvolta di errori grossolani (ho sbagliato la formula per calcolare) o di “semplici” arrotondamenti che però, in determinati contesti, possono far scatenare errori successivi a catena.

    A me è capitato il secondo caso: con un CSV errato il percorso (molto lungo) di computazione di un valore è stato preso per buono, anche se qualcosa sembrava “non tornasse”. Con lo condivisione dell’Excel invece altri hanno capito il processo mentale, individuato l’errore e corretto il risultato. Cioè, secondo te (non è una domanda retorica, ma una vera e propria domanda), quanto c’entra con il concetto di “open data” quello di “open – data processing”?

  3. Complimenti per il post, Matteo!
    Serviva proprio un po’ di luce e di ordine su questi concetti.
    Ti ringrazio per la mention; spero anch’io di poter scambiare quattro chiacchiere a quattr’occhi un giorno di questi.
    Sulla prima domanda posta da Andrea, d’acchito mi verrebbe da dire che andrebbe applicata la licenza più restrittiva.

Lascia una risposta

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *

diciassette + diciassette =

È possibile utilizzare questi tag ed attributi XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>