Google, Freebase: il tipping point del Semantic Web? Il Linked Data è arrivato

Come anticipato dall’ultimo post della settimana scorsa, anche in Italia ha iniziato ad arrivare l’onda lunga di questa news relativa a Google ed a Freebase: mi sarei aspettato però una più nutrita eco della vicenda. Il potenziale è davvero incalcolabile, o come dice una famosa pubblicità, è senza prezzo.

Grazie a Memesphere, si traccia un po’ la discussione che emerge a livello di blog che citano il post di Google ufficiale:
-> Deeper understanding with Metaweb
Mentre anche via Blog Babel altre fonti si possono scovare:
-> Tag Metaweb via blogBabel

Il primo incipit da citare è quello di Marco Varone, dei Nova100, che chiude il suo post con questo condivisibile auspicio:

Anche se probabilmente l’acquisizione è stata accelerata per sottrarla ad altri concorrenti che parevano interessati (almeno così indicano le voci di corridoio e il fatto che Metaweb abbia un accordo con Bing), questo tocco di Semantic Web potrà essere un ulteriore contributo alla causa della semantica e l’ennesima dimostrazione che, pur tra difficoltà, passi falsi e successi, la direzione obbligata per tutti è quella. Serve dare più conoscenza ai sistemi automatici, serve dar loro la possibilità di “capire” quello che c’è scritto, serve in sostanza lavorare a livello semantico del testo e non più solo a keyword.

Una medesima conclusione raggiunta, attraverso ottimi riferimenti tecnici, anche da Claudio Cicali, che cito doverosamente:
-> Google acquisisce Metaweb e Freebase. Dunque?

È dunque questo il famoso web semantico? No, affatto. Freebase è solo un maestoso strumento che mi può aiutare a fare applicazioni e siti che – loro sì – potranno creare il web semantico. Il fatto che all’interno dell’entità relativa a Tom Hanks sia presente la sua pagina di Wikipedia e il suo account Twitter non serve a niente, se non ho qualcosa che mi esponga in superficie questa informazione e, soprattutto, la metta in correlazione con altre informazioni (magari di tipo diverso). Fare browsing all’interno della base dati di Freebase è un po’ come fare browsing nel CD di Encarta (passatemi il paragone ai limiti dell’offensivo).

Ci vuole dunque qualcuno che prenda questa informazioni e ci faccia qualcosa di utile.

Questo è il mestiere di Metaweb.
[...]
Poi sappiamo tutti, ormai è lampante, che con la quantità e la tipologia di fonti di informazioni che ci sono oggi, la semplice ricerca testuale non basta più. Occorre investire in strumenti semantici, davvero, che capiscano il contesto e che magari si adattino al mio personale pattern di ricerca. Chissà.

L’importante, ma questo è stato apertamente dichiarato, è che Freebase rimanga free.

Questo però è solo l’inizio del quadro. ( alcune cose dette da claudio in realtà sono incomplete: il Linked Data e il Semantic Web è già presente oggi, solo non ancora in maniera chiara per l’utente finale ).

Meritano una lettura anche i post del Tagliaerbe e quello di Giovanni Calia:
-> Il Tipping Point del Web Semantico

Giovanni cita un ottimo riferimento del MIT, utile per dare un contesto ancor più allargato:

From a technological perspective, the recent developments around RDFa, a simpler version of RDF which allows users to add metadata to their content, will further accelerate the growth of the Semantic Web. Drupal 7, one of the biggest open source content management systems used on hundreds of thousands of websites, comes with major RDFa functionality. The latest HTML5 draft has RDFa support in it. Facebook’s Open Graph protocol is based on RDFa. Google Rich Snippets support RDFa. According to a recent GigaOM report, Twitter Annotations are looking to use it.
[...]
But what about exploiting the power of the semantic web by pulling in data from different sources, the premise of linked data? Thomas Tague, VP Platform Strategy at Thomson Reuters and in charge of the OpenCalais project, a free service to analyze and extract concepts from user-submitted texts or web sources, told me about the exciting opportunities he sees at the intersection of highly trusted monetized content and free web content. He says that “people are not going to make $100 million bets based on blog postings. But that blog posting may be an outlier, may be an initial indicator, maybe about a layoff at a factory or something like that, that the user can now immediately link back to Thomson Reuters data and gain insight and take action.” While Tague certainly shares the enthusiasm for the growth of semantic technologies and adoption of standards by industry participants, utilization of linked data remains low in his view. Therefore, his short-term outlook with respect to utilization of the linked data cloud, remains rather cautious: “There is a lot of talk about it, but with respect to our linked-data company information, people aren’t picking it up yet very much.”

So what can we expect in the near future? Jamie Taylor tells me that he thinks “the idea that you can aggregate is something very novel: all of a sudden my data is not limited to my data silo.” He distinguishes two types of data: core data, which must be managed by the organization to drive the core business, and context data–such as geo data. He believes that what “semantic technologies allow is in some sense to outsource [context data] to the community for maintenance.”

Questo a mio avviso è il fulcro della vicenda: l’idea che ci sia un commons di dati, quella cloud chiamata Linked Data a disposizione degli sviluppatori per arricchire la User Experience di tutte le applicazioni ed i servizi Web che andiamo a creare disorienta come quando si doveva capire a cosa potesse servire il Web delle pagine. E’ il medesimo salto nell’approcciare un mezzo che non finisce mai di stupirci, come accennavo anche nella presentazione sull’economia degli Open Data in effetti.
-> Economia ed Open Data al VeneziaCamp 2010, ospite di Ecosistema 2.0

Abbiamo un database globale a disposizione: cosa mai ci potremmo fare?

Non è quindi solo una questione relativa al miglioramento della ricerca nè solo alle tecnologie semantiche, ovvero quella famiglia di strumenti che traducono il linguaggio naturale in linguaggio che la macchina riesce a comprendere: e questo è il maggior limite della discussione in atto in giro per i siti italiani. Si sta davvero passando da una logica di condivisione ipertestuale a qualcosa di molto più profondo. Un Web di dati che cambierà radicalmente il modo in cui interagiamo con questo luogo.

Per produrre esperienze simili a quelle del Linked Data ai siti della BBC:

Qualcosa di molto simile, incidentalmente, a quello che racconta Sergio Maistrello nell’ultima parte del suo ultimo libro, “Giornalismo e nuovi media”, che merita una lettura approfondita. Un giornalismo che passa sempre più attraverso i fatti, ed i dati che compongono tali fatti, e gli ecosistemi che si creano attorno ad essi. Un Web di dati al servizio forse di un nuovo Data Journalism, o un controllo dei fatti ( e qui esiste un parallelo assai stimolante in italiano http://www.factcheck.it/) …

Per chiudere in bellezza come le braccia di un maestro d’orchestra, cito davvero un maestro, un gran bel tweet di Nova Spivack:

RT @novaspivack Sem Web progress: Google+Metaweb, Apple+Siri, HuffPost+Adaptive Semantics, Evri+Twine, Facebook+RDFa, Twitter Annotations

Di Google e di Metaweb credo risulti chiaro ormai di cosa si stia parlando, anche se gli effetti sono tutti in divenire, mentre per gli altri è meglio rimandare ad alcuni riferimenti:

  • Apple acquisisce Siri, un assistente virtuale che dialoga con il Web of Data ed il Semantic Web in maniera nativa
  • La testata Huffington Post acquisisce Adaptive Semantics, perchè in tal modo riesce a mettere le mani sul sistema che “provides a semantic analysis engine (aka JuLiA) already used by the Huffington Post to help moderate the 100,000 comments published on the blog every day.
  • Evri acquisisce Twine, il social network costruito interamente su tecnologie del Semantic Web. Evri in tal modo diventa:

    When semantic recommendations service Evri launched two years ago, the product (backed by Microsoft co-founder Paul Allen) was seen by many as a type of search engine. Nowadays, Evri models itself as a topic-based news service; in particular, tapping into the real-time streams of mixed media coming from Facebook, Twitter, YouTube and other sources.

    At the recent Semantic Technology conference, I sat down with Evri CEO Will Hunsinger. He called Evri the “topical equivalent of a Facebook stream.”

    The technology of Evri is much the same as it was two years ago – it connects together topics using Semantic Web algorithms – but the landscape in which Evri is playing has evolved. In 2010, real-time information streams dominate. So Evri now aims to be a curation service..

  • le Twitter Annotations sono invece la versione dei tweet integrata con metadati, per aiutare il filtro e il contesto dei tweet, ed usaranno a quanto pare a livello tecnico RDFa,

Non male no? Anche rispetto al quadro di sintesi emerso in dicembre.
-> A che punto è il Semantic Web, o il web semantico, e il Web of Data