Non ho scritto per molto tempo in queste pagine, ma uno dei post più gettonati attraverso cui si arriva a questo blog è quello sui dati strutturati, e come li recepisca davvero Google.

-> Dati strutturati in Google: quali recepisce? Schema.org, RDFa e microdati

Stiamo parlando di un post degli inizi del gennaio 2013: molta acqua è passata sotto i ponti, specie considerando che su questo tema c’è sempre stata davvero molta confusione. Specie lato Google, che non ha mai del tutto chiarito il rapporto di causa-effetto tra investimento in questo maggior costo nell’attività di pubblicazione del contenuto, rispetto alle conseguenze positive nella visualizzazione delle SERP attraverso i Rich Snippets.

Anche in Italia se ne parla maggiormente di più rispetto ad alcuni anni fa, e con dovizia di particolari, in articoli come questo:
I dati strutturati: cosa sono e come aiutano la SEO

Mai come oggi il tema inizia ad essere compreso per quello che davvero è: un cambiamento bello grosso per il modo di rispondere alle domande poste a Google.

Continua a leggere

Cercando un po’ in giro per la Rete, ho provato a vedere quali vocabolari vengono interpretati correttamente dallo strumento recente di parsing dei dati strutturati di Google, per iniziare a chiarirmi le idee.
Per far comprendere l’argomento ai neofiti, basta ricordarsi di due elementi per quanto riguarda il dato strutturato:

  • sintassi: ad oggi ci sono diversi modi per far digerire a Google dei dati strutturati nella propria pagina, ma questo per ora non sembra un problema. La sintassi consigliata è quella dei microdati, una modalità semplificata non ancora standard, nativa della specifica HTML5. L’altra alternativa è usare RDFa ( specie la sua ultima versione RDFa Lite 1.1 ), la stessa sintassi che usa Facebook con lo standard Open Graph. Nella visualizzazione anteprima del tool di Google, vengono mostrate entrambe.
  • struttura ( schemi e vocabolari ): è questo l’argomento spinoso, in effetti. Per ora il consiglio da dare è usare tutto quello presente su schema.org

In tutto questo, se volete un ottimo riassunto, SpazioDati ha fatto un video al Tedx di Brera che chiarirà le relazioni tra molti elementi oscuri ( Semantic Web, Linked Data e molto altro ).

Continua a leggere

Qualche info al volo su una cosa che mi sta facendo riflettere…
E creando discussioni interessanti…

Ho letto il commento di Fabio sulla duplicazione dell’informazione che accennavo qualche giorno fa

Nel frattempo ho avuto modo di usare un po’ anche Tumblr, e a vedere come funziona e a come si presenta a livello di codice…

Partiamo da quello che dice Fabio:

Anche io non sono affatto sicuro che la duplicazione delle informazioni, anche se nella forma di appunti, sia una buona cosa. Attendo un servizio che sia al tempo stesso semplice da usare e che mi consenta di annotare i pezzi di web senza duplicare le info. Mi chiedo tuttavia cosa accade se l’autore cambia il pezzo che ho citato e io mi ritrovo nel mio blocco di appunti pubblico qualcosa di imprevisto?

Ci sono cose notevoli tra le righe…

  • l’ipertesto collega risorse su web, rimandando e creando links tra le risorse stesse… non avremmo la Rete Web senza links, e ancora meno avremo Google, che si fonda proprio sui links - questa invece e’ la direzione di oggi e domani per il concetto di link
  • il concetto di citazione, a livello di markup strutturale e a livello semantico non e’ cosi studiato, o cosi’ trasparente: infatti la citazione ha un contenuto e una fonte come elementi strutturali fondamentali, e come metadati un titolo, un rilancio alla fonte e un contenuto copiato dalla fonte medesima, che enfatizza la fonte stessa e una sua parte
  • domanda aperta: e’ corretto citare qualcosa, qualsiasi cosa, COPIANDO la fonte stessa, e non avere una modalita’ automatica di connessione, che al cambiare del contenuto della fonte, diffonda l’informazione corretta?
  • quello che vediamo su tumblr a livello di presentazione del testo e delle diverse forme di media che questo servizio gestisce ( testo semplice, citazione, link semplice, foto, video ), corrisponde ad un livello semantico strutturale ( il markup comprensibile dalle macchine e dal software ) di pari contenuto semantico? In breve: quello che noi vediamo e quello che c’e’ a livello di codice HTML ha il medesimo significato oppure no?

Se guardiamo al codice in effetti, c’e’ una grossa lacuna sulla parte dei metadata ( _non per colpa diretta degli sviluppatori, ma perche’ ci si sofferma ancora poco sulla loro importanza in generale, anche a livello di markup _) : sia nella versione RSS che nella versione puramente di codice HTML..

Nel senso che come persona trovo che sia un tool davvero utile, che completa la mia capacita’ di filtrare cose interessanti dal Web, e che possono essere facilmente inserite nel mio aggregatore ( questo e’ il modo in questo momento di cercare info e taggarle successivamente per il proprio uso e consumo - risposta per Carla su come ritrovare i propri appunti, oltre che usare le API, che devo vedere meglio )…

**Pero’ poi, quando rifletto sul significato che si da’ alla citazione, al link e a quegli elementi, da appassionato alle tecnologie semantiche, mi accorgo che c’e’ molto lavoro da fare…
**

Ne e’ nata una discussione ancora in corso con Simone, molto stimolante e ancora aperta…
Alcuni spunti in merito…

  • aumentando l’informazione meta presente nella struttura della pagina, usando i microformati ad esempio, ne facilitiamo la comprensione semantica anche per il software in generale
  • rendere tale livello indipendente dalla presentazione e di maggiore comprensione alle macchine, permette facilmente di fare cose del genere ( il feed RDF del blog e nello stesso tempo il medesimo feed visto in ordine temporale, senza alcuna modifica, usando la SIMILE Timeline)
  • il titolo di un elemento citazione, che titolo deve avere? nel senso, la citazione ha il contenuto chiaro che stiamo citando, la fonte che e’ il link della fonte, visualizzato con il tag title della fonte medesima… ma il titolo della citazione invece? Lo rendiamo come parte della citazione stessa come fa Tumblr in questo momento? ( e quando si guarda nell’aggregatore non e’ il massimo pero’… )

E tutto questo come si innesta nell’annoso problema dell’errore 404 presente nel Web, ormai spessissimo ( codici HTTP di stato ) ?
Oggi meno, per fortuna ( _ma il web e’ fondato sul concetto della persistenza delle risorse, anche se e’ girata poco questa info _)

Idee o commenti ben accetti…
( fino a martedi non saro’ online, quindi siate pazienti per la moderazione dei commenti, se non siete in giro sotto il sole :) )

Commenta e condividi

Foto dell'autore

Matteo Brunati

Attivista Open Data prima, studioso di Civic Hacking e dell’importanza del ruolo delle comunità in seguito, vengo dalle scienze dell’informazione, dove ho scoperto il Software libero e l’Open Source, il Semantic Web e la filosofia che guida lo sviluppo degli standard del World Wide Web e ne sono rimasto affascinato.
Il lavoro (dal 2018 in poi) mi ha portato ad occuparmi di Legal Tech, di Cyber Security e di Compliance, ambiti fortemente connessi l’uno all’altro e decisamente sfidanti.


Compliance Specialist SpazioDati
Appassionato #CivicHackingIT


Trento