Contenuti duplicati – identificazione

Postato da regole-seo, in Approfondimenti SEO, in data 01/02/2010

Identificare e difenderci dalla duplicazione dei contenuti volontaria e involontaria. [Parte 1 di 2]

Vai alla seconda parte » Contenuti duplicati – come difendersi

duplicazione-contenutiIn questo articolo, diviso in due parti, parlerò della duplicazione dei contenuti sul web per cercare di capire meglio cosa si intende realmente quando si parla di “contenuto duplicato“, quali casi di contenuto duplicato (volontario e involontario) si possono avere e come possiamo difenderci dalla duplicazione dei contenuti.

La prima cosa che viene da pensare parlando di “duplicazione dei contenuti” è la violazione del copyright.
Come vedremo però in molti casi potremmo essere noi stessi la causa della duplicazione dei nostri stessi contenuti.

Prima di procedere ecco un breve elenco dei punti che verranno trattati:

CHE COS’ E’ UN CONTENUTO DUPLICATO?

Con contenuto duplicato si intende la fruibilità di porzioni di contenuto identico o molto simile attraverso due url differenti, siano esse all’interno dello stesso dominio o meno.

Detto questo la prima cosa che viene da pensare è:
Ok. Mi serve un modo per proteggermi da chi copia i contenuti dal mio sito per pubblicarli altrove“.
Certo, questo è importantissimo, ma quello che può sfuggire è che in parecchie circostanze a duplicare il nostro contenuto siamo noi stessi all’interno del nostro sito e la cosa ancora più bella è che ciò avviene anche se inseriamo il contenuto in una sola pagina.
La cosa interessa tutti i tipi di siti, grandi e piccoli e tutti i blog che nella maggior parte dei casi vengono creati tramite l’utilizzo di CMS.
Molto probabilmente tra i casi descritti di seguito troverete anche una situazione che vi sembrerà familiare :) .

QUANDO I MOTORI DI RICERCA RILEVANO UN CONTENUTO DUPLICATO?

In effetti i casi in cui un motore di ricerca può identificare del contenuto come duplicato (intenzionalmente o meno) sono davvero parecchi.
Tramite strumenti come Copyscape è possibile monitorare se una porzione di contenuto di una nostra pagina web è accessibile da più url differenti (interne o esterne al nostro dominio).
Vediamo allora i casi di duplicazione in cui potremmo imbatterci per poi descrivere, nella seconda parte dell’articolo, le tecniche per evitare la duplicazione dei contenuti.

  • Violazione del CopyRight:
    Il furto del nostro contenuto originale è il caso meno interessante, ma anche quello più difficile da combattere in quanto per risolverlo non ci basta sfruttare una tecnica “on-page“.
    Google, come vedremo nella seconda parte di questo articolo permette la “Notifica di presunta violazione del copyright” da parte degli utenti in modo da prendere i giusti provvedimenti.
  • Pagine che prelevano il contenuto di un feed rss tramite uno script server side per mostrarlo in pagina:
    Che si tratti di una violazione del copyright o meno, in tal caso avremo una duplicazione in quanto il contenuto prelevato da un feed esterno e mostrato in una pagina, molto probabilmente sarà mostrato anche sulle pagine del sito cui il feed originariamente appartiene.
    Tramite uno script server side che conduce un’operazione di questo tipo, il rischio di fare indicizzare contenuto duplicato è molto più alto rispetto a quello che si correrebbe tramite uno script client side (usando ad esempio javascript). In genere gli spider dei motori di ricerca non eseguono script client side pertanto in tal caso non vedrebbero il contenuto importato.
  • Pagine contenenti descrizioni di prodotti:
    Quando più di un sito vende lo stesso prodotto, spesso viene usato lo stesso testo, recuperato dal sito del produttore, per descriverlo.
  • Pagine per la stampa:
    Alcuni siti offrono lo stesso contenuto in una seconda pagina ottimizzata per la stampa. In questo caso i motori di ricerca indicizzerebbero anche la pagina ottimizzata per la stampa e ci ritroveremmo con due pagine con lo stesso contenuto indicizzate.
  • Contenuto unico accessibile da url differenti:
    Anche se spesso è normale, quando si parla di indicizzazione, porre poca attenzione al dire la parola “url” al posto della parola “pagina”, ricordatevi sempre questo: i motori di ricerca indicizzano url e non pagine.
    Detto questo è possibile che nel vostro sito/blog esistano url diverse che portano alla stessa pagina oppure url diverse che portano a pagine diverse costruite dinamicamente lato server e che in certi casi possono contenere lo stesso contenuto.
    Pensate ad esempio ad un articolo da poco pubblicato in un blog. Il suo contenuto potrebbe essere indicizzato per le seguenti url:
    http://www.mioBlog.it/nuovoArticolo (effettiva url della pagina dell’articolo)
    http://www.mioBlog.it/ultimiArticoli (url della pagina contenente gli ultimi articoli pubblicati)
    http://www.mioBlog.it/tag/mioTag (url della pagina contenente gli articoli taggati con “mioTag” )
    http://www.mioBlog.it/category/miaCategoria (pagina contenente tutti gli articoli della categoria “miaCategoria” )
    Anche la presenza di parametri in un’url può causare lo stesso problema:
    http://www.mioSito.it?category=cucina

    http://www.mioSito.it?category=pasta

    potrebbero essere due url contenenti articoli tra i quali “Come cucinare la pasta al forno”.
    Insomma di esempi se ne potrebbero fare davvero tantissimi, ma sostanzialmente ciò che interessa è che se due url diverse portano a pagine che contengono porzioni di contenuto uguali o molto simili allora rischiamo che i motori di ricerca indicizzino url differenti per lo stesso contenuto.

  • Tecniche di Behavioural Targeting attraverso session ID o altri parametri in “get”:
    Per molti siti è importante determinare il comportamento dell’utente (quali pagine visita, in quale ordine ecc…). In alcuni casi l’utente viene tracciato tramite id di sessione o tramite opportuni parametri che vengono appesi alla url effettiva della pagina.
    Se anche il crawler di un motore di ricerca viene trattato come un utente allora è possibile che vengano indicizzate url che differiscono solo per questi parametri e che puntano in realtà agli stessi contenuti.
  • Domini e sottodomini:
    Per molte aziende è importante possedere più di un dominio o più di un sottodominio per incrementare la propria popolarità.
    La presenza di contenuti duplicati nelle pagine di questi domini/sottodomini può comportare la non indicizzazione di alcune delle url interessate proprio a causa del rilevamento di contenuti duplicati da parte dei motori di ricerca.
  • Article syndication:
    Molte persone creano e pubblicano articoli e li offrono per la pubblicazione su altri siti a patto che venga inserito il link alla fonte ufficiale e che ne venga indicata l’attribuzione.
    Questa azione può essere sicuramente vantaggiosa in termini di link popularity ma va tenuto presente il rischio che i motori di ricerca eliminino dall’indicizzazione l’articolo originale e che mantengano l’indicizzazione di una copia.
  • Siti mirror:
    Spesso per siti molto visitati viene utilizzata la tecnica dei siti mirror. Questo senza le dovute precauzioni può portare all’ indicizzazione di contenuti duplicati.

Abbiamo dunque esaminato la casistica delle situazioni che possono portare alla duplicazione dei nostri preziosi contenuti. Nella seconda e ultima parte di questo articolo vedremo come Google tratta il contenuto duplicato e quali tecniche esistono per difenderci dalla duplicazione dei contenuti in molti dei casi sopra citati.

Vai alla seconda parte » Contenuti duplicati – come difendersi

Commenti (2)

  1. [...] Nel Febbraio 2009 i più grandi motori di ricerca (Google, Yahoo e Bing) unirono le loro forze introducendo il concetto di canonical link (o canonical url) (googlewebmastercentral.blogspot.com/specify-your-canonical.html). Questa avrebbe dovuto rappresentare una soluzione rivoluzionaria a una delle più grandi preoccupazioni di molti SEO e Web Designer: i contenuti duplicati. [...]

  2. [...] delle informazioni trattate in questo articolo le potete trovare anche qui, qui e qui. Pubblicato in WordPress | Tag: [...]

Scrivi un commento