Contenuti duplicati – come difendersi

Postato da regole-seo, in Approfondimenti SEO, in data 08/02/2010

Identificare e difenderci dalla duplicazione dei contenuti volontaria e involontaria. [Parte 2 di 2]

Vai alla prima parte » Contenuti duplicati – identificazione

duplicazione-contenutiNella prima parte di questo articolo dedicato ai contenuti duplicati abbiamo visto cosa si intende con contenuto duplicato e in quali casi i motori di ricerca identificano un contenuto come duplicato.

Restano da chiarire ancora alcune cose molto interessanti: in quali casi di contenuto duplicato subiamo o rischiamo di subire una penalizzazione? Agli occhi di Google i casi visti nella prima parte dell’articolo hanno la stessa probabilità di causare un danno all’indicizzazione? Come si può evitare il contenuto duplicato?

Come premessa, basandoci su quanto si dice nel Centro Webmaster di Google (CWG), possiamo dire che non sempre il contenuto duplicato è dannoso.
Nel caso di due pagine contenenti lo stesso contenuto, dice il CWG, Google tenderà a visualizzarne una sola.
Ok, ma allora qualcosa non torna… …le due frasi precedenti non sono in contraddizione?
La risposta è “no” o meglio “non sempre”. Infatti in alcuni casi l’indicizzazione di una sola url delle due (o N) contenenti contenuto duplicato non ci reca alcun danno.

Vediamo allora nel dettaglio cosa ci dice il CWG.

GOOGLE COME TRATTA IL CONTENUTO DUPLICATO?

Sul CWG ci viene detto che molto spesso i contenuti duplicati non vengono creati a scopi ingannevoli.
Come abbiamo visto in “Quando i motori di ricerca rilevano un contenuto duplicato?” nella prima parte di questo articolo, spesso è così.
Viene citato anche qualche esempio di duplicazione non considerata dannosa:
duplicazione-non-dannosa
Nell’ottica di CWG questi casi di duplicazione non sono dannosi.
Google infatti indicizzerà soltanto una versione delle pagine contenenti i contenuti duplicati.

E’ proprio quest’ultima frase a mio giudizio la chiave di volta su cui concentrare la nostra attenzione.
E’ vero che in questi casi citati una versione della pagina viene comunque indicizzata, ma si tratta della versione che avremmo voluto vedere indicizzata?
E se Google trovando contenuti duplicati togliesse dall’indicizzazione la pagina che noi avremmo voluto indicizzare?

A mio avviso è sempre bene porre attenzione alla duplicazione dei contenuti usando le tecniche descritte tra poco, sia che Google ci dica che si tratta di un caso dannoso che di un caso non dannoso.
Solo in tal modo potremo essere certi di evitare cattive sorprese nell’indicizzazione e soprattutto di avere sempre la situazione sotto controllo.

Qualora Google invece, interpreti il contenuto duplicato come “caso dannoso”, ovvero una duplicazione creata al puro scopo di maggiore visibilità nei motori, allora l’indicizzazione dei nostri contenuti potrebbe subire repentine variazioni nella SERP.
A maggior ragione allora adottare le seguenti tecniche per aiutare Google a rilevare correttamente i contenuti duplicati è sicuramente un valido modo per evitarci cattive sorprese.

Concludendo ecco il consiglio di CWG:
consigli-google-duplicazione

COME SI PUO’ EVITARE IL CONTENUTO DUPLICATO?

Visto quali sono i casi di duplicazione del contenuto e come questi possono incidere negativamente sull’indicizzazione nei motori, non ci resta che capire quali sono le armi a nostra disposizione per poterci difendere nel modo corretto. Ecco dunque l’elenco delle tecniche utilizzabili:

  • Escludere i contenuti duplicati tramite robots.txt o metatag “robots”
    Tramilte l’utlizzo del file robots.txt possiamo essere noi stessi ad evitare che le pagine con contenuti duplicati vengano indicizzate. Tramite il campo “Disallow” possiamo infatti indicare che una determinata pagina o determinati indirizzi che iniziano con uno specifico percorso non devono essere indicizzati.
    Ad esempio il seguente codice
    robots-txt-disallow
    dice che nessuno spider deve indicizzare i contenuti il cui percorso inizia con “/articoli/mobile/” e la pagina “/articoli/miaPagina.html”
    Al seguente indirizzo http://www.robotstxt.org/orig.html è disponibile una breve ma completa guida all’esclusione degli spider tramite robots.txt.

    Nel caso non sia possibile modificare il file robots.txt possiamo ricorrere all’utilizzo del metatag “robots” all’interno delle pagine che non vogliamo vengano indicizzate.
    Ad esempio il seguente metatag:
    <meta name=”robots” content=”noindex”>
    dichiara che il contenuto della pagina non deve essere indicizzato da nessuno spider.

    All’indirizzo http://www.robotstxt.org/meta.html potrete trovare tutti i dettagli sull’utilizzo del metatag robots.

    L’uso del robots.txt è utile anche nel caso si faccia ricorso asiti miror. In questi casi infatti occorrerebbe inibire l’accesso dei motori ai siti mirror tramite una regola come la seguente:
    User-agent: *
    Disallow: /

    Inoltre, sarebbe opportuno inserire l’attributo rel=”nofollow” all’interno di eventuali link presenti sul sito principale diretti verso le pagine dei siti miror.

  • Coerenza nella creazione dei link
    Nel caso di più versioni di url a pagine contenenti lo stesso contenuto (o alla stessa pagina) è bene essere coerenti nella creazione dei link. Sarebbe bene inserire sempre la stessa url nei link che portano a tali contenuti.
    Ad esempio, evitare di creare link a
    http://www.example.com/articolo/miaPagina/
    http://www.example.com/ articolo/miaPagina
    http://www.example.com/ articolo/miaPagina/index.htm
    http://www.example.com/ articolo?titolo=miaPagina

    Il problema della creazione dei link si ha anche nel caso di possesso di più domini (ad esempio www.mioSitoe.com e http://mioSitoe.com) che si riferiscono allo stesso sito.
    Tramite gli Strumenti per i Webmaster di Google è possibile indicare il modo in cui si desidera indicizzare il proprio sito comunicando il “dominio preferito

  • Canonicalizzazione: utilizzo del tag “canonical”
    Il tag canonical permette di comunicare allo spider del motore di ricerca quale delle url che puntano ad un contenuto duplicato deve essere indicizzata.
    L’utilizzo del tag canonical è utilissimo in entrambi i seguenti casi:
    - definire quale delle diverse url che puntano a una pagina deve essere quella da indicizzare
    - definire quale delle diverse pagine contenenti lo stesso contenuto deve essere indicizzata.
    Per utilizzare il tag canonical basta inserire nelle pagine il seguente tag all’interno della <head>:
    <link rel=”canonical” href=”http://www.example.com/ articolo/miaPagina” />
    dove “http://www.example.com/ articolo/miaPagina” è la url “preferita” che vogliamo sia indicizzata per i nostri contenuti.
  • Prestare attenzione alla pubblicazione e diffusione dei propri articoli su altri siti (Article syndication)
    Poiché i motori potrebbero indicizzare l’articolo presente nella pagina non appartenente al sito dell’autore, innanzitutto è sempre opportuno accertarsi che chi pubblica un nostro articolo inserisca un link alla fonte originale.
    In secondo luogo è anche possibile fare richiesta a chi utilizza il nostro materiale di bloccare mediante robots.txt la versione presente sul loro sito.
  • Uso attento dei CMS (Content Management System) per la gestione dei contenuti
    I CMS in circolazione utilizzati soprattutto per la creazione e gestione di Blog creano spesso url differenti le cui pagine possono riportare gli stessi contenuti.
    Faccio un esempio per tutti: io sono un accanito fan di WordPress. Reputo che sia un ottimo strumento e grazie agli innumerevoli plugin è davvero difficile avere esigenze che non possano essere accontentate.
    Bene, pensate a quando pubblicate un nuovo articolo con WordPress (ma il discorso vale anche per altri CMS). Il contenuto sarà visibile attraverso più di una url:
    - l’url dell’articolo
    - l’url a un qualsiasi tag associato all’articolo
    - l’url alla categoria cui appartiene l’articolo
    - l’url dell’archivio degli articoli

    Per evitare che vengano rilevati contenuti duplicati dovremmo fare una buona analisi delle url create e procedere poi all’utilizzo degli opportuni metatag o del file robots.txt per avere controllo di ciò che deve e non deve essere indicizzato.

    Fortunatamente nel caso di WordPress esiste più di un plugin che può risparmiarvi un sacco di lavoro.
    Personalmente utilizzo il plugin “All in one SEO pack“. Tra gli strumenti SEO che offre questo preziosissimo plugin, troviamo diverse funzionalità che se attivate inseriscono in automatico e in modo efficiente i tag di noindex e di canonicalizzazione in modo che non si abbiano problemi di duplicazione di contenuti a causa delle diverse url generate di cui sono stati riportati precedentemente alcuni esempi.

    La documentazione completa di All in one SEO pack è disponibile a questo indirizzo:
    http://semperfiwebdesign.com/portfolio/wordpress/wordpress-plugins/all-in-one-seo-pack/
  • Segnalare la violazione del Copyright a Google
    Come accennato nella prima parte dell’articolo, Google permette di segnalare eventuali violazioni di Copyright tramite il suo servizio di “Notifica di presunta violazione del copyright“. All’ indirizzo http://www.google.it/dmca.html trovate tutte le informazioni su come procedere.
    Sarà chiaramente Google a decidere se e quali provvedimenti prendere a riguardo.
  • Sfruttare la sitemap del sito
    Comunicare le pagine del sito che vanno indicizzate ai motori di ricerca per mezzo per mezzo della sitemap. In un precedente articolo abbiamo visto come invare la sitemap ai principali motori di ricerca:
    - inviare sitemap a Yahoo!
    - inviare sitemap a Bing
    - inviare sitemap ad Ask
    - inviare sitemap a MSN
    - inviare sitemap a Google
    - inviare sitemap a Windows Live
    - inviare sitemap a Moreover

Dopo aver visto come Google considera i contenuti duplicati e applicando le precedenti regole potremo dormire sonni tranquilli per quanto riguarda la duplicazione dei contenuti nella maggior parte dei casi visti nella prima parte di questo articolo.

Anche per questa volta è tutto!

Vai alla prima parte » Contenuti duplicati – identificazione

Commenti (2)

  1. oly1982 scrive:

    Ciao stra-complimenti per tutti gli articoli.
    Ti ho scoperto un pò per caso ma il tuo sito ha contentuti di qualità altissima.

    In riferimento all’argomento trattato in questo articolo il mio sito ha un “incorerenza” nel link della home page che ha tre “versioni”:

    /
    /index.php
    /index.php?pg=1&tag=0

    anche in questo caso mi consigli di lavorare con il robots?
    Disallow: /index.php
    Disallow: /index.php?pg=1&tag=0

  2. regole-seo scrive:

    Ciao Oly, grazie per il tuo commento.
    Si, anche nel caso da te esposto avresti tre link differenti allo stesso contenuto quindi il mio consiglio è quello di correre ai ripari utilizzando i robots.

Scrivi un commento