Fingersi Google per accedere ai contenuti protetti

Postato da regole-seo, in Il Web, l'Universo e tutto quanto, in data 18/04/2010

fingersi-google

Vi sarà sicuramente capitato a volte che accedendo ad un link dei risultati di una ricerca effettuata con Google, vi ritroviate su una pagina protetta da password che generalmente vi informa del fatto che i contenuti sono accessibili solo agli utenti registrati.
Bene, sappiate che spesso si tratta di una mezza verità.
Nella maggior parte dei casi infatti sarebbe più corretto dire che tali contenuti sono accessibili solo agli utenti registrati e a Google :)

Prima di mostrarvi come è possibile mascherarsi da Google per accedere ai contenuti protetti tramite User Agent Switcher, vanno spese un po’ di parole a riguardo di questo fatto.

Innanzitutto una protezione dei contenuti di questo tipo non è sicuramente una protezione efficace. Si tratta infatti di un modo rapido (ma non indolore come vedremo a breve) per prendere i cosiddetti “due piccioni con una fava”:

  1. Costringere gli utenti a registrarsi per potere accedere ai contenuti
  2. Rendere i contenuti indicizzabili da Google anche se “protetti”

Chiaramente poiché molti utenti non si pongono il problema di come mai un contenuto possa trovarsi in Google nonostante sia “protetto” questa tecnica è (per gli autori dei siti in questione) un buon deterrente per assicurarsi un buon numero di iscritti.

Questa pratica a livello di regole SEO non è certo buona agli occhi di Google che si ritrova con dei contenuti indicizzati a cui però l’utente non può accedere.
Ricordatevi sempre che tutto quello che può incidere negativamente sulla user experience dell’utente non sarà mai visto di buon occhio da Google e dai motori di ricerca in genere che puntano alla qualità dei contenuti indicizzati.

Molti sviluppatori di siti web conoscono bene un ottimo plugin per Firefox chiamato User Agent Switcher.
La principale funzione di questo ottimo plugin non è certo quella di accedere ai contenuti protetti del web che andremo a descrivere a breve :)
Lo scopo di User Agent Switcher è infatti quello di permettere all’utente di navigare un sito attraverso Firefox ma simulando appunto il comportamento dello user agent di una altro browser come ad esempio Internet Explorer o addirittura quello di un telefono mobile o appunto quello di uno spider di un motore di ricerca.
In questo modo chi sviluppa siti web può verificare che gli stili o gli script implementati possano funzionare sulle varie piattaforme utilizzate dagli utenti per navigare il sito o per controllare come lo spider di un motore di ricerca reagisce alle pagine web realizzate.

Chiaramente una volta che tramite User Agent Switcher impostiamo lo user agent di Google potremo accedere ai contenuti “protetti” di quei siti che si basano appunto solamente sullo user agent (inviato come parametro nell’ http request) per dare accesso o meno ai contenuti.

E’ ovvio che questo è solo un trucco utile per aggirare un altro trucco. Come già detto in precedenza non si tratta realmente di contenuti protetti bensì di contenuti ben nascosti.
Insomma un sito finge di proteggere i contenuti tramite nome utente e password e noi fingiamo di essere Google per poterli visualizzare :)

Su molti forum si vedono richieste di aiuto da parte di persone che si chiedono come mai pur utilizzando User Agent Switcher non riescono ad accedere ai contenuti protetti dei siti.
La risposta è semplice: se non si riesce ad accedere è perché i contenuti in quel caso sono veramente protetti e non solo nascosti agli utenti. Ovvero chi ha realizzato il sito non si basa solo sullo user agent del visitatore per permettere o meno l’accesso ai contenuti.

Vediamo ora come si usa User Agent Switcher per Firefox.
Innanzitutto aprite Firefox e se non lo avete già fatto scaricate User Agent Switcher.
Alla fine del download Firefox provvederà all’installazione del plugin e si riavvierà.
A questo punto selezionando “Strumenti” nella barra di Firefox troverete la nuova voce “Default user agent” che sta appunto ad indicare che al momento state utilizzando lo user agent di Firefox ovvero Mozilla.
Cliccando su questa voce si aprirà un menù dove potrete selezionare lo user agent che volete simulare tra quelli dell’elenco.
Nel nostro caso selezioniamo Googlebot come mostrato nell’immagine seguente e il gioco è fatto.

user-agent-switcher

Ora potete navigare fingendo si essere lo spider di Google e potrete accedere ai contenuti “protetti” di quei siti che effettuano il controllo di accesso solo sullo user agent.

Ad esempio sul forum
http://www.worldlivetv.org/forum/
alcune stanze come quella dedicata alle TV asiatiche
http://www.worldlivetv.org/forum/viewforum.php?f=30
e quella dedicata alle TV italiane
http://www.worldlivetv.org/forum/viewforum.php?f=3
sono visibili solo se impostate lo user agent di Google.
Diversamente vedrete una pagina che vi chiederà le credenziali di accesso.

Commenti (7)

  1. Silvio scrive:

    Interessante, non ci avevo mai pensato!
    Io di solito uso la copia cache di Google :-)

  2. regole-seo scrive:

    Certo Silvio, anche la copia cache di Google può essere sfruttata per accedere a questi contenuti.
    L’unica differenza sta nel fatto che la copia cache potrebbe non essere aggiornata.

  3. Davide scrive:

    Ciao ‘Regole-Seo’ :)
    Articolo davvero interessante, ma mi chiedo, se ho dei contenuti protetti, come posso fare, in modo un po’ meno truffaldino, affinchè google li indicizzi?

    Credi si possa usare lo user agent, per mostrare una versione semplificata del contenuto e comunicare a google che il resto è sotto registrazione? Non so, con un metadato…

    Ciao, Davide.

  4. regole-seo scrive:

    Ciao Davide. A mio giudizio la cosa migliore da fare sarebbe quella di non proteggere l’intero contenuto ma lasciarne una parte visibile a tutti.
    Un buon modo di procedere potrebbe essere quello di creare degli snippet dei tuoi articoli a cui sia Googlebot che tutti gli utenti possono accedere.
    In questo caso Google vede quello che vede anche l’utente che atterra sulla pagina.
    Tramite apposito linnk “…continua a leggere ‘nome articolo’” (no index no follow) puoi poi portare l’utente a un form di login dove le credenziali vengono veramente validate lato server (allora si il contenuto è protetto).

    In questo modo Google è contento e i contenuti sono davvero protetti.
    Certo il testo dei contenuti deve essere ben pensato in modo che la porzione presentata nello snippet deve contenere le key giuste e deve sapere invogliare l’utente ad accedere.

  5. Davide scrive:

    Grazie mille Regole-Seo, tempestivo e preciso, come sempre del resto ;)

    Mi chiedo una cosa… Se creo due pagine per uno stesso contenuto, non dimezzo il ranking?

  6. Davide scrive:

    Mi rispondo da solo.

    No, perchè il secondo contenuto non è indicizzato.

    Grazie mille,
    Davide.

  7. regole-seo scrive:

    Esatto :)
    In ogni caso quando duplichi il contenuto il rischio che corri è che una delle due pagine non venga indicizzata.
    Chiaramente è Google che decide se toglierne una dall’indicizzazione ed eventualmente quale.
    Il ranking (inteso come PageRank) della pagina indicizzata non dovrebbe risentire di questo fattore.

Scrivi un commento