Tempo di Lettura stimato: 4 minuti

Googlebot obbedisce solo a determinati comandi, ignora moduli e cookie e esegue la scansione solo dei collegamenti correttamente codificati.
Pertanto, errori e sviste nella costruzione di un sito web possono influire sulla capacità di scansionarlo e indicizzarlo.

È naturale supporre che tutto ciò che gli umani vedono su un sito Web sia accessibile ai motori di ricerca. Ma non è così.

Secondo quanto riferito, Googlebot può compilare moduli, accettare cookie e eseguire la scansione di tutti i tipi di link. L’accesso a questi elementi richiederebbe risorse di indicizzazione e indicizzazioni apparentemente illimitate.

Pertanto Googlebot obbedisce solo a determinati comandi, ignora moduli e cookie e esegue la scansione solo dei collegamenti codificati con un tag di ancoraggio e href adeguati .

Quelli che andremo a vedere sono sette elementi che impediscono a Googlebot e ad altri robot dei motori di ricerca di eseguire la scansione (e l’indicizzazione) di tutte le tue pagine web.

1. Pagine basate sulla posizione

I siti con pagine adattive alle impostazioni locali rilevano l’indirizzo IP di un visitatore e quindi visualizzano il contenuto in base a tale posizione.
Ma non sono infallibili:l’IP di un visitatore potrebbe sembrare a Boston anche se vive a New York. Quindi avrebbe ricevuto contenuti su Boston, che non vuole.

L’IP predefinito di Googlebot proviene dall’area di San Jose, California. Quindi Googlebot visualizzerebbe solo contenuti relativi a quella regione.

Il contenuto basato sulla posizione al primo accesso al sito va bene.
Ma il contenuto successivo dovrebbe essere basato sui collegamenti cliccati, piuttosto che su un indirizzo IP.

Questa barriera invisibile al successo della ricerca organica è una delle più difficili da fiutare.

Leggi Anche  L'importanza del posizionamento sui motori di ricerca del tuo e-commerce Woocommerce

2. Contenuto basato su cookie

I siti posizionano i cookie su un browser Web per personalizzare l’esperienza di un visitatore, come le preferenze di lingua o i percorsi dei clic per il rendering del template stesso.
I contenuti a cui i visitatori accedono esclusivamente a causa dei cookie, anziché fare clic su un collegamento, non saranno accessibili ai robot dei motori di ricerca.

Ad esempio, alcuni siti offrono contenuti per paese e lingua in base ai cookie.
Se visiti un negozio online e scegli di leggere in francese, viene impostato un cookie e il resto della tua visita sul sito procede in francese.
Gli URL rimangono gli stessi di quando il sito era in inglese, ma il contenuto è diverso.

Il proprietario del sito presumibilmente desidera che i contenuti in lingua francese si classifichino nella ricerca organica per attirare persone di lingua francese nel sito. Ma non lo farà.
Quando l’URL non cambia al variare del contenuto, i motori di ricerca non sono in grado di scansionare o classificare le versioni alternative.

3. Link JavaScript non leggibili

Per Google, un collegamento non è un collegamento a meno che non contenga sia un tag di ancoraggio sia un href per un URL specifico.
Il testo di ancoraggio è anche importante in quanto stabilisce la pertinenza della pagina da collegare.

L’ipotetico markup di seguito evidenzia la differenza con Googlebot tra i link di cui è possibile eseguire la scansione e i non di cui è possibile eseguire la scansione: “Verrà sottoposto a scansione” anziché “Non sottoposto a scansione”.

Google richiede che i collegamenti contengano sia un tag di ancoraggio sia un <em> href </em> a un URL specifico.
In questo esempio, Googlebot eseguirà la scansione della prima e della quarta riga.
Ma non passerà al secondo ed al terzo.

Leggi Anche  il segreto di come guadagnare con il tuo blog nel 2020

I siti di e-commerce tendono a codificare i loro collegamenti usando onclick (un menu a discesa con il mouse che collega ad altre pagine) invece di tag di ancoraggio.
Anche se funziona per gli umani, Googlebot non li riconosce come link di cui è possibile eseguire la scansione.
Pertanto, le pagine collegate in questo modo possono presentare problemi di indicizzazione.

4. URL hashtag

AJAX è una forma di JavaScript che aggiorna il contenuto senza ricaricare la pagina.
Il contenuto aggiornato inserisce un hashtag (un cancelletto: #) nell’URL della pagina.
Sfortunatamente, gli hashtag non riproducono sempre il contenuto previsto nelle visite successive.
Se i motori di ricerca indicizzassero gli URL hashtag, il contenuto potrebbe non essere quello che cercavano gli utenti.

Mentre la maggior parte degli ottimizzatori dei motori di ricerca comprende i problemi di indicizzazione inerenti agli URL hashtag, gli esperti di marketing sono spesso sorpresi di apprendere che questo elemento base della loro struttura URL sta causando problemi di ricerca organici.

5. Robots.txt Disallow

Il file robots.txt è un documento di testo arcaico alla radice di un sito.
Indica ai robot (che scelgono di obbedire) quali contenuti eseguire la scansione , in genere tramite il comando disallow .

Non consentire comandi non impedisce l’indicizzazione.
Ma possono impedire il posizionamento delle pagine a causa dell’incapacità dei bot di determinare la pertinenza della pagina.

I comandi non consentiti possono comparire accidentalmente nei file robots.txt, ad esempio quando una riprogettazione viene attivata dal vivo, impedendo così ai robot di ricerca di eseguire la scansione dell’intero sito.
L’esistenza di un divieto nel file robots.txt è una delle prime cose da verificare per un improvviso calo del traffico di ricerca organico.

Leggi Anche  Guadagnare con il blog: quanto tempo ci vuole?

6. Meta Robots Noindex


L’ attributo noindex del meta tag di un URL indica ai robot dei motori di ricerca di non indicizzare quella pagina.
Viene applicato pagina per pagina, anziché in un singolo file che governa l’intero sito, come i comandi non consentiti .

Tuttavia, gli attributi noindex sono più potenti di quelli non consentiti perché bloccano l’ indicizzazione.

Come disallow comandi, noindex attributi possono essere spinto accidentalmente dal vivo. Sono uno dei bloccanti più difficili da scoprire.

7. Tag canonici errati

I tag canonici identificano quale pagina indicizzare da più versioni identiche.
I tag canonici sono “armi” importanti per prevenire contenuti duplicati .
Tutte le pagine non canoniche attribuiscono la loro autorità di collegamento – il valore che le pagine collegate ad esse trasmettono – all’URL canonico.
Le pagine non canoniche non sono indicizzate.

I tag canonici sono nascosti nel codice sorgente.
Gli errori possono essere difficili da rilevare.
Se le pagine desiderate sul tuo sito non sono indicizzate, i colpevoli possono essere i tag canonici errati.

Dopo aver letto questo post potrebbe anche interessarti “Creazione di link SEO per e-commerce” cliccando qui