Perché Google non indicizza tutte le pagine del sito?

La sitemap è inserita, il sito si vede nella serp. Ma Perché google non indicizza tutte le url del tuo sito? Non temere, non è un problema solo tuo: ecco una serie di indicazioni per affrontare il problema.

Ho risolto un problema di indicizzazione ma nella Search Console il numero di url indicizzate della sitemap. E anche nella copertura mancano un bel numero di pagine all’indicizzazione. Quindi, perché Google non indicizza tutte le pagine del sito web?

perché Google non indicizza tutte le pagine del sito web
Ecco gli strumenti per il webmaster dedicati alla verifica sito.

Questo nodo mi accompagna da quanto ho inserito la sitemap e non sono mai riuscito a scioglierlo. Almeno fino a un certo punto, poi ho studiato la base della buona ottimizzazione SEO e ho scoperto le fonti di Google. La risposta è fin troppo banale.

Il mio sito non compare nei motori di ricerca

Il blog non è stato indicizzato. Forse non appare sul motore di ricerca perché non è stato neanche inserito nell’archivio. Il processo è semplice: prima di posizionarsi, un sito web deve essere indicizzato e scansionato.

Ovvero, Google passa tra le sue pagine e lo rileva. Poi lo indicizza, ovvero lo inserisce nel suo archivio. In questi due passaggi possono esserci dei problemi.

C’è da affrontare questo punto: il tuo sito web ha lasciato passare il bot di Google? Forse è nuovo, quindi lo spider non ha ancora letto con precisione tutte le pagine.

In questi casi aggiungere la sitemap nella search console è la soluzione ideale per avviare una prima indicizzazione per risolvere un sito non visibile su Google.

Da leggere: come ottenere i sitelink di Google

Attenzione a robots.txt e impostazioni noindex

Sul sito potrebbe esserci un problema lato robots.txt. Ad esempio hai impostato un comando su questo file per bloccare completamente il passaggio del crawler. Stesso discorso può avvenire con il meta tag robots con una soluzione del genere.

<meta name="robots" content="noindex">

In questo modo suggerisci al crawler di evitare il passaggio su questa risorsa. E togli visibilità alle pagine web, impedisci la scansione da parte di Google.

Se il tuo sito WordPress non appare su Google assicurati prima di non aver impostato alcuna soluzione per comunicare a Google di andare oltre. E ricorda di inserire la sitemap che presenti il sito al motore di ricerca se hai un portale appena pubblicato.

Sito appare su Google ma non tutte le pagine

Questo è un problema diverso. Il sito compare nei motori di ricerca, se usi il classico operatore avanzato site: puoi verificare la presenza del sito e avere delle risposte.

site:https://www.mysocialweb.it/

In questo modo ti assicuri di avere un sito web indicizzato. Ma Google non indicizza tutte le pagine. Per aggiungere al motore di ricerca una pagina che non è stata indicizzata puoi usare lo strumento controllo URL. Basta aggiungere l’indirizzo.

Così puoi avviare il processo di inserimento, ma a questo punto la domanda non è stata risolta: perché Google non indicizza tutte le pagine del sito web?

Crawl Budget: non ci sono risorse per tutti

Proprio Google sottolinea un punto nelle linee guida ufficiali“Non esegue la scansione di tutte le pagine presenti sul Web e non indicizza tutte le pagine di cui viene eseguita la scansione”. Questo vuol dire che lavora in termini di economia.

Google non può dedicare crawl budget infinito a tutto ciò che fai, non ne vale la pena. Deve limitare le risorse e scansionare solo ciò che porta valore all’utente.

Crawl Budget
Ecco i numeri del tuo crawl budget nella vecchia Search Console.

Cosa significa? Il motore di ricerca da un quantitativo di risorse al Googlebot per analizzare il sito web. Più è importante il tuo lavoro agli occhi del motore di ricerca, maggiore saranno le risorse a disposizione per scoprire le tue pubblicazioni.

Questo porta a una serie di problemi rilevati anche dalla nuova Search Console. Qualche esempio concreto? Ecco una serie di mancate indicizzazioni da analizzare.

Pagina rilevata, attualmente non indicizzata

Questa è una condizione interessante che contempla proprio una difficoltà di Google nel riuscire a indicizzare tutto. Nella pagina ufficiale si legge proprio questo:

Google ha cercato di eseguire la scansione della pagina, ma il sito era sovraccarico, quindi ha dovuto riprogrammare la scansione.

Per risolvere il singolo problema puoi usare sempre lo strumento controllo URL e forzare l’indicizzazione. Pochi minuti e la pagina è online, questa funzione può essere usata anche per aggiornare velocemente le modifiche fatte sui contenuti vecchi.

Scansionata ma attualmente non indicizzata

In questo caso, secondo Mountain View, non è necessario inviare di nuovo l’URL da sottoporre a scansione. La risorsa in questione, quindi, è stata vista da Google.

pagine escluse dalla scansione
Quanti errori ci sono sul tuo sito web?

Ma deliberatamente ignorata. A questo punto la domanda è: sarà veramente necessaria all’economia del sito? Per caso si tratta di un thin content (risorse con pochissimo testo e inutili per l’utente) o una pagina archivio non gestita bene?

Indicizzata ma non inviata tramite la sitemap

Qui c’è un problema relativo al file XML della sitemap: la pagina è stata vista e indicizzata ma manca la risorsa in questione. Per Google questo è un passaggio essenziale quando vuoi indicizzare un sito web, quindi devi correre ai ripari.

Google non indicizza molti URL in sitemap

Hai notato che in questo file mancano molte pagine? Fortunatamente in questo video pubblicato sul Google Webmaster Central Channel, Matt Cutts risponde a un utente che ha lo stesso problema mio. E immagino quello di tanti altri blogger!

Matt Cutts è immediato nella sua risposta: il fatto che nella sitemap siano presenti un certo numero di URL, questo non vuol dire che Google indicizzi tutto.

Inutile lamentarsi e battere i piedi a terra chiedendo l’indicizzazione totale dei contenuti. Si tratta di un punto naturale. Ma puoi migliorare la situazione.

Aumentare crawl budget e contenuti indicizzati

Vuoi agevolare l’indicizzazione delle pagine e migliorare il crawl budget? Migliorare l’autorità e la reputazione del blog/sito è la soluzione. Questo avviene aumentando i link in entrata da parte di fonti autorevoli. Un sito ben linkato è considerato trust.

Con l’aumentare dei link di qualità Google ha più incentivi a visitare le pagine, ma non tutto è legato ai fattori off-page. Puoi fare molto a livello di struttura on-site.

Perché Google non indicizza tutte le url della Sitemap?
La sitemap di Google: differenza di risorse indicizzate.

Ad esempio puoi inserire la sitemap, come già sottolineato. Oppure puoi iniziare a lavorare rendendo facile il lavoro al crawler. Fare SEO su WordPress significa anche questo: agevolare l’opera del motore di ricerca. In che modo puoi procedere?

  • Snellisci il caricamento delle pagine: meno tempo impiega il crawler a scansionare una pagina, più risorse può dedicare al resto. Velocizzare WordPress è quindi fondamentale.
  • Elimina risorse inutili e ridondanti. Perché far perdere tempo al crawler su pubblicazioni che non hanno più motivo di esistere? Cancellare, con metodo e competenza, vuol dire favorire la scansione delle risorse e risparmiare crawl budget da destinare altrove.
  • Frequenza di pubblicazione del blog: la quantità dei contenuti messi online costringe il crawler a passare con ritmo superiore sul tuo sito web. Questo è un punto essenziale.

Lascia che lo spider si muova facilmente nel sito. Un buon lavoro di link interni aiuta la scoperta e l’indicizzazione delle risorse, ma anche il menu di navigazione e la struttura della home page permettono al crawler di scoprire ciò che conta veramente.

Per approfondire: come ottimizzare una pagina web

Come migliorare indicizzazione del sito web

In buona sintesi, il problema non è risolto del tutto (lo scarto tra URL presenti e indicizzate rimane) ma almeno adesso sai che non si tratta di una colpa e, soprattutto, sai come porre rimedio. Devi lavorare sodo per ottenere risultati.

Vuoi dettagli sull’argomento? Lascia la tua esperienza nei commenti, spiega perché hai problemi con l’indicizzazione dei contenuti e come stai cercando di risolvere.

12 COMMENTI

  1. Be si, a nessuno verranno mai indicizzate tutte le pagine della sitemap, io addirittura ne uso una per ogni sito, riportando le pagine anche degli altri miei siti, chiaramente inseriti e verificati in account di google. Un lento aumento c’è anche se a volte ho dei riscontri fuori dal normale con pagine non trovate che non ho mai inserito, credo proprio che Google si stia fulminando e fulminati siano i suoi algoritmi, ma per noi resta sempre molto importante a causa del lavoro che facciamo ormai a fatica, devo aggiungere.
    Un saluto a tutti.

  2. Ciao a tutti, sono nuovo ma appare chiaro che questo mondo è PIENo di incertezza! Uno come fa a capire quanto bene ha lavorato sulle pagine di un sito se google puramente randomicamente non le indicizza tutte??? Vi faccio uns esempio : ho appena lanciato il mio sito. La mia sitemap ha inviato a google 240 url. Lui ne ha indicizzati SOLO 40. Bene come faccio a sapere se 40 su 240 è “giusto” per un sito giovane?? Oppure se 40 è troppo poco?
    francesco

  3. Ciao Riccardo, anche io sto riscontrando lo stesso problema con la differenza che gli URL indicizzati sono una percentuale che si affievolisce sempre di più da qualche settimana. Ho letto sul forum GT che si tratta di un bug di webmaster tools. A mio avviso c’é anche una causa da indagare nella creazione di una sitemap che si aggiorna automaticamente. Sicuramente c’é poco da fare perché gli URL che GWT dice di non aver indicizzato in realtà sono presenti nell’indice.
    Se qualcuno ha qualche idea o notizia da condividere non esitate!

  4. Anch’io ho questo tipo di problema, però ho dei dati che parrebbero smentire la diretta correlazione tra link popularity e indicizzazione. A dire il vero sono basito e non capisco dove sbattere la testa, ora vi sottopongo in esame questi dati di oggi 25 settembre 2014, e sono tutti siti avviati da più di un anno:

    Sito A è un blog, con varie pagine di contenuti.
    173 query di ricerca, 6.651 impressioni, 385 clic
    60 URL inviati, 20 URL indicizzati

    Sito B è un micro sito vetrina, con poche pagine mai aggiornate, target ristrettissimo e poche visite.
    < 10 query di ricerca, 34 impressioni, < 10 clic
    8 URL inviati, 7 URL indicizzati

    Sito C è ancora un sito microscopico, fermo da mesi, ma con più pagine, anche se di poco interesse.
    < 10 query, 28 impressioni, < 10 clic
    34 URL inviati, 32 URL indicizzati

    Sito D è un catalogo prodotti, una nicchia, ma funzionante discretamente bene.
    59 query, 3.625 impressioni, 243 clic
    66 URL inviati, 66 URL indicizzati

    Sito E è un altro catalogo, sempre di nicchia.
    78 query, 2.659 impressioni, 308 clic
    44 URL inviati, 41 URL indicizzati

    E potrei andare avanti ancora, ma quel che balza all'occhio è la scarsa performance del sito A, sono indicizzate solo 20 pagine su 60, mentre i siti D ed E, che hanno dimensione paragonabile, sono quasi del tutto indicizzati, pur avendo discretamente meno traffico. Per assurdo il sito C, con traffico quasi assente, e sole 28 impressioni contro le oltre 6.500 di A, riesce a tenere le sue 30 paginette tutte indicizzate. Come lo spiegate questo incredibile fenomeno?

  5. un consiglio che vi posso dare, per esperienza personale, è quello di evitare di rimandare continuamente un sitemap aggiornato a google. farà fatica ad indicizzare quello che voi continuamente gli cambiate sotto il naso.
    ho passato situazioni strane dove avevo 2000 url inviati e solo 120 indicizzati.

    max

  6. E’ normale che dell mio sitarello di sole 33 pagine, google ne indicizzi solo 1?
    Va bene poche.. ma solo una su 33 e’ pochissimo.
    http://www.marcolaura.com
    Cosa posso fare?
    Grazie!!!

  7. Io avevo lo stesso problema e ho risolto utilizzando lo strumento “Visualizza come Google” però ho dovuto segnalare ogni pagina del sito manualmente.

  8. Stesso problema sul mio sito cattelan.it, su pagine e prodotti arredamento lo scarto tra indicizzati e inviati è minore, mentre è molto alto nella sitempa degli attachment.

RISPONDI AL COMMENTO

Please enter your comment!
Please enter your name here