Forse quelli appena elencati sono tutti argomenti poco adatti agli inesperti e a chi ha appena avviato un sito web. Tuttavia, rappresentano elementi essenziali per gli esperti SEO e in generale per tutti gli addetti ai lavori del settore. Comprendere come funziona il motore di ricerca, quali processi vengono attivati e i crawler interessati è essenziale! Permette infatti di approfondire come funziona Google, quali aspettative nutre nei confronti dei portali che ospita ed è strettamente legato al benessere generale del nostro sito.
La scansione dei motori di ricerca: cos’è e come funziona
Quando parliamo di scansione intendiamo il processo che i crawler web dei motori di ricerca usano per visitare una pagina e scaricarne i contenuti. In questa fase, vengono presi in considerazione anche i link presenti per andare ancora più a fondo nel sito e scoprire altre pagine collegate. Google, Bing, e tutti gli altri motori di ricerca sono soliti avviare la scansione delle pagine già conosciute in modo ciclico. In questo modo, il motore di ricerca potrà scoprire subito se sono state fatte delle modifiche rispetto alla precedente scansione. In caso di risposta positiva, il motore di ricerca aggiornerà l’indice in base alle modifiche trovate nel contenuto.
I crawler web sono quindi tutte quelle funzioni che i motori di ricerca utilizzano per analizzare i siti e per accedere ai contenuti online. La scansione viene avviata grazie al download del file robots.txt, dove sono contenute le regole dedicate ai bot o spider. Si possono specificare per esempio quali pagine escludere dall’indice (noindex) e anche accettare la scansione (index) di una sottocartella specifica. Nel file solitamente viene citato anche il percorso in cui è presente la sitemap, ovvero la raccolta di tutti gli URL del sito. I crawler sfruttano una serie di algoritmi che, combinati a regole precise, determinano con quale frequenza una pagina debba essere sottoposta a scansione. L’analisi stabilisce anche quante e quali pagine di un sito vanno indicizzate. In base a quello che abbiamo appena visto, più una pagina verrà modificata maggiore sarà la frequenza di scansione da parte del motore di ricerca.
I bot e lo User Agent
I motori di ricerca effettuano la scansione di un portale o sito web grazie ai bot. La loro identità è collegata allo User Agent, ovvero alla stringa dell’agente utente che fornisce al server le informazioni sulle pagine online.
Alcuni dei bot più conosciuti:
- Googlebot User Agent
- Bingbot User Agent
- Baidu User Agent
- Yandex User Agent
- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
- Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
- Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
- Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
- Mediapartners-Google
- Googlebot-News
- Googlebot-Image/1.0
Come sottolinea Google nella sua guida ufficiale su user-agent e crawler, le stringe possono essere verificati grazie ad una ricerca DNS inversa. Il processo è noto anche con il nome di reverse DNS lookups ed è utile per confermare che l’indirizzo IP richiedente corrisponde al motore di ricerca.
Immagini e testo: la scansione
Sapere come gestire la profondità del crawling lato SEO sarà utile anche per dare il ‘giusto peso’ ai contenuti multimediali. Nel caso in cui il motore di ricerca incontri un URL legato ad un’immagine, un audio o un video, non sarà possibile leggere il contenuto del filein modo canonico. Dovrà invece utilizzare i metadati e il nome file.
Va sottolineato che un motore di ricerca può captare solo un certo numero di informazioni sui file non testuali. Questo tuttavia non impedisce la loro indicizzazione o posizionamento. Per esempio è possibile ottenere traffico utile anche grazie ai contenuti multimediali.
La scansione degli URL
I crawler sono in grado di scoprire se su un sito sono presenti nuove pagine grazie ai famosi link. I collegamenti sono come un ponte che unisce diversi tipi di contenuti e quindi URL univoci. Quando il motore di ricerca eseguirà la scansione di pagine già note, metterà in coda l’analisi degli URL associati. Anche per questo è sempre più importante creare delle ancore di testo funzionali non solo per l’utente, ma anche in virtù dell’architettura e gerarchia del nostro sito.
Le sitemap
Come abbiamo visto nei paragrafi precedenti, nel file robots.txt è possibile specificare la sitemap (o più) legate al sito. Si tratta di un elenco di pagine e post che vengono sottoposte a scansione. Per il motore di ricerca diventerà uno strumento prezioso per trovare anche quei contenuti non visibili sulla superficie, ma nascosti nella profondità del portale. Allo stesso tempo, i SEO potranno capire proprio grazie alla sitemap come gestire la profondità del crawling. I dati estratti riveleranno persino con quale frequenza il motore di ricerca è solito eseguire la scansione e l’indicizzazione delle pagine.