Logfile analyse

Logfile analyse

Door middel van logfile analyses krijg je waardevolle inzichten over hoe elke zoekmachine jouw website crawlt (uitleest). Deze informatie wordt soms onderschat, maar kan een goudmijn zijn voor jouw SEO prestaties. In deze blog leg ik uit waarom logfile analyse belangrijk is, welke inzichten je uit je logs kan krijgen en hoe je dit eventueel kan oplossen voor een maximaal SEO succes.

Waarom is logfile analyse belangrijk?

• Inzicht krijgen in welke pagina’s van je website wel en niet uitgelezen worden. 
Voorbeeld: Wordt jouw productpagina bezocht door Google?
• Inzicht krijgen in de responscodes die de zoekmachines te zien krijgen.
Voorbeeld: Is een pagina niet beschikbaar voor Google die dat wel hoort te zijn?
• Inzicht krijgen in welke pagina’s vaker gecrawld worden en dus als belangrijk beschouwen.
Voorbeeld: Wordt jouw productpagina veel minder vaak bekeken dan een pagina die minder belangrijk is?
• Inzichten krijgen waar crawl budget verspild wordt.
Voorbeeld: Wordt er veel tijd besteed aan duplicate content dat niet hoeft.
• Identificeren of de linkwaarde wel goed doorgegeven wordt.
Voorbeeld: Komt Google via een externe link op jouw website?• Voorkomt het reduceren van je crawl budget.

Wat is crawl budget?

Crawl budget betekent: hoe vaak kan en wil een zoekmachine jouw website uitlezen. Google heeft niet de tijd om het volledige web dagelijks uit te lezen. Daarvoor moet het slimme keuzes maken. Zaken zoals het aantal pagina’s van je website, je autoriteit en het aantal fouten, spelen hier een belangrijke rol in. Wil je jouw crawl budget optimaal gebruiken, zorg er dan op zijn minst voor dat jouw website geen duplicate content en geef google hints door bijvoorbeeld meer interne links naar belangrijke pagina’s te plaatsen.

Google denkt iets genuanceerder over crawl budget (zie tweet hieronder)

Maar Google vertelt op zijn blog wel duidelijk:

“Crawl health: if the site responds really quickly for a while, the limit goes up, meaning more connections can be used to crawl. If the site slows down or responds with server errors, the limit goes down and Googlebot crawls less”

Wat mij betreft niet geheel onbelangrijk. Daarnaast leert mijn ervaring dat als je website meer dan 30 miljoen urls heeft, crawl budget zeker impact heeft op je SEO performance.

Aan de slag met logfile analyse

Voordat je aan de slag kan gaan met logfile analyses, heb je twee zaken nodig: een webserver logfile en een logfile analyse tool. Je kan gebruik maken van Excel om je logs uit te pluizen. Echter zijn er veel (niet al te dure tools) op de markt die je een hoop tijd besparen.

Wat is een webserver logfile?

Een webserver logfile is een overzicht van alle vragen (hits) die een webserver ontvang. De data die bewaard wordt, is anoniem en bevat zaken zoals:

• Server IP
• Tijdstempel (dag/tijd)
• Url request (de pagina die bezocht wordt)
• Http status code (is je pagina bereikbaar (2xx) of niet (404 pagina)
• De user agent (Bijvoorbeeld: Googlebot)
• Bytes
• Referrer (de verwijzende bron)

Naast het gedrag van de zoekmachines, staat er nog meer in een logfile, bijvoorbeeld een collega die op een CMS is ingelogd etc. Voor het analyseren van je SEO prestaties heb je deze log-gegevens niet nodig.

Tip: Geef bij je webdevelopers aan dat je alleen het gedrag van zoekmachines wilt analyseren. De rest mag verwijderd worden uit de logs.

Vraag niet alleen om de logfiles van je webserver, maar ook om de logs van een CDN of een loadbalancer (mits die aanwezig zijn).

10 waardevolle inzichten uit je logfile analyse

1. Identificeer welke urls gecrawld zijn
Op deze manier kom je er achter of bijvoorbeeld je nieuwe content al gezien is door Google. Goed om te weten: of je pagina uiteindelijk getoond wordt in de zoekresultaten hangt van meerdere factoren af.

2. Identificeer urls die je liever niet aan Google laat zien
Je kan d.m.v. de urls die Google bezoekt, kijken of er urls in staan die je liever niet aan Google laat zien. Denk aan duplicate content in de vorm van urls met parameters of links met utm tags erin. Detecteer je dit? Afhankelijk van de situatie, kan je dit oplossen met je robots.txt, canonical tag of robots meta tag.

3. Identificeer de crawl frequentie van een url
Ontdek hoeveel ‘events’ een pagina krijgt. Het geeft welke pagina’s een zoekmachine als belangrijk beschouwd. Krijgt belangrijke content minder aandacht? Plaats dan meer interne links naar deze pagina’s. 

4. Identificeer hoe vaak je website gemiddeld gecrawld wordt
Door logfile analyses kan je ontdekken hoe vaak Google gemiddeld langskomt. Let hier ook op onnatuurlijke crawl spikes. Zie je onbekende IP-adressen langskomen die bijvoorbeeld niet van Google of bing afkomstig zijn, dan is het een overweging om dit IP-adres te blokkeren. Zo bespaar je de server ruimte die je beschikbaar kan stellen aan partijen bij wie je dat wilt.

Tip: Bekijk hier de IP-adressen van Google en Bing

5. Identificeer de crawl frequentie per user-agent
Bekijk hoe vaak Google langskomt t.o.v. Bing of Google desktop t.o.v. Google mobiel.

6. Identificeer crawl errors (404,501)
Zoals in de inleiding eerder genoemd, is het handig om crawl error’s te monitoren. Los je dit op, dan zal Google je crawl budget niet verlagen. Tevens is je crawl error overzicht ook een mooie locatie om fouten te identificeren. Kijk vooral naar je 404’s (pagina niet gevonden) en je server fouten (5xx). Zie je veel server fouten, neem dan contact op met je hosting provider of serverspecialist.

7. Identificeer het crawl gedrag op 301 redirects
Bekijk of de juiste 301 redirects gecrawld worden. Handig om dit na een website migratie te monitoren.

8. Identificeer crawl errors per user agent
Zie je andere crawl errors per user agent? Het kan zijn dat je website voldoet aan de richtlijnen van Google, maar niet van Bing. Elke zoekmachine heeft afwijkingen met wat ze wel en niet uit kunnen lezen.

9. Identificeer langzame pagina’s
Bekijk bij het kopje ‘bytes’, hoe lang Google doet over het laden van een pagina of ander bestand. Zie je dat afbeeldingen veel tijd kosten, kijk dan eens of je je afbeeldingen kan comprimeren.

10. Identificeer welke urls niet gecralwd worden
Wil je weten of al je pagina’s gevonden worden? Lees dan al je urls uit met een webcrawler en leg die naast de urls die gecrawld zijn. Het kan zijn dat de pagina’s die niet gelezen worden, geblokkeerd worden door je robots.txt of een meta no index hebben. Denk ook aan het ontbreken van geen tot weinig interne links.

Nu jij weer! Heb je waardevolle inzichten gekregen uit je logfiles? Loop je ergens tegen aan? Laat het weten in de comments hieronder.

Laat een reactie achter