Robots txt

Robots txt

In deze blog leg ik je uit wat een robots.txt is, hoe je hem optimaal inzet voor Google en hoe je hem kan testen met een tool. Er achter komen waarom een robots.txt een onmisbaar instrument is voor jouw SEO strategie? Lees gauw verder!

Wat is een robots.txt ?

Je robots.txt bestand is een document waarin je zoekmachines zoals Google en Bing vertelt waar ze jouw website wel en niet mogen uitlezen. In vaktermen: je vertelt waar de bots van Google jouw website wel en niet mogen crawlen. Elke keer als een zoekmachine langs komt, kijkt hij als eerst naar de robots.txt file. Vervolgens gaat hij aan de slag met het crawlen van je website.

Je robots.txt kun je goed inzetten om dubbele content te voorkomen en het ‘crawl budget’ van je website te optimaliseren. De bots van Google en andere zoekmachines hebben namelijk maar beperkt de tijd om jouw website te bekijken. Het is belangrijk om deze tijd zo efficiënt mogelijk te besteden.

Voorbeeld van een robots.txt file

Sitemap: https://www.jouwwebsite.nl/sitemap.xml

User-agent: * # pas beschikbaar maken als properties beschikbaar zijn.
Disallow: /nog-geen-prijzen/
Disallow: /niet-te-boeken/
Disallow: /*?
Disalow: /*.pdf$

User-agent: googlebot
allow: /niet-te-boeken/volgende-maand
Disallow: /niet-te-boeken/

Elementen in de robots.txt file

User-agent: De identificatie van een zoekmachine. Zo kun je de bots van Google herkennen aan: Google bot en Bing aan BingBot.

*: Hiermee geef je aan dat de set regels geld voor iedere user agent. Je kunt specifieke richtlijnen opstellen voor een user agent maar ook voor alle user agents. In dit geval gebruik je: User-agent: * .

In het voorbeeld hierboven, zie je dat alle bots /nog-geen-prijzen/ en /niet-te-boeken/ niet mogen crawlen. Google mag wel /niet-te-boeken/volgende-maand  crawlen.

Allow: Hiermee geef je aan welk gedeelte van de website wel beschikbaar is voor de user agent

Disallow: Hiermee geef je aan welk gedeelte van de website niet beschikbaar is voor de user agent

Sitemap: Hier geef je aan waar de sitemap te vinden is. Je kunt hier meerdere sitemaps plaatsen, indien je meerdere sitemaps hebt. Het is belangrijk dat de exacte url hier gebruikt wordt.

#: Persoonlijke opmerkingen, deze worden genegeerd door de bots. Hier kan je dus handig een kleine aantekening plaatsen.

robots.txt wildcard: wordt gebruikt om content te blokkeren op basis van patronen. Google support 2 type wildcards:

* wildcards: blokkeert reeksen van karakters. Dit is handig als je bijvoorbeeld een filter of parameter wil blokkeren.

$ wildcards: Geeft het einde van een url aan. Dit is handig om bijvoorbeeld verschillende bestandtypes zoals .pdf te blokkeren.

Sitemap in je robots.txt

sitemap robots.txt
Sitemap in je robots.txt

Voordat Google of een andere zoekmachine je website uitleest (crawlt), gaat hij eerst langs je robots.txt. Door je sitemap in je robots.txt te plaatsen, Geef je Google additionele informatie of de status van de pagina’s die je (waarschijnlijk) graag in Google wilt indexeren. De mate van impact hiervan is lastig te bepalen. In mijn optiek een sterk SEO signaal voor Google 🙂

Controleer je robots.txt

Voor Google en andere zoekmachines, zijn een aantal richtlijnen erg belangrijk. Controleer voor live gang, je robots.tx op de volgende punten:

  • Plaats je robots.txt file altijd na de root van jouw website. Bijvoorbeeld: www.jouwwebsite.nl/robots.txt en niet op www.jouwwebsite.nl/map/robots.txt 
  • Elke zoekmachine hanteert andere richtlijnen. Ik adviseer je de richtlijnen van een zoekmachine te raadplegen wanneer er onduidelijkheden ontstaan. (richtlijnen Google , richtlijnen Bing, richtlijnen Yandex, richtlijnen Yahoo, richtlijnen baidu)
  • Hanteer een nette opbouw in je robots.txt en wees zo specifiek mogelijk. Plaats per regel een richtlijn (en dus niet naast elkaar)
  • Per 1 september 2019 is het niet meer toegestaan om een no-index in je robots.txt te gebruiken. Google haalt dit uit de codebase van robots.txt (zie update hieronder)
  • Je robots.txt mag niet groter zijn dan 500 kb
  • Voor een subdomein heb je een appart robots.txt bestand nodig

Je Robots.txt testen (met een tool)

Robots.txt testen
Test je robots.txt voor het publiceren

Je robots.txt bijgewerkt? Test hem dan even voordat je hem live zet!
Er zijn verschillende manieren waarop je je robots.txt kan testen. Je kan kiezen uit de volgende tools:

  • De robots.txt testing tool van Merkle. Het voordeel van deze tools idat je zowel de live versie als de aangepaste versie kan testen voor livegang. Op die manier zie je direct de impact op al je urls.
  • De robots.txt tester van Google. Het voordeel van deze tool is dat je direct de uitwerking van verschillende user agents (bijvoorbeeld: de google ads bot), kan bekijken.
  • Een webcralwer. Het voordeel hiervan is, dat je meteen alle urls kan zien waar je robots.txt wijzeging impact op heeft. Tip: test hem als eerst op je productie omgeving 😉

Tip: Werk je in een grote organisatie of als consultant? Zorg ervoor dat je op de hoogte bent van robots.txt wijziginen. Stel daarvoor een SEO alert tool in. Op die manier zit je boven op de bal en maak je vaak klanten blij (als je er als eerst bij bent ;-)) Een echte “life saver” voor mij.

Nieuwe richtlijnen Robots.txt (per 01-09-2019)

2 juli 2019, precies 25 jaar en 1 dag na de introductie van robots.txt, kondigt Google nieuwe richtlijnen aan ( zie tweet hieronder). De volgende richtlijnen zullen per 1 september 2019 niet meer opgevolgd worden in je robots.txt:

  • Crawl delay
  • No-index in je robots.txt (Een techniek die in het verleden nog wel eens een oplossing was)
  • no-follow

Robots.txt niet beschikbaar (4xx statuscode)

Indien je robots.txt een 4xx status geeft, zal Google de eerste 24 uur hun gecachde (tijdelijk opgeslagen) robots.txt gebruiken. Na 24 uur zal Google je volledige website crawlen en zich niet meer aan de oude richtlijnen houden. Belangrijk dus om je robots.txt te monitoren met een SEO monitoring tool.

Robots.txt niet bereikbaar vanwege server fout (5xx statuscode)

Is je robots.txt niet bereikbaar vanwege een server fout, dan zal Google je website de eerste 30 dagen niet meer crawlen. Daarna zijn er 2 opties mogelijk:
• Je gecachde versie is beschikbaar: Google gaat volgens je opgeslagen robots.txt verder
• Je gecachde versie is niet beschikbaar: Google crawlt je hele website zonder restricties.

Verschijnt deze melding in jouw Google ads campagne? Dan komt waarschijnlijk omdat Google ads jouw campagne niet kan controleren vanwege de beperkingen in je robots.txt file. Mogelijke oorzaak: Je blokkeert de Google ads bot in robots.txt

User-agent: AdsBot-Google
Dissalow: /

Oplossing:
Wat je het best kan doen is de Google ads bot toegang geven tot je gehele website.
Dit doe je door de volgende regel aan je robots.txt toe te voegen:

User-agent: AdsBot-Google
Allow: /

Nadat je dit aangepast hebt, dien je je campagne voor beoordeling in bij Google. Google zal je campagnes op korte termijn weer goedkeuren.

Goed om te weten: met een wildcard (*), zoals aangegeven hieronder, blokkeer je Google AdsBot niet.

User-agent: *
Disallow: /

Geïndexeerd, maar geblokkeerd door robots.txt?

Mogelijke oorzaken kunnen zijn:

  1. Je pagina al geïndexeerd was door Google en nu geblokkeerd wordt door robots.txt. Ik raad je aan de pagina uit je robots.txt te halen en afhankelijk van de situatie een no index tag of een canonical tag te gebruiken. Als variant hierop, kun je ook een no index tag in je robots.txt plaatsen. Het wordt niet aangeraden door Google, maar uit ervaring van ons en anderen lijkt dit wel te werken.
  2. Je pagina links van andere websites ontvangt. Controleer dit met de gratis tool van semrush. kijk naar de ‘backlinks’ van de betreffende url die geïndexeerd is en benader de website om de links te wijzigen.
  3. Robots.txt bestanden zijn slechts richtlijnen, het is mogelijk dat niet alle bots jouw robots.txt file tolereren.
  4. Je hebt te maken met een uitzondering in de richtlijnen van een zoekmachine. Het kan voorkomen dat Google bijvoorbeeld iets wel accepteert en Bing niet.

Moet je een Robots.txt gebruiken?

Niks hoeft! Wel kan ik je vertellen dat een robots.txt er voor zorgt dat je controle krijgt over de robots van o.a. Google. Voor mij is de robots.txt een essentieel onderdeel wanneer ik aan de slag ga met zoekmachine optimalisatie. Het zorgt namelijk voor een optimaal crawl budget en voorkomt zaken zoals: duplicate content en verkeerde indexaties*

* Stel je blokkeert een url in je robots.txt, maar Google ziet alsnog heel veel links naar de desbetreffende pagina gaan, dan kan Google er voor kiezen de pagina alsnog in de index te plaatsen. Wil je er zeker van zijn dat je pagina niet in de index komt, plaats dan een meta no index tag.

Moet je .css en .js files blokkeren in je robots.txt?

Nee. Het is belangrijk dat Google bot deze files kan uitlezen.
Op die manier kan Google een volledig beeld van je website krijgen.
Goed om te weten: Google zal een .css file nooit als apart bestand indexeren in Google.

Tip: Maak je gebruik van wildcards? Controleer dan of je niet perrongeluk je .css en .js files blokkeert.

Nu jij weer! Is het gelukt om de robots van google optimaal in te laten crawlen met je robots.txt? Laat het mij weten in de comments hieronder

Laat een reactie achter