Robots txt

Home   »   Robots txt

Robots txt

In deze blog leg ik je uit wat een robots.txt is, hoe je hem optimaal inzet voor Google en hoe je hem kan testen op fouten. Er achter komen waarom een robots.txt een onmisbaar instrument is voor jouw SEO strategie? Lees gauw verder!

Wat is robots.txt?

Je robots.txt bestand is een document waarin je zoekmachines zoals Google en Bing vertelt waar ze jouw website wel en niet mogen uitlezen. In vaktermen: je vertelt waar de bots van Google jouw website wel en niet mogen crawlen. Elke keer als een zoekmachine langs komt, kijkt hij als eerst naar de robots.txt file. Vervolgens gaat hij aan de slag met het crawlen van je website.

Je robots.txt kun je goed inzetten om dubbele content te voorkomen en het ‘crawl budget’ van je website te optimaliseren. De bots van Google en andere zoekmachines hebben namelijk maar beperkt de tijd om jouw website te bekijken. Het is belangrijk om deze tijd zo efficiënt mogelijk te besteden.

Voorbeeld van een robots.txt file

Sitemap: https://www.jouwwebsite.nl/sitemap.xml

User-agent: * # pas beschikbaar maken als properties beschikbaar zijn.
Disallow: /nog-geen-prijzen/
Disallow: /niet-te-boeken/
Disallow: /*?
Disalow: /*.pdf$

User-agent: googlebot
allow: /niet-te-boeken/volgende-maand
Disallow: /niet-te-boeken/

Elementen in de robots.txt file

User-agent: De identificatie van een zoekmachine. Zo kun je de bots van Google herkennen aan: Google bot en Bing aan BingBot.

*: Hiermee geef je aan dat de set regels geld voor iedere user agent. Je kunt specifieke richtlijnen opstellen voor een user agent maar ook voor alle user agents. In dit geval gebruik je: User-agent: * .

In het voorbeeld hierboven, zie je dat alle bots /nog-geen-prijzen/ en /niet-te-boeken/ niet mogen crawlen. Google mag wel /niet-te-boeken/volgende-maand  crawlen.

Allow: Hiermee geef je aan welk gedeelte van de website wel beschikbaar is voor de user agent

Disallow: Hiermee geef je aan welk gedeelte van de website niet beschikbaar is voor de user agent

Sitemap: Hier geef je aan waar de sitemap te vinden is. Je kunt hier meerdere sitemaps plaatsen, indien je meerdere sitemaps hebt. Het is belangrijk dat de exacte url hier gebruikt wordt.

#: Persoonlijke opmerkingen, deze worden genegeerd door de bots. Hier kan je dus handig een kleine aantekening plaatsen.

robots.txt wildcard: wordt gebruikt om content te blokkeren op basis van patronen. Google support 2 type wildcards:

* wildcards: blokkeert reeksen van karakters. Dit is handig als je bijvoorbeeld een filter of parameter wil blokkeren.

$ wildcards: Geeft het einde van een url aan. Dit is handig om bijvoorbeeld verschillende bestandtypes zoals .pdf te blokkeren.

Sitemap in je robots.txt

sitemap robots.txt
Sitemap in je robots.txt

Voordat Google of een andere zoekmachine je website uitleest (crawlt), gaat hij eerst langs je robots.txt. Door je sitemap in je robots.txt te plaatsen, Geef je Google additionele informatie of de status van de pagina’s die je (waarschijnlijk) graag in Google wilt indexeren.

robots.txt optimaliseren

Wil je optimaal gebruik maken van je robots.txt voor SEO, dan zijn de richtlijnen (hieronder opgesomd) erg belangrijk om in acht te nemen:

  • Hanteer een nette opbouw in je robots.txt en wees zo specifiek mogelijk.
  • Plaats per regel één richtlijn (en dus niet naast elkaar)
  • Wees er van bewust dat verschillende zoekmachines (waaronder Google) een onderscheid maakt tussen kleine en hoofdletters.
  • Zorg er voor dat je robots.txt bestand niet groter is dan 500 kb
  • Heb je een subdomein (bijvoorbeeld: seo.yellowbluemarketing nl), maak voor dit subdomein dan een apparte robots.txt file aan.
  • Plaats je robots.txt file altijd na de root van jouw website. Bijvoorbeeld: www.jouwwebsite.nl/robots.txt en niet op www.jouwwebsite.nl/map/robots.txt 
  • Elke zoekmachine hanteert andere richtlijnen. Ik adviseer je de richtlijnen van een zoekmachine te raadplegen wanneer er onduidelijkheden ontstaan. (richtlijnen Google , richtlijnen Bing, richtlijnen Yandex, richtlijnen Yahoo, richtlijnen baidu)
  • Google kijkt sinds 1 september 2019 niet meer naar de volgende elementen in je robots.txt: crawl delay, no index, no follow.

Je Robots.txt testen (met een tool)

Robots.txt testen
Test je robots.txt voor het publiceren

Voldoe je aan de richtlijnen en wil je de robots.txt live gaan zetten? Test hem dan nog even in een robots.txt test tool. Hiermee ontdek je snel of je de juiste pagina’s en bestanden hebt uitgesloten. Zelf maak ik gebruik van een van de volgende tools:

  • De robots.txt testing tool van Merkle. Het voordeel van deze tools idat je zowel de live versie als de aangepaste versie kan testen voor livegang. Op die manier zie je direct de impact op al je urls.
  • De robots.txt tester van Google. Het voordeel van deze tool is dat je direct de uitwerking van verschillende user agents (bijvoorbeeld: de google ads bot), kan bekijken.
  • Een webcralwer. Het voordeel hiervan is, dat je meteen alle urls kan zien waar je robots.txt wijzeging impact op heeft. Tip: test hem als eerst op je productie omgeving 😉

Tip: Werk je in een grote organisatie of als consultant? Zorg ervoor dat je op de hoogte bent van robots.txt wijzigingen. Stel daarvoor een SEO alert tool in. Op die manier zit je boven op de bal en maak je vaak klanten blij (als je er als eerst bij bent ;-)) Een echte “life saver” voor mij.

Veel voorkomende fouten in je robots.txt

Ook al bestaat het robots.txt bestand al even (Sinds 1 juli 1994). Nog steeds zie ik en zullen er fouten in sluipen. Het blijft immers mensen werk 😉 De volgende fouten zie ik het meest voorbij komen:

Geïndexeerd, maar geblokkeerd door robots.txt

Zie je in Google of Google search console de volgende melding verschijnen: “geindexeerd maar geblokkeerd door robots.txt”.

Geindexeerd maar geblokkeerd door robots.txt
Geindexeerd maar geblokkeerd door robots.txt

Dan heeft dat waarschijnlijk te maken met één van de volgende oorzaken

  1. Je pagina was al geïndexeerd door Google en werd later geblokkeerd door je robots.txt.
    Oplossing: Ik raad je aan de pagina uit je robots.txt te halen en afhankelijk van de situatie een no index tag of een canonical tag te gebruiken.
  2. Je pagina krijgt ondanks de blokade in robots.txt nog steeds veel externe links naar de desbetreffende pagina.
    Oplossing: Controleer dit met de gratis tool (bijvoorbeeld via semrush), waar de externe links vandaan komen. Benader vervolgens de website om te vragen of ze de link naar een pagina willen zetten die je wel geindexeerd wilt zien.
  3. Robots.txt bestanden zijn slechts richtlijnen, het is mogelijk dat niet alle bots jouw robots.txt file tolereren.
    Oplossing: Test je robots.txt met een tool waar je de juiste user agent kan selecteren. Zie je niet direct waar het fout gaat? Verdiep je dan in de richtlijnen van de desbetreffende zoekmachine.

Fout gevonden? Vallideer je oplossing in Google search console. Na verloop van tijd zal de indexering aangepast zijn.

.css en .js files geblokkeerd in je robots.txt

Het is belangrijk dat Google bot je .css en .js files kan uitlezen. Om Google een volledig beeld van je website te geven, is het van belang dat je deze bestanden beschikbaar maakt. Doe je dit niet, dan zal Google in het rendering proces, geen volledig beeld van je website krijgen.

Oplossing: Kijk met een robots.txt test tool of je geen .css en .js bestanden uitsluit.

Tip: Gebruik je wildcards? Controleer deze dan even. Soms zie ik dat een wildcard, meer uisluit dan dat de bedoeling is.

Verschijnt deze melding in jouw Google ads campagne? Dan komt waarschijnlijk omdat Google ads jouw campagne niet kan controleren vanwege de beperkingen in je robots.txt file. Mogelijke oorzaak: Je blokkeert de Google ads bot in robots.txt

User-agent: AdsBot-Google
Dissalow: /

Oplossing:
Wat je het best kan doen is de Google ads bot toegang geven tot je gehele website. Dit doe je door de volgende regel aan je robots.txt toe te voegen:

User-agent: AdsBot-Google
Allow: /

Goed om te weten: met een wildcard (*), zoals aangegeven hieronder, blokkeer je Google AdsBot niet.

User-agent: *
Disallow: /

Nadat je dit aangepast hebt, dien je je campagne voor beoordeling in bij Google. Google zal je campagnes op korte termijn weer goedkeuren.

Robots.txt niet beschikbaar (4xx statuscode)

Indien je robots.txt een 4xx status geeft, zal Google de eerste 24 uur hun gecachde (tijdelijk opgeslagen) robots.txt gebruiken. Na 24 uur zal Google je volledige website crawlen en zich niet meer aan de oude richtlijnen houden. Het is enorm belangrijk om Google hierin voor te zijn.

Oplossing: Zelf maak ik gebruik van een SEO monitoring tool. Zodra mijn robots.txt bestand een 404 geeft, krijg ik een melding per e-mail of in Slack.

Tip: Zorg er voor dat je webdeveloper deze melding ook krijgt.

Robots.txt niet bereikbaar vanwege server fout (5xx statuscode)

Is je robots.txt niet bereikbaar vanwege een server fout, dan zal Google je website de eerste 30 dagen niet meer crawlen. Daarna zijn er 2 opties mogelijk:
• Je gecachde versie is beschikbaar: Google gaat volgens je opgeslagen robots.txt verder
• Je gecachde versie is niet beschikbaar: Google crawlt je hele website zonder restricties.

Oplossing: Zelf maak ik gebruik van een SEO monitoring tool. Zodra mijn robots.txt bestand een 5xx status code geeft, krijg ik een melding per e-mail of in Slack. Ik schakel vervolgens meteen een webdeveloper in om dit op te lossen.

SEO-fouten voorkomen?

SEO-checklist
Controleer je optimalisatie-stappen met mijn gratis SEO-checklist. Zo voorkom je fouten in Google en Bing.
Download SEO-checklist
SEO-checklist