Wat is robots.txt? Test en optimalisatie tips

Q: Kan ik een URL in een subfolder laten crawlen als de subfolder geblokkeerd is in Robots.txt?

Ja! Ik leg het uit aan de hand van een voorbeeld: User-agent: * Allow: /tag/camper-tools Disallow: /tag/ Alle tag pagina's worden niet uitgelezen. De pagina /tag/camper-tools wel. Let op: wanneer je allow en disallow samen gebruikt, gebruik dan geen wildcards. Dit kan voor verkeerde signalen zorgen.

Robots txt

19 april 2024

Jeroen Stikkelorum

Wil jij invloed hebben op wat Google wel en niet mag uitlezen? Dan is een robots.txt bestand een oplossing. In deze blog leg ik je uit: wat een robots.txt bestand is? Hoe je hem optimaal kan gebruiken voor SEO en hoe je er voor zorgt dat er geen fouten insluipen. Er achter komen waarom een robots.txt een onmisbaar instrument is voor jouw SEO strategie? Lees gauw verder!

Inhoudsopgave Verbergen

1 Wat is robots.txt?

2 Voorbeeld van een robots.txt file

3 Elementen in de robots.txt file

4 Sitemap in je robots.txt

5 robots.txt optimaliseren

6 Je Robots.txt testen (met een tool)

7 Veel voorkomende fouten in je robots.txt

7.1 Geïndexeerd, maar geblokkeerd door robots.txt

7.2 .css en .js files geblokkeerd in je robots.txt

7.3 Google ads bot geblokkeerd door robots.txt

7.4 Robots.txt niet beschikbaar (4xx statuscode)

7.5 Robots.txt niet bereikbaar vanwege server fout (5xx statuscode)

8 Afbeelding in je robots.txt

9 FAQ

9.1 Wat is Crawlen?

9.2 Wat is crawl budget?

9.3 Robots.txt of meta no-index tag?

9.4 Kan je pagina in de index van Google komen als hij geblokkeerd is in robots.txt?

9.5 Wat als je website tijdelijk niet meer gecrawld mag worden?

9.6 Heeft het uitsluiten in je Robots.txt impact op je crawlbudget?

9.7 Kan ik een URL in een subfolder laten crawlen als de subfolder geblokkeerd is in Robots.txt?

Wat is robots.txt?

Je robots.txt bestand is een document waarin je zoekmachines zoals Google en Bing vertelt waar ze jouw website wel en niet mogen uitlezen. In vaktermen: je vertelt waar de bots van Google jouw website wel en niet mogen crawlen. Elke keer als een zoekmachine langs komt, kijkt hij als eerst naar de robots.txt file. Vervolgens gaat hij aan de slag met het crawlen van je website.

Je robots.txt kun je goed inzetten om “duplicate content” te voorkomen en het ‘crawl budget’ van je website te optimaliseren. De bots van Google en andere zoekmachines hebben namelijk maar beperkt de tijd om jouw website te bekijken. Het is belangrijk om deze tijd zo efficiënt mogelijk te besteden.

Voorbeeld van een robots.txt file

Sitemap: https://www.jouwwebsite.nl/sitemap.xml

User-agent: * # pas beschikbaar maken als properties beschikbaar zijn.
Disallow: /nog-geen-prijzen/
Disallow: /niet-te-boeken/
Disallow: /*?
Disalow: /*.pdf$

User-agent: googlebot
allow: /niet-te-boeken/volgende-maand
Disallow: /niet-te-boeken

Elementen in de robots.txt file

User-agent: De identificatie van een zoekmachine. Zo kun je de bots van Google herkennen aan: Google bot en Bing aan BingBot.

*: Hiermee geef je aan dat de set regels geld voor iedere user agent. Je kunt specifieke richtlijnen opstellen voor een user agent maar ook voor alle user agents. In dit geval gebruik je: User-agent: * .

In het voorbeeld hierboven, zie je dat alle bots /nog-geen-prijzen/ en /niet-te-boeken/ niet mogen crawlen. Google mag wel /niet-te-boeken/volgende-maand crawlen.

Allow: Hiermee geef je aan welk gedeelte van de website wel beschikbaar is voor de user agent

Disallow: Hiermee geef je aan welk gedeelte van de website niet beschikbaar is voor de user agent

Sitemap: Hier geef je aan waar de sitemap te vinden is. Je kunt hier meerdere sitemaps plaatsen, indien je meerdere sitemaps hebt. Het is belangrijk dat de exacte url hier gebruikt wordt.

#: Persoonlijke opmerkingen, deze worden genegeerd door de bots. Hier kan je dus handig een kleine aantekening plaatsen.

robots.txt wildcard: wordt gebruikt om content te blokkeren op basis van patronen. Google support 2 type wildcards:

* wildcards: blokkeert reeksen van karakters. Dit is handig als je bijvoorbeeld een filter of parameter wil blokkeren.

$ wildcards: Geeft het einde van een url aan. Dit is handig om bijvoorbeeld verschillende bestandtypes zoals .pdf te blokkeren.

Sitemap in je robots.txt

sitemap robots.txt — Sitemap in je robots.txt

Voordat Google of een andere zoekmachine je website uitleest (crawlt), gaat hij eerst langs je robots.txt. Door je sitemap in je robots.txt te plaatsen, Geef je Google additionele informatie of de status van de pagina’s die je (waarschijnlijk) graag in Google wilt indexeren.

robots.txt optimaliseren

Wil je optimaal gebruik maken van je robots.txt voor SEO, dan zijn de richtlijnen (hieronder opgesomd) erg belangrijk om in acht te nemen:

Hanteer een nette opbouw in je robots.txt en wees zo specifiek mogelijk.
Plaats per regel één richtlijn (en dus niet naast elkaar)
Wees er van bewust dat verschillende zoekmachines (waaronder Google) een onderscheid maakt tussen kleine en hoofdletters.
Zorg er voor dat je robots.txt bestand niet groter is dan 500 kb
Er zit geen maximum aan het aantal robots.txt regels (echter is een grote robots.txt file wel foutgevoelig)
Heb je een subdomein (bijvoorbeeld: seo.seobrein.nl), maak voor dit subdomein dan een apparte robots.txt file aan.
Plaats je robots.txt file altijd na de root van jouw website. Bijvoorbeeld: www.jouwwebsite.nl/robots.txt en niet op www.jouwwebsite.nl/map/robots.txt
Elke zoekmachine hanteert andere richtlijnen. Ik adviseer je de richtlijnen van een zoekmachine te raadplegen wanneer er onduidelijkheden ontstaan. (richtlijnen Google , richtlijnen Bing, richtlijnen Yandex, richtlijnen Yahoo, richtlijnen baidu)
Google kijkt sinds 1 september 2019 niet meer naar de volgende elementen in je robots.txt: crawl delay, no index, no follow.

Tip: Ben je benieuwd hoe je je robots.txt instelt in je Wix website? Bekijk dan mijn SEO Wix handleiding.

Je Robots.txt testen (met een tool)

Voldoe je aan de richtlijnen en wil je de robots.txt live gaan zetten? Test hem dan nog even in een robots.txt test tool. Hiermee ontdek je snel of je de juiste pagina’s en bestanden hebt uitgesloten. Zelf maak ik gebruik van een van de volgende tools:

De robots.txt testing tool van Merkle. Het voordeel van deze tools idat je zowel de live versie als de aangepaste versie kan testen voor livegang. Op die manier zie je direct de impact op al je urls.
De robots.txt tester van Google. Het voordeel van deze tool is dat je direct de uitwerking van verschillende user agents (bijvoorbeeld: de google ads bot), kan bekijken.
Een webcralwer. Het voordeel hiervan is, dat je meteen alle urls kan zien waar je robots.txt wijzeging impact op heeft.
Test je robots.txt code van Google (parsing). De code van Google is open source.

Twee aanvullende tips:

Werk je in een grote organisatie of als consultant? Zorg ervoor dat je op de hoogte bent van robots.txt wijzigingen. Stel daarvoor een SEO alert tool in. Op die manier zit je boven op de bal en maak je vaak klanten blij (als je er als eerst bij bent)
Controleer periodiek of de Robots.txt file goed wordt opgehaald door google. Dit kan je doen in Google search console onder: Instellingen ► crawl statistieken ► status van de host. Zie als voorbeeld de afbeelding hieronder:

ophalen van robots.txt falingspercentage google search console

Veel voorkomende fouten in je robots.txt

Ook al bestaat het robots.txt bestand al even (Sinds 1 juli 1994). Nog steeds zie ik en zullen er fouten in sluipen. Het blijft immers mensen werk 😉 De volgende fouten zie ik het meest voorbij komen:

Geïndexeerd, maar geblokkeerd door robots.txt

Zie je in Google of Google search console de volgende melding verschijnen: “geindexeerd maar geblokkeerd door robots.txt”.

Dan heeft dat waarschijnlijk te maken met één van de volgende oorzaken

Je pagina was al geïndexeerd door Google en werd later geblokkeerd door je robots.txt.
Oplossing: Ik raad je aan de pagina uit je robots.txt te halen en afhankelijk van de situatie een no index tag of een canonical tag te gebruiken.
Je pagina krijgt ondanks de blokade in robots.txt nog steeds veel externe links naar de desbetreffende pagina.
Oplossing: Controleer dit met de gratis tool (bijvoorbeeld via semrush), waar de externe links vandaan komen. Benader vervolgens de website om te vragen of ze de link naar een pagina willen zetten die je wel geindexeerd wilt zien.
Robots.txt bestanden zijn slechts richtlijnen, het is mogelijk dat niet alle bots jouw robots.txt file tolereren.
Oplossing: Test je robots.txt met een tool waar je de juiste user agent kan selecteren. Zie je niet direct waar het fout gaat? Verdiep je dan in de richtlijnen van de desbetreffende zoekmachine.

Fout gevonden? Vallideer je oplossing in Google search console. Na verloop van tijd zal de indexering aangepast zijn.

.css en .js files geblokkeerd in je robots.txt

Het is belangrijk dat Google bot je .css en .js files kan uitlezen. Om Google een volledig beeld van je website te geven, is het van belang dat je deze bestanden beschikbaar maakt. Doe je dit niet, dan zal Google in het rendering proces, geen volledig beeld van je website krijgen.

Oplossing: Kijk met een robots.txt test tool of je geen .css en .js bestanden uitsluit.

Tip: Gebruik je wildcards? Controleer deze dan even. Soms zie ik dat een wildcard, meer uisluit dan dat de bedoeling is.

Google ads bot geblokkeerd door robots.txt

Verschijnt deze melding in jouw Google ads campagne? Dan komt waarschijnlijk omdat Google ads jouw campagne niet kan controleren vanwege de beperkingen in je robots.txt file. Mogelijke oorzaak: Je blokkeert de Google ads bot in robots.txt

User-agent: AdsBot-Google
Dissalow: /

Oplossing:
Wat je het best kan doen is de Google ads bot toegang geven tot je gehele website. Dit doe je door de volgende regel aan je robots.txt toe te voegen:

User-agent: AdsBot-Google
Allow: /

Goed om te weten: met een wildcard (*), zoals aangegeven hieronder, blokkeer je Google AdsBot niet.

User-agent: *
Disallow: /

Nadat je dit aangepast hebt, dien je je campagne voor beoordeling in bij Google. Google zal je campagnes op korte termijn weer goedkeuren.

Robots.txt niet beschikbaar (4xx statuscode)

Indien je robots.txt een 4xx status geeft, zal Google de eerste 24 uur hun gecachde (tijdelijk opgeslagen) robots.txt gebruiken. Na 24 uur zal Google je volledige website crawlen en zich niet meer aan de oude richtlijnen houden. Het is enorm belangrijk om Google hierin voor te zijn.

Oplossing: Zelf maak ik gebruik van een SEO monitoring tool. Zodra mijn robots.txt bestand een 404 geeft, krijg ik een melding per e-mail of in Slack.

Tip: Zorg er voor dat je webdeveloper deze melding ook krijgt.

Robots.txt niet bereikbaar vanwege server fout (5xx statuscode)

Is je robots.txt niet bereikbaar vanwege een server fout, dan zal Google je website de eerste 30 dagen niet meer crawlen (bron: Google). Daarna zijn er 2 opties mogelijk:
• Je gecachde versie is beschikbaar: Google gaat volgens je opgeslagen robots.txt verder
• Je gecachde versie is niet beschikbaar: Google crawlt je hele website zonder restricties.

Oplossing: Zelf maak ik gebruik van een SEO monitoring tool. Zodra mijn robots.txt bestand een 5xx status code geeft, krijg ik een melding per e-mail of in Slack. Ik schakel vervolgens meteen een webdeveloper in om dit op te lossen.

Goed om te weten: als je website eruit ligt, kan je robots.txt bestand beter een 200 of een 404 statuscode i.p.v. een 503. Zo bevestigd ook John muller (een medewerker van Google).

Afbeelding in je robots.txt

Wil je een fancy afbeelding in je robots.txt (zoals het logo van mijn SEO-brein in de afbeelding hieronder). Dat doe je door de volgende stappen te volgen:

Plaats je logo in een afbeelding van 150 x 150 px
Upload je afbeelding naar converthub.com en kies voor: “text + HTML”
Download het txt bestand
Open je robots.txt en plak hier het tekst bestand
Plaats voor elke regel die je niet aan Google bot wilt laten zien een #.
Sla je robots.txt bestand op.

FAQ

Wat is Crawlen?

Wanneer een robot van google je website uitleest, wordt dit ook wel crawlen genoemd. Een crawler, kijkt naar zaken zoals: je HTML opmaak en je interne links. Het doel van een crawler is: huidige pagina’s monitoren en nieuwe pagina’s / links ontdekken. D.m.v. je robots.txt kan je bepalen welke pagina’s wel of niet gecrawld mogen worden.

Wat is crawl budget?

Crawl budget betekent: hoe vaak kan en wil een zoekmachine jouw website uitlezen. Google heeft niet de tijd om het volledige web dagelijks uit te lezen. Daarvoor moet het slimme keuzes maken. Zaken zoals het aantal pagina’s van je website, je autoriteit en het aantal fouten, spelen hier een belangrijke rol in.

Robots.txt of meta no-index tag?

Het is vaak lastig te beslissen wanneer je de robots.txt gebruikt en wanneer de no-index tag. Zelf doe ik het volgende:
Situatie 1: Wanneer de pagina nog niet geindexeerd is door Google en ik hem niet in de index van google wil hebben. Oplossing: blokkeren in robots.txt en plaatsen no-index tag
Situatie 2: Wanneer de pagina geindexeerd is maar ik hem niet in de index wil hebben. Oplossing: niet uitsluiten in robots.txt en het plaatsen een no-index tag. Zodra je pagina door Google is uitgesloten (dit kan je zien in je indexdekking rapportage). Dan kan je hem ook uitsluiten in je robots.txt

Kan je pagina in de index van Google komen als hij geblokkeerd is in robots.txt?

De kans is klein, maar in theorie kan het. Vaak krijgt deze pagina dan veel (externe) links van andere pagina’s. Hierdoor kan Google bepalen de pagina alsnog te indexeren. In dat geval, zou ik hem niet uitsluiten in je robots.txt maar een no-index tag plaatsen

Wat als je website tijdelijk niet meer gecrawld mag worden?

Serveer een 503 status code voor elke URL op de website.

Heeft het uitsluiten in je Robots.txt impact op je crawlbudget?

Wanneer je een disallow in je robots.txt plaatst, zal dit op lange termijn er voor zorgen dat je crawlbudget optimaler wordt ingezet. Op de korte termijn kan dit er voor zorgen dat je crawlbudget iets verminderd. Google moet namelijk zijn crawlbeleid voor jouw website herbeoordelen. Dit kan een aantal weken tot maanden duren.

Kan ik een URL in een subfolder laten crawlen als de subfolder geblokkeerd is in Robots.txt?

Ja! Ik leg het uit aan de hand van een voorbeeld:

User-agent: * Allow: /tag/camper-tools Disallow: /tag/

Alle tag pagina’s worden niet uitgelezen. De pagina /tag/camper-tools wel.

Let op: wanneer je allow en disallow samen gebruikt, gebruik dan geen wildcards. Dit kan voor verkeerde signalen zorgen.

Deel:

Robots txt

Robots txt

Wat is robots.txt?

Voorbeeld van een robots.txt file

Elementen in de robots.txt file

Sitemap in je robots.txt

robots.txt optimaliseren

Je Robots.txt testen (met een tool)

Veel voorkomende fouten in je robots.txt

Geïndexeerd, maar geblokkeerd door robots.txt

.css en .js files geblokkeerd in je robots.txt

Google ads bot geblokkeerd door robots.txt

Robots.txt niet beschikbaar (4xx statuscode)

Robots.txt niet bereikbaar vanwege server fout (5xx statuscode)

Afbeelding in je robots.txt

FAQ

Wat is Crawlen?

Wat is crawl budget?

Robots.txt of meta no-index tag?

Kan je pagina in de index van Google komen als hij geblokkeerd is in robots.txt?

Wat als je website tijdelijk niet meer gecrawld mag worden?

Heeft het uitsluiten in je Robots.txt impact op je crawlbudget?

Kan ik een URL in een subfolder laten crawlen als de subfolder geblokkeerd is in Robots.txt?

SEO-fouten voorkomen?