Robots txt

Robots txt

Je robots.txt bestand is een document waarin je zoekmachines zoals Google en Bing vertelt waar ze jouw website wel en niet mogen uitlezen. In vaktermen: je vertelt waar de bots van Google jouw website wel en niet mogen crawlen. Elke keer als een zoekmachine langs komt, kijkt hij als eerst naar de robots.txt file. Vervolgens gaat hij aan de slag met het crawlen van je website.

Je robots.txt kun je goed inzetten om dubbele content te voorkomen en het ‘crawl budget’ van je website te optimaliseren. De bots van Google en andere zoekmachines hebben namelijk maar beperkt de tijd om jouw website te bekijken. Het is belangrijk om deze tijd zo efficiënt mogelijk te besteden.


Voorbeeld van een robots.txt file

 

Sitemap: https://www.jouwwebsite.nl/sitemap.xml

User-agent: * # pas beschikbaar maken als properties beschikbaar zijn.
Disallow: /nog-geen-prijzen/
Disallow: /niet-te-boeken/
Disallow: /*?
Disalow: /*.pdf$

User-agent: googlebot
allow: /niet-te-boeken/volgende-maand
Disallow: /niet-te-boeken/

 

Elementen in de robots.txt file

User-agent: De identificatie van een zoekmachine. Zo kun je de bots van Google herkennen aan: Google bot en Bing aan BingBot.

*: Hiermee geef je aan dat de set regels geld voor iedere user agent. Je kunt specifieke richtlijnen opstellen voor een user agent maar ook voor alle user agents. In dit geval gebruik je: User-agent: * .

In het voorbeeld hierboven, zie je dat alle bots /nog-geen-prijzen/ en /niet-te-boeken/ niet mogen crawlen. Google mag wel /niet-te-boeken/volgende-maand  crawlen.

Allow: Hiermee geef je aan welk gedeelte van de website wel beschikbaar is voor de user agent

Disallow: Hiermee geef je aan welk gedeelte van de website niet beschikbaar is voor de user agent

Sitemap: Hier geef je aan waar de sitemap te vinden is. Je kunt hier meerdere sitemaps plaatsen, indien je meerdere sitemaps hebt. Het is belangrijk dat de exacte url hier gebruikt wordt.

#: Persoonlijke opmerkingen, deze worden genegeerd door de bots. Hier kan je dus handig een kleine aantekening plaatsen.

robots.txt wildcard: wordt gebruikt om content te blokkeren op basis van patronen. Google support 2 type wildcards:

* wildcards: blokkeert reeksen van karakters. Dit is handig als je bijvoorbeeld een filter of parameter wil blokkeren.

$ wildcards: Geeft het einde van een url aan. Dit is handig om bijvoorbeeld verschillende bestandtypes zoals .pdf te blokkeren.  

Verder zijn de volgende zaken van belang:

• Plaats je robots.txt file altijd na de root van jouw website. Bijvoorbeeld: www.jouwwebsite.nl/robots.txt en niet op www.jouwwebsite.nl/map/robots.txt 
• Elke zoekmachine hanteert andere richtlijnen. Ik adviseer je de richtlijnen van een zoekmachine te raadplegen wanneer er onduidelijkheden ontstaan. (richtlijnen Google , richtlijnen Bing, richtlijnen Yandex, richtlijnen Yahoo, richtlijnen baidu)
• Hanteer een nette opbouw in je robots.txt en wees zo specifiek mogelijk. Plaats per regel een richtlijn (en dus niet naast elkaar)
• Per 1 september 2019 is het niet meer toegestaan om een no-index in je robots.txt te gebruiken. Google haalt dit uit de codebase van robots.txt
• Je robots.txt mag niet groter zijn dan 500 kb
• Voor een subdomein heb je een appart robots.txt bestand nodig

Nieuwe richtlijnen Robots.txt (per 01-09-2019)

2 juli 2019, precies 25 jaar en 1 dag na de introductie van robots.txt, kondigt Google nieuwe richtlijnen aan ( zie tweet hieronder).
De volgende richtlijnen zullen per 1 september 2019 niet meer opgevolgd worden in je robots.txt:
• Crawl delay
• No-index in je robots.txt (Een techniek die in het verleden nog wel eens een oplossing was)
• no-follow

Robots.txt niet beschikbaar (4xx statuscode)?:
Indien je robots.txt een 4xx status geeft, zal Google de eerste 24 uur hun gecachde (tijdelijk opgeslagen) robots.txt gebruiken. Na 24 uur zal Google je volledige website crawlen en zich niet meer aan de oude richtlijnen houden. Belangrijk dus om je robots.txt te monitoren met een SEO monitoring tool.
Robots.txt niet bereikbaar vanwege server fout (5xx statuscode)?:
Is je robots.txt niet bereikbaar vanwege een server fout, dan zal Google je website de eerste 30 dagen niet meer crawlen. Daarna zijn er 2 opties mogelijk:
• Je gecachde versie is beschikbaar: Google gaat volgens je opgeslagen robots.txt verder
• Je gecachde versie is niet beschikbaar: Google crawlt je hele website zonder restricties.


Test de werking van je Robots.txt


Robots.txt tester
Robots.txt tester van Technicalseo.com

Als je je robots.txt klaar is, is het handig om deze te testen. Bots luisteren heel nauw. Een spelfout kan dus al grote gevolgen hebben. Zelf maken ik gebruik van de robots.txt testing tool van merkle. Hier kun je je robots.txt namelijk direct op verschillende user agents uittesten en je aangepaste robots.txt testen voordat je live gaat. Plaats bij [Url], de url die je wil testen en klik vervolgens op ‘live testen robots.txt’ of als de robots.txt nog niet live staat, plak je je aangepast robots.txt onderin.

Tip: Werk je in een grote organisatie of als consultant? Zorg ervoor dat je op de hoogte bent van robots.txt wijziginen. Stel daarvoor een SEO alert tool in.


Moet je een Robots.txt gebruiken?

Het is niet verplicht, maar het is wel een gemiste kans om hier geen gebruik van te maken. Je kunt veel SEO problemen voorkomen. Als je de robots.txt goed inricht, zorgt het voor betere zoekresultaten in de zoekmachine.

Bestemming kan niet worden gecrawld door Google ads?

Verschijnt deze melding in jouw Google ads campagne? Dan komt waarschijnlijk omdat Google ads jouw campagne niet kan controleren vanwege de beperkingen in je robots.txt file. Mogelijke oorzaak: Je blokkeert de Google ads bot in robots.txt

User-agent: AdsBot-Google
Dissalow: /

Oplossing:
Wat je het best kan doen is de Google ads bot toegang geven tot je gehele website.
Dit doe je door de volgende regel aan je robots.txt toe te voegen:

User-agent: AdsBot-Google
Allow: /

Nadat je dit aangepast hebt, dien je je campagne voor beoordeling in bij Google. Google zal je campagnes op korte termijn weer goedkeuren.

Goed om te weten: met een wildcard (*), zoals aangegeven hieronder, blokkeer je Google AdsBot niet.

User-agent: *
Disallow: /


Pagina geblokkeerd in robots.txt maar wel geindexeerd in Google. Hoe kan dit?

Mogelijke oorzaken kunnen zijn:

1. Je pagina al geïndexeerd was door Google en nu geblokkeerd wordt door robots.txt. Ik raad je aan de pagina uit je robots.txt te halen en afhankelijk van de situatie een no index tag of een canonical tag te gebruiken. Als variant hierop, kun je ook een no index tag in je robots.txt plaatsen. Het wordt niet aangeraden door Google, maar uit ervaring van ons en anderen lijkt dit wel te werken.
2. Je pagina links van andere websites ontvangt. Controleer dit met de gratis tool van semrush. kijk naar de ‘backlinks’ van de betreffende url die geïndexeerd is en benader de website om de links te wijzigen.
3. Robots.txt bestanden zijn slechts richtlijnen, het is mogelijk dat niet alle bots jouw robots.txt file tolereren.
4. Je hebt te maken met een uitzondering in de richtlijnen van een zoekmachine. Het kan voorkomen dat Google bijvoorbeeld iets wel accepteert en Bing niet.

Nu jij weer! Is het gelukt om de robots van google optimaal in te laten crawlen met je robots.txt? Laat het mij weten in de comments hieronder

Laat een reactie achter