Robots meta tag

Robots meta tag

In deze blog leg ik je uit wat een een “no-index” tag is, hoe je hem het best kan implementeren en welke alternatieve er voor de robots meta tag bestaan.Er achter komen waarom de no index tag een belangrijk instrument is voor jouw SEO strategie? Lees dan gauw verder.

Wat is noindex?

De Robots Meta tag, ook wel de no index tag genoemd, is een manier om de zoekmachines aan te geven of je een pagina wel of niet wil indexeren en hoe je dat wilt doen. Een Robots Meta tag wordt vaak gebruikt om dubbele content te voorkomen of website gedeeltes die in ontwikkeling zijn nog niet te laten indexeren. Dit laatste is tevens ook een veel voorkomende fout wanneer webdevelopers een website of een gedeelte ervan opleveren. Er word dan vergeten de robots meta tag te verwijderen waardoor de site of het gedeelte ervan alsnog vindbaar is via een zoekmachine. 

Voorbeeld noindex tag

In de afbeelding hieronder, zie je een voorbeeld van een noindex tag. Je kan hem zelf ook bekijken door de broncode van je pagina te openen (mits geïmplementeerd).

voorbeeld noindex tag
Voorbeeld noindex tag

Robots Meta tags

Een zoekmachine zoals Google gaat er standaard vanuit dat ze jouw content mogen crawlen en indexeren. Met verschillende elementen van een Robots Meta tag, kun je dit beperken. De volgende elementen kun je in je Robots Meta tag opnemen:

Noindex: De zoekmachine mag de pagina niet indexeren in zijn zoekresultaten
Nofollow: De zoekmachine mag de links op deze pagina niet volgen
Follow: De zoekmachine mag de links op deze pagina volgen, dit om de link autoriteit te delen met de gelinkte pagina’s.
None:  Voegt de elementen noindex en nofollow samen
Noarchive: Er mogen geen pagina’s gecached worden in de zoekresultaten van de zoekmachine
Nosnippet: Er mogen geen fragmenten in de zoekresultaten weergeven worden voor deze pagina
Notranslate: De zoekmachine mag geen vertaalde versie van de pagina weergeven in de zoekresultaten
Noimageindex: De zoekmachine mag de afbeeldingen van de pagina niet indexeren.
Unavailable_after [RFC-850 date/time] : De pagina mag v.a. datum x niet meer geïndexeerd worden in de zoekmachine

Robots meta tag controleren

robots meta no index controleren in screamingfrog
no index pagina’s controleren in Screamingfrog

Recent een no index tag geplaatst of ga je een SEO audit doen? Controleer dan de pagina’s die niet geïndexeerd kunnen worden door een robots meta tag. Controleer je robots meta tag op de volgende punten:

  • Plaats de Robots Meta tag altijd in het <head> gedeelte van je website;
  • Je kunt de Robots Meta tag met verschillende elementen combineren. Bijvoorbeeld:

<meta name=”robots” content=”noindex, nofollow”>

Vergeet bij het combineren van de elementen geen komma te gebruiken. Anders zal onder andere Google je Meta tag negeren;

  • Als je een pagina voor een specifieke zoekmachine wil uitsluiten, gebruik je in plaats van ‘Robots’ , de naam van de specifieke robot. Als voorbeeld:

<meta name= “googlebot” content =”noindex, nofollow”>

  • Het maakt niet uit of je de elementen in hoofdletters of kleine letters schrijft.
  • Als je een pagina blokkeert in de robots.txt, heeft het geen zin om een no index te plaatsen op een pagina. Doordat je de zoekmachine blokkeert om je website te laten crawlen (uitlezen van je website door robots), kan hij ook geen wijzigingen, zoals een no index tag, uitlezen en doorvoeren.
  • Door het gebruik te maken van een Robot-Meta tag, blijft Google je website gewoon crawlen.
  • Gebruik je een no-index in je robots meta tag? Dan zal na verloop van tijd Google de links op de pagina die je uit de index wil halen, ook niet meer volgen ( in vakjargon: het wordt een no-follow link).

Alternatieve voor de Robots Meta tag

X-robots-tag HTTP header

<FilesMatch “.(doc|pdf)$”>
Header set X-Robots-Tag “noindex, noarchive, nosnippet”
</FilesMatch>

In sommige gevallen is het handiger om een X-robots-tag in te stellen. Met deze tag in je Http header, kun je in plaats van op pagina level, de hele website in een keer bereiken. Daarnaast is de X-robots tag uitermate handig om specifieke (niet html) onderdelen van een website uit te sluiten (zoals pdf’s of afbeeldingen).

Tip: Maak gebruik van reguliere expressies in je HTTP header.

Robots.txt

D.m.v. de robots.txt, vertel je Google: Deze pagina mag je niet meer uitlezen.
Dit betekend ook dat een no index tag niet meer gezien zal worden. Staan jouw pagina’s dus al in de index van Google, sluit ze dan niet uit in je robots.txt, maar laat Google eerst de no index tag uitlezen. Pagina’s uit de index? Dan kan je ze eventueel uitsluiten in je robots.txt. Let op: Met je robots.txt verwijder je dus geen pagina’s uit de index.

Nu jij weer! Loop je nog ergens tegen aan? Krijg je de juiste pagina’s uit de index van Google? Laat het mij weten in de comments hieronder.

Laat een reactie achter