Robots meta tag

Robots meta tag

De Robots Meta tag, is een manier om de zoekmachines aan te geven of je een pagina wel of niet wil indexeren en hoe je dat wilt doen. Een Robots Meta tag wordt vaak gebruikt om dubbele content te voorkomen of website gedeeltes die in ontwikkeling zijn nog niet te laten indexeren. Dit laatste is tevens ook een veel voorkomende fout wanneer webdevelopers een website of een gedeelte ervan opleveren. Er word dan vergeten de robots meta tag te verwijderen waardoor de site of het gedeelte ervan alsnog vindbaar is via een zoekmachine. 


De elementen van een Robots Meta tag

Een zoekmachine zoals Google er standaard vanuit dat ze jouw content mogen crawlen, indexeren en archiveren. Met verschillende elementen van een Robots Meta tag, kun je dit beperken. De volgende elementen kun je in je Robots Meta tag opnemen:

Noindex: De zoekmachine mag de pagina niet indexeren in zijn zoekresultaten
Nofollow: De zoekmachine mag de links op deze pagina niet volgen
Follow: De zoekmachine mag de links op deze pagina volgen, dit om de link autoriteit te delen met de gelinkte pagina’s
None:  Voegt de elementen noindex en nofollow samen
Noarchive: Er mogen geen pagina’s gecached worden in de zoekresultaten van de zoekmachine
Nosnippet: Er mogen geen fragmenten in de zoekresultaten weergeven worden voor deze pagina
Notranslate: De zoekmachine mag geen vertaalde versie van de pagina weergeven in de zoekresultaten
Noimageindex: De zoekmachine mag de afbeeldingen van de pagina niet indexeren.
Unavailable_after [RFC-850 date/time] : De pagina mag v.a. datum x niet meer geïndexeerd worden in de zoekmachine

 

Aandachtspunten Robots meta tag

• Plaats de Robots Meta tag altijd in het <head> gedeelte van je website;
• Je kunt de Robots Meta tag met verschillende elementen combineren. Bijvoorbeeld:

<meta name=”robots” content=”noindex, nofollow”>

Vergeet bij het combineren van de elementen geen komma te gebruiken. Anders zal onder andere Google je Meta tag negeren;
• Als je een pagina voor een specifieke zoekmachine wil uitsluiten, gebruik je in plaats van ‘Robots’ , de naam van de specifieke robot. Als voorbeeld:

<meta name= “googlebot” content =”noindex, nofollow”>

• Het maakt niet uit of je de elementen in hoofdletters of kleine letters schrijft.
• Als je een pagina blokkeert in de robots.txt, heeft het geen zin om een no index te plaatsen op een pagina. Doordat je de zoekmachine blokkeert om je website te laten crawlen (uitlezen van je website door robots), kan hij ook geen wijzigingen, zoals een no index tag, uitlezen en doorvoeren.
• Door het gebruik te maken van een Robot-Meta tag, blijft Google je website gewoon crawlen.

 

Alternatieve voor de Robots Meta tag

 

X-robots-tag HTTP header

Met de X-robots-tag in de Http header, kun je in plaats van op pagina level, de hele website in een keer bereiken. Tevens is de X-robots tag uitermate handig om specifieke (niet html) onderdelen van een website uit te sluiten (zoals pdf’s of afbeeldingen) en kun je gebruik maken van reguliere expressies zoals in het voorbeeld hieronder:

<FilesMatch “.(doc|pdf)$”>
Header set X-Robots-Tag “noindex, noarchive, nosnippet”
</FilesMatch>

 

Robots.txt

De robots.txt beperkt de toegang van de zoekmachines op je website en zorgt niet voor het verwijderen van een pagina uit de index.

Nu jij weer! Loop je nog ergens tegen aan? Krijg je de juiste pagina’s uit de index van Google? Laat het mij weten in de comments hieronder.

Laat een reactie achter