Duplicate content

duplicate content

Spreken we over duplicate content, dan hebben we het over content dat (sterk) overeenkomt met content elders op jouw of andere websites. Duplicate content voegt voor je gebruikers niet alleen niks toe, het zorgt ook voor interne concurrentie. Het gevolg: slechtere SEO performance. In deze blog leg ik uit wat duplicate content is, hoe je het kan detecteren en oplossen zodat je een optimaal seo resultaat bereikt.

Voorbeelden duplicate content

• Gekopieerde content van andere websites
• Content van jouw website dat gedistribueerd is via andere verkoopplatformen zoals bol.com of amazone
• Dezelfde title tags en meta descriptions op meerdere pagina’s gebruikt
• Verschillende urls die dezelfde content laten zien (vaak veroorzaakt door url parameters)

Later in deze blog ga ik dieper in op de verschillende vormen van duplicate content en geef ik hier een aantal oplossingen voor.

Duplicate content en de gevolgen voor SEO

• Interne concurrentie waardoor je positie binnen de zoekresultaten verslechtert
• Minder effectieve linkbuilding. Verschillende pagina’s over hetzelfde onderwerp ontvangen links die je het liefst aan een pagina zou toekennen zodat hij potentiel beter rankt
• Verlies van crawl budget. Google heeft maar beperkt de tijd voor jouw website en zal niet je hele website elke dag opnieuw uitlezen. Handig om dit budget (ook wel crawl budget genoemd) optimaal in te zetten voor de pagina’s die je aan Google wil laten zien.

Duplicate content kan je SEO prestaties dus enorm beïnvloeden. Heb je er last van? Keer de medaille om en zie het als een enorme kans om het bereik van je website te vergroten.

Duplicate content oplossen

Er zijn verschillende manieren om duplicate content op te sporen. De meest eenvoudige manier is om de SEO tool genaamd webcrawler hiervoor te gebruiken, daarnaast is het handig om je website te monitoren met een SEO alert tool. Verder adviseer ik om duidelijke afspraken te maken met je content- en webdev. team. Zorg dat zij begrijpen wat duplicate content is, wat de impact is en hoe je het kan voorkomen. Het is belangrijk dat jij ze verrijkt met de kennis en tools die ze nodig hebben om met 20% van jouw tijd, 80% resultaat te boeken.

Tijdens een audit of een SEO optimalisatie proces, kan je verschillende vormen van duplicate content tegenkomen. Hieronder zet ik uiteen welke duplicate content -vormen er bestaan, hoe je het kan detecteren en (het meest belangrijk) hoe je het oplost.

Duplicate home page

Het kan zijn dat er meerdere versies van je homepage geïndexeerd zijn in google, bijvoorbeeld: index.html, index.php en de directe url naar je homepage.

Te controleren door:
Maak gebruik van de search operators in Google. Opties zouden zijn:

site:naamvandewebsite.nl intitle:de title tag van je homepage

Voorbeeld: site: https://www.yellowbluemarketing.nl intitle: YellowBlueMarketing – Alles over SEO optimalisatie. Er vanuit gaand dat mijn title tags uniek zijn, zou je potentiel duplicate urls in Google kunnen ontdekken.

Alternatieven:

site:naamvandewebsite.nl inurl:html OR inurl:php OR inurl:asp

site:naamvandewebsite.nl filetype:html OR filetype:php OR filetype:asp

Zorg ervoor dat er maar één homepage in de index verschijnt. Je kan dit oplossen met het redirecten van bijvoorbeeld de .php pagina naar de gewenste homepage url van je website.

Dezelfde (product) content op meerdere websites

Heb je een webshop en exporteer je je content naar bijvoorbeeld bol.com of een affiliate netwerk? Zorg er dan voor dat de tekst uniek is. Anders ga je concurreren met je eigen marketingkanalen.

Te controleren met de volgende search operator:

-site:naamvandewebsite.nl “stukje tekst van de website”

Wanneer er meerdere website urls in Google verschijnen met dezelfde tekst, is er werk aan de winkel. Je kan dit oplossen door unieke content per product te schrijven en niet klakkeloos de tekst over te nemen van de leverancier. Zijn er veel pagina’s met duplicate content? Prioritiseer dan op basis van het verkeer wat je per pagina ontvangt.

Is je content ongevraagd gekopieerd door anderen? Vraag of ze de content willen verwijderen. Helpt dit niet? Stuur dan een verzoek in bij Google om de pagina te verwijderen uit de index.

Tip: Om scrapers voor te zijn, kan je op elke pagina een zelf verwijzende canonical tag plaatsen. Een scraper kan deze niet verwijderen. Daardoor gaat de autoriteit altijd naar jouw unieke pagina toe.

Faceted navigation

Faceted navigation, oftewel filters die in je productoverzicht aan te klikken zijn, zorgen voor enorm veel duplicate content. De filters in de url zijn namelijk ook zichtbaar voor zoekmachines.

Heb je een e-commerce website of de mogelijkheid om resultaten te filteren? Zorg er dan voor dat de filters in je url niet geïndexeerd worden door google.

Voorbeelden van filter parameters in je url:

?prijs=
?kleur=
?maat=

Je kan geïndexeerde filters controleren met een search operator. Heb jij bijvoorbeeld de volgende parameter in je url: ?prijs=, vul dan in google de volgende search operator in:

site:www.naamvandewebsite.nl inurl:prijs=

Wil je de zoekmachines voor zijn? Maak dan gebruik van een webcrawler. Crawl je website en bekijk of er parameters in de html documenten voorkomen.

duplicate urls

Oplossing: heb je last van parameters? Zorg er dan voor dat er een canonical tag staat van de parameter url naar de originele url. Zijn de juiste pagina’s geïndexeerd en wil je crawlbudget besparen? Blokkeer dan de parameters in Robots.txt.

UTM tags in je interne linkstructuur

Ik zie af en toe een utm tag op een interne link voorkomen. Niet doen! Wil je kliks meten op basis van interne links, maak dan gebruik van bijvoorbeeld event tracking via Google tag manager.

Je kan je interne links controleren op utm tags door een crawl te maken van je website en de interne links te filteren door middel van de volgende reguliere expressie:

(\?|\&)([^=\n]+)\=([^&\n]+)

Niet bekend met reguliere expressies? Volg dan deze minicursus.

Oplossing: de utm tags van je interne links verwijderen.

Consistent met url gebruik

Een url kan op meerdere manieren bereikt worden. Bijvoorbeeld:
• via http of via https
• met of zonder trailing slash op het einde
• Met en zonder www

Om te controleren of dit goed gaat, dien je twee dingen te doen: check of er verkeerde urls in de interne links staan en check of alle varianten naar een versie geredirect worden.

Je kan deze varianten detecteren door met een webcrawler een crawl te maken van de website en de interne links te filteren op:

Urls die HTTP gebruiken (terwijl het https moet zijn)

http:\/

Urls die eindigen met een trailing slash (terwijl het zonder hoort te zijn)

w{3}\.

Verder is het belangrijk dat één versie beschikbaar wordt. Stel je wilt de urls als volgt indexeren: https://www.jouwwebsite.nl/blog zorg er dan voor dat de niet www-versie redirect naar de www-versie, de url die eindigt met een trailing slash, redirect naar de ulr zonder trailing slash en de http-variant redirect naar de https-variant.

Terugkerende teksten

Je ziet het vaak gebeuren, algemene voorwaarden die op elke pagina worden geplaatst of boilerplates die keer op keer hetzelfde zijn (een boilerplate is een stuk tekst dat onderaan een categorie pagina met een kleine aanpassing hergebruikt wordt).

Je kan dit detecteren door een search operator te gebruiken. Kopieer de tekst van bijvoorbeeld de algemene voorwaarden die op elke pagina terugkomt en vul het volgende in Google in:

site:jouwwebsite.nl “de algemene voorwaarde die elke keer terugkeert”

Oplossing:
Algemene voorwaarden op elke pagina elimineren. Plaats bijvoorbeeld een link naar één pagina.
Boilerplates elimineren. Maak voor elke categorie pagina een unieke tekst.

Geindexeerde staggin of development site

Heb je een testomgeving waar je soms het een en ander in uitprobeert voordat je het live zet? Goed idee ;-)! Zorg alleen dat het niet geïndexeerd wordt door google!

Je kan dit detecteren door door de volgende search operator in Google te gebruiken:

inurl: https://stagin inurl:jouwwebsitenaam

Kom je staggin urls of urls van een development tegen in google? Plaats dan een no index robots meta tag op je development omgeving. Ulrs uit de index? Zorg er dan voor dat je staggin gedeelte alleen beschikbaar is via bijvoorbeeld een wachtwoord. Google kan er dan namelijk niet bij. Scheelt je ook weer crawlbudget. 

Duplicates in Title tag, meta description en Heading tags

Het is belangrijk dat je title tag, meta description en heading tags ook uniek zijn. Je kan dit controleren met een webcrawler. De meeste crawling tools hebben hier een aparte sectie voor. 

Duplicate title tag en meta description gepresenteerd in een webcrawler

Je lost dit op door voor elke pagina een unieke title tag, meta description en heading structuur op te zetten.

Let op: Dit hoeft niet bij een pagina waar een canonical tag naar een andere pagina staat.

Categorie pagina’s

Heb jij een wordpress website of een andere CMS waarbij het mogelijk is om categorieën en tags (ook wel taxonomie genoemd) aan een artikel of product toe te voegen? Dan is het belangrijk om te controleren of de categoriepagina’s unieke content bevatten. Elke categorie pagina dient namelijk uniek te zijn. Vaak worden producten of artikelen onder meerdere categorieën geschaard. Iets waardoor de categoriepagina’s steeds meer ‘duplicate content bevatten’.

Je kan dit detecteren door je categorie pagina’s te extraheren d.m.v. Xpath in een webcrawler.

Oplossing: Zorg dat de belangrijkste categorie geïndexeerd wordt d.m.v. een canonical tag.

Duplicates in Afbeeldingen

Het is belangrijk dat elke afbeelding maar een keer in je website staat en dat ook elke alt tag uniek is. Met de meeste webcrawlers kan je dit controleren in een aparte sectie. 

Lokalisatie

Heb je een website in meerdere talen, of dezelfde taal die beschikbaar is voor meerdere regio’s? Zorg er dan voor dat je een hreflang attribuut op elke pagina hebt geplaatst.

Je kan dit controleren door in de broncode op zoek te gaan naar: hreflang.

Nu jij weer! Is het gelukt met het reduceren van duplicate content? Welke prestatieverbetering zie je? Laat het weten in een reactie hieronder!

Laat een reactie achter