Google stopt ondersteuning van noindex-richtlijnen in de robots.txt

Vanaf 1 september 2019 stopt Google met het verwerken van bepaalde regels in het robots.txt-bestand, waaronder de noindex instructie. Dat meldt de zoekgigant daags na het open-sourcen van de code die door de Googlebot gebruikt wordt om robots.txt te lezen en het voorstellen van een officiële standaard voor de regels in het protocol.

In dat voorstel is er geen plaats voor regels als crawl-delay, nofollow en noindex. “Deze instructies zijn nooit door Google gedocumenteerd en daarom is het gebruik ervan door de Googlebot erg laag. Bovendien blijkt dat het gebruik van die regels in nagenoeg alle robots.txt-bestanden op het internet worden tegengesproken door andere regels, wat een negatieve invloed heeft op de aanwezigheid van websites in de zoekresultaten. Dat kan niet de bedoeling zijn”, aldus Google.

Voor degenen die gebruik maken van de noindex-regel in hun robots.txt-bestand, geeft Google een aantal alternatieve opties:

  • Noindex in robots meta tags
    Zowel in de HTML als in de HTTP-reactieheaders van de desbetreffende pagina’s kun je een meta-tag met noindex regel opnemen om de webcrawlers er (meestal) van te weerhouden de pagina’s te indexeren.
  • 404 en 410 HTTP status codes
    Beide HTTP codes geven aan dat pagina’s niet bestaan, waardoor ze uit de index worden gehaald wanneer ze door Google gecrawld worden en verwerkt zijn.
  • Eis een wachtwoord
    Door je content achter een login-scherm te verstoppen, zorg je er meestal voor dat de content niet geïndexeerd wordt. Tenzij het bedoeld is voor content achter paywalls of voor abonnees.
  • Disallow in robots.txt
    Google indexeert alleen pagina’s die ze kunnen crawlen, dus door te voorkomen dat je pagina’s gecrawld worden kun je doorgaans ook voorkomen dat ze geïndexeerd worden. Dit is momenteel echter geen waterdichte oplossing, omdat URL’s ook ook geïndexeerd worden op basis van links van andere pagina’s. Google is echter wel van plan daar in de toekomst aan te werken.
  • URL’s verwijderen in Search Console
    In Search Console vind je de tool ‘URL’s verwijderen’, waar je pagina’s kunt tijdelijk kunt verbergen. Let op, dit is een tijdelijke oplossing. Voor het definitief verwijderen van URL’s gebruik je 1 van bovenstaande opties.

Bekijk dus goed of je de noindex-regel in je robots.txt-bestanden gebruikt. Zo ja, zorg er dan voor dat je het verandert voor 1 september 2019 om je content niet per ongeluk toch te laten indexeren.

The following two tabs change content below.
Avatar
Ik ben een online marketeer. Eentje met passie. Ik ben gek op social media, SEO en SEA. Kortom, het internet stroomt door mijn aderen. Stuur me een berichtje en ik help je graag vooruit.
Avatar

Laatste berichten van Daniël Kuipers (toon alles)

Laat een reactie achter

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *