Hoe NIET in Google opgenomen worden?

Het laten opnemen van een web site in de zoekmachines is één ding. Er voor zorgen dat ze NIET worden opgenomen kan dankzij een korrekt gebruik van de robots.txt bestand.

Wat is een robots.txt en waarvoor dient het?

Het robots.txt bestand werkt op basis van het Robots Exclusion Protocol. Dat stelt webmasters in staat om aan te geven welke delen van een site niet mogen bekeken worden door de robot van een specifieke zoekmachine. Het bestand zelf is een doodgewoon tekstbestand (.txt) dat in de root directory van een site moet worden geplaatst.
Bijvoorbeeld www.netresult.be/robots.txt.Naast deze robots.txt waarmee u hele directories kan uitsluiten voor zoekmachinebezoek, kan u ook de robots meta tag gebruiken in elke aparte pagina.

Robots.txt syntax

Let op: de exacte naam is robots.txt en niet robot.txt!

User-agent: [naam spider]
Disallow: [naam bestand of directory]

Bijvoorbeeld Blokkeer alle spiders voor de directory ‘images’

User-agent: *
Disallow: /images/

Een groot probleem met deze txt-file is de correcte syntax.
Eén ‘hard return’ teveel in het bestand en de robotten houden geen rekening met de wensen van de webmaster. Gelukkig bestaan er online instrumenten om uw robots.txt te testen.

Robots.txt Validator of robots.txt syntax checker

Lijst van spiders en zoekrobots

Indien u bepaalde specifieke spiders wilt tegenhouden dan moet u de exacte naam gebruiken van de zoekrobot.
Overzicht van alle bekende spiders of zoekrobots.

Nuttige links en artikels

Maak online en gratis uw robots.txt aan!

Call 2 action

Reacties zijn momenteel gesloten.