![]() |
||
|
Een typisch geval van klok en klepel dat ik hoorde was over het robots.txt bestand. Dit bestand boost je pagina niet binnen de zoekmachines. Het is er puur en alleen om te voorkomen dat de robots/spiders die je site scannen bepaalde pagina's indexeren.
Dan zou je bijna zeggen plaats geen robots.txt zodat alles ge-indexeert wordt. Wanneer je subdirectory hebt waarin je alle pagina's via een database on-the-fly aanmaakt kan dat bij Google een trigger activeren als het merkt dat het in een loop gevangen zit of simpelweg een timeout bereikt.Het zogenaamde CGI filter van Google treed dan in werking en deze meldt aan de robot/spider om te stoppen met indexeren. Het grote nadeel daaraan is dat de robot dan de rest van de site niet verder scanned. De reden om een robots.txt te plaatsen is om te voorkomen dat b.v. de jaarverslagen van het bedrijf via Google te vinden zijn. Naast dit argument wil je ook niet tegen het CGI filter aanlopen omdat je een script hebt dat de robot/spider laat loopen. |
Als je site een robots.txt bestand heeft is dat geen stimulans voor de robots/spiders om de site op te nemen in hun index. Zet je echter je robots.txt bestand verkeert op dan kan je wel de robots/spiders weren van je site... zie het voorbeeld:
User-agent:* Disallow: / Dit is een zeer onwenselijke situatie omdat het simpelweg de robot/spider niet toelaat in de root (en alle onderliggende dirs). Een basis robots.txt kan er zo uitzien: User-agent:* Disallow: /scripts Disallow: /img/vakantie Disallow: /img/mijn-vriendin Gerelateerd aan dit onderwerp is het sitemap bestand. Deze is zowel leesbaar of verborgen te plaatsen. In 2e geval moet je die wel aanmelden bij Google. |