Weg met de msnbot

Als ik de statistieken van deze website bekijk, dan is de tweede grootste user agent (meestal webbrowser) die gebruikt wordt, de msnbot. Dit is een robotje van de MSN zoekmachine dat systematisch alle websites afschuimt en elke gevonden link volgt. Dit genereert heel wat verkeer. Traffiek waarvoor ik moet betalen bij mijn hoster. Terwijl de MSN zoekmachine zo goed als niet gebruikt wordt (ik heb nog geen enkele bezoeker die via MSN Search hier terechtkwam), genereert deze wel het meeste traffiek van alle zoekmachines actief op deze pagina's. Bijna iedereen die hier terechtkwam via een zoekmachine, gebruikte google, op enkele uitzonderingen van skynetsearch ed na. Dit terwijl de googlebot slechts 1/3 van het verkeer van de mnsbot genereert.

Ik heb dan ook besloten de MSNbot niet langer op deze website toe te laten. Mijn website zal dan veel minder getoond worden in de zoekresultaten van MSN Search, maar er is toch geen kat die dat gebruikt. Er zal echter veel minder traffiek van deze website vereist worden.
Hoe heb ik dat gedaan? Heel eenvoudig. Elke zoekmachine gaat bij het indexeren van een website eerst het bestandje robots.txt opvragen, indien dit aanwezig is. Daar kan je voor elke robot appart richtlijnen meegeven hoe jouw website behandeld moet worden: welke bestandtypes (pdf bijvoorbeeld) of welke delen van de website niet geïndexeerd mogen worden, kan je daarin vermelden. Ik heb dus ook dergelijk bestandje aangemaakt en hier geplaatst. Het enige wat erin te vinden is, is hetvolgende:
User-agent: msnbot
Disallow: /
Alles wordt dus verboden voor de msnbot. Meer informatie over de werking en mogelijkheden van robots.txt kan je vinden op www.robotstxt.org.


9 reacties
Peter, Peter, Peter. We weten toch allemaal dat een internet-product van Microsoft in het begin nooit een succes is. Maar een keer het aan 90% van de computergebruikers wordt opgedrongen ..
Je hebt gelijk, dat voorvoegsel "internet-" is zelfs overbodig ;-)
Maar in deze denk ik dat het moeilijk genoeg is om hun searchrommel op te dringen met de huidige dominante positie van Google. Een positie die alsmaar versterkt wordt door toepassingen zoals blogger en gmail. Als MSN al dominant zou worden, dan zal dat toch nog wel een redelijke tijd duren. Tegen dan zal ik die robots.txt er misschien wel afhalen.
Populair of niet, je kan je afvragen of je wel geïnteresseerd bent in de trafiek die van MSN Search komt.
Traffiek: bedoel je die van het botje, of die van personen die zoeken op MSN search? Als je dat laatste bedoelt, dan moet ik je teleurstellen. Deze blog bestaat nu ongeveer 7-8 maanden en ik heb nog geen enkele bezoeker gehad via MSN Search. Die ene bezoeker per jaar die mogelijks via MSN Search bij mij terecht zou komen, ah, to hell with them! ;-) Eigenlijk heb ik ook nog nooit een bezoeker gehad via Yahoo!, maar soit, dat lijkt mij nog wel een braaf botje, dus die laat ik nog wel staan.
En ja, wie zou MSN Search gebruiken? Misschien Internet Explorer gebruikers die gewoon een paar zoektermen in hun adresbalk ingeven. Maar blijkbaar ligt dat aantal ook nogal laag en surfen de mensen eerder naar een echte zoekmachine. En wie dan naar MSN Search surft, tja, da zal wel een die-hard MS fan zijn zeker? En die zullen hier niet al te veel informatie vinden. De meeste search hits komen van zoektermen à la "IPW2200 Linux" ed. Tegenwoordig wel meer en meer UGent-related searches, maar ja, allemaal via google. Zou ik echt zoveel bezoekers missen via MSN? En wat is een dergelijke hit waard? Veel bezoekers is wel fijn, maar kom, voor die ene ;-)
Je kan ook de meta revisit-after in html of crawl-delay in robots.txt gebruiken...
User-Agent: msnbot
Crawl-Delay: 20
Op deze manier zal msnbot maar 1 pagina (max) om de 20 seconden opvragen.
't Is niet omdat msnbot aggressief is dat je dat ook moet doen. En heeft msn geen index/directory die kan gebruikt worden door andere bots? 't Is niet altijd dat de bezoekers rechtstreeks via msn search gaan komen!
Aha, da's ook nog een interessant idee. Ik ga dat s instellen op 3600, dan komt em een keer per uur langs. Zoveel updates gebeuren er hier nu ook weer niet hé ;-)
En die directory: machines zoals skynet ed gebruiken google, heb ik al gemerkt in de referrers. Ik heb echt nog geen MSN searcher op deze pagina's gehad. Of 't zou moeten zijn dat dat totaal niet te achterhalen is bij die searchtools. Mijn referers zien er vrij normaal uit (lees: geen zoekmachines), en referring searches zijn google.
Bij deze dus aangepast, bedankt!
De Microsoft muizen zijn wel goed... Heb er nu al een paar jaar zo een, met een redelijk hoge val-van-bureau, val-van-tafel enz. ratio, en toch werkt ze nog perfect. Er is wel een knopje dat niet meer klik doet als je het indrukt, maar wel nog werkt.
En er zijn nog goede microsoft producten... er is gewoon nog verbetering mogelijk bij het merendeel (mocht MS Office nu eens open standaarden kunnen openen, (en gratis zijn (voor studenten is voldoende :-) )))
Hun muizen zijn inderdaad heel degelijk. Die maken ze dan ook niet zelf ;-) (ja, ik heb er ook zo een)
Het gratis zijn voor studenten van MS Office vind ik onzinnig: je moet er daarna toch voor betalen. Bekijk het geheel op langere termijn en kies in dat opzicht iets degelijkers/beters. Men mag het argument dat studentenlicenties gratis/goedkoop zijn dan ook niet gebruiken om het gebruik van dergelijke pakketten in de opleiding goed te praten.
En die open standaarden: eens ze dat doen, zijn ze ten dode opgeschreven. Iedereen gebruikt nu MS Office omdat iedereen dat gebruikt en je met die iedereen moet kunnen bestanden uitwisselen. Eens die noodzaak wegvalt, stuikt hun marktaandeel ineen. Langs de andere kant moeten ze nu ook open standaarden gaan gebruiken, omdat bepaalde overheden zichzelf de verplichting opgelegd hebben om enkel in open standaarden te communiceren en hun eigen documenten enkel in open standaarden op te slaan (zoals bijvoorbeeld de Brusselse balie die niet wil dat hun documenten na verloop van jaren onleesbaar worden en tal van andere overheden en overheidsdiensten). MS heeft dan ook aangekondigd om in de toekomstige versie van Office standaard het OASIS Open Document Format te gaan gebruiken, een goedgekeurde open standaard die ook door OpenOffice.org 2 gebruikt wordt. (voor OOo 1 bestaat er een filter) Ik vraag mij af hoe ver ze hierin zullen gaan en wat voor "extra's" ze hieraan zullen toevoegen, het HTML verhaal indachtig.
En die directory: machines zoals skynet ed gebruiken google, heb ik al gemerkt in de referrers. Ik heb echt nog geen MSN searcher op deze pagina's gehad. Of 't mcp zou moeten zijn dat dat totaal niet te achterhalen is bij die searchtools. Mijn referers zien er vrij normaal uit (lees: geen zoekmachines), en referring searches zijn google.
Plaats een nieuwe reactie