Web crawlers

web crawlersWeb crawlers zijn softwarematige robots die automatische het internet afzoeken naar content en links. A4-Nieuws gebruikt verschillende web crawlers gebaseerd op Nutch ter ondersteuning van sector specifieke zoekmachines.

Onze web crawlers bezoeken ook meerder keren per etmaal een groot aantal vaste websites. Als onderdeel van een serie zoekmachines speuren zij naar nieuwe content en links. Nieuwe content wordt geïndexeerd door zoekmachines (Lucene en Solr) en geklassificeerd en soms geclusterd door verschillende algoritmes (in Apache Mahout).

Als u in de statistieken van uw website iedere dag om precies dezelfde tijd een bezoeker van het domein A4-nieuws.nl waarneemt, dan is dit in de meeste gevallen een van onze web crawlers.

Web crawlers van A4-Nieuws

Alle web crawlers van A4 Nieuws respecteren de zg robots.txt files zoals beschreven in http://www.robotstxt.org/wc/exclusion.html#robotstxt en de robot META tags in de HTML van webpagina’s. Dit zijn de standaard methoden voor webmasters om crawlers te laten weten op welke delen van een website zij welkom zijn en welke delen eventueel niet.

Het kan zijn dat u het niet op prijs telt dat crawlers uw site bezoeken. Indien u de volgende regels opneemt in de robots.txt file van uw website zullen crawlers van A4-Nieuws uw site niet meer bezoeken:

User-agent: A4-Nieuws Crawler
Disallow: /

Als u geen toegang heeft tot de robots.txt file kunt u evengoed nog aangeven dat de crawlers uw site mogen indexeren of de links mogen volgen. Hiertoe kunt u de META tag aanpassen, zoals beschreven in http://www.robotstxt.org/meta.html.

Als u het niet op prijs stelt dat een van onze crawlers uw site indexeert dan kunt u dat ook doorgeven per mail aan: houston@a4-nieuws.nl.

Vergeet daarbij niet aan te geven om welk domein het gaat. Wij zullen dan de desbetreffende crawler zo snel mogelijk aanpassen.

Indien u het idee heeft dat een van onze web crawlers zich niet goed gedraagt dan horen wij ook graag van u.

web crawlers
De web crawlers van A4-Nieuws zijn gebaseerd op Apache Nutch

Geef een reactie