Voor vragen of klachten over webcrawlers van A4-Nieuws.nl:

mail: houston@a4-nieuws.nl
telefoon: 070-7370076

Web crawlers

web crawlersWeb crawlers zijn softwarematige robots die automatische het internet afzoeken naar content en links. A4-Nieuws gebruikt verschillende web crawlers gebaseerd op Nutch ter ondersteuning van sector specifieke zoekmachines.

Onze web crawlers bezoeken ook meerder keren per etmaal een groot aantal vaste websites. Als onderdeel van een serie zoekmachines speuren zij naar nieuwe content en links. Nieuwe content wordt geindexeerd door onze zoekmachines (Lucene en Solr) en geklassificeerd en soms geklusterd door verschillende algoritmes (in Apache Mahout).

Als u in de statistieken van uw website iedere dag om ongeveer dezelfde tijd een bezoeker van A4-nieuws.nl waarneemt, dan is dit in de meeste gevallen een van onze web crawlers.

Alle web crawlers van A4 Nieuws respecteren de zg robots.txt files zoals beschreven in http://www.robotstxt.org/wc/exclusion.html#robotstxt en de robot META tags in de HTML van webpagina’s. Dit zijn de standaard methoden voor webmasters om web crawlers te laten weten op welke delen van een website zij welkom zijn en welke delen eventueel niet.

Het kan zijn dat u het niet op prijs telt dat web crawlers uw site bezoeken. Indien u de volgende regels opneemt in de robots.txt file van uw website zullen web crawlers van A4-Nieuws uw site niet meer bezoeken:

User-agent: A4-Nieuws Crawler
Disallow: /

Als u geen toegang heeft tot de robots.txt file kunt u evengoed nog aangeven dat de web crawlers uw site mogen indexeren of de links mogen volgen. Hiertoe kunt u de META tag aanpassen, zoals beschreven in http://www.robotstxt.org/meta.html.

Als u het niet op prijs stelt dat een van onze web crawlers uw site indexeert dan kunt u dat ook doorgeven per mail aan: houston@a4-nieuws.nl.

Vergeet daarbij niet aan te geven om welk domein het gaat. Wij zullen dan de desbetreffende web crawler zo snel mogelijk aanpassen.

Indien u het idee heeft dat een van onze web crawlers zich niet goed gedraagt dan horen wij ook graag van u.

web crawlers

Alle web crawlers van A4-Nieuws zijn gebaseerd op Apache Nutch