是否可以阻止不友好的搜索引擎机器人蜘蛛爬虫呢?答案是:理论上可以,但是在实际应用中就较为复杂。

    本文雅言就分享一下,怎么样来阻止不友好的搜索引擎机器人蜘蛛爬虫的国际上的经验和方法。

    如果不友好的爬虫robot遵守/robots.txt的定义,那么你只要在/robotst.txt中,单独针对该爬虫的名字,对其定义屏蔽其爬行的的规则即可。但是几乎所有的不友好的爬虫会直接忽视掉/robots.txt这个文件(为什么有些机器人蜘蛛爬虫会忽略网站的robots.txt文件?),这样你定义的爬虫规则就没有显得很苍白、对其无实质的意义。

    最后介绍一些对付不友好搜索引擎爬虫程序的的经验和方法:

   1、 如果不友好的搜索引擎网络爬虫蜘蛛机器人来自一个IP的话,那么你可以通过来阻止其访问。

    2、如果不友好的机器人蜘蛛爬虫来自大量不同的IP,比如类似Botnet的PC劫持,这样的话处理起来就变得麻烦了。最好的办法是采用高级防火墙,利用规则配置自动把不友好蜘蛛的来源IP自动加入黑名单,阻止其对服务器的访问;这样能有效地阻止来自不同IP的不友好蜘蛛,但是需要注意,这样也可能会阻止友好的蜘蛛(若来源IP一样)。

原创文章如转载,请注明:转载自雅言 [ https://www.fantiz5.com/blog/ ]
需保留本文链接地址:https://www.fantiz5.com/blog/post/3.html