这很可能是因为这些机器人蜘蛛爬虫程序,出自那些没有丰富的爬虫软件编写经验的程序员之手。
举个例子,当前一些大学计算机专业的老师会让他们的学生“编写一个网络爬虫程序”,作为学生的课下作业。这样,有一些学生很可能直接把网络爬虫程序直接定义为扫描你网站的所有信息,而根本没有考虑你设置的robots.txt文件。在国外大学,出自学生的好奇心和探索欲望,往往这些老外学生编写的程序会收集网站上的电子邮件来发送垃圾邮件、查找表单程序来提交链接(垃圾索引/Spamdexing)、或者查找可利用的网站漏洞。
如果不幸遇到这种精神病蜘蛛情况,请参考雅言之前整理的《怎么样阻止不友好的搜索引擎机器人蜘蛛爬虫?》这篇文章,里面讲到了对付不友好的搜索引擎蜘蛛的经验和方法。
原创文章如转载,请注明:转载自雅言 [ https://www.fantiz5.com/blog/ ]
需保留本文链接地址:https://www.fantiz5.com/blog/post/6.html
需保留本文链接地址:https://www.fantiz5.com/blog/post/6.html
发布:yayan | 分类:甲骨文苑 | 评论:0 | 引用:0 | 浏览:
| TrackBack引用地址
- 相关文章:
如何在搜索引擎获得最好的搜索排名? (2011-6-22 16:30:52)
如何阻止搜索引擎的蜘蛛爬虫扫描我的网站? (2011-6-22 15:32:29)
怎么样阻止不友好的搜索引擎机器人蜘蛛爬虫? (2011-6-22 14:36:10)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。