搜素引擎蜘蛛如何决定到哪里访问？

发布:yayan | 发布时间: 2011年6月29日

这依赖于robot蜘蛛机器人，每一个机器人使用自己不同的策略。通常他们从一些著名的URL链接开始，特别是一些拥有许多链接的地方，如服务器列表、“最新新闻信息”页面、和互联网上最流行的网站等。大多数索引服务还允许你手动提交url地址，这些地址将会加入到robot蜘蛛的索引列表进行排队和访问。

标签:

robots

添加新评论
阅读次数：

什么是Robots,网页爬虫,蜘蛛,蠕虫,网络蚂蚁？

发布:yayan | 发布时间: 2011年6月27日

Robots,网页爬虫,蜘蛛,蠕虫,网络蚂蚁都是指的同一个东西，但稍微有一些差异：Robots：比较通用的名字，可以参考《什么是互联网Robot机器人蜘蛛爬虫程序？》。蜘蛛：和robots一个意思，但是听起来更酷。蠕虫：蠕虫是和robots以也是一个意思，尽管从技术角度来讲网页爬虫是一个复制程序，而不是robot。网页爬虫：网页爬虫是和robot

标签:

robots

添加新评论
阅读次数：

什么是搜索引擎？

发布:yayan | 发布时间: 2011年6月27日

搜素引擎是指一个计算机程序，它可以通过元信息数据库进行搜索查找。在互联网web的背景下，词语“搜索引擎”特指那些经常使用用来从robot机器人蜘蛛爬虫程序收集的HTML网页文档库查找新的检索方式。

标签:

robots

添加新评论
阅读次数：

哪里用的到robot呢？

发布:yayan | 发布时间: 2011年6月27日

如果你的意思是指搜索服务，那就在遍历访问互联网上各个目录页面的时候，如Netscape的Exploring the Net或者试试像MetaSearch、百度等元信息搜索服务的时候，在技术架构上需要用到robot。

标签:

robots

添加新评论
阅读次数：

什么是agent代理程序？

发布:yayan | 发布时间: 2011年6月23日

词语“agent”（代理）在当今的计算机领域有很多含义，包括：

自治代理：是一种这样的程序，自治代理串行在网站之间，他们自己决定何时移动、做些什么。这类程序一般只串行在特殊的服务器之间，并且目前在互联网上的应用并不广泛。

智能代理：是这样的一种程序，他帮助用户完成一些事情，例如选择一个产品、或者引导用户填写表单、或者帮户用户查找东西等，这些程序通常在互联网做的事情比较有限。

User-agent（用户代理程序）是一个为用户执行网络任务的程序的技术名称，比如网络User-agents像Netscape、和IE浏览器，以及邮件email user-agent像Qualcomm Eudora等。

...

标签:

robots

添加新评论
阅读次数：

什么是互联网Robot机器人蜘蛛爬虫程序？

发布:yayan | 发布时间: 2011年6月23日

一个互联网机器人蜘蛛爬虫程序是一个计算机程序，它可以自动地检索一个文件串行在超文本标记之中，并且可以递归地检索所有涉及到的相关联的文档。需要注意的是这里的递归并不局限于某种特殊遍历算法的定义，即使这个爬虫采用了一些启发式的选择和索引文档查看、发请求持续很长时间，那也是一个爬虫。（Note that "recurs

标签:

robots

添加新评论
阅读次数：

怎么在共享主机上使用robots.txt文件？

发布:yayan | 发布时间: 2011年6月22日

如果你和其他人一起共享一个主机，如你有一个URL网址路径：http://www.****.com/~username/ 或者http://www.****.com/username，这样你就不能有自己的/robots.txt文件了。但如果你想使用/robots.txt，你必须要请求主机管理员帮助你。如果你想要更多的控制权限

标签:

robots

添加新评论
阅读次数：

怎么在虚拟主机上使用robots.txt文件？

发布:yayan | 发布时间: 2011年6月22日

要清楚怎么在虚拟主机上使用robots.txt文件，必须明白词组“虚拟主机”有时包含多种意思：一个“虚拟主机”web服务器使用HTTP Host Header来区分在相同IP地址上的不同域名名字的请求。在这种情况下，域名在一个共享的机器上对来访的robot爬虫程序来讲没有什么

标签:

robots

添加新评论
阅读次数：

我应该使用什么程序来创建robots.txt？

发布:yayan | 发布时间: 2011年6月22日

你可以使用可以创建文本文件的任何程序创建robots.txt？在微软操作系统下，可使用记事本程序、或者weodpad.exe（保存为Text文档），或者使用Microsoft Word（保存为纯文本模式）。在苹果操作系统下，使用TextEdit（格式化>创建Plain Tetx，然后存储为Westen）。在Linux下，使用vi或者emacs。

标签:

robots

添加新评论
阅读次数：

robots.txt列出敏感信息无疑是自找麻烦？

发布:yayan | 发布时间: 2011年6月22日

许多人关心在/robots.txt列出页面或者文件夹可能会带来意想不到的访问。以下雅言对此的一个原因的分析：第一种情况：你把所有不想让蜘蛛爬虫访问的文件放在一个特殊的子目录，然后在服务器配置不显示这个目录的文件，然后把这个目录列在/robots.txt的禁止访问列表中。这样怀有恶意的爬虫程序一旦发现有人在网络上放了一个带有

标签:

robots

添加新评论
阅读次数：

雅言

人生感悟

[置顶] 踌躇满志造句

[置顶] SEO入门:认识互联网robot

[置顶] “雅言博客”开言

搜素引擎蜘蛛如何决定到哪里访问？

什么是Robots,网页爬虫,蜘蛛,蠕虫,网络蚂蚁？

什么是搜索引擎？

哪里用的到robot呢？

什么是agent代理程序？

什么是互联网Robot机器人蜘蛛爬虫程序？

怎么在共享主机上使用robots.txt文件？

怎么在虚拟主机上使用robots.txt文件？

我应该使用什么程序来创建robots.txt？

robots.txt列出敏感信息无疑是自找麻烦？

搜索内容

最近发表

最新评论及回复

最近留言

站点统计

网站收藏

友情链接