Browsed by
Tag: Robots.txt

什么是robots.txt?

什么是robots.txt?

  robots.txt是一个最简单的.txt文件,用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
  语法:最简单的 robots.txt 文件使用两条规则:
  • User-Agent: 适用下列规则的漫游器
  • Disallow: 要拦截的网页

Robots.txt文件的使用和正确写法

Robots.txt文件的使用和正确写法

大部分seoer对于Robots.txt文件,应该并不陌生。因为在有些情况下,我们并不想让网站的全部内容都让搜索引擎收录。

比如说一些网站后台管理目录、会员隐私信息、没有价值的网页、图片等,我们都不打算让搜索引擎的蜘蛛爬取。

在这种情况下,我们就有必要会用到Robots.txt文件,来与搜索引擎沟通。

具体的方式是通过在网站根目录创建名为:Robots.txt的文件,你就可以阻止蜘蛛来索引网站的某些内容,如动态的搜索结构页面

404页面、图片目录、登陆页面等。

所有的搜索引擎蜘蛛自动在网站根目录中寻找这个文件,因此,你需要做的只是创建它并上传,然后等待蜘蛛来阅读。

Robots.txt文件没有以任何方式来保护你的内容,只是阻止搜索引擎索引。

下面,主要说明下Robots.txt文件的写法。

1.如果你站点中的所有文件,都可以让蜘蛛爬取、收录的话,那么语法这样写:

User-agent: *
Disallow:

当然,如果你想网站中全部的文件都可以让搜索引擎索引的话,你也可以不用写这个文件。

2.完全禁止搜索引擎来访的Robots.txt文件写法:

User-agent: *
Disallow: /

2.1.要禁止掉某个搜索引擎来访的Robots.txt文件写法:

User-agent: Googlebot
Disallow: /

3.网站中某个文件夹不希望让搜索引擎收录的Robots.txt文件写法:

User-agent: *
Disallow: /admin/
Disallow: /images/

4.禁止Google抓取网站中的图片文件:

User-agent: Googlebot
Disallow: /*.gif$

Robots.txt文件,是网站与搜索引擎沟通的比较重要的一个方式。