robots.txt搜索引擎协议灵活运用详解

2016-01-05 14:06 阅读 45 views 次 评论 0 条

搜索引擎用来爬取网页内容的工具我们称之为搜索引擎机器人。

搜索引擎机器人每次来到要抓取的网站,都会先访问这个网站根目录下的一个文件(robots.txt),如果不存在该文件,则搜索引擎机器人默认这个网站允许其全部抓取。

robots.txt是一个简单的纯文本文件(记事本文件),搜索引擎机器人通过robots.txt里的“说明”,理解该网站是否可以全部抓取或部分抓取。
robots.txt搜索引擎协议的写法

如果你希望搜索引擎收录你网站的全部网页,则你可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根目录。

上传你的robots.txt后,通过 你的域名/robots.txt 可以正常访问。 注意,robots.txt的命名,都应该是小写。

robots.txt文件的内容主要就是一个代码:Disallow:

注意,robots.txt文件中一般要包含至少一个Disallow:

如果都允许收录,你可以写一行Disallow:/search.html   这个文件(search.html)本来就不存在也没事。

格式如:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /*?*

Disallow: /tag/*

Disallow: /?order=

 

robots.txt搜索引擎协议说明

User-agent: *   星号说明,允许所有的搜索引擎来收录,包括百度、google、yahoo等。

Disallow: /wp-admin/  说明不允许收录/wp-admin/ 这个文件(网站后台)。

Disallow: /tag/* 说明不允许收录 /tag/*  tag里面的链接。

Disallow: /wp-content/plugins 说明不允许收录/wp-content/plugins里的所有文件。但可以收录如:/wp-content/seoxzw.com的链接。

 

Disallow: /*?*

Disallow: /?order=      这两个写法屏蔽全站url内带有 ? 和 ?order= 的连接

这里介绍的是常用的几个代码。

如果需要了解更多关于Disallow:的用法,请了解百度官方的介绍.

 

通过robots.txt来删除被收录的内容

1、当你的网页已被收录,但想用robots.txt删除掉,一般需要1-2个月。

2、结合Google网站管理员工具,你可以马上删除被Google收录的网页。

3、结合百度的站长平台,通过这里可以尽快删除被百度收录的页面

robots.txt搜索引擎协议相关问题:

1、我发现有一个网站被K了,但它加了我的网站链接,我可以把它屏蔽吗?
被K的网站加你网站的链接,对你网站是没有太大影响的。通过robots.txt也没有办法屏蔽外部链接。

2、我的首页是index.html,我可以把index.php屏蔽吗?

为了安全起见,请不要屏蔽,因为index.html 才是真实存在的首页。不屏蔽是一定没事,但屏蔽了,可能存在隐患。

3、我不喜欢我网站的后台登陆地址被搜索引擎收录,同时也不希望放在robots.txt里被其他人知道。我怎么来屏蔽呢?

这个确实是一个问题,我们想到一个解决办法是这样:

比如:你的网站后台是/wp-admin.php    那么你在robtos.txt里只要写上

Disallow: /wp-admi     这样的写法,就屏蔽了 /wp-admi  之后所有的url方式。

4、如果我只是具体某一个页面不希望被收录,怎么办?

在这个robtos.txt里直接屏蔽这个页面的URL就可以。

如:Disallow: /123/nourl.html

5、有什么注意的经验?

1)在robots.txt里屏蔽了首页文件。比如:index.html、index.php、Default.php,原因是,他的首页可能是index.asp,但通过以上这几个也能访问首页,于是,他就想屏蔽了他们。这样的做法是不对的。首页,尽量都不要屏蔽。

2)如果网站上存在一些比较大的文件、比如:打包文件、大图片文件、音乐文件、或电影文件、日志文件夹等等,可以屏蔽掉,因为这些文件可能让你的流量过大,占用过多宽带。

 

这里有一个

Disallow: /tupian/   因为网站很多图片放在tupian里,通过这个方式,就可以避免图片被收录,从而节省流量和带宽。

 

robots.txt文件中一定要包含一个Disallow:     这是规则!

那么当你所有的内容都允许被收录的时候,怎么办呢?

可以写一行类似:

Disallow:/search.html   或者:Disallow:/123.html

这个文件(search.html或123.html)本来就不存在也没事。

因为要求robots.txt文件中必须要有一个Disallow: ,所以你就造一个页面来屏蔽。

 

广州seo切身教训:我在最初给某网站做robots.txt文件时候,文件名写为Robots.txt……

结果是蜘蛛无视这个文件的存在,当时让我郁闷了好几天。。。。

再要注意的是:修改robots.txt后在48小时内生效,不过要禁止收录以前百度已收录的内容,从搜索结果中去除可能需要数月的时间。

SEOer在写robots.txt搜索引擎协议时请务必要细心细心再细心!

本文链接:http://www.seoxzw.com/rumen5.html
版权声明:本文著作权归广州网站优化原作者所有,欢迎分享本文,谢谢支持!
转载请注明:robots.txt搜索引擎协议灵活运用详解 | 广州seo首选狼道seo
分类:SEO基础入门 标签:

发表评论


表情