说说Robots.txt限制收录与Google网站管理员工具

最近有朋友询问:用谷歌site你的站发现google没收录你的tag页,我的怎么?有还大部分是 ?倡萌认为,很多新手估计都不明其中的道理,加上自己想说说 倡萌的自留地 的现状,索性就写篇文章吧。

最近有朋友询问:用谷歌site你的站发现Google没收录你的tag页,我的怎么?有还大部分是 ?跟版模板网认为,很多新手估计都不明其中的道理,索性就写篇文章吧。

1.为什么Google没收录tag标签页

其实跟版模板网使用的是Robots.txt限制收录,关于Robots.txt,请看《Robots.txt 是什么/有什么用/怎么写》。你也可以直接查看跟版模板网的自留地 的Robots.txt:http://www.cmhello.com/robots.txt

2011-03-09_02236

注意

1.由于我自己对Robots.txt不熟悉,所以下面的规则很不规范,也不精简,甚至有错误,如果你看出了错误的地方,希望能指点一下跟版模板网,感激不尽。

2.每个人的链接样式都不一样,不要复制我的Robots.txt,否则后果自负

从我的robots.txt应该可以看出来,我禁止所有的搜索引擎收录tags、分类、评论、feed等多种页面类型,所以搜索引擎就会不收录这些页面,并且逐渐去除上面禁止类型的文章,如下图

2011-03-09_02237

很明显的是百度在3月8日的结果中已经基本把我所有的 tag和分类页 去除了,Google目前还没有完全去除(只是把tag和分类页收录结果放到了最后面的几页),细心的你可以site一下我的站就知道了。

2.该禁止收录哪些页面类型

要知道那些页面该禁止,推荐使用 Google网站管理员工具,这是一个非常好的工具,如果你还没有使用,那赶紧用吧。

注意:跟版模板网禁止搜索引擎收录tags和分类页,仅仅是SEO测试,请不要一味跟随,否则一切后果自负。

(1)WordPress 通常需要禁止收录的页面,请参考 万戈 老大的写法:http://wange.im/robots.txt

(2)你也可以按规则添加不希望收录的页面,这里还可以通过 Google网站管理员工具的【抓取错误】查看【找不到】和【无法访问】的页面:

2011-03-09_02238

3.如何让搜索引擎去除已收录文章

将上图那些【找不到】页面写进robots.txt,提示搜索引擎去除收录。接着,你还可以在【网站配置】>【抓取工具权限】>【删除网址】>添加上面【找不到】的网址,提交删除申请,这样google就会处理的。

2011-03-09_02239

注:由上图你还可以看到,可以【测试robots.txt】和【生成robots.txt】

小 结

通过robots.txt可以很方便禁止搜索引擎收录,也可以去除已收录文章,但是写robots.txt的时候一定要注意细节,要记得使用Google网站管理员工具检测robots.txt是否正确有效。今天就说到这里吧,不懂的可以留言,建议多google一下。

强烈推荐大家看看这个视频:站长的哪些操作会导致降权和被K

PS:如果本文有哪些地方说的不对,希望大家能及时指正;如果你知道更多关于 robots.txt 和 Google网站管理员工具 的技巧,欢迎投稿分享,谢谢。

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

robots.txt写法大全和robots.txt语法的作用 1如果允许所有搜索引擎访问网站的所有部分的话 我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可。 robots.txt写法如下: User-agent: * Disallow: 或者 User-agent: * Allow: / 2如果我
内容提要: SEO并不深奥,SEO最重要的是要有耐心、恒心。不少新手建站时都会遇到网站SEO问题,如何提高百度、Google等搜索引擎的收录和排名,是一件很头疼的事。本文将从域名、链接、标题、关键词、外链等多个方面谈谈网站SEO的方法,希望对建站新手有所帮助
1. Robots.txt是什么? 我们都知道txt后缀的文件是纯文本文档,robots是机器人的意思,所以顾名思义,robots.txt文件也就是给搜索引擎蜘蛛这个机器人看的纯文本文件。robots.txt是搜索引擎公认遵循的一个规范文档,它告诉Google
我们都知道有 搜索引擎算法 (获得网站网页资料,建立 数据库 并提供查询的系统),但是为何要做搜索引擎算法调整呢?其实不难理解,要做 用户体验 嘛!东西好了,用起来轻松、方便(不那么复杂)自然人就多!扯了点...下面跟版网就为大家说下谷歌、百度这些年来都
robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt