存档

文章标签 ‘robots.txt’

Robots.TXT 几个比较容易混淆的地方

2009年11月27日 4 条评论

最近没事上seowhy论坛看了下,看到一个会员提问说robots.txt禁止百度收录网站应该怎么写。

user-agent:*

disallow:

这样看好像没问题,其实这样的意思是允许访问所有,只有加了 “/”才可以禁止访问所有。

假设你要禁止百度访问,那么应该这样写

User-agent:baiduspider
Disallow:/

或者是

User-agent:baiduspider
Allow:

温馨提醒:如果是伪静态或者纯静态的网站,建议加上

Disallow: /?*

因为http://www.baidu.com/?sfsdfdsfsdfg  这类网页百度也是会抓取而且可能会影响权重的,因为带?号的url如果页面不存在,返回的是首页的内容。

分类: 秦剑SEO笔记 标签:

小议百度/?路径的问题

2009年8月10日 3 条评论

    最近一个朋友问我降权的事情,初步分析了一下后得出一个结论,/?XXX的路径处理的不好会导致网站有很多的重复页面从而导致降权。

    关于问题的由来:首先网址后面/(+)?(+)xxxx的路径如果没有实质页面存在,那么回导致返回首页,而其title什么都跟首页一摸一样,这样就导致搜索引擎以为你的网站有很多重复内容,从而导致降权。如果你的网站删掉了之前存在“?”号路径的页面,而其百度又收录了的话,虽然页面你删除了,但是百度的数据库存在这样的索引,可能刚开始的时候百度会从site中去除了该页面,或者直接下次更新的时候,你的带“?”的路径页面删除之后百度很大概率会收录并导致降权,google处理的很好没什么影响。

    解决方式,只要加一个robots.txt限制收录即可

   写法:Disallow:/?

   即可……

分类: 其他文章 标签: ,

6、合理使用robots.txt减少重复内容 — 第四章 网站内容建设

2009年3月18日 2 条评论

WordPress写完一篇文章之后会有不少重复内容,比如发布了一篇文章之后,没有使用》ßmore–>标签,那么极有可能造成首页、文章页、tags页(正好tags相关文章只有这篇文章)、文章存档页(正好那个月只有那篇文章)三个页面高度重复,这对于seo是不理的,这里我简单介绍以下如何用robots.txt解决这个问题。在网站根目录新建robots.txt文件,然后在文件里输入下面的代码:

User-agent: *

Disallow: /wp-admin/

Disallow: /archives/date/

Disallow: /archives/tag/

robots.txt的生成以及优化小谈

2008年10月7日 7 条评论

robots.txt这个文件很重要,可以控制搜索引擎对你的站点的收录。
下面讲一下一些简单的优化:
大家看我的博客的sitemap

User-agent:*
Disallow:/wp-admin/
Sitemap:http://www.pcliver.cn/sitemap.xml

user-agent:*  这里robots.txt文件的设置为*代表允许所有的搜索引擎的蜘蛛爬站
disallow: 这里的robots.txt设置为禁止收录的目录
sitemap: 这里的robots.txt设置了之后可以引导搜索引擎蜘蛛爬站

有时候会有一些小错误,我们只需要用google站长管理就可以检查了:
https://www.google.com/webmasters/ 这里登陆,然后点击-工具-分析robots.txt
还可以利用生成robots.txt文件生成robots.txt文件

分类: 秦剑SEO笔记 标签: ,