百度蜘蛛访问网站目录403错误,处理方法

描述:

出现 HTTP 403 错误需要怎样解决呢

解答:

出现这种原因是由于相应目录下缺少[首页文件]引起的错误。[首页文件]的名称必须是index.html,index.htm或default.htm中的一个。检查一下您的首页文件命名是否正确,改正为index.html问题就成功解决了。


还有个比较搞怪的问题,我的首页文件的确设置成index.html的,但是我有几个网站目录却完全没有

index.html这个文件,因为里面的列表文件都是外部链接进去的。。百度蜘蛛访问网站目录一直就提示403错误,怎么办呢?


解决办法:

建立一个首页文件 index.html 

内容如下:

dir


不错,就是三个字母“dir”。

上传index.html到返回403错误的网站目录中去就可以了。

后记:百度蜘蛛真的比较笨,谷歌和雅虎都按照地图文件访问网站了,不会返回这种无聊的错误,百度蜘蛛比较霸道,进来就通杀。暴力啊,哥只是做个小站,伤不起

百度蜘蛛访问网站目录403错误,处理方法

描述:

出现 HTTP 403 错误需要怎样解决呢

解答:

出现这种原因是由于相应目录下缺少[首页文件]引起的错误。[首页文件]的名称必须是index.html,index.htm或default.htm中的一个。检查一下您的首页文件命名是否正确,改正为index.html问题就成功解决了。


还有个比较搞怪的问题,我的首页文件的确设置成index.html的,但是我有几个网站目录却完全没有

index.html这个文件,因为里面的列表文件都是外部链接进去的。。百度蜘蛛访问网站目录一直就提示403错误,怎么办呢?


解决办法:

建立一个首页文件 index.html 

内容如下:

dir


不错,就是三个字母“dir”。

上传index.html到返回403错误的网站目录中去就可以了。

后记:百度蜘蛛真的比较笨,谷歌和雅虎都按照地图文件访问网站了,不会返回这种无聊的错误,百度蜘蛛比较霸道,进来就通杀。暴力啊,哥只是做个小站,伤不起

百度蜘蛛的爬行规律

类似下面的日志格式,如下:

  03:28:34 GET /goods.php 202.108.7.205 200 34696 390

  第一 03:28:34 访问时间

  第二 GET /goods.php 访问的页面 get表示获取

  第三 202.108.7.205 访问网站的源IP

  第四 200 成功访问

  第五 34696 390 表示记录的内容大小

  都是这种格式的日志如何去分析了,一个一个看的头都大了。
经过长期观察发现,百度的蜘蛛的来源服务器IP地址都是属于一个域下面的通个网段。什么意思了,就是全部都是以202.108开头的IP,IP地址都是类似于202.108.X.X。这个网段的IP地址是位于北京网通电报大楼,属于全国互联网核心骨干机房,现在此IP段已经绝迹了。(基本上全被大网站使用了,如新浪、雅虎等)

虚拟空间首页需设置正确,否则百度蜘蛛会返回301错误

做了个新站,百度一直不收录,很奇怪!

看logs记录,百毒蜘蛛返回了很多301错误,仔细查资料才弄明白。原来空间默认首页设置成了index.php,实际首页是index.html

所以百度蜘蛛老是返回转向错误301提示。

刚才更改了,郁闷,怎么会犯这么低级的错误!

更改默认首页之后,再也不返回301错误了!