我们经常听到有站长们提问,爬虫蜘蛛抓取是什么?最近百度蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办,还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但IP是不固定的,因此无法对外界公布等等疑问。我们经常在网站日志中看到各种爬虫抓取记录,最常见的就是百度蜘蛛谷歌机器人等搜索引擎的抓取记录。以百度为例,通常我们判断是否是百度蜘蛛的抓取,主要是通过看用户代理字符串,也就是User-Agent,但是User-Agent是可以模拟的,所以很多时候也会有虚假的蜘蛛,冒名顶替伪装成百度蜘蛛来抓取,这时候我们就需要学会分辨真伪。

下面教大家如何正确判断识别百度的蜘蛛:

检查user-agent,简称UA

查看UA,如果UA都不对,可以直接判断为非百度搜索的蜘蛛,目前百度对外界公布过的UA如下:

移动 UA:Mozilla/5.0 (Linux;u;Android 10;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

PC端 UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

新增渲染UA:

移动 UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

需要特别注意的是,百度新增了一个移动端的User-Agent,以及一个PC端的User-Agent。我们知道了百度蜘蛛的User-Agent,那么如何能够正确识别和判断某条抓取是否是真实的百度蜘蛛呢?

如何识别百度蜘蛛

1、首先,我们需要通过服务器log日志文档中的关键词查找User-Agent中是否包含Baiduspider。

2、如果想区分移动端和PC端的蜘蛛,我们还需要在结果中再进行关键词过滤,移动端的User-Agent包含:Android 、iPhone、Mobile等等移动端的标识。

3、通过上述操作后,我们是可以分辨出哪些抓取的ua是显示的百度蜘蛛,但是无法分辨蜘蛛的真伪。  

判断百度蜘蛛真伪

1、判断百度蜘蛛真伪,我们一般使用的是DNS反查IP的方式来进行,所以首先我们需要在服务器log日志文档中找到上述抓取记录中,显示的蜘蛛IP。
在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

2、在windows平台或者IBM OS/2平台下,您可以通过nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

3、在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 .baidu.com 或.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

4、Windows操作系统可以用Windows自带的命令行命令tracert来判断是否只真正的百度蜘蛛。输入tracert xxx.xxx.xxx.xxx(IP地址)。如果里面有crawl.baidu.com的内容,那么说明就是真正的百度蜘蛛。

5、还有一些网友开发好的简单工具,也可以用来判断。