今天開始探討正式內容的第一講了,開始講百度蜘蛛。今天針對廣泛流傳的百度蜘蛛IP類型做一下探討。咱們知道,知識零散的點,經驗是點的連線。所以大家在學習的時候養成大局觀,比如說,我們現在在這個位置。
通過對7個網站的爬蟲日志做追蹤,將百度蜘蛛分為收錄蜘蛛、首頁收錄蜘蛛、快照蜘蛛三大類。
用控制變量法,通過現象看規律,通過規律看本質,通過本質講對策。
通過線上實驗來一步一步做驗證推導過程。
下圖是網上廣泛流傳的百度蜘蛛IP類型說明,其中123開頭的認為是降權蜘蛛,220開頭的一般認為是權重蜘蛛。
看了百度站長的平臺的回復(年代比較久遠),百度官方回復是“沒有”。
http://bbs.zhanzhang.baidu.com/thread-6387-1-1.html
為什么分降權蜘蛛、權重蜘蛛之說?
如果蜘蛛有權重高低之說,難道百度一開始就知道你的網站質量嗎
百度爬蟲是干什么的,就是把你的網站頁面內容扒下來,然后把數據拆分為標題、摘要、頭圖、正文等結構化數據,放到百度的數據庫里面,提供給用戶搜索。
但是網頁數量以百億計,每個頁面都有快照備份是不現實的。
大膽猜想,百度蜘蛛應該有功能之分,并未高低權重之說。
現象1:內頁爬取規律
新上的某個網頁的爬取記錄,我們可以看到,通常都是123開頭的蜘蛛先行,然后220開頭的蜘蛛后行。
然后隔1-2天,快照必會有更新。比如2019年7月27號220開頭蜘蛛訪問之后,7月28日快照就更新了。
現象2 首頁爬取規律
看下圖,首頁的百度爬蟲日志,19年6月26上線后,基本上也是123開頭的爬蟲先行,220爬蟲后行,隔天快照更新。
現象3 頁面404后的百度爬取規律
我認為實驗了2個404頁面,123開頭的爬蟲爬取后,一般是2次404之后,不再派爬蟲來爬了。
現象4 劣質頁面爬取規律
我也試驗了隨機段落混合而成的內容(比如下圖妹子不錯,但妹子上面的文字很爛),百度123開頭蜘蛛抓了一次就再也不抓了,5月11號上線,至今無快照。
看來百度對隨機拼湊的內容還是有識別的。
上一條:【seo優化】新網站關鍵字優化要怎么做呢
下一條:單頁網站如何做優化 |
![]() |