<code id="kji3l"></code>

  • <td id="kji3l"><option id="kji3l"></option></td>

    1. <acronym id="kji3l"></acronym>
    2. <output id="kji3l"><strong id="kji3l"></strong></output>
    3. <p id="kji3l"><strong id="kji3l"></strong></p>

      <p id="kji3l"></p>

      熱門搜索:

      你當前所在的位置:首頁  >  網站運營資訊  >  百度爬蟲的種類和規律

      百度爬蟲的種類和規律
      發布時間:2021-12-29      點擊次數:1655

      今天開始探討正式內容的第一講了,開始講百度蜘蛛。今天針對廣泛流傳的百度蜘蛛IP類型做一下探討。咱們知道,知識零散的點,經驗是點的連線。所以大家在學習的時候養成大局觀,比如說,我們現在在這個位置。


      探索方法

      通過對7個網站的爬蟲日志做追蹤,將百度蜘蛛分為收錄蜘蛛、首頁收錄蜘蛛、快照蜘蛛三大類。

      用控制變量法,通過現象看規律,通過規律看本質,通過本質講對策。

      通過線上實驗來一步一步做驗證推導過程。

      百度蜘蛛類型有哪幾種

      下圖是網上廣泛流傳的百度蜘蛛IP類型說明,其中123開頭的認為是降權蜘蛛,220開頭的一般認為是權重蜘蛛。

      到底有木有降權蜘蛛

      看了百度站長的平臺的回復(年代比較久遠),百度官方回復是“沒有”。

      http://bbs.zhanzhang.baidu.com/thread-6387-1-1.html


      我也認為蜘蛛沒有權重高低之分

      為什么分降權蜘蛛、權重蜘蛛之說?

      如果蜘蛛有權重高低之說,難道百度一開始就知道你的網站質量嗎

      百度蜘蛛分類的猜想

      百度爬蟲是干什么的,就是把你的網站頁面內容扒下來,然后把數據拆分為標題、摘要、頭圖、正文等結構化數據,放到百度的數據庫里面,提供給用戶搜索。

      但是網頁數量以百億計,每個頁面都有快照備份是不現實的。

      大膽猜想,百度蜘蛛應該有功能之分,并未高低權重之說。

      現象1:內頁爬取規律

      新上的某個網頁的爬取記錄,我們可以看到,通常都是123開頭的蜘蛛先行,然后220開頭的蜘蛛后行。


      然后隔1-2天,快照必會有更新。比如2019年7月27號220開頭蜘蛛訪問之后,7月28日快照就更新了。


      現象2 首頁爬取規律

      看下圖,首頁的百度爬蟲日志,19年6月26上線后,基本上也是123開頭的爬蟲先行,220爬蟲后行,隔天快照更新。


      現象3 頁面404后的百度爬取規律

      我認為實驗了2個404頁面,123開頭的爬蟲爬取后,一般是2次404之后,不再派爬蟲來爬了。


      現象4 劣質頁面爬取規律

      我也試驗了隨機段落混合而成的內容(比如下圖妹子不錯,但妹子上面的文字很爛),百度123開頭蜘蛛抓了一次就再也不抓了,5月11號上線,至今無快照。

      看來百度對隨機拼湊的內容還是有識別的。

      上一條:【seo優化】新網站關鍵字優化要怎么做呢
      下一條:單頁網站如何做優化
      您可能感興趣的文章