咨詢電(diàn)話(huà):023-88959644    24小(xiǎo)時(shí)服務熱線:400-023-8809
NEWS CENTER ·
新聞動态
關注中技(jì)互聯 關注前沿

http返回碼的含義及其幫助意見-重慶網站(zhàn)建設

發表日期:2012-01-09    文章編輯:Mz丶Quan    浏覽次數(shù):13    标簽:

  百度爬蟲在進行(xíng)抓取和(hé)處理(lǐ)時(shí),是根據http協議規範來(lái)設置相應的邏輯的,所以請(qǐng)站(zhàn)長們也盡量參考http協議中關于返回碼的含義的定義來(lái)進行(xíng)設置。
  百度spider對常用的http返回碼的處理(lǐ)邏輯是這樣的:
  1、404
  404返回碼的含義是“NOT FOUND”,百度會(huì)認為(wèi)網頁已經失效,那(nà)麽通(tōng)常會(huì)從搜索結果中删除,并且短(duǎn)期內(nèi)spider再次發現這條url也不會(huì)抓取。
  2、503
  503返回碼的含義是“Service Unavailable”,百度會(huì)認為(wèi)該網頁臨時(shí)不可(kě)訪問,通(tōng)常網站(zhàn)臨時(shí)關閉,帶寬有(yǒu)限等會(huì)産生(shēng)這種情況。對于網頁返回503,百度spider不會(huì)把這條url直接删除,短(duǎn)期內(nèi)會(huì)再訪問。屆時(shí)如果網頁已恢複,則正常抓取;如果繼續返回503,短(duǎn)期內(nèi)還(hái)會(huì)反複訪問幾次。但(dàn)是如果網頁長期返回503,那(nà)麽這個(gè)url仍會(huì)被百度認為(wèi)是失效鏈接,從搜索結果中删除。
  3、403
  403返回碼的含義是“Forbidden”,百度會(huì)認為(wèi)網頁當前禁止訪問。對于這種情況,如果是新發現的url,百度spider暫不會(huì)抓取,短(duǎn)期內(nèi)會(huì)再次檢查;如果是百度已收錄url,當前也不會(huì)直接删除,短(duǎn)期內(nèi)同樣會(huì)再訪問。屆時(shí)如果網頁允許訪問,則正常抓取;如果仍不允許訪問,短(duǎn)期內(nèi)還(hái)會(huì)反複訪問幾次。但(dàn)是如果網頁長期返回403,百度也會(huì)認為(wèi)是失效鏈接,從搜索結果中删除。
  4、301
  301返回碼的含義是“Moved Permanently”,百度會(huì)認為(wèi)網頁當前跳(tiào)轉至新url。當遇到站(zhàn)點遷移,域名更換、站(zhàn)點改版的情況時(shí),推薦使用301返回碼,盡量減少(shǎo)改版帶來(lái)的流量損失。雖然百度spider現在對301跳(tiào)轉的響應周期較長,但(dàn)我們還(hái)是推薦大(dà)家(jiā)這麽做(zuò)。
  我們的建議
  1、如果站(zhàn)點臨時(shí)關閉,當網頁不能打開(kāi)時(shí),不要立即返回404,建議使用503狀态。503可(kě)以告知百度spider該頁面臨時(shí)不可(kě)訪問,請(qǐng)過段時(shí)間(jiān)再重試。
  2、如果百度spider對您的站(zhàn)點抓取壓力過大(dà),請(qǐng)盡量不要使用404,同樣建議返回503。這樣百度spider會(huì)過段時(shí)間(jiān)再來(lái)嘗試抓取這個(gè)鏈接,如果那(nà)個(gè)時(shí)間(jiān)站(zhàn)點空(kōng)閑,那(nà)它就會(huì)被成功抓取了。
  3、有(yǒu)一些(xiē)網站(zhàn)希望百度隻收錄部分內(nèi)容,例如審核後的內(nèi)容,累積一段時(shí)間(jiān)的新用戶頁等等。在這種情況,建議新發內(nèi)容暫時(shí)返回403,等審核或做(zuò)好處理(lǐ)之後,再返回正常狀态的返回碼。重慶網站(zhàn)建設
  4、站(zhàn)點遷移,或域名更換時(shí),請(qǐng)使用301返回碼。

如沒特殊注明(míng),文章均為(wèi)中技(jì)互聯原創,轉載請(qǐng)注明(míng)來(lái)自www.zjcoo.com
相關新聞

CopyrightZJCOO technology Co., LTD. All Rights Reserved.    

渝ICP 備11003429号

  • qq客服
  • 公衆号
  • 手機版
  • 新浪微博