咨詢電(diàn)話(huà):023-88959644    24小(xiǎo)時(shí)服務熱線:400-023-8809
NEWS CENTER ·
新聞動态
關注中技(jì)互聯 關注前沿

解析Web日志(zhì)蜘蛛訪問數(shù)據的行(xíng)為(wèi)

發表日期:2012-12-13    文章編輯:小(xiǎo)傑    浏覽次數(shù):30    标簽:

  網絡日志(zhì)的日志(zhì)文件分析後,我們能夠看到的用戶和(hé)搜索引擎蜘蛛訪問數(shù)據的行(xíng)為(wèi),讓我們來(lái)剖析健康的用戶和(hé)蜘蛛,網站(zhàn)的喜好和(hé)網站(zhàn)。我們的主要需求分析Web日志(zhì)分析中的蜘蛛行(xíng)為(wèi)。

        在蜘蛛爬行(xíng)的過程,其中包括,搜索引擎會(huì)給予特别重視(shì)網站(zhàn)分配适當的資源量。搜索引擎友(yǒu)好的網站(zhàn),應該是這些(xiē)資源的大(dà)量應用,蜘蛛能夠快速,準确,全面的抓取有(yǒu)價值的,用戶喜歡的內(nèi)容,浪費資源,而不是無用的,不正常的訪問內(nèi)容。

        網站(zhàn)日志(zhì)數(shù)據過載,所以重慶網站(zhàn)優化人(rén)員一般都通(tōng)過網站(zhàn)日志(zhì)分析工具的需求進行(xíng)查看。日志(zhì)分析工具:光年日志(zhì)分析工具,網絡日志(zhì)exploer。

        在解析日志(zhì),日志(zhì)文件在一個(gè)單一的一天,我們分析的需求:訪問,停留時(shí)間(jiān),爬行(xíng),抓取的目錄統計(jì)信息,抓取統計(jì)頁面蜘蛛訪問IP,HTTP狀态代碼蜘蛛活潑的時(shí)期,蜘蛛爬行(xíng)的方式;有(yǒu)關日志(zhì)文件的許多(duō)我們分析需求內(nèi)容:蜘蛛訪問的天數(shù)往往停留時(shí)間(jiān)的趨勢,整體(tǐ)編目往往目錄爬行(xíng)往往抓取期間(jiān),蜘蛛活潑的周期。

        讓我們來(lái)看看如何分析Web日志(zhì)?

        網站(zhàn)日志(zhì)數(shù)據的分析解讀:

        1,訪問次數(shù),停留時(shí)間(jiān),抓取

        我們可(kě)以知道(dào)這三個(gè)數(shù)據:統一我們每次抓取的頁面數(shù)單頁的抓取戰争的每一個(gè)停留時(shí)間(jiān)停留時(shí)間(jiān)。

        均勻每次我們抓取的頁面數(shù)=總抓取/訪問

        單頁的抓取住宿每次住宿/每次檢索

        均勻每次停留時(shí)間(jiān)=總停留時(shí)間(jiān)/訪問

        從這些(xiē)數(shù)據中,我們可(kě)以看到蜘蛛活潑的親和(hé)力水(shuǐ)平,抓取深度,總訪問次數(shù),停留時(shí)間(jiān),更高(gāo)的抓取,抓取頁面的統一制(zhì)服的停留時(shí)間(jiān),标記等網站(zhàn)更多(duō)的搜索引擎。單頁面抓取居住時(shí)間(jiān)标記的網站(zhàn)頁面的訪問速度,時(shí)間(jiān)越長,表示該網站(zhàn)的訪問速度,速度較慢,不太有(yǒu)利,包括搜索引擎抓取,我們應該進步的頁面加載速度和(hé)減少(shǎo)的停留時(shí)間(jiān),單一的常設,所以爬行(xíng)動物資源抓取索引。

        此外,根據這些(xiē)數(shù)據,我們也可(kě)以過一段時(shí)間(jiān)的統計(jì)數(shù)據,該網站(zhàn)的整體(tǐ)方法的性能,如:蜘蛛訪問往往停留時(shí)間(jiān)往往會(huì)抓取傾向。

        2,目錄檢索統計(jì)資料

        日志(zhì)分析後,我們能看到的網站(zhàn),用蜘蛛抓取的目錄的目錄深度的重要目錄的抓取,無效的頁目錄的抓取。後cf目錄的網頁并包括情況下,我們将能夠發現更多(duō)的問題。關于非常重要的目錄,需要通(tōng)過內(nèi)部和(hé)外部的調整,增加了重量,爬行(xíng),停止在robots.txt屏蔽無效頁。

        經過多(duō)天的日志(zhì)統計(jì)信息,我們就可(kě)以看到效果的站(zhàn)內(nèi)外行(xíng)為(wèi)帶來(lái)的目錄,優化合理(lǐ)的達到預期的效果。關于在長期的一段時(shí)間(jiān)看同一個(gè)目錄下,我們可(kě)以看到的目錄頁,推測基于行(xíng)為(wèi)表現的原因。

        3,網頁抓取

        Web日志(zhì)分析,我們可(kě)以看到詳細的蜘蛛爬行(xíng)的頁面。在這些(xiē)網頁上(shàng),重慶SEO專員可(kě)以分析出蜘蛛抓取的頁面,需要停止爬行(xíng),爬行(xíng)沒有(yǒu)包含在值的頁面,抓取重複頁面的url蜘蛛資源,豐富的應用程序,我們要求這些(xiē)地址制(zhì)止的在robots.txt爬行(xíng)。

        此外,我們也能剖析為(wèi)什麽不爬不包括頁面,但(dàn)不包括或爬行(xíng),但(dàn)沒有(yǒu)公布新的文章。關于閱讀頁面的一些(xiē)意義不大(dà),我們要求它爬行(xíng)通(tōng)道(dào),在這些(xiē)網頁上(shàng),我們是否可(kě)以做(zuò)NOINDEX标簽等。另一方面,将弱智的蜘蛛抓取的頁面你(nǐ)依靠這些(xiē)毫無意義的頻道(dào)頁面上(shàng)的蜘蛛不明(míng)白網站(zhàn)地圖的嗎?在這方面,笨鳥有(yǒu)疑問,尋求分享經驗]

        4,蜘蛛訪問IP

        它已經提出了蜘蛛的IP段判别網站(zhàn)降權的情況,前笨鳥認為(wèi)這是沒有(yǒu)意義的,因為(wèi)後者的智力也。降權更前三個(gè)數(shù)據應該受到歧視(shì)歧視(shì)的意義不大(dà),隻用一個(gè)IP段。 IP更多(duō)有(yǒu)用的分析,應區(qū)分是否存在收集蜘蛛,的假蜘蛛的惡意點擊蜘蛛。

        5,獲得(de)國家(jiā)代碼

        蜘蛛經常出現的狀态代碼,如301404,及時(shí)處置,防止産生(shēng)不良的影(yǐng)響在網站(zhàn)上(shàng)顯示這些(xiē)狀态碼。

        6,抓取時(shí)間(jiān)段

        爬行(xíng)蜘蛛小(xiǎo)時(shí)比照多(duō)個(gè)單日量進行(xíng)分析,我們可(kě)以了解一個(gè)特定的蜘蛛關于本網站(zhàn)熱鬧的特定時(shí)間(jiān)段。 CF每周數(shù)據,我們将在一個(gè)星期內(nèi),可(kě)以看到一個(gè)特定的蜘蛛的活躍周期。明(míng)白了這一點,有(yǒu)一定的指導意義,之前所謂的小(xiǎo)三,四,網站(zhàn)內(nèi)容的更新,都是不科學的争論。

        7,蜘蛛爬行(xíng)的方法

Web日志(zhì),我們能夠追蹤到具體(tǐ)的IP接入方式,如果我們追蹤的途徑,可(kě)以找到一個(gè)特定的蜘蛛訪問的網站(zhàn)偏好結構下的蜘蛛爬行(xíng)途徑。因此,我們可(kě)以适當的引導蜘蛛爬行(xíng)途徑,更重要的,有(yǒu)價值的,新的更新頁的蜘蛛爬行(xíng)。抓取方面,我們雙解析的喜好網址的邏輯結構,物理(lǐ)結構的途徑爬行(xíng)的喜好。在這些(xiē)之後,讓我們檢查從搜索引擎的角度來(lái)看自己的網站(zhàn)。

如沒特殊注明(míng),文章均為(wèi)中技(jì)互聯原創,轉載請(qǐng)注明(míng)來(lái)自www.zjcoo.com
上(shàng)一篇:視(shì)頻推廣方法詳細介紹 下一篇:已經是最後一篇了
相關新聞

CopyrightZJCOO technology Co., LTD. All Rights Reserved.    

渝ICP 備11003429号

  • qq客服
  • 公衆号
  • 手機版
  • 新浪微博