解析Web日志(zhì)蜘蛛訪問數(shù)據的行(xíng)為(wèi)

發表日期：2012-12-13 文章編輯：小(xiǎo)傑浏覽次數(shù)：30 标簽：

　　網絡日志(zhì)的日志(zhì)文件分析後，我們能夠看到的用戶和(hé)搜索引擎蜘蛛訪問數(shù)據的行(xíng)為(wèi)，讓我們來(lái)剖析健康的用戶和(hé)蜘蛛，網站(zhàn)的喜好和(hé)網站(zhàn)。我們的主要需求分析Web日志(zhì)分析中的蜘蛛行(xíng)為(wèi)。

        在蜘蛛爬行(xíng)的過程，其中包括，搜索引擎會(huì)給予特别重視(shì)網站(zhàn)分配适當的資源量。搜索引擎友(yǒu)好的網站(zhàn)，應該是這些(xiē)資源的大(dà)量應用，蜘蛛能夠快速，準确，全面的抓取有(yǒu)價值的，用戶喜歡的內(nèi)容，浪費資源，而不是無用的，不正常的訪問內(nèi)容。

        網站(zhàn)日志(zhì)數(shù)據過載，所以重慶網站(zhàn)優化人(rén)員一般都通(tōng)過網站(zhàn)日志(zhì)分析工具的需求進行(xíng)查看。日志(zhì)分析工具：光年日志(zhì)分析工具，網絡日志(zhì)exploer。

        在解析日志(zhì)，日志(zhì)文件在一個(gè)單一的一天，我們分析的需求：訪問，停留時(shí)間(jiān)，爬行(xíng)，抓取的目錄統計(jì)信息，抓取統計(jì)頁面蜘蛛訪問IP，HTTP狀态代碼蜘蛛活潑的時(shí)期，蜘蛛爬行(xíng)的方式;有(yǒu)關日志(zhì)文件的許多(duō)我們分析需求內(nèi)容：蜘蛛訪問的天數(shù)往往停留時(shí)間(jiān)的趨勢，整體(tǐ)編目往往目錄爬行(xíng)往往抓取期間(jiān)，蜘蛛活潑的周期。

        讓我們來(lái)看看如何分析Web日志(zhì)？

        網站(zhàn)日志(zhì)數(shù)據的分析解讀：

        1，訪問次數(shù)，停留時(shí)間(jiān)，抓取

        我們可(kě)以知道(dào)這三個(gè)數(shù)據：統一我們每次抓取的頁面數(shù)單頁的抓取戰争的每一個(gè)停留時(shí)間(jiān)停留時(shí)間(jiān)。

        均勻每次我們抓取的頁面數(shù)=總抓取/訪問

        單頁的抓取住宿每次住宿/每次檢索

        均勻每次停留時(shí)間(jiān)=總停留時(shí)間(jiān)/訪問

        從這些(xiē)數(shù)據中，我們可(kě)以看到蜘蛛活潑的親和(hé)力水(shuǐ)平，抓取深度，總訪問次數(shù)，停留時(shí)間(jiān)，更高(gāo)的抓取，抓取頁面的統一制(zhì)服的停留時(shí)間(jiān)，标記等網站(zhàn)更多(duō)的搜索引擎。單頁面抓取居住時(shí)間(jiān)标記的網站(zhàn)頁面的訪問速度，時(shí)間(jiān)越長，表示該網站(zhàn)的訪問速度，速度較慢，不太有(yǒu)利，包括搜索引擎抓取，我們應該進步的頁面加載速度和(hé)減少(shǎo)的停留時(shí)間(jiān)，單一的常設，所以爬行(xíng)動物資源抓取索引。

        此外，根據這些(xiē)數(shù)據，我們也可(kě)以過一段時(shí)間(jiān)的統計(jì)數(shù)據，該網站(zhàn)的整體(tǐ)方法的性能，如：蜘蛛訪問往往停留時(shí)間(jiān)往往會(huì)抓取傾向。

        2，目錄檢索統計(jì)資料

        日志(zhì)分析後，我們能看到的網站(zhàn)，用蜘蛛抓取的目錄的目錄深度的重要目錄的抓取，無效的頁目錄的抓取。後cf目錄的網頁并包括情況下，我們将能夠發現更多(duō)的問題。關于非常重要的目錄，需要通(tōng)過內(nèi)部和(hé)外部的調整，增加了重量，爬行(xíng)，停止在robots.txt屏蔽無效頁。

        經過多(duō)天的日志(zhì)統計(jì)信息，我們就可(kě)以看到效果的站(zhàn)內(nèi)外行(xíng)為(wèi)帶來(lái)的目錄，優化合理(lǐ)的達到預期的效果。關于在長期的一段時(shí)間(jiān)看同一個(gè)目錄下，我們可(kě)以看到的目錄頁，推測基于行(xíng)為(wèi)表現的原因。

        3，網頁抓取

        Web日志(zhì)分析，我們可(kě)以看到詳細的蜘蛛爬行(xíng)的頁面。在這些(xiē)網頁上(shàng)，重慶SEO專員可(kě)以分析出蜘蛛抓取的頁面，需要停止爬行(xíng)，爬行(xíng)沒有(yǒu)包含在值的頁面，抓取重複頁面的url蜘蛛資源，豐富的應用程序，我們要求這些(xiē)地址制(zhì)止的在robots.txt爬行(xíng)。

        此外，我們也能剖析為(wèi)什麽不爬不包括頁面，但(dàn)不包括或爬行(xíng)，但(dàn)沒有(yǒu)公布新的文章。關于閱讀頁面的一些(xiē)意義不大(dà)，我們要求它爬行(xíng)通(tōng)道(dào)，在這些(xiē)網頁上(shàng)，我們是否可(kě)以做(zuò)NOINDEX标簽等。另一方面，将弱智的蜘蛛抓取的頁面你(nǐ)依靠這些(xiē)毫無意義的頻道(dào)頁面上(shàng)的蜘蛛不明(míng)白網站(zhàn)地圖的嗎？在這方面，笨鳥有(yǒu)疑問，尋求分享經驗]

        4，蜘蛛訪問IP

        它已經提出了蜘蛛的IP段判别網站(zhàn)降權的情況，前笨鳥認為(wèi)這是沒有(yǒu)意義的，因為(wèi)後者的智力也。降權更前三個(gè)數(shù)據應該受到歧視(shì)歧視(shì)的意義不大(dà)，隻用一個(gè)IP段。 IP更多(duō)有(yǒu)用的分析，應區(qū)分是否存在收集蜘蛛，的假蜘蛛的惡意點擊蜘蛛。

        5，獲得(de)國家(jiā)代碼

        蜘蛛經常出現的狀态代碼，如301404，及時(shí)處置，防止産生(shēng)不良的影(yǐng)響在網站(zhàn)上(shàng)顯示這些(xiē)狀态碼。

        6，抓取時(shí)間(jiān)段

        爬行(xíng)蜘蛛小(xiǎo)時(shí)比照多(duō)個(gè)單日量進行(xíng)分析，我們可(kě)以了解一個(gè)特定的蜘蛛關于本網站(zhàn)熱鬧的特定時(shí)間(jiān)段。 CF每周數(shù)據，我們将在一個(gè)星期內(nèi)，可(kě)以看到一個(gè)特定的蜘蛛的活躍周期。明(míng)白了這一點，有(yǒu)一定的指導意義，之前所謂的小(xiǎo)三，四，網站(zhàn)內(nèi)容的更新，都是不科學的争論。

        7，蜘蛛爬行(xíng)的方法

Web日志(zhì)，我們能夠追蹤到具體(tǐ)的IP接入方式，如果我們追蹤的途徑，可(kě)以找到一個(gè)特定的蜘蛛訪問的網站(zhàn)偏好結構下的蜘蛛爬行(xíng)途徑。因此，我們可(kě)以适當的引導蜘蛛爬行(xíng)途徑，更重要的，有(yǒu)價值的，新的更新頁的蜘蛛爬行(xíng)。抓取方面，我們雙解析的喜好網址的邏輯結構，物理(lǐ)結構的途徑爬行(xíng)的喜好。在這些(xiē)之後，讓我們檢查從搜索引擎的角度來(lái)看自己的網站(zhàn)。