咨詢電(diàn)話(huà):023-88959644    24小(xiǎo)時(shí)服務熱線:400-023-8809
NEWS CENTER ·
新聞動态
關注中技(jì)互聯 關注前沿

中文分詞及文字的索引

發表日期:2013-06-25    文章編輯:    浏覽次數(shù):17    标簽:

  搜索引擎抓取了大(dà)量的原始頁面後并不能直接用來(lái)排名,用戶搜索的時(shí)候開(kāi)程序來(lái)計(jì)算(suàn)排名無法在1秒(miǎo)2秒(miǎo)內(nèi)算(suàn)出結果,是以抓取了之後必須先預處理(lǐ)這樣來(lái)為(wèi)存庫之後的查詢做(zuò)準備。重慶網站(zhàn)建設

  首先進行(xíng)的第一步就是提取文字,搜索引擎發展至今還(hái)是主要以文字為(wèi)主,當一大(dà)串代碼的時(shí)候,搜索引擎一般會(huì)抓取Mete标簽中的文字,圖片ALT文字,錨文字,網頁中的文字等。重慶專業建站(zhàn)

  中文分詞是針對中文特有(yǒu)的一種分詞方式,英文來(lái)說一般都有(yǒu)分隔符,搜索引擎可(kě)以直接根據分隔符來(lái)判斷詞。而中文一般一句話(huà)都是連接在一起的是以需要分詞。比如SEO基礎服務這個(gè)詞,就有(yǒu)可(kě)能被分為(wèi)SEO、基礎、服務這三個(gè)詞。

  分詞有(yǒu)兩種基于詞典的方式講一段漢字吧(ba)按照事先準備好的詞典按照掃描長度混合匹配最後出來(lái)最大(dà)的匹配度,而統計(jì)的方法則是在于根據幾個(gè)相鄰次在這個(gè)互聯網上(shàng)出現的次數(shù)比例來(lái)分詞。重慶網站(zhàn)設計(jì)

  通(tōng)過谷歌(gē)搜索搜索引擎優化查看快照會(huì)發現谷歌(gē)會(huì)把詞分成 搜索 殷勤 優化 三個(gè)詞,而百度則會(huì)顯示為(wèi)搜索引擎優化顯然百度的出現更為(wèi)合理(lǐ)。重慶網站(zhàn)優化

如沒特殊注明(míng),文章均為(wèi)中技(jì)互聯原創,轉載請(qǐng)注明(míng)來(lái)自www.zjcoo.com
上(shàng)一篇:視(shì)頻推廣方法詳細介紹 下一篇:已經是最後一篇了
相關新聞

CopyrightZJCOO technology Co., LTD. All Rights Reserved.    

渝ICP 備11003429号

  • qq客服
  • 公衆号
  • 手機版
  • 新浪微博