close

分享搜索引擎預處理和中文分詞秘密 -網頁設計


  前面我們講個搜索引擎如何搜集網頁網站推廣,今天說下第二個過程網頁預處理,其中中文分詞就顯得尤其重要,下面就詳細講解一下搜索引擎是怎么進行網頁預處理的:

 

  網頁預處理的第一步就是為原始網頁建立索引,有了索引就可以為搜索引擎提供網頁快照功能;接下來針對索引網頁庫進行網頁切分,將每一篇網頁轉化為一組詞的集合;最后將網頁到索引詞的映射轉化為索引詞到網頁的映射,形成倒排文件(包括倒排表和索引詞表),同時將網頁中包含的不重復的索引詞匯聚成索引詞表。如下圖所示:

  一個原始網頁庫由若干個記錄組成,每個記錄包括記錄頭部信息(HEAD)和數據(DATA),每個數據由網頁頭信息(header),網頁內容信息(content)組成。索引網頁庫的任務就是完成給定一個URL,在原始網頁庫中定位到該URL所指向的記錄。


  對索引網頁庫信息進行預處理包括網頁分析和建立倒排文件索引兩個部分。中文自動分詞是網頁分析的前提。文檔由被稱作特征項的索引詞(詞或者字)組成,網頁分析是將一個文檔表示為特征項的過程。在對中文文本進行自動分析前,先將整句切割成小的詞匯單元,即中文分詞(或中文切詞)網絡推廣。切詞軟件中使用的基本詞典包括詞條及其對應詞頻。

  自動分詞的基本方法有兩種:基于字符串匹配的分詞方法和基于統計的分詞方法。

  1) 基于字符串匹配的分詞方法

  這種方法又稱為機械分詞方法,它是按照一定的策略將待分析的漢字串與一個充分大的詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。

  按照掃描方向的不同,網絡營銷串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大或最長匹配,和最小或最短匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下:



arrow
arrow
    創作者介紹
    創作者 網頁設計探討 的頭像
    網頁設計探討

    網頁設計探討

    網頁設計探討 發表在 痞客邦 留言(0) 人氣()