分享搜索引擎預處理和中文分詞秘密 -網頁設計 |
|
前面我們講個搜索引擎如何搜集網頁網站推廣,今天說下第二個過程網頁預處理,其中中文分詞就顯得尤其重要,下面就詳細講解一下搜索引擎是怎么進行網頁預處理的:
網頁預處理的第一步就是為原始網頁建立索引,有了索引就可以為搜索引擎提供網頁快照功能;接下來針對索引網頁庫進行網頁切分,將每一篇網頁轉化為一組詞的集合;最后將網頁到索引詞的映射轉化為索引詞到網頁的映射,形成倒排文件(包括倒排表和索引詞表),同時將網頁中包含的不重復的索引詞匯聚成索引詞表。如下圖所示: 一個原始網頁庫由若干個記錄組成,每個記錄包括記錄頭部信息(HEAD)和數據(DATA),每個數據由網頁頭信息(header),網頁內容信息(content)組成。索引網頁庫的任務就是完成給定一個URL,在原始網頁庫中定位到該URL所指向的記錄。
自動分詞的基本方法有兩種:基于字符串匹配的分詞方法和基于統計的分詞方法。 1) 基于字符串匹配的分詞方法 這種方法又稱為機械分詞方法,它是按照一定的策略將待分析的漢字串與一個充分大的詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。 按照掃描方向的不同,網絡營銷串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大或最長匹配,和最小或最短匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下: |
- Mar 10 Sat 2012 14:30
網頁設計:分享搜索引擎預處理和中文分詞秘密
close
文章標籤
全站熱搜
留言列表