close

分享搜索引擎預處理和中文分詞秘密再續 -網頁設計



  2)基于統計的分詞方法

  從形式上看,詞是穩定的字的組合網站推廣,因此上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。

  可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息。

  互現信息體現類漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。

  實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

  正向減字最大匹配法

  這是主要的中文切詞方法網絡推廣,正向減字最大匹配法切分的過程是從自然語言的中文語句中提取出設定的長度字串,與詞典比較,如果在詞典中,就算一個有意義的詞串,并用分隔符分隔輸出,否則縮短字串,在詞典中重新查找(詞典是預先定義好的)。

  算法要求為:

  輸入:中文詞典,待切分的文本d,d中有若干被標點符號分割(我們可以利用標點符號協助搜索引擎準確分詞)的句子s1,設定的最大詞長MaxLen。

  輸出:每個句子s1被切為若干長度不超過MaxLen的字符串網絡營銷,并用分隔符分開,記為s2,所有s2的連接構成d切分之后的文本。



arrow
arrow
    創作者介紹
    創作者 網頁設計探討 的頭像
    網頁設計探討

    網頁設計探討

    網頁設計探討 發表在 痞客邦 留言(0) 人氣()