close

分享搜索引擎預處理和中文分詞秘密續 -網頁設計



  1. 正向最大匹配網站推廣;

  2. 逆向最大匹配;

  3. 最少切分(使每一句中切出的詞數最小)。

  還可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現象也較少。

  對于機械分詞方法,可模型化表示為ASM網絡推廣(d,a,m),即 Automatic Segmentation Model。其中,

  d:匹配方向,+表示正向,-表示逆向;

  a:每次匹配失敗后增加或減少字串長度(字符數)網絡營銷,+為增字,-為減字;

  m:最大或最小匹配標志,+為最大匹配,-為最小匹配。

  例如,ASM(+, -, +)就是正向減字最大匹配法(Maximum Match based approach,MM),ASM(-, -, +)就是逆向減字最大匹配法(簡記為RMM方法)。



arrow
arrow
    創作者介紹
    創作者 網頁設計探討 的頭像
    網頁設計探討

    網頁設計探討

    網頁設計探討 發表在 痞客邦 留言(0) 人氣()