一種中文分詞方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明實施例涉及自然語言技術領域,尤其涉及一種中文分詞方法及裝置。
【背景技術】
[0002] 中文分詞(Chinese Word Segmentation)指的是將一個漢字序列切分成一個一個 單獨的詞。中文以字為基本的書寫單位,詞與詞之間沒有類似英文空格之類用于標識詞邊 界的符號,因此,對中文文本中的每個句子進行分詞,是中文文本分析處理中的難題。
[0003] 中文分詞技術主要有基于機械匹配的中文分詞算法,基于統(tǒng)計語言模型 (Statistical Language Model,SLM)的中文分詞方法,基于人工智能技術的中文分詞方 法。其中,基于統(tǒng)計語言模型的分詞方法,通過統(tǒng)計文本上下文漢字與漢字相鄰共現(xiàn)的組合 頻率,依據(jù)漢字組合的統(tǒng)計信息實現(xiàn)文本分詞?;诮y(tǒng)計語言模型與機械匹配相結合的方 法,分詞的效率和準確率相對較高,實現(xiàn)比較簡單,是現(xiàn)在普遍采用的中文分詞方法之一。
[0004] 目前,基于統(tǒng)計語言模型的分詞方法主要有串頻統(tǒng)計和漢字相關度兩種方法?;?于串頻統(tǒng)計的方法,依據(jù)字串的頻率提取候選詞,會將文本中一些隨機出現(xiàn)的高頻組合識 別為候選詞,而且該方法需要給出停止詞表,不能很好的識別包含停止詞的候選詞,因而影 響分詞準確度;基于漢字相關度的方法,對相關度較高的詞匯識別準確率較高,對相關度低 的詞匯識別準確度較低,并且該方法在計算相關度時算法復雜,計算量較大,影響分詞效 率。
【發(fā)明內容】
[0005] 本發(fā)明實施例的目的是提供一種中文分詞方法及裝置,以解決現(xiàn)有的中文分詞方 案存在的準確度不足以及效率低的問題。
[0006] -方面,本發(fā)明實施例提供了一種中文分詞方法,包括:
[0007] 將文本集切分為多個短句,并為所述多個短句編號,其中,所述文本集包含至少一 個文本;
[0008] 對于所述文本集中的每個中文字符,獲取當前中文字符對應的第一短句編號列 表,獲取與所述當前中文字符右相鄰的鄰接中文字符對應的第二短句編號列表,根據(jù)所述 第一短句編號列表和所述第二短句編號列表計算所述當前中文字符和所述鄰接中文字符 的共現(xiàn)度;獲取所述當前中文字符對應的鄰接字符集,根據(jù)所述鄰接字符集計算所述當前 中文字符和所述鄰接中文字符的鄰接相關度;根據(jù)所述共現(xiàn)度和所述鄰接相關度確定是否 將所述當前中文字符和所述鄰接中文字符組成的詞語加入候選詞集;
[0009] 根據(jù)所述候選詞集對所述文本集進行分詞。
[0010] 另一方面,本發(fā)明實施例提供了一種中文分詞裝置,包括:
[0011] 文本集切分模塊,用于將文本集切分為多個短句,并為所述多個短句編號,其中, 所述文本集包含至少一個文本;
[0012] 第一短句編號列表獲取模塊,用于對于所述文本集中的每個中文字符,獲取當前 中文字符對應的第一短句編號列表;
[0013] 第二短句編號列表獲取模塊,用于獲取與所述當前中文字符右相鄰的鄰接中文字 符對應的第二短句編號列表;
[0014] 共現(xiàn)度計算模塊,用于根據(jù)所述第一短句編號列表和所述第二短句編號列表計算 所述當前中文字符和所述鄰接中文字符的共現(xiàn)度;
[0015] 鄰接字符集獲取模塊,用于獲取所述當前中文字符對應的鄰接字符集;
[0016] 鄰接相關度計算模塊,用于根據(jù)所述鄰接字符集計算所述當前中文字符和所述鄰 接中文字符的鄰接相關度;
[0017] 候選詞集加入模塊,用于根據(jù)所述共現(xiàn)度和所述鄰接相關度確定是否將所述當前 中文字符和所述鄰接中文字符組成的詞語加入候選詞集;
[0018] 分詞模塊,用于根據(jù)所述候選詞集對所述文本集進行分詞。
[0019] 本發(fā)明實施例中提供的中文分詞方案,將文本集切分為多個短句,計算中文字符 以及與中文字符右相鄰的鄰接中文字符的共現(xiàn)度和鄰接相關度,以共現(xiàn)度來衡量中文字符 和鄰接中文字符同時出現(xiàn)在同一個短句中的情況,以鄰接相關度來衡量中文字符和鄰接中 文字符左右相鄰出現(xiàn)的情況,并根據(jù)共現(xiàn)度和相關度綜合衡量中文字符和鄰接中文字符組 成詞語的概率,進而確定是否將組成的詞語加入候選詞集,最后根據(jù)候選詞集對文本集進 行分詞。該方案在確定候選詞集時計算量小,準確度高,可以排除高頻單字對詞匯提取的影 響,所以可有效提升分詞結果的準確度以及提高分詞效率。此外,該方案不依賴語料詞典, 可實現(xiàn)無監(jiān)督的候選詞匯提取。
【附圖說明】
[0020] 圖1為本發(fā)明實施例提供的現(xiàn)有的基于串頻統(tǒng)計的中文分詞方法的流程示意圖;
[0021] 圖2為本發(fā)明實施例提供的現(xiàn)有的基于漢字相關度的中文分詞方法的流程示意 圖;
[0022] 圖3為本發(fā)明實施例一提供的一種中文分詞方法的流程示意圖;
[0023] 圖4為本發(fā)明實施例二提供的一種中文分詞方法的流程示意圖;
[0024] 圖5為本發(fā)明實施例三提供的一種中文分詞裝置的結構框圖。
【具體實施方式】
[0025] 下面結合附圖并通過【具體實施方式】來進一步說明本發(fā)明的技術方案??梢岳斫獾?是,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明 的是,為了便于描述,附圖中僅示出了與本發(fā)明相關的部分而非全部結構。
[0026] 在更加詳細地討論示例性實施例之前應當提到的是,一些示例性實施例被描述成 作為流程圖描繪的處理或方法。雖然流程圖將各步驟描述成順序的處理,但是其中的許多 步驟可以被并行地、并發(fā)地或者同時實施。此外,各步驟的順序可以被重新安排。當其操作 完成時所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以 對應于方法、函數(shù)、規(guī)程、子例程、子程序等等。
[0027] 首先,對現(xiàn)有的串頻統(tǒng)計和漢字相關度兩種中文分詞方法做簡單介紹。
[0028] 圖1為本發(fā)明實施例提供的現(xiàn)有的基于串頻統(tǒng)計的中文分詞方法的流程示意圖。 如圖1所示,該方法包括以下步驟:
[0029] 步驟101、輸入單文本。
[0030] 步驟102、通過中文標點符號和常用高頻單字對文本分別進行顯式和隱式切分,形 成多個字串列表。
[0031]例如,常用高頻單字可以是"的"和"是"等,由這些常用高頻單字構成了停止詞表。 依據(jù)標點符號進行切分的方式為顯示切分,依據(jù)停止詞表進行切分的方式為隱式切分。 [0032]步驟103、通過滑動窗口統(tǒng)計窗口內子串出現(xiàn)的頻次及字串長度,設定閾值,提取 出滑動窗口內子串為候選詞。
[0033] 步驟104、遍歷文本,產(chǎn)出候選詞集。
[0034] 步驟105、依據(jù)候選詞集,對文本進行分詞。
[0035] 由上述步驟可知,該方法依據(jù)字串的頻率提取候選詞,會將文本中一些隨機出現(xiàn) 的高頻組合識別為候選詞,而且該方法需要給出停止詞表,不能很好的識別含停止詞的候 選詞,因而影響分詞準確度。
[0036] 圖2為本發(fā)明實施例提供的現(xiàn)有的基于漢字相關度的中文分詞方法的流程示意 圖,如圖2所示,該方法包括以下步驟:
[0037] 步驟101、輸入單文本。
[0038] 步驟102、遍歷文本,統(tǒng)計字符出現(xiàn)的頻次,計算相鄰字符的卡方統(tǒng)計量來表示相 鄰字符的相關度,字串的長度為權重。
[0039] 步驟103、獲取相關度和權重乘積最大的多個連續(xù)字符加入候選詞集。
[0040] 步驟104、依據(jù)候選詞集,對文本進行分詞。
[0041] 由上述步驟可知,該方法對相關度較高的詞匯識別準確率較高,對相關度低的詞 匯識別準確度較低,并且該方法在計算相關度時需要計算卡方統(tǒng)計量,算法復雜,計算量較 大,影響分詞效率。
[0042] 實施例一
[0043] 圖3為本發(fā)明實施例一提供的一種中文分詞方法的流程示意圖,該方法可以由中 文分詞裝置執(zhí)行。如圖3所示,該方法包括:
[0044] 步驟301、將文本集切分為多個短句,并為多個短句編號。
[0045] 其中,所述文本集包含至少一個文本。
[0046] 示例性的,用于執(zhí)行本實施例方法的裝置可由軟件和/或硬件實現(xiàn),可集成于用于 提供分詞或檢索等服務的服務端。
[0047] 本實施例中,文本集可被切分為η個短句,可將短句依次編號為1,2,…η。
[0048] 優(yōu)選的,可依據(jù)中文標點符號將文本集切分為多個短句,并為多個短句編號。
[0049] 優(yōu)選的,當文本集包含多個文本時,可進一步