專利名稱:分詞評價方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理領(lǐng)域,特別涉及一種分詞評價方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普遍應(yīng)用,面向互聯(lián)網(wǎng)進(jìn)行搜索逐漸成為了人們獲取信息的主要方 式。分詞技術(shù)作為搜索引擎中的一項重要的基礎(chǔ)技術(shù),它的好壞將直接影響搜索質(zhì)量的好 壞。為了提高分詞的質(zhì)量,人們設(shè)計出了各種各樣的分詞程序。如何對這些分詞程序的分 詞性能進(jìn)行評價,一直是一個比較困難的問題?,F(xiàn)有技術(shù)采用的是根據(jù)分詞的準(zhǔn)確率和召回率進(jìn)行分詞評價的方式,為了計算分 詞的準(zhǔn)確率和召回率,需要有事先標(biāo)注的比較大規(guī)模的語料庫,并在此基礎(chǔ)上進(jìn)行統(tǒng)計計 算,最后根據(jù)計算結(jié)果對分詞的好壞進(jìn)行評價。在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下缺點現(xiàn)有的分詞評價方式需要有事先標(biāo)注的語料庫才能實現(xiàn)自動評價,而目前已有的 比較大規(guī)模的語料庫均需要人工進(jìn)行標(biāo)注。另外,由于現(xiàn)有語料庫中的語料和目前互聯(lián)網(wǎng) 中涉及的網(wǎng)絡(luò)語料具有一定的差異性,從而導(dǎo)致有些分詞程序即使根據(jù)現(xiàn)有語料庫計算出 較高的準(zhǔn)確率和召回率,但將其應(yīng)用到面向互聯(lián)網(wǎng)的搜索引擎中時,分詞性能仍然很差。
發(fā)明內(nèi)容
為了實現(xiàn)對分詞性能的自動評價,并更加有效地評價面向互聯(lián)網(wǎng)應(yīng)用的分詞性 能,本發(fā)明實施例提供了一種分詞評價方法及裝置。所述技術(shù)方案如下—方面,提供了一種分詞評價方法,所述方法包括從互聯(lián)網(wǎng)中獲取每個測試詞語的測試語料,構(gòu)建所述每個測試詞語的測試語料 集;以待評價的分詞程序?qū)λ雒總€測試詞語及其測試語料集進(jìn)行分詞處理;將所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果進(jìn)行比對,根據(jù)所 述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致性,對所述待評價的分詞 程序進(jìn)行評價。其中,所述從互聯(lián)網(wǎng)中獲取每個測試詞語的測試語料,構(gòu)建所述每個測試詞語的 測試語料集,具體包括將所述每個測試詞語作為搜索詞放入面向互聯(lián)網(wǎng)的搜索引擎中進(jìn)行搜索,得到所 述每個測試詞語的搜索結(jié)果;在所述每個測試詞語的搜索結(jié)果中提取有效的測試語料,構(gòu)建所述每個測試詞語 的測試語料集。所述根據(jù)所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致性, 對所述待評價的分詞程序進(jìn)行評價,具體包括統(tǒng)計每個測試語料集中的分詞結(jié)果的個數(shù),并統(tǒng)計所述每個測試語料集中的分詞結(jié)果與所述每個測試語料集對應(yīng)的測試詞語的分詞結(jié)果一致的個數(shù);根據(jù)所述統(tǒng)計出的個數(shù),對所述待評價的分詞程序進(jìn)行評價。或者,所述根據(jù)所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一 致性,對所述待評價的分詞程序進(jìn)行評價,具體包括在所有測試語料集中,統(tǒng)計測試語料集中的所有分詞結(jié)果均與所述測試語料集對 應(yīng)的測試詞語的分詞結(jié)果一致的個數(shù);根據(jù)所述統(tǒng)計出的個數(shù),及所有測試詞語的個數(shù),對所述待評價的分詞程序進(jìn)行 評價。另一方面,提供了一種分詞評價裝置,所述裝置包括構(gòu)建模塊,用于從互聯(lián)網(wǎng)中獲取每個測試詞語的測試語料,構(gòu)建所述每個測試詞 語的測試語料集;分詞模塊,用于以待評價的分詞程序?qū)λ雒總€測試詞語及其測試語料集進(jìn)行分 詞處理;比對模塊,用于將所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果進(jìn) 行比對;評價模塊,用于在將所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果 進(jìn)行比對之后,根據(jù)所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致 性,對所述待評價的分詞程序進(jìn)行評價。其中,所述構(gòu)建模塊,具體包括搜索單元,具體用于將所述每個測試詞語作為搜索詞放入面向互聯(lián)網(wǎng)的搜索引擎 中進(jìn)行搜索,得到所述每個測試詞語的搜索結(jié)果;構(gòu)建單元,具體用于在所述每個測試詞語的搜索結(jié)果中提取有效的測試語料,構(gòu) 建所述每個測試詞語的測試語料集。具體地,所述評價模塊,具體用于在將所述每個測試詞語的分詞結(jié)果與其測試語 料集中的分詞結(jié)果進(jìn)行比對之后,統(tǒng)計每個測試語料集中的分詞結(jié)果的個數(shù),并統(tǒng)計所述 每個測試語料集中的分詞結(jié)果與所述每個測試語料集對應(yīng)的測試詞語的分詞結(jié)果一致的 個數(shù);根據(jù)所述統(tǒng)計出的個數(shù),對所述待評價的分詞程序進(jìn)行評價。或者,所述評價模塊,具體用于在將所述每個測試詞語的分詞結(jié)果與其測試語料 集中的分詞結(jié)果進(jìn)行比對之后,在所有測試語料集中,統(tǒng)計測試語料集中的所有分詞結(jié)果 均與所述測試語料集對應(yīng)的測試詞語的分詞結(jié)果一致的個數(shù);根據(jù)所述統(tǒng)計出的個數(shù),及 所有測試詞語的個數(shù),對所述待評價的分詞程序進(jìn)行評價。本發(fā)明實施例提供的技術(shù)方案的有益效果是通過從互聯(lián)網(wǎng)中獲取每個測試詞語的測試語料,構(gòu)建每個測試詞語的測試語料 集,并根據(jù)測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致性,對分詞性能進(jìn)行 評價,不僅能夠在無需人工參與的情況下實現(xiàn)自動評價,還能夠更好地評價面向互聯(lián)網(wǎng)應(yīng) 用的分詞性能,使分詞評價更具可靠性,適合應(yīng)用于大規(guī)模的數(shù)據(jù)測試。
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。圖1是本發(fā)明實施例一提供的分詞評價方法流程圖;圖2是本發(fā)明實施例二提供的分詞評價方法流程圖;圖3是本發(fā)明實施例三提供的分詞評價裝置結(jié)構(gòu)示意圖;圖4是本發(fā)明實施例三提供的分詞評價裝置中的構(gòu)建模塊結(jié)構(gòu)示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方 式作進(jìn)一步地詳細(xì)描述。實施例一參見圖1,本實施例提供了一種分詞評價方法,該方法流程如下101 從互聯(lián)網(wǎng)中獲取每個測試詞語的測試語料,構(gòu)建每個測試詞語的測試語料 集;102 以待評價的分詞程序?qū)γ總€測試詞語及其測試語料集進(jìn)行分詞處理;103:將每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果進(jìn)行比對,根據(jù)每 個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致性,對待評價的分詞程序進(jìn)行 評價。綜上所述,本實施例提供的方法,通過從互聯(lián)網(wǎng)中獲取測試詞語的測試語料,構(gòu)建 測試詞語的測試語料集,并根據(jù)測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致 性,進(jìn)行分詞評價,能夠在無需人工參與的情況下,更好地評價面向互聯(lián)網(wǎng)應(yīng)用的分詞性 能,使分詞評價更具可靠性,適合應(yīng)用于大規(guī)模的數(shù)據(jù)測試。實施例二本實施例提供了一種分詞評價方法,該方法針對各種各樣的分詞程序,提供了一 種面向互聯(lián)網(wǎng)應(yīng)用的分詞性能評價方法,參見圖2,方法流程具體如下201 從互聯(lián)網(wǎng)中獲取每個測試詞語的測試語料,構(gòu)建每個測試詞語的測試語料 集;針對該步驟,為了使測試詞語更具代表性,更能體現(xiàn)出分詞性能,可以將網(wǎng)絡(luò)中點 擊頻率較高、比較熱門的詞語作為測試詞語,還可以將古今中外的一些名人的人名作為測 試詞語,除此之外,還可以將一些具有代表性、確定性的詞語作為測試詞語,本實施例不對 測試詞語的內(nèi)容及數(shù)量進(jìn)行具體限定。具體地,為了縮小獲取的測試語料與網(wǎng)絡(luò)語料之間的差異性,提供一種面向互聯(lián) 網(wǎng)應(yīng)用的分詞評價方法,本實施例以面向互聯(lián)網(wǎng)的搜索引擎為例,將每個測試詞語作為搜 索詞放入面向互聯(lián)網(wǎng)的搜索引擎中進(jìn)行搜索,得到每個測試詞語的搜索結(jié)果;并在每個測 試詞語的搜索結(jié)果中提取有效的測試語料,構(gòu)建每個測試詞語的測試語料集。對于每個測試詞語,其搜索結(jié)果可能是成千上萬的,搜索引擎一般會將最相關(guān)的、 高質(zhì)量的搜索結(jié)果顯示在最前面,因此,為了提高獲取測試語料的效率,提高獲取的測試語 料的質(zhì)量,可以在顯示靠前的多個搜索結(jié)果中提取有效的測試語料。
此處判斷測試語料有效性的標(biāo)準(zhǔn)是以“?!?、“ ? ”、“ !,,等代表完整語句的符號作為 分隔符,且該測試語料中包含其對應(yīng)的測試詞語,而不是另一個詞語的一部分。例如,以測 試詞語“王維”為例,將其放入搜索引擎中進(jìn)行搜索時,搜索結(jié)果可能會出現(xiàn)“上海社保案核 心人物王維工受賄千萬獲死緩”的語料,測試詞語“王維”作為該語料中詞語“王維工”的一 部分,因此,該語料不具備有效性。優(yōu)選地,再對提取的語料進(jìn)行過濾,去除一些包含特殊字符的語料,同時去除上下 文完全相同的語料,最終得到每個測試詞語的測試語料集。202 以待評價的分詞程序?qū)γ總€測試詞語及其測試語料集進(jìn)行分詞處理;其中,對每個測試詞語的測試語料集進(jìn)行分詞處理,也就是對測試語料集中的每 個測試語料進(jìn)行分詞處理,每個測試詞語的測試語料集中包含一至多個測試語料。由于每 種分詞程序之間會存在不同程度的差異,即使是同一個測試語料或測試詞語,在用不同的 分詞程序進(jìn)行分詞處理時,得到的分詞結(jié)果也可能會不一樣。即使是同一個測試詞語,以相 同的分詞程序?qū)ζ溥M(jìn)行分詞處理,和將其放入測試語料中再對其進(jìn)行分詞處理,得到的分 詞結(jié)果也可能不同,因此,一個測試語料集中可能存在多種分詞結(jié)果。例如,對于測試詞語“ABC”,對其進(jìn)行分詞處理時,得到的分詞結(jié)果可能是“A”、 “^’、“(^“^”、“(^“^’、“肌”;“仙^’等多種分詞結(jié)果中的任一種。而將該測試詞語放入 測試語料中,即對該測試詞語的測試語料集進(jìn)行分詞處理時,有可能會得到“A”、“B”、“C”; “AB”、“C”;“A”、“BC”;“ABC”等多種分詞結(jié)果,由此可見,對單獨的測試詞語進(jìn)行分詞處理, 和將其放入測試語料中再對其進(jìn)行分詞處理時,得到的分詞結(jié)果有可能是不一樣的,一個 測試語料集中也可能存在多種分詞結(jié)果。203 將每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果進(jìn)行比對;針對該步驟,通過將每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果進(jìn)行 比對,可得出每個測試詞語的分詞結(jié)果,和將其放入測試語料中的分詞結(jié)果是否一樣,如果 一樣,則認(rèn)為該測試詞語的分詞結(jié)果,和將其放入測試語料中的分詞結(jié)果一致。測試語料集 中的分詞結(jié)果與測試詞語的分詞結(jié)果一致的個數(shù)越多,則說明該測試詞語的分詞結(jié)果與其 測試語料集中的分詞結(jié)果的一致性越高。204:根據(jù)每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致性,對該 待評價的分詞程序進(jìn)行評價。具體地,統(tǒng)計每個測試語料集中的分詞結(jié)果的個數(shù),并統(tǒng)計每個測試語料集中的 分詞結(jié)果與每個測試語料集對應(yīng)的測試詞語的分詞結(jié)果一致的個數(shù);根據(jù)統(tǒng)計出的個數(shù), 對待評價的分詞程序進(jìn)行評價。例如,將每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致性定義為 “-致性指標(biāo)”,表示為
權(quán)利要求
1.一種分詞評價方法,其特征在于,所述方法包括從互聯(lián)網(wǎng)中獲取每個測試詞語的測試語料,構(gòu)建所述每個測試詞語的測試語料集; 以待評價的分詞程序?qū)λ雒總€測試詞語及其測試語料集進(jìn)行分詞處理; 將所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果進(jìn)行比對,根據(jù)所述每 個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致性,對所述待評價的分詞程序 進(jìn)行評價。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從互聯(lián)網(wǎng)中獲取每個測試詞語的測 試語料,構(gòu)建所述每個測試詞語的測試語料集,具體包括將所述每個測試詞語作為搜索詞放入面向互聯(lián)網(wǎng)的搜索引擎中進(jìn)行搜索,得到所述每 個測試詞語的搜索結(jié)果;在所述每個測試詞語的搜索結(jié)果中提取有效的測試語料,構(gòu)建所述每個測試詞語的測 試語料集。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述每個測試詞語的分詞結(jié)果 與其測試語料集中的分詞結(jié)果的一致性,對所述待評價的分詞程序進(jìn)行評價,具體包括統(tǒng)計每個測試語料集中的分詞結(jié)果的個數(shù),并統(tǒng)計所述每個測試語料集中的分詞結(jié)果 與所述每個測試語料集對應(yīng)的測試詞語的分詞結(jié)果一致的個數(shù); 根據(jù)所述統(tǒng)計出的個數(shù),對所述待評價的分詞程序進(jìn)行評價。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述每個測試詞語的分詞結(jié)果 與其測試語料集中的分詞結(jié)果的一致性,對所述待評價的分詞程序進(jìn)行評價,具體包括在所有測試語料集中,統(tǒng)計測試語料集中的所有分詞結(jié)果均與所述測試語料集對應(yīng)的 測試詞語的分詞結(jié)果一致的個數(shù);根據(jù)統(tǒng)計出的個數(shù),及所有測試詞語的個數(shù),對所述待評價的分詞程序進(jìn)行評價。
5.一種分詞評價裝置,其特征在于,所述裝置包括構(gòu)建模塊,用于從互聯(lián)網(wǎng)中獲取每個測試詞語的測試語料,構(gòu)建所述每個測試詞語的 測試語料集;分詞模塊,用于以待評價的分詞程序?qū)λ雒總€測試詞語及其測試語料集進(jìn)行分詞處理;比對模塊,用于將所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果進(jìn)行比對;評價模塊,用于在將所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果進(jìn)行 比對之后,根據(jù)所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致性,對 所述待評價的分詞程序進(jìn)行評價。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述構(gòu)建模塊,具體包括搜索單元,具體用于將所述每個測試詞語作為搜索詞放入面向互聯(lián)網(wǎng)的搜索引擎中進(jìn) 行搜索,得到所述每個測試詞語的搜索結(jié)果;構(gòu)建單元,具體用于在所述每個測試詞語的搜索結(jié)果中提取有效的測試語料,構(gòu)建所 述每個測試詞語的測試語料集。
7.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述評價模塊,具體用于在將所述每個測 試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果進(jìn)行比對之后,統(tǒng)計每個測試語料集中的分詞結(jié)果的個數(shù),并統(tǒng)計所述每個測試語料集中的分詞結(jié)果與所述每個測試語料集對應(yīng)的 測試詞語的分詞結(jié)果一致的個數(shù);根據(jù)統(tǒng)計出的個數(shù),對所述待評價的分詞程序進(jìn)行評價。
8.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述評價模塊,具體用于在將所述每個測 試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果進(jìn)行比對之后,在所有測試語料集中,統(tǒng) 計測試語料集的所有分詞結(jié)果均與所述測試語料集對應(yīng)的測試詞語的分詞結(jié)果一致的個 數(shù);根據(jù)統(tǒng)計出的個數(shù),及所有測試詞語的個數(shù),對所述待評價的分詞程序進(jìn)行評價。
全文摘要
本發(fā)明公開了一種分詞評價方法及裝置,屬于信息處理領(lǐng)域。所述方法包括從互聯(lián)網(wǎng)中獲取每個測試詞語的測試語料,構(gòu)建所述每個測試詞語的測試語料集;以待評價的分詞程序?qū)λ雒總€測試詞語及其測試語料集進(jìn)行分詞處理;將所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果進(jìn)行比對,根據(jù)所述每個測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致性,對所述待評價的分詞程序進(jìn)行評價。所述裝置包括構(gòu)建模塊、分詞模塊、比對模塊和評價模塊。本發(fā)明通過從互聯(lián)網(wǎng)中獲取測試詞語的測試語料,構(gòu)建測試語料集,并根據(jù)測試詞語的分詞結(jié)果與其測試語料集中的分詞結(jié)果的一致性,進(jìn)行分詞評價,能夠更好地評價面向互聯(lián)網(wǎng)應(yīng)用的分詞性能。
文檔編號G06F17/30GK102043791SQ20091018112
公開日2011年5月4日 申請日期2009年10月10日 優(yōu)先權(quán)日2009年10月10日
發(fā)明者方高林, 鄭全戰(zhàn) 申請人:騰訊科技(深圳)有限公司