本發(fā)明涉及自然語言處理領(lǐng)域,特別涉及一種中文分詞場景庫更新方法和系統(tǒng)。
背景技術(shù):
中文分詞是中文分析及計(jì)算機(jī)處理中的一大難點(diǎn)。中文分詞場景庫用于存儲(chǔ)與特定應(yīng)用場景相關(guān)的正確的中文分詞,其是中文分詞算法中的重要一環(huán),直接影響分詞的正確率?,F(xiàn)有的中文分詞算法大多提供一些接口,允許用戶根據(jù)應(yīng)用場景更新場景庫,以解決特定應(yīng)用場景中一些專用詞不能正確切分的問題。
但是,在現(xiàn)有分詞算法中,場景庫的更新和分詞的執(zhí)行通常是分離的,不能在分詞過程中實(shí)時(shí)更新場景庫。用戶需要事先采取手動(dòng)操作或者程序調(diào)用接口的方式更新場景庫,而且這兩種方式都是將新詞作為單一的專用名詞添加到場景庫的用戶詞典中,并不帶有詞的場景信息和上下文信息,也就無法同這些詞的具體應(yīng)用場景相關(guān)聯(lián)。進(jìn)行分詞時(shí),場景庫的用戶詞典中的詞都是作為專有名詞,不再進(jìn)一步切分。而實(shí)際上,如果在某個(gè)場景下這個(gè)詞并不是以專有名詞的含義出現(xiàn),那么就會(huì)產(chǎn)生分詞歧義,使分詞正確率下降。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種中文分場景庫更新方法,用以解決現(xiàn)有場景庫更新時(shí)不能帶入場景信息、且更新方式單一的問題。
相應(yīng)的,本發(fā)明實(shí)施例還提供一種中文分詞場景庫更新系統(tǒng),用以保證上述方法的實(shí)現(xiàn)及應(yīng)用。
為了解決上述問題,本發(fā)明實(shí)施例公開了一種中文分詞場景庫更新方法,所述場景庫包括至少一個(gè)主題詞典,所述中文分詞場景庫更新方法包括:
在語句的正確分詞結(jié)果中,選擇一個(gè)分詞;
基于所述正確分詞結(jié)果,構(gòu)造所述分詞的特征;
針對所述場景庫的每個(gè)主題詞典,計(jì)算所述特征的最大熵模型得分;
比較所述最大熵模型得分中的最大值與第一預(yù)定閾值,如果所述最大值大于所述第一預(yù)定閾值,將所述分詞添加到所述最大值對應(yīng)的主題詞典中。
優(yōu)選地,通過以下方式基于所述正確分詞結(jié)果構(gòu)造所述分詞的特征:
所述正確分詞結(jié)果包括L個(gè)分詞,依次為z1至zL,其中第i個(gè)分詞zi的特征包括:
zi-2,zi-1,zi+1,zi+2,zizi+1,zi+1zi+2,zi-1zi,zi-2zi-1,zi-1zi+1。
優(yōu)選地,所述中文分詞場景庫更新方法還包括:
在所述場景庫中建立熱點(diǎn)詞庫;
選擇與所述場景庫的應(yīng)用場景相關(guān)聯(lián)的至少一個(gè)語料,將所述至少一個(gè)語料中出現(xiàn)次數(shù)大于第二預(yù)定閾值的分詞作為熱點(diǎn)分詞;
判斷所述熱點(diǎn)分詞是否存在于所述場景庫中;
將不存在于所述場景庫中的熱點(diǎn)分詞添加到所述熱點(diǎn)詞庫中。
優(yōu)選地,所述場景庫為二進(jìn)制格式的文件。
優(yōu)選地,所述中文分詞場景庫更新方法還包括:
建立備用文本文件;
通過手動(dòng)方式將與所述場景庫的主題詞典相關(guān)聯(lián)的分詞添加到所述備用文本文件中。
本發(fā)明實(shí)施例還公開一種中文分詞場景庫更新系統(tǒng),所述場景庫包括至少一個(gè)主題詞典,所述中文分詞場景庫更新系統(tǒng)包括:
分詞選擇模塊,用于在語句的正確分詞結(jié)果中,選擇一個(gè)分詞;
分詞特征構(gòu)造模塊,用于基于所述正確分詞結(jié)果,構(gòu)造所述分詞的特征;
計(jì)算模塊,用于針對所述場景庫的每個(gè)主題詞典,計(jì)算所述特征的最大熵模型得分;
主題詞典更新模塊,比較所述最大熵模型得分中的最大值與第一預(yù)定閾值,如果所述最大值大于所述第一預(yù)定閾值,將所述分詞添加到所述最大值對應(yīng)的主題詞典中。
優(yōu)選地,所述分詞特征構(gòu)造模塊通過以下方式基于所述正確分詞結(jié)果構(gòu)造所述分詞的特征:
所述正確分詞結(jié)果包括L個(gè)分詞,依次為z1至zL,其中第i個(gè)分詞zi的特征包括:
zi-2,zi-1,zi+1,zi+2,zizi+1,zi+1zi+2,zi-1zi,zi-2zi-1,zi-1zi+1。
優(yōu)選地,所述中文分詞場景庫更新系統(tǒng)還包括:
熱點(diǎn)詞庫建立模塊,用于在所述場景庫中建立熱點(diǎn)詞庫;
熱點(diǎn)分詞選擇模塊,用于選擇與所述場景庫的應(yīng)用場景相關(guān)聯(lián)的至少一個(gè)語料,將所述至少一個(gè)語料中出現(xiàn)次數(shù)大于第二預(yù)定閾值的分詞作為熱點(diǎn)分詞;
判斷模塊,用于判斷所述熱點(diǎn)分詞是否存在于所述場景庫中;
熱點(diǎn)分詞添加模塊,用于將不存在于所述場景庫中的熱點(diǎn)分詞添加到所述熱點(diǎn)詞庫中。
優(yōu)選地,所述場景庫為二進(jìn)制格式的文件。
優(yōu)選地,所述中文分詞場景庫更新系統(tǒng)還包括:
備用文本文件建立模塊,用于建立備用文本文件;
手動(dòng)添加模塊,用于通過手動(dòng)方式將與所述場景庫的主題詞典相關(guān)聯(lián)的分詞添加到所述備用文本文件中。
與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例包括以下優(yōu)點(diǎn):
根據(jù)應(yīng)用場景構(gòu)建場景庫,場景庫包括若干個(gè)主題詞典,每個(gè)主題詞典涉及一個(gè)與應(yīng)用場景相關(guān)的主題,用于存儲(chǔ)與該主題相關(guān)聯(lián)的分詞。構(gòu)造待更新分詞的特征,針對主題詞典計(jì)算特征的最大熵模型得分,并基于該得分將分詞 添加到與其相關(guān)的主題詞典中。通過這種方式,帶入應(yīng)用場景的信息,可以避免在中文分詞過程中使用場景庫時(shí)可能出現(xiàn)的分詞歧義。此外,根據(jù)實(shí)施例的方法在實(shí)際應(yīng)用過程中,可以實(shí)時(shí)或者離線完成場景庫的更新,克服了現(xiàn)有技術(shù)更新方式單一的缺陷。
在場景庫中建立熱點(diǎn)詞庫,根據(jù)預(yù)先選擇的語料確定熱點(diǎn)分詞,并將熱點(diǎn)分詞添加到場景庫中,從而進(jìn)一步擴(kuò)充場景庫,使場景庫更適用于特定的應(yīng)用場景。
附圖說明
通過結(jié)合附圖對本公開示例性實(shí)施例進(jìn)行更詳細(xì)的描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯。
圖1示出了根據(jù)示例性實(shí)施例的中文分詞場景庫更新方法的流程圖;
圖2示出了根據(jù)示例性實(shí)施例的中文分詞場景庫更新系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實(shí)施例。雖然附圖中顯示了本公開的優(yōu)選實(shí)施例,然而應(yīng)該理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
眾所周知,英文是以詞為單位的,詞和詞之間靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述完整的意思。中文分詞將漢字序列切分成詞序列,其是中文自然語言處理的基礎(chǔ)。分詞模塊是用于執(zhí)行中文分詞的模塊。目前常用的中文分詞模塊主要有LTP分詞模塊、CSW中文智能分詞模塊、ICTCLAS分詞模塊等等。大多數(shù)分詞模塊均包括預(yù)先建立的場景庫,用于存儲(chǔ)與特定應(yīng)用場景相關(guān)的正確的中文分詞。
在本發(fā)明的示例性實(shí)施例中,建立了與應(yīng)用場景相關(guān)的場景庫,該場景庫 包括至少一個(gè)主題詞典,主題詞典用于存儲(chǔ)與該主題相關(guān)的分詞。例如,針對兒童閑聊場景,建立包括12個(gè)主題詞典的場景庫,這12個(gè)主題詞典的名稱如下:詩人、詩歌、歌曲、歌手、關(guān)系、音樂風(fēng)格、語言、熱點(diǎn)詞、故事、全國城市名和省名、全國公交站和地鐵站名、時(shí)間天氣信息,分別用于存儲(chǔ)與這12個(gè)主題相關(guān)的分詞。
例如,詩人主題詞典用于存儲(chǔ)與詩人相關(guān)的分詞,例如“李白”、“杜甫”等;歌手主題詞典用于存儲(chǔ)與歌手相關(guān)的分詞,例如“周杰倫”、“張學(xué)友”等;關(guān)系主題字典用于存儲(chǔ)人稱代詞,例如“爸爸”、“媽媽”、“你”、“我”、“他”等;語言主題字典用于存儲(chǔ)與語種相關(guān)的分詞,例如“英語”、“英文”、“土家語”、“英國語”等。
預(yù)先建立的場景庫是基于有限的語料建立的,其可能是不完整的,當(dāng)在場景庫的使用過程中出現(xiàn)與場景庫所適用的應(yīng)用場景相關(guān)的新分詞時(shí),期待能夠?qū)⑿路衷~添加到場景庫現(xiàn)有的主題詞典中,或者添加新的主題詞典,以不斷充實(shí)場景庫的內(nèi)容。
為此,本發(fā)明的一方面提出一種中文分詞場景庫更新方法,其中,場景庫包括至少一個(gè)主題詞典。圖1示出了根據(jù)示例性實(shí)施例的中文分詞場景庫更新方法的流程圖,其具體包括以下步驟:
步驟101:在語句的正確分詞結(jié)果中,選擇一個(gè)分詞
語句可以是任意的,例如其可以選自與應(yīng)用場景相關(guān)的某個(gè)語料,如果希望在執(zhí)行中文分詞的過程中進(jìn)行實(shí)時(shí)的場景庫更新,那么語句可以是待分詞的語句。
對于選定的語句,可以通過現(xiàn)有的分詞模塊獲得語句的正確分詞結(jié)果,也可以通過特定的分詞方法獲得正確分詞結(jié)果,或者,還可以通過人工方式獲得正確分詞結(jié)果。
在本步驟中,在語句的正確分詞結(jié)果中,選擇一個(gè)分詞。
例如對于語句“請唱首韓語兒歌”,通過現(xiàn)有分詞模塊對其進(jìn)行分詞,獲得 正確分詞結(jié)果如下:
請/唱/首/韓語/兒歌
在正確分詞結(jié)果中選擇一個(gè)分詞“韓語”。然后,在接下來的步驟中,針對所選擇的分詞“韓語”,判斷是否將其更新到場景庫中,以及更新到場景庫的哪一個(gè)主題詞典中。
步驟102:基于正確分詞結(jié)果,構(gòu)造分詞的特征;
按照以下方式,基于正確分詞結(jié)果,構(gòu)造分詞的特征:
語句的正確分詞結(jié)果包括L個(gè)分詞,依次為z1至zL,其中第i個(gè)分詞zi的特征包括:
zi-2,zi-1,zi+1,zi+2,zizi+1,zi+1zi+2,zi-1zi,zi-2zi-1,zi-1zi+1。
例如,對于在步驟101中所選擇的分詞“韓語”,由于正確的分詞結(jié)果是:
請/唱/首/韓語/兒歌
因此,分詞“韓語”的特征包括:
唱、首、兒歌、唱首、韓語兒歌、首韓語、首兒歌
步驟103:針對場景庫的每個(gè)主題詞典,計(jì)算特征的最大熵模型得分
如果場景庫共包括N個(gè)主題詞典,依次為C1、C2……CN,針對其中的每一個(gè)主題詞典,計(jì)算在步驟102中構(gòu)造的特征的最大熵模型得分,依次記為S1、S2……SN。
最大熵模型是一種機(jī)器學(xué)習(xí)方法,在自然語言處理的許多領(lǐng)域(如詞性標(biāo)注、中文分詞、句子邊界識別、淺層句法分析及文本分類等)都有比較好的應(yīng)用效果。根據(jù)最大熵原則,當(dāng)根據(jù)不完整的信息作為依據(jù)進(jìn)行推斷時(shí),應(yīng)該由滿足分布限制條件的具有最大熵的概率分布推得?;蛘哒f,對隨機(jī)事件的所有相容的預(yù)測中,熵最大的預(yù)測出現(xiàn)的概率占絕對優(yōu)勢。
在示例性實(shí)施例中,利用最大熵模型計(jì)算所構(gòu)造的特征的最大熵模型得分,可以評價(jià)在給定的最大熵模型下,這些特征出現(xiàn)的概率。
為了使最大熵模型能夠正確反映特征出現(xiàn)在場景庫的某個(gè)主題詞典中的概 率,在使用最大熵模型之前,優(yōu)選地要對最大熵模型進(jìn)行訓(xùn)練。在實(shí)際應(yīng)用中,可以根據(jù)本方法可能應(yīng)用的場景以及所涉及到的不同主題,選擇適當(dāng)?shù)臉颖緮?shù)據(jù)對最大熵模型進(jìn)行訓(xùn)練。例如,當(dāng)本方法將應(yīng)用于兒童閑聊場景時(shí),可以選擇與詩人、詩歌、歌曲、歌手、關(guān)系、音樂風(fēng)格、語言、熱點(diǎn)詞、故事等主題相關(guān)的樣本數(shù)據(jù)。樣本數(shù)據(jù)可以是從日常場景中獲取的語句。經(jīng)過訓(xùn)練之后,最大熵模型得分可以正確地反映特征出現(xiàn)在場景庫的某個(gè)主題詞典中的概率。建立和訓(xùn)練最大熵模型的方法屬于本領(lǐng)域的現(xiàn)有技術(shù),在此不再贅述。
例如,在示例性實(shí)施例中,場景庫包括12個(gè)主題詞典,這12個(gè)主題詞典的名稱分別是:詩人、詩歌、歌曲、歌手、關(guān)系、音樂風(fēng)格、語言、熱點(diǎn)詞、故事、全國城市名和省名、全國公交站和地鐵站名、時(shí)間天氣信息。
針對這12個(gè)主題詞典中的每一個(gè),計(jì)算在步驟102中構(gòu)造的特征的最大熵模型得分。將在步驟102中構(gòu)造的特征:唱、首、兒歌、唱首、韓語兒歌、首韓語、首兒歌,作為最大熵模型的輸入,可以獲得該組特征的最大熵模型得分,如下所示:在語言主題詞典中的得分是1,在歌曲主題詞典中的得分是2.28275e-08,在其他10個(gè)主題詞典中的得分遠(yuǎn)小于2.28275e-08。
得分顯示,特征所屬的分詞“韓語”最有可能添加到語言主題詞典中。
步驟104:比較最大熵模型得分中的最大值與預(yù)定閾值,如果最大值大于預(yù)定閾值,將分詞添加到最大值對應(yīng)的主題詞典中
在步驟103中,針對場景庫的每個(gè)主題詞典C1、C2……CN,計(jì)算特征的最大熵模型得分,從而獲得一組最大熵模型得分S1、S2……SN。在這些得分中,如果針對第j個(gè)主題詞典Cj計(jì)算得到的最大熵模型得分Sj的值最大,而且該最大值Sj大于預(yù)定閾值,就將分詞寫入最大值Sj對應(yīng)的主題詞典Cj中。
例如,在以上步驟103中,計(jì)算得到了特征針對每個(gè)主題詞典的最大熵模型得分,其中在語言主題詞典中的得分是1,為最大值。在該例中,預(yù)定閾值設(shè)為0.9。由于最大值大于預(yù)定閾值,因此,將分詞“韓語”添加到最大值對應(yīng)的主題詞典——語言主題詞典中。
由于“韓語”被添加到語言主題詞典中,因此,當(dāng)其作為一個(gè)分詞時(shí),就表示一種語言,出現(xiàn)在語言的場景下;反之,如果“韓語”并不是出現(xiàn)在語言的場景下,就不能將其作為一個(gè)分詞,應(yīng)該被切分成單個(gè)的字。因此,將“韓語”添加到語言主題詞典中就帶上了語言的場景信息。類似的,當(dāng)一個(gè)分詞被寫入歌手主題詞典中時(shí),就表示這個(gè)分詞只有在歌手的場景下才能作為分詞,而在其他場景下則需要進(jìn)行切分,因此,這個(gè)分詞就帶上了歌手的場景信息。
通過循環(huán)執(zhí)行以上步驟101至104,可以基于語句的正確分詞結(jié)果中的每個(gè)分詞,對場景庫進(jìn)行更新。
此外,可以在中文分詞過程中執(zhí)行根據(jù)示例性實(shí)施例的中文分詞場景庫更新方法,從而實(shí)現(xiàn)場景庫的實(shí)時(shí)更新。例如,在對一個(gè)待分詞語句進(jìn)行正確分詞后,獲得正確分詞結(jié)果。然后執(zhí)行根據(jù)示例性實(shí)施例的中文分詞場景庫更新方法,從正確分詞結(jié)果中選擇一個(gè)分詞,構(gòu)造該分詞的特征,針對場景庫的每個(gè)主題詞典計(jì)算特征的最大熵模型得分,判斷是否將該分詞添加到場景庫的某個(gè)主題詞典中,并進(jìn)行相應(yīng)的添加。循環(huán)執(zhí)行本方法,可以基于正確分詞結(jié)果中的每個(gè)分詞,對場景庫進(jìn)行更新。
或者,也可以離線執(zhí)行根據(jù)示例性實(shí)施例的中文分詞場景庫更新方法,從而實(shí)現(xiàn)場景庫的離線批量更新。例如,在使用場景庫之前,針對已經(jīng)進(jìn)行正確分詞的一批語料,執(zhí)行根據(jù)示例性實(shí)施例的中文分詞場景庫更新方法,從而可以將一批語料中所有與場景庫所包括的主題詞典相關(guān)聯(lián)的分詞批量寫入各主題詞典中。
在本發(fā)明的一種優(yōu)選實(shí)施例中,根據(jù)示例性實(shí)施例的中文分詞場景庫更新方法還包括以下步驟:
步驟201:在場景庫中建立熱點(diǎn)詞庫
除了主題詞典之外,在場景庫中建立單獨(dú)的熱點(diǎn)詞庫,用于存儲(chǔ)熱點(diǎn)詞。例如,在示例性實(shí)施例中,場景庫中除了包括12個(gè)主題詞典外,還包括一個(gè)單獨(dú)的熱點(diǎn)詞庫。
步驟202:選擇與場景庫的應(yīng)用場景相關(guān)聯(lián)的至少一個(gè)語料,將至少一個(gè)語料中出現(xiàn)次數(shù)大于預(yù)定閾值的分詞作為熱點(diǎn)分詞
選擇與場景庫的應(yīng)用場景相關(guān)聯(lián)的一個(gè)或多個(gè)語料,將語料中出現(xiàn)次數(shù)大于預(yù)定閾值的分詞作為熱點(diǎn)分詞。例如,如果場景庫應(yīng)用于兒童閑聊場景,那么選擇兒童閑聊日志語料,找到其中出現(xiàn)次數(shù)大于閾值的分詞,例如“牛奶”,作為熱點(diǎn)分詞。
步驟203:判斷熱點(diǎn)分詞是否存在于場景庫中
通過搜索等方式判斷在步驟202中所確定的熱點(diǎn)分詞是否已經(jīng)存在于場景庫中。
例如,通過搜索場景庫的各個(gè)主題詞典,判斷在步驟202中確定的熱點(diǎn)分詞“牛奶”不在場景庫中。
步驟204:將不存在于場景庫中的熱點(diǎn)分詞添加到熱點(diǎn)詞庫中
如果在步驟203中判斷熱點(diǎn)分詞不存在于場景庫中,那么將該熱點(diǎn)分詞添加到熱點(diǎn)詞庫中,否則,如果在步驟203中判斷該熱點(diǎn)分詞已經(jīng)存在于場景庫中,那么不進(jìn)行處理。
例如,在本步驟中,將熱點(diǎn)分詞“牛奶”添加到熱點(diǎn)詞庫中。
通過以上步驟201至204,進(jìn)一步將與特定應(yīng)用場景相關(guān)聯(lián)的熱點(diǎn)分詞添加到場景庫中,從而對場景庫進(jìn)行了更新,使場景庫更適用于特定的應(yīng)用場景。
以上步驟201至204所述的場景庫的熱點(diǎn)詞庫的更新,優(yōu)選地以離線方式進(jìn)行。即在使用場景庫之前,針對已經(jīng)進(jìn)行正確分詞的一批語料,執(zhí)行以上步驟201至204,從而可以將一批語料中所包含的熱點(diǎn)分詞批量寫入場景庫的熱點(diǎn)詞庫中。
在本發(fā)明的一種優(yōu)選實(shí)施例中,為了便于場景庫的更新,場景庫可采用二進(jìn)制格式的文件。對于二進(jìn)制格式的文件,在更新場景庫時(shí),可首先檢查待添加分詞是否已經(jīng)存在于文本文件中,如果不存在,采用追加的方式更新場景庫,以保證在添加新分詞時(shí),不會(huì)把已有的分詞刪除;如果存在,不進(jìn)行任何操作。
在本發(fā)明的一種優(yōu)選實(shí)施例中,根據(jù)示例性實(shí)施例的中文分詞場景庫更新方法還包括以下步驟:
建立備用文本文件;
通過手動(dòng)方式將與場景庫的主題詞典相關(guān)聯(lián)的分詞添加到備用文本文件中。
為了進(jìn)一步擴(kuò)充場景庫,可以建立備用文本文件。然后,人工選擇一批與場景庫的主題詞典相關(guān)聯(lián)的分詞,通過手動(dòng)方式將這些分詞添加到備用文本文件中。在使用場景庫之前,首先判斷備用文本文件是否經(jīng)過修改,如果經(jīng)過修改,則讀取備用文本文件,并以二進(jìn)制格式將備用文本文件的內(nèi)容寫入場景庫相應(yīng)的主題詞典中。在寫入時(shí),對于已經(jīng)存在于場景庫中的分詞不再進(jìn)行操作,對于不存在于場景庫中的分詞,將其寫入場景庫相應(yīng)的主題詞典中。作為優(yōu)選方案,可以在讀取備用文本文件之前,對備用文本文件進(jìn)行去重處理,刪除其中重復(fù)的分詞。
對于方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。
參考圖2,示出了根據(jù)示例性實(shí)施例的中文分詞場景庫更新系統(tǒng)的結(jié)構(gòu)框圖,其中場景庫包括至少一個(gè)主題詞典,所述中文分詞場景庫更新系統(tǒng)包括:
分詞選擇模塊1101,用于在語句的正確分詞結(jié)果中,選擇一個(gè)分詞;
分詞特征構(gòu)造模塊1102,用于基于正確分詞結(jié)果,構(gòu)造分詞的特征;
計(jì)算模塊1103,用于針對場景庫的每個(gè)主題詞典,計(jì)算特征的最大熵模型得分;
主題詞典更新模塊1104,比較最大熵模型得分中的最大值與第一預(yù)定閾值,如果最大值大于第一預(yù)定閾值,將分詞添加到最大值對應(yīng)的主題詞典中。
在本發(fā)明的一種優(yōu)選實(shí)施例中,分詞特征構(gòu)造模塊通過以下方式基于正確分詞結(jié)果構(gòu)造分詞的特征:
正確分詞結(jié)果包括L個(gè)分詞,依次為z1至zL,其中第i個(gè)分詞zi的特征包括:
zi-2,zi-1,zi+1,zi+2,zizi+1,zi+1zi+2,zi-1zi,zi-2zi-1,zi-1zi+1。
在本發(fā)明的一種優(yōu)選實(shí)施例中,中文分詞場景庫更新系統(tǒng)還包括:
熱點(diǎn)詞庫建立模塊,用于在場景庫中建立熱點(diǎn)詞庫;
熱點(diǎn)分詞選擇模塊,用于選擇與場景庫的應(yīng)用場景相關(guān)聯(lián)的至少一個(gè)語料,將至少一個(gè)語料中出現(xiàn)次數(shù)大于第二預(yù)定閾值的分詞作為熱點(diǎn)分詞;
判斷模塊,用于判斷熱點(diǎn)分詞是否存在于場景庫中;
熱點(diǎn)分詞添加模塊,用于將不存在于場景庫中的熱點(diǎn)分詞添加到熱點(diǎn)詞庫中。
在本發(fā)明的一種優(yōu)選實(shí)施例中,場景庫為二進(jìn)制格式的文件。
在本發(fā)明的一種優(yōu)選實(shí)施例中,中文分詞場景庫更新系統(tǒng)還包括:
備用文本文件建立模塊,用于建立備用文本文件;
手動(dòng)添加模塊,用于通過手動(dòng)方式將與場景庫的主題詞典相關(guān)聯(lián)的分詞添加到備用文本文件中。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明實(shí)施例可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明實(shí)施例是參照根據(jù)本發(fā)明實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌 入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖1個(gè)流程或多個(gè)流程和/或方框圖1個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖1個(gè)流程或多個(gè)流程和/或方框圖1個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上,使得在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖1個(gè)流程或多個(gè)流程和/或方框圖1個(gè)方框或多個(gè)方框中指定的功能的步驟。
盡管已描述了本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明實(shí)施例范圍的所有變更和修改。
最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)......”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設(shè)備中還存在另外的相同要素。
以上對本發(fā)明所提供的一種中文分詞場景庫更新方法和裝置進(jìn)行了詳細(xì)介 紹,本文中應(yīng)用了具體個(gè)例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。