分詞的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其設(shè)及一種分詞的方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,信息服務(wù)變得越來(lái)越普遍。信息服務(wù)提供商提供信息服 務(wù)時(shí),通常會(huì)挖掘?qū)嶓w(現(xiàn)實(shí)世界中的客觀事物稱(chēng)為實(shí)體,例如概念、事物或事件等)之間的 關(guān)聯(lián)關(guān)系,并根據(jù)實(shí)體之間的關(guān)聯(lián)關(guān)系提供信息服務(wù)。例如,"南方航空"是"一帶一路"的概 念股票,二者是實(shí)體的實(shí)例并且之間存在聯(lián)系,基于運(yùn)種關(guān)聯(lián)關(guān)系通過(guò)檢索"一帶一路"可 W獲取與其相關(guān)的概念股票。實(shí)體之間的關(guān)聯(lián)關(guān)系通常是在文本分詞基礎(chǔ)之上通過(guò)計(jì)算共 現(xiàn)等測(cè)度獲得,因此分詞性能的好壞直接影響后續(xù)處理及最終的關(guān)聯(lián)結(jié)果。
[0003] 在現(xiàn)有技術(shù)中通常有基于詞典的分詞和基于統(tǒng)計(jì)模型的分詞,如公開(kāi)號(hào)為 102982099A的專(zhuān)利文獻(xiàn),提供了一種個(gè)性化并行分詞處理系統(tǒng)及其處理方法?;谠~典的 分詞方法分詞效率較高但準(zhǔn)確性較差,而基于統(tǒng)計(jì)模型的分詞方法可W自動(dòng)學(xué)習(xí)詞語(yǔ)切分 的規(guī)則,在歧義切分效果上較好,但受限于訓(xùn)練語(yǔ)料分詞結(jié)果在粒度和一致性上不夠穩(wěn)定, 性能較差?;贜-最短路徑的分詞方法結(jié)合詞典與統(tǒng)計(jì)模型在分詞速度和準(zhǔn)確度兩方面都 取得了較好效果,但受限詞典與統(tǒng)計(jì)模型,對(duì)于詞的切分常常過(guò)于細(xì),例如"可穿戴設(shè)備"被 切分為"可"、"穿戴"和"設(shè)備",但在特定領(lǐng)域內(nèi)常常需要將"可穿戴設(shè)備"作為一個(gè)整詞來(lái) 與其他實(shí)體建立關(guān)聯(lián)。通??刹捎妙I(lǐng)域詞典的方式對(duì)初始分詞結(jié)果中的詞進(jìn)行機(jī)械合并, 但運(yùn)種方法只能合并領(lǐng)域詞典中包含的詞,例如詞典中只包含"廣東旅游"、"北京旅游"貝U 只能合并運(yùn)兩個(gè)詞而不能合并"西藏旅游",并且常由于不考慮上下文信息而導(dǎo)致錯(cuò)誤的合 并。
[0004] N-最短路徑W及其他基于詞典和統(tǒng)計(jì)模型的分詞方法對(duì)特定領(lǐng)域的詞常常切分 過(guò)細(xì)導(dǎo)致部分實(shí)體之間的關(guān)聯(lián)無(wú)法建立,例如在金融領(lǐng)域,一些概念與股票的名詞通常是 由幾個(gè)較短的單詞組合而成,在切分過(guò)程中很容易被切分成多個(gè)較短的單詞,運(yùn)對(duì)運(yùn)些特 定領(lǐng)域內(nèi)實(shí)體關(guān)聯(lián)的建立非常不利。而采用領(lǐng)域詞典的方式雖然能合并詞典中包含的詞, 但常常導(dǎo)致錯(cuò)誤的合且不具有泛化能力。
【發(fā)明內(nèi)容】
[0005] 針對(duì)現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提出一種分詞的方法和裝置,在原始分詞的基 礎(chǔ)上考慮上下文信息從而可使特定領(lǐng)域內(nèi)的實(shí)體在分詞結(jié)果中正確切分,并通過(guò)對(duì)領(lǐng)域詞 典中的詞模式進(jìn)行自動(dòng)學(xué)習(xí)可識(shí)別出具有相同模式的詞從而進(jìn)行正確切分,例如詞典中只 包含"廣東旅游"、"北京旅游",對(duì)于"西藏旅游"也能正確切出來(lái),從而提升實(shí)體之間的關(guān)聯(lián) 效果。
[0006] 本發(fā)明的技術(shù)方案是:首先使用條件隨機(jī)場(chǎng)(簡(jiǎn)稱(chēng)CRF)訓(xùn)練詞標(biāo)注模型:訓(xùn)練詞標(biāo) 注模型的方法為:采集語(yǔ)料庫(kù),并使用N-最短路徑分詞方法對(duì)語(yǔ)料庫(kù)進(jìn)行分詞,然后使用領(lǐng) 域詞典對(duì)語(yǔ)料庫(kù)分詞結(jié)果進(jìn)行標(biāo)注,將標(biāo)注后的語(yǔ)料庫(kù)使用CRF工具進(jìn)行訓(xùn)練得到詞標(biāo)注 模型;得到詞標(biāo)注模型后即可進(jìn)入分詞應(yīng)用,分詞應(yīng)用其方法為:首先使用N-最短路徑分詞 方法對(duì)文本進(jìn)行初始分詞,對(duì)初始分詞結(jié)果基于詞標(biāo)注模型進(jìn)行序列標(biāo)注,將包含特定標(biāo) 注的詞進(jìn)行合并得到最終分詞結(jié)果。關(guān)于領(lǐng)域詞典,就是特定領(lǐng)域的定制詞典,就是具體應(yīng) 用領(lǐng)域中,需要在分詞中完整切分的詞,例如金融領(lǐng)域中的相關(guān)概念詞如"一帶一路"、股票 全稱(chēng)W及簡(jiǎn)稱(chēng)等。
[0007]具體地,一種分詞方法,包括詞標(biāo)注模型訓(xùn)練和分詞應(yīng)用兩個(gè)階段,首先使用條件 隨機(jī)場(chǎng)(簡(jiǎn)稱(chēng)CR巧訓(xùn)練詞標(biāo)注模型,得到詞標(biāo)注模型后即可進(jìn)入分詞應(yīng)用。
[000引所述詞標(biāo)注模型訓(xùn)練包括W下步驟:
[0009] Sl.采集語(yǔ)料庫(kù)和準(zhǔn)備語(yǔ)料庫(kù)所屬領(lǐng)域的領(lǐng)域詞典
[0010] 隨機(jī)選取一定時(shí)期內(nèi)一技術(shù)領(lǐng)域內(nèi)的新聞?wù)Z料,并選取該領(lǐng)域的領(lǐng)域詞典;
[0011] S2.對(duì)語(yǔ)料庫(kù)進(jìn)行分詞并進(jìn)行詞性標(biāo)注,得到分詞列表;
[0012] 分詞所采用的方法可W選N-最短路徑分詞方法、最短路徑分詞方法、正向最大匹 配分詞方法、逆向最大匹配分詞方法、雙向最大匹配分詞方法、隱馬爾科夫模型分詞方法或 條件隨機(jī)場(chǎng)模型分詞方法;對(duì)語(yǔ)料庫(kù)分詞結(jié)果進(jìn)行詞性標(biāo)注所采用的方法為隱馬爾科夫模 型標(biāo)注、最大賭模型標(biāo)注或條件隨機(jī)場(chǎng)模型標(biāo)注。
[0013] S3.根據(jù)領(lǐng)域詞典對(duì)步驟S2的分詞結(jié)果采用"BI爐標(biāo)記進(jìn)行標(biāo)注得到訓(xùn)練語(yǔ)料;
[0014] ①遍歷分詞列表:對(duì)詞進(jìn)行向后取N個(gè)詞進(jìn)行組合,遇到標(biāo)點(diǎn)符號(hào)則停止,每個(gè)詞 最多可產(chǎn)生N-I個(gè)詞組合,得到當(dāng)前詞的詞組合列表;運(yùn)里的分詞列表是步驟S2步驟中經(jīng)分 詞后得到。
[0015] ②遍歷詞組合列表,將詞組合與領(lǐng)域詞典進(jìn)行比較,獲取包含于領(lǐng)域詞典中的最 長(zhǎng)詞組合;
[0016] ③若最長(zhǎng)詞組合存在,則對(duì)最長(zhǎng)詞組合中包含的第一個(gè)詞標(biāo)注為"B",其他詞標(biāo)注 為"I";
[0017] ④若當(dāng)前詞的最長(zhǎng)詞組合不存在,則將當(dāng)前詞標(biāo)注為"爐;
[0018] ⑤將標(biāo)注結(jié)果保存成CRF工具所要求的格式;
[0019] S4.采用CRF工具對(duì)訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練得到詞標(biāo)注模型;
[0020] S5.輸出詞標(biāo)注模型,完成模型訓(xùn)練;
[0021] 所述分詞應(yīng)用包括W下步驟:
[0022] a)讀取文本,加載詞標(biāo)注模型,采用與模型訓(xùn)練其步驟S2中相同的方法對(duì)文本進(jìn) 行初始分詞及詞性標(biāo)注,得到初始分詞列表;
[0023] b)基于初始分詞列表構(gòu)建特征表;
[0024] 特征表是一個(gè)M*3大小的二維列表T[M] [3],其中M為分詞列表的長(zhǎng)度;遍歷初始分 詞列表,對(duì)于第i個(gè)詞,將該詞的字符記錄在T[i][l],詞性記錄在T[i][2],其中假設(shè)列表的 索引從1開(kāi)始;
[0025] C)對(duì)特征表T使用模型訓(xùn)練中得到的詞標(biāo)注模型進(jìn)行標(biāo)注,將標(biāo)注結(jié)果保存在特 征表對(duì)應(yīng)位置的第=列;標(biāo)注過(guò)程采用維特比解碼算法;
[0026] d)根據(jù)詞標(biāo)注結(jié)果進(jìn)行詞合并
[0027] ①初始化分詞結(jié)果列表r;
[0028] ②遍歷特征表T,假設(shè)當(dāng)前位置為i,若T[i][3]為"B"標(biāo)注,則繼續(xù)查找鄰接的最后 一個(gè)"r標(biāo)注的位置j,將i到j(luò)之間的詞合并為一個(gè)詞,加入到分詞結(jié)果列表r并更新遍歷位 置為j+1;
[0029] ③若否即T[i][3]不為"B"標(biāo)注則直接將當(dāng)前詞加入到r;
[0030] e)輸出最終分詞結(jié)果。
[0031] 本發(fā)明提供一種分詞裝置,包括用于模型訓(xùn)練階段的分詞&標(biāo)注模塊和CRF訓(xùn)練模 塊,W及用于分詞應(yīng)用階段的初始分詞模塊、詞標(biāo)注模塊和詞合并模塊;
[0032] 所述分詞&標(biāo)注模塊對(duì)采集的語(yǔ)料庫(kù)進(jìn)行分詞然后對(duì)分詞結(jié)果進(jìn)行前后組合并使 用領(lǐng)域詞典進(jìn)行標(biāo)注,得到用于CRF訓(xùn)練的標(biāo)注訓(xùn)練集;CRF訓(xùn)練模塊配置特征模板并使用 CRF工具對(duì)標(biāo)注訓(xùn)練集進(jìn)行訓(xùn)練得到詞標(biāo)注模型,并將詞標(biāo)注模型W文件形式保存用于分 詞應(yīng)用;
[0033] 所述初始分詞模塊對(duì)輸入文本進(jìn)行初始切分和詞性標(biāo)注,得到初始分詞信息列 表;詞標(biāo)注模塊對(duì)初始分詞信息列表構(gòu)建特征表,然后加載詞標(biāo)注模型使用維特比算法對(duì) 特征表進(jìn)行標(biāo)注,并將標(biāo)注結(jié)果保存在特征表的最后一列;詞合并模塊對(duì)特征表的最后一 列標(biāo)注結(jié)果進(jìn)行分析,對(duì)于符合{BI+}(表示W(wǎng)B標(biāo)注開(kāi)始,后面接一個(gè)到多個(gè)I標(biāo)注)標(biāo)注序 列的若干詞將其合并為新詞,得到最終分詞結(jié)果進(jìn)行輸出。
[0034] 其中,所述分詞&標(biāo)注模塊對(duì)采集的語(yǔ)料庫(kù)采用N-最短路徑分詞,采用隱馬爾科夫 模型進(jìn)行詞性標(biāo)注。
[0035] 所述初始分詞模塊對(duì)輸入文本采用了N-最短路徑分詞,采用隱馬爾科夫模型進(jìn)行 詞性標(biāo)注。
[0036] 本發(fā)明的有益技術(shù)效果:
[0037] 1.采用多層分詞,可根據(jù)需要控制分詞的切分粒度;
[0038] 2.采用CRF進(jìn)行詞標(biāo)注,考慮了全局上下文信息,有利于提高詞合并的準(zhǔn)確性;
[0039] 3.通過(guò)CRF訓(xùn)練的詞標(biāo)注模型可自動(dòng)學(xué)習(xí)語(yǔ)料庫(kù)中的規(guī)則模式,對(duì)相同模式但未 包含于領(lǐng)域詞典中的詞也可識(shí)別出來(lái),具有一定的新詞發(fā)現(xiàn)能力。
【附圖說(shuō)明】
[0040] 圖1為本發(fā)明一種分詞裝置的功能模塊圖 [0041 ]圖2為詞標(biāo)注模型訓(xùn)練流程圖
[0042] 圖3為訓(xùn)練語(yǔ)料標(biāo)注流程圖
[0043] 圖4為分詞應(yīng)用流程圖
【具體實(shí)施方式】
[0044] 下面結(jié)合附圖,對(duì)本發(fā)明作進(jìn)一步的說(shuō)明:
[0045] 本發(fā)明根據(jù)應(yīng)用領(lǐng)域的領(lǐng)域詞典(例如對(duì)于金融領(lǐng)域,領(lǐng)域詞典可包含相關(guān)概念 詞如"一帶一路"、股票全稱(chēng)W及簡(jiǎn)稱(chēng)等)對(duì)語(yǔ)料庫(kù)進(jìn)行標(biāo)注并采用CRF進(jìn)行訓(xùn)練得到詞標(biāo)注 模型,然后采用常用分詞算法對(duì)文本進(jìn)行初始切分,對(duì)初始切分結(jié)果基于詞標(biāo)注模型進(jìn)行 合并得到最終的分詞結(jié)果。
[0046] 本發(fā)明包括模型訓(xùn)練(即詞標(biāo)注模型訓(xùn)練)與分詞應(yīng)用兩個(gè)階段,其中詞標(biāo)注模型 訓(xùn)練階段采用CRF工具離線訓(xùn)練詞標(biāo)注模型用于分詞應(yīng)用階段的詞標(biāo)注,由分詞&標(biāo)注模塊 和CRF訓(xùn)練模塊兩部分組成;分詞應(yīng)用階段實(shí)時(shí)對(duì)文本進(jìn)行分詞應(yīng)用,包括初始分詞模塊、 詞標(biāo)注模塊和詞合并模塊,如圖1所示。
[0047] 模型訓(xùn)練階段:分詞&標(biāo)注模塊對(duì)采集的語(yǔ)料庫(kù)使用常規(guī)分詞技術(shù)進(jìn)行分詞然后 對(duì)分詞結(jié)果進(jìn)行前后組合并使用領(lǐng)域詞典進(jìn)行標(biāo)注,得到用于CRF訓(xùn)練的標(biāo)注訓(xùn)練集;CRF 訓(xùn)練模塊配置特征模板并使用CRF工具對(duì)標(biāo)注訓(xùn)練集進(jìn)行訓(xùn)練得到詞標(biāo)注模型,并將詞標(biāo) 注模型W文件形式保存用于分詞應(yīng)用。模型訓(xùn)練階段只需在分詞應(yīng)用階段之前進(jìn)行一次即 可,得到詞標(biāo)注模型進(jìn)行保存。
[0048] 所述初始分詞模塊對(duì)輸入文本進(jìn)行初始切分和詞性標(biāo)注,得到初始分詞信息列 表;詞標(biāo)注模塊對(duì)初始分詞信息列表構(gòu)建特征表,然后加載詞標(biāo)注模型使用維特比算法對(duì) 特征表進(jìn)行標(biāo)注,并將標(biāo)注結(jié)果保存在特征表的最后一列;詞合并模塊對(duì)特征表的最后一 列標(biāo)注結(jié)果進(jìn)行分析,對(duì)于符合{BI+}(表示W(wǎng)B標(biāo)注開(kāi)始,后面接一個(gè)到多個(gè)I標(biāo)注)標(biāo)注序 列的若干詞將其合并為新詞,得到最終分詞結(jié)果進(jìn)行輸出。
[0049] -種分詞方法,包括詞標(biāo)注模型訓(xùn)練和分詞應(yīng)用兩個(gè)階段,
[0050] 參照?qǐng)D2,詞標(biāo)注模型訓(xùn)練包括W下步驟:
[0051] a)采集語(yǔ)料庫(kù)和準(zhǔn)備領(lǐng)域詞典(指在具體應(yīng)用領(lǐng)域中,需要在分詞中完整切分的 詞,例如金融領(lǐng)域中的相關(guān)概念詞、股票全稱(chēng)W及簡(jiǎn)稱(chēng)等)。隨機(jī)選取一定時(shí)期內(nèi)特定領(lǐng)域 內(nèi)的新聞?wù)Z料,例如財(cái)經(jīng)領(lǐng)域。領(lǐng)域詞典可選取特定領(lǐng)域內(nèi)的實(shí)體W及其他業(yè)務(wù)需要的詞。 比如先從互聯(lián)網(wǎng)將領(lǐng)域類(lèi)相關(guān)的網(wǎng)頁(yè)爬取下來(lái)存儲(chǔ)在數(shù)據(jù)庫(kù)中,然后從其中隨機(jī)選取。
[0052] b)對(duì)語(yǔ)料庫(kù)使用常用分詞技術(shù)進(jìn)行分詞并進(jìn)行詞性標(biāo)注。在案例實(shí)施中采用了 N-最短路徑分詞,采用隱馬爾科夫模型進(jìn)行詞性標(biāo)注。
[0053] C)根據(jù)領(lǐng)域詞典對(duì)分詞結(jié)果采用"BI0"標(biāo)記進(jìn)行標(biāo)注得到訓(xùn)練語(yǔ)料,參照?qǐng)D3