欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分詞方法和裝置的制造方法_3

文檔序號:9506164閱讀:來源:國知局
實施例的方法也可以應用到語音識別的語言模型中,此時,詞條具體是指用于建立語言模型的詞條,從而提高語音識別效果。
[0074]更新模塊32,用于獲取第一詞條集合,在所述第一詞條集合中選擇滿足預設條件的詞條,以及,獲取分詞詞典,采用獲取的分詞詞典對所述滿足預設條件的詞條進行分詞,并用分詞后的詞條更新獲取的分詞詞典,其中,初始的第一詞條集合由已有的詞條組成,以及,初始獲取的分詞詞典是所述初始的分詞詞典;
[0075]在獲取已有的詞條時,還可以獲取已有的詞條的相關信息,相關信息例如包括:長度和詞頻。
[0076]滿足預設條件的詞條例如包括:長度大于長度閾值的詞條,和/或,詞頻大于詞頻閾值的詞條。
[0077]可選的,所述更新模塊32用于采用所述初始的分詞詞典對所述滿足預設條件的詞條進行分詞,并用分詞后的詞條更新初始的分詞詞典,包括:
[0078]將滿足預設條件的詞條作為被分詞的詞條,對應每個被分詞的詞條,在獲取的分詞詞典的除所述被分詞的詞條之外的詞條中,優(yōu)先選擇長度最大的詞條對所述被分詞的詞條進行分詞,得到分詞后的詞條;
[0079]在獲取的分詞詞典中,用分詞后的詞條替換對應的被分詞的詞條,并進行去重處理后,得到更新后的分詞詞典。
[0080]采用初始的分詞詞典對滿足預設條件的詞條進行分詞時,使用最大詞條原則,例如,對詞條A進行分詞時,使用初始的分詞詞典中除詞條A之外的其他詞條中長度最大的詞條進行分詞。
[0081]用分詞后的詞條更新獲取的分詞詞典例如包括:在獲取的分詞詞典中,用分詞后的詞條替換相應的被分詞的詞條,例如,對詞條A進行分詞后得到詞條B和詞條C,則在獲取的分詞詞典中添加詞條B和詞條C,且刪除詞條A。另外,如果替換的詞條中存在相同的詞條,則還需要進行去重處理。例如,對詞條D進行分詞后得到詞條B和詞條E,由于詞條B存在重復,則可以在更新后的分詞詞典中只保留一個詞條B,刪除其余重復的詞條B。
[0082]分詞模塊33,用于采用更新后的分詞詞典對所述第一詞條集合中的詞條進行分詞,根據(jù)分詞后的詞條獲取第二詞條集合;
[0083]在獲取更新后的分詞詞典后,可以用該更新后的分詞詞典對第一詞條集合中的每個詞條進行分詞,得到分詞后的詞條。在得到分詞后的詞條后可以進行去重處理,由去重后的詞條組成第二詞條集合。去重后,相同詞條的詞頻累加更新。
[0084]獲取模塊34,用于在確定滿足收斂條件時,根據(jù)所述第二詞條集合獲取分詞結(jié)果。
[0085]可選的,所述獲取模塊34用于根據(jù)所述第二詞條集合獲取分詞結(jié)果,包括:
[0086]在所述第二詞條集合中去除詞頻小于預設值的詞條,將所述第二詞條集合中剩余的詞條確定為分詞結(jié)果。
[0087]一項實施例中,參見圖4,該裝置30還包括:
[0088]確定模塊35,用于獲取第一詞條集合的詞條總數(shù)和第二詞條集合的詞條總數(shù),根據(jù)所述第一詞條集合的詞條總數(shù)和第二詞條集合的詞條總數(shù)計算詞條增加率;以及,如果所述詞條增加率小于或等于預設的詞條增加率閾值,且,預設的長度閾值小于或等于預設的第一值,確定滿足收斂條件。
[0089]假設第一詞條集合的詞條總數(shù)是N1,第二詞條集合的詞條總數(shù)是N2,則詞條增加率是(N2-N1)/N1,另外,在上述步驟中獲取滿足預設條件的詞條時會涉及長度閾值,則當詞條增加率小于或等于預設詞條增加率閾值,且長度閾值小于或等于預設的第一值時,確定滿足收斂條件。
[0090]一項實施例中,參見圖4,該裝置30還包括:
[0091]第一處理模塊36,用于如果所述詞條增加率大于預設的詞條增加率閾值,將所述第二詞條集合作為下次循環(huán)的第一詞條集合,重新獲取分詞結(jié)果。
[0092]例如,用S2作為下一次循環(huán)的S1,相應地,在下一次循環(huán)時S1的相關參數(shù),如詞條總數(shù)、每個詞條的長度和詞頻都用S2的相應參數(shù)。
[0093]一項實施例中,參見圖4,該裝置30還包括:
[0094]第二處理模塊37,用于如果所述詞條增加率小于或等于預設的詞條增加率閾值,且預設的長度閾值大于預設的第一值,小于或等于預設的第二值,則減小預設的長度閾值和減小預設的詞頻閾值,并將所述第二詞條集合作為下次循環(huán)的第一詞條集合,重新獲取分詞結(jié)果;或者,如果所述詞條增加率小于或等于預設的詞條增加率閾值,且預設的長度閾值大于預設的第二值,重新根據(jù)所述第一詞條集合獲取分詞結(jié)果。
[0095]其中,預設的第一值例如為2,預設的第二值例如為3。
[0096]減小的數(shù)值可以預先設置。
[0097]預設值可以預先設置。
[0098]可以理解的是,上述各項預設參數(shù)可以根據(jù)實際情況調(diào)整。另外,臨界點的值可以劃分到大于或小于側(cè),如判斷詞條長度是否大于預設的長度閾值,也可以是判斷詞條長度是否大于或等于預設的長度閾值。
[0099]本實施例中,通過已有的詞條建立初始的分詞詞典,并根據(jù)對滿足預設條件的詞條進行分詞后的詞條更新分詞詞典,以及根據(jù)更新后的分詞詞典對已有的詞條進行分詞,可以根據(jù)已有的詞條本身進行分詞,相對于第三方詞典的方式,可以提高詞典的匹配度和準確度,從而提高分詞效果。另外,根據(jù)實際情況可以調(diào)整相應的參數(shù),可以達到理想的分詞效果。
[0100]需要說明的是,在本發(fā)明的描述中,術語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。此外,在本發(fā)明的描述中,除非另有說明,“多個”的含義是指至少兩個。
[0101]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本發(fā)明的實施例所屬技術領域的技術人員所理解。
[0102]應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
[0103]本技術領域的普通技術人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
[0104]此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模
當前第3頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
梁河县| 南投县| 紫金县| 梁平县| 云南省| 宁乡县| 嘉祥县| 威信县| 衡南县| 京山县| 柳江县| 凤庆县| 绥滨县| 金溪县| 临西县| 开化县| 云阳县| 广河县| 昭通市| 彩票| 格尔木市| 法库县| 玛纳斯县| 明水县| 黔江区| 紫金县| 樟树市| 武安市| 荥阳市| 芷江| 张家口市| 苏尼特右旗| 沈阳市| 北碚区| 建瓯市| 衢州市| 新田县| 乐安县| 多伦县| 眉山市| 盐亭县|