專利名稱:中文整句生成方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及中文輸入技術(shù),尤其涉及一種中文整句生成方法及裝置。
技術(shù)背景目前,多數(shù)中文輸入軟件都有整句生成的功能,比如,用戶想輸入"中華 人民共和國,,,那么,用戶只需要在輸入法軟件中連續(xù)輸入拼音串"zhonghuarenmingongheguo",即可得到正確的整句生成結(jié)果,請參見圖1。 請參見圖2,為現(xiàn)有技術(shù)提供的中文整句生成方法流程圖,包括 步驟201:對拼音串進(jìn)行音節(jié)劃分;步驟202:根據(jù)音節(jié)劃分結(jié)果,在拼音詞典中查找拼音串中出現(xiàn)的所有候 選詞,并構(gòu)建候選詞有向圖,該有向圖的每一條弧對應(yīng)一個或若干個候選詞, 并且每一條弧都帶有詞頻最大的候選詞的詞頻;其中,拼音詞典中記錄著拼音到候選詞的映射關(guān)系,所述詞頻是指候選 詞出現(xiàn)的次數(shù)。步驟203:根據(jù)所述有向圖攜帶的詞頻,獲得每條弧的概率;其中,獲得每條弧的概率具體包括用所述有向圖的每條弧攜帶的詞頻 分別除以拼音詞典中所有詞的詞頻總和,得到每條弧的概率。步驟204:利用最短路徑算法(如Dijkstra算法,Viterbi算法等)求出概 率最大的一條路徑(候選詞組合方案)作為整句生成結(jié)果;步驟205:將所述整句生成結(jié)果顯示在候選詞窗口的第一位,以及將有向 圖的起始弧對應(yīng)的候選詞按照詞頻由高到低的順序依次顯示在候選詞窗口 中。以Viterbi算法為例,簡要描述步驟204的具體實(shí)現(xiàn)過程。 從所述有向圖的起始結(jié)點(diǎn)開始,計算每個結(jié)點(diǎn)的累計概率(概率的乘積), 起始結(jié)點(diǎn)的累計概率初始化為1,選取每個結(jié)點(diǎn)的累計概率中最大的一個作為 該結(jié)點(diǎn)的累計概率并記錄對應(yīng)的前向結(jié)點(diǎn)序號,直到獲得所述有向圖的最后 一個結(jié)點(diǎn)的累計概率及其前向結(jié)點(diǎn)序號;然后,從所述有向圖的最后一個結(jié)點(diǎn)開始,根據(jù)記錄的前向結(jié)點(diǎn)序號向前回溯, 一直回溯到起始結(jié)點(diǎn),獲得概 率最大的一條路徑,將該路徑中每條弧對應(yīng)的候選詞順序組合得到整句生成結(jié)果。其中,累計概率的計算公式為當(dāng)前結(jié)點(diǎn)的累計概率=其前向結(jié)點(diǎn)的 累計概率*前向弧的概率。以下舉例說明現(xiàn)有中文整句生成方法的實(shí)現(xiàn)過程。例如,用戶輸入拼音串"womendoushipingfanren,,,音節(jié)劃分后的結(jié)果為 "wo, men, dou, shi, ping' fan, ren",根據(jù)這個音節(jié)劃分結(jié)果,在拼音詞 典中查找該拼音串中出現(xiàn)的所有候選詞,并構(gòu)建如圖3 (a)所示的候選詞有 向圖,該有向圖的每條弧都對應(yīng)了一個或多個候選詞(候選詞由上至下按照 詞頻從高到低的順序排列),而且每一條弧都攜帶有詞頻最大的候選詞(即圖 中排在最上面的候選詞)的詞頻(圖中未標(biāo)注);采用Viterbi算法得到整句生 成結(jié)果為"我們都是平凡人,,,該整句生成結(jié)果顯示在候選詞窗口的第一位, 如圖3 (b)所示,從候選詞窗口的第二位開始按照詞頻由高到低的順序依次 顯示該有向圖的起始弧對應(yīng)的候選詞"我們,,"我""握"等。但是,通常情況下用戶并不習(xí)慣連續(xù)輸入一組很長的拼音串,而是習(xí)慣 以詞為單位輸入拼音串,比如,用戶想輸入"這間臥室很大,,,如果用戶分兩次 輸入,第一次輸入"zhejian,',生成的詞語請參見圖4 (a),用戶選擇"這間,,, 繼續(xù)輸入"woshihenda,,,生成的詞語請參見圖4(b),排在第一位的候選詞 為"我是很大,,,該整句生成結(jié)果不符合用戶的要求,用戶需要先選擇2,得到 圖4(c)顯示的結(jié)果,然后用戶再選擇l,得到正確的整句生成結(jié)果"臥室很 大"。現(xiàn)有技術(shù)的缺陷在于由于現(xiàn)有技術(shù)在整句生成時只考慮詞頻最高的候 選詞,這使得用戶在分多次輸入整句時,候選詞窗口的第一位顯示的整句生 成結(jié)果精度不高,用戶需要進(jìn)行多次的選擇操作才能得到正確的整句生成結(jié) 果,影響用戶的輸入速度。發(fā)明內(nèi)容本發(fā)明實(shí)施例要解決的技術(shù)問題是提供一種中文整句生成方法及裝置,
能夠得到準(zhǔn)確的整句生成結(jié)果。為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供了一種中文整句生成方法,包括獲取前次生成的候選詞;獲取拼音串中出現(xiàn)的候選詞,構(gòu)建候選詞有向圖;從所述有向圖的起始弧對應(yīng)的候選詞中,選擇出所述前次生成的候選詞對應(yīng)的條件概率最大的候選詞;基于所述條件概率最大的候選詞,獲得所述拼音串的整句生成結(jié)果。 優(yōu)選的,所述選擇出所述前次生成的候選詞對應(yīng)的條件概率最大的候選詞具體包括將所述有向圖的起始弧對應(yīng)的候選詞分別與所述前次生成的候選詞組合;分別查詢所述候選詞組合的詞頻,所述起始弧對應(yīng)的候選詞的詞頻,以及所述前次生成的候選詞的詞頻;根據(jù)所述候選詞組合的詞頻,所述起始弧對應(yīng)的候選詞的詞頻,以及所述前次生成的候選詞的詞頻,分別計算所述起始弧對應(yīng)的候選詞的條件概率,選擇條件概率最大的候選詞。優(yōu)選的,所述計算所述起始弧對應(yīng)的候選詞的條件概率具體為 根據(jù)所述候選詞組合的詞頻,及所述前次生成的候選詞的詞頻,計算所述候選詞組合的共現(xiàn)概率;根據(jù)所述起始弧對應(yīng)的候選詞的詞頻,計算所述候選詞的單獨(dú)概率; 將所述共現(xiàn)概率與所述單獨(dú)概率相加,獲得所述起始弧對應(yīng)的候選詞的條件概率。優(yōu)選的,所述計算所述候選詞組合的共現(xiàn)概率具體為 用所述候選詞組合的詞頻除以所述前次生成的候選詞的詞頻再乘以第一 參數(shù),得到所述候選詞組合的共現(xiàn)概率;所述計算所述候選詞的單獨(dú)概率具體為用所述起始弧對應(yīng)的候選詞的詞頻除以拼音詞典中所有詞的詞頻總和再 乘以第二參數(shù),得到所述候選詞的單獨(dú)概率;其中,所述第一參數(shù)與第二參數(shù)為大于0小于1的正數(shù),且所述第一參數(shù)與第二參數(shù)的和小于1。優(yōu)選的,所述基于所選定的候選詞獲得所述拼音串對應(yīng)的整句生成結(jié)果具體為獲取所述條件概率最大的候選詞的條件概率作為所述候選詞有向圖的起 始弧的概率;計算所述候選詞有向圖中除起始弧外其他弧的概率; 采用最短路徑算法,求出概率最大的一條路徑作為所述拼音串的整句生 成結(jié)果。優(yōu)選的,上述方法進(jìn)一步包括 將所述整句生成結(jié)果顯示在候選詞窗口的第 一位。 優(yōu)選的,上述方法進(jìn)一步包括 將前次生成的候選詞保存在緩沖區(qū)中;在獲得整句生成結(jié)果后,將所述緩沖區(qū)中保存的候選詞替換為所述整句 生成結(jié)果。本發(fā)明實(shí)施例還提供了一種中文整句生成裝置,包括 有向圖構(gòu)建單元,用于獲取拼音串中出現(xiàn)的候選詞,構(gòu)建候選詞有向圖; 前次候選詞獲取單元,用于獲取前次生成的候選詞; 候選詞選擇單元,用于從所述有向圖的起始弧對應(yīng)的候選詞中,選擇出 所述前次生成的候選詞對應(yīng)的條件概率最大的候選詞;整句生成單元,用于基于所述條件概率最大的候選詞,獲得整句生成結(jié)果。優(yōu)選的,所述候選詞選擇單元具體包括候選詞組合單元,詞頻查詢單 元,選擇單元5所述候選詞組合單元,用于將所述有向圖的起始弧對應(yīng)的候選詞分別與 前次生成的候選詞組合;所述詞頻查詢單元,用于分別查詢所述候選詞組合的詞頻,所述起始弧
對應(yīng)的候選詞的詞頻,以及所述前次生成的候選詞的詞頻;所述選4奪單元,用于根據(jù)所述候選詞組合的詞頻,所述起始弧對應(yīng)的候 選詞的詞頻,以及所述前次生成的候選詞的詞頻,分別計算所述起始弧對應(yīng) 的候選詞的條件概率,選擇條件概率最大的候選詞。優(yōu)選的,所述選擇單元具體包括共現(xiàn)概率計算單元,單獨(dú)概率計算單 元,條件概率計算單元,選詞單元;所述共現(xiàn)概率計算單元用于,用所述候選詞組合的詞頻除以所述前次生 成的候選詞的詞頻再乘以第一參數(shù),得到所述候選詞組合的共現(xiàn)概率;所述單獨(dú)概率計算單元用于,用所述起始弧對應(yīng)的候選詞的詞頻除以拼 音詞典中所有詞的詞頻總和,再乘以第二參數(shù),得到所述候選詞的單獨(dú)概率;其中,所述第一參數(shù)與第二參數(shù)為大于0小于1的正數(shù),且所述第一參 數(shù)與第二參數(shù)的和小于1;所述條件概率計算單元,用于將所述共現(xiàn)概率與所述單獨(dú)概率相加,獲 得所述起始弧對應(yīng)的候選詞的條件概率;所述選詞單元,用于選擇條件概率最大的候選詞。從以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn) 本發(fā)明實(shí)施例利用前次生成的候選詞,從所述有向圖的起始弧對應(yīng)的候 選詞中,選擇出所述前次生成的候選詞對應(yīng)的條件概率最大的候選詞;基于 所述條件概率最大的候選詞,獲得所述拼音串的整句生成結(jié)果。由于在計算 候選詞有向圖中起始弧對應(yīng)的候選詞的條件概率時,利用了所述候選詞組合 的詞頻,以及前次生成的候選詞的詞頻,即利用了上下文信息實(shí)現(xiàn)整句生成, 提高了整句生成準(zhǔn)確率和候選詞生成的準(zhǔn)確率。
圖1為現(xiàn)有技術(shù)提供的中文整句生成結(jié)果例一; 圖2為現(xiàn)有技術(shù)提供的中文整句生成方法流程圖; 圖3 (a)為現(xiàn)有技術(shù)提供的中文整句生成結(jié)果有向圖; 圖3 (b)為現(xiàn)有技術(shù)提供的中文整句生成結(jié)果例二;
圖4 (a)為現(xiàn)有技術(shù)提供的中文整句生成結(jié)果例三; 圖4 (b)為現(xiàn)有技術(shù)提供的中文整句生成結(jié)果例三; 圖4 (c)為現(xiàn)有技術(shù)提供的中文整句生成結(jié)果例三; 圖5為本發(fā)明實(shí)施例提供的中文整句生成方法; 圖6為本發(fā)明實(shí)施例提供的中文整句生成結(jié)果有向圖; 圖7 (a)為本發(fā)明實(shí)施例提供的中文整句生成裝置組成示意圖; 圖7 (b)為本發(fā)明實(shí)施例提供的有向圖構(gòu)建單元組成示意圖; 圖7 (c)為本發(fā)明實(shí)施例提供的候選詞選擇單元組成示意圖; 圖7 (d)為本發(fā)明實(shí)施例提供的選擇單元組成示意圖; 圖7 (e)為本發(fā)明實(shí)施例提供的整句生成單元組成示意圖。
具體實(shí)施方式
本發(fā)明實(shí)施例提供了一種中文整句生成方法及裝置,為使本發(fā)明實(shí)施例 的目的、技術(shù)方案、及優(yōu)點(diǎn)更加清楚明白,以下參照附圖對本發(fā)明實(shí)施例進(jìn) ft-洋細(xì)"i兌明。在本發(fā)明實(shí)施例中,所述整句是指詞或者詞的組合。 本發(fā)明實(shí)施例提供的中文整句生成方法,包括獲取前次生成的候選詞; 獲取拼音串中出現(xiàn)的候選詞,構(gòu)建候選詞有向圖;從所述有向圖的起始 弧對應(yīng)的候選詞中,選擇出所述前次生成的候選詞對應(yīng)的條件概率最大的候 選詞;基于所述條件概率最大的候選詞,獲得所述拼音串的整句生成結(jié)果。請參見圖5,為本發(fā)明實(shí)施例提供的中文整句生成方法流程圖,包括步驟501:對拼音串進(jìn)行音節(jié)劃分;步驟502:根據(jù)音節(jié)劃分結(jié)果,在拼音詞典中查找所述拼音串中出現(xiàn)的所 有候選詞,構(gòu)建候選詞有向圖;步驟503:獲取前次生成的候選詞;其中,前次生成的候選詞是指用戶在進(jìn)行當(dāng)前輸入操作之前輸入過的詞
或者整句,前次生成的候選詞被保存在緩沖區(qū)中,用戶每進(jìn)行一次輸入操作, 則將所述緩沖區(qū)保存的詞或者整句替換為新的詞或者整句,如果用戶再次輸入的是標(biāo)點(diǎn)符號,則將緩沖區(qū)清空。比如,用戶當(dāng)前輸入"woshihenda",而 用戶輸入"woshihenda"之前輸入過"zhejian,,,并且用戶選擇"這間",則將"這間"保存在緩沖區(qū)中,用戶在輸入"woshihenda"后選擇"臥室很大", 則將緩沖區(qū)中保存的詞"這間"替換為整句"臥室很大"。步驟504:將所述有向圖的起始弧對應(yīng)的候選詞分別與前次生成的候選詞 組合;其中,所述候選詞有向圖的起始弧是指以所述有向圖的起始結(jié)點(diǎn)為起點(diǎn) 的弧。步驟505:分別查詢所述候選詞組合的詞頻,所述起始弧對應(yīng)的候選詞的 詞頻,以及所述前次生成的候選詞的詞頻;在本發(fā)明實(shí)施例中,預(yù)先利用拼音詞典,將原始文本切分為分詞集合, 掃描分詞集合,統(tǒng)計拼音詞典中的詞和詞的組合在分詞集合中出現(xiàn)的次數(shù), 即統(tǒng)計拼音詞典中詞和詞的組合的詞頻,以及4并音詞典中所有詞的詞頻總和, 將所述詞頻信息保存在詞頻信息文件中。值得注意的是如果拼音詞典中的 某個詞或者詞組在分詞集合中沒有出現(xiàn),則將該詞或者詞組的詞頻計為零。其中,步驟505中將候選詞,候選詞的組合與詞頻信息文件中保存的詞 或者詞的組合進(jìn)行匹配,查找候選詞以及候選詞的組合對應(yīng)的詞頻。步驟506:根據(jù)所述候選詞組合的詞頻,所述起始弧對應(yīng)的候選詞的詞頻, 以及所述前次生成的候選詞的詞頻,分別計算所述起始弧對應(yīng)的候選詞的條 件概率,選擇條件概率最大的候選詞;步驟507:基于所選定的起始弧的候選詞,獲得所述拼音串的整句生成結(jié)果;步驟508:將所述整句生成結(jié)果顯示在候選詞窗口的第一位。 以下具體介紹本發(fā)明實(shí)施例中步驟507的實(shí)現(xiàn)過程,包括
獲取條件概率最大的候選詞的條件概率作為起始弧的概率; 計算所述候選詞有向圖中除起始弧外其他弧的概率,其他弧的概率等于其他弧攜帶的詞頻最大的候選詞的詞頻除以拼音詞典中所有詞的詞頻總和;利用最短路徑算法(如Dijkstra算法,Viterbi算法等)求出概率最大的一 條路徑(候選詞組合方案)作為整句生成結(jié)果。以下以Viterbi算法為例具體介紹采用最短路徑算法獲得整句生成結(jié)果的 過程。從所述有向圖的起始結(jié)點(diǎn)開始,計算每個結(jié)點(diǎn)的累計概率(概率的乘積), 起始結(jié)點(diǎn)的累計概率初始化為1,選取每個結(jié)點(diǎn)的累計概率中最大的一個作為 該結(jié)點(diǎn)的累計概率并記錄對應(yīng)的前向結(jié)點(diǎn)序號,直到獲得所述有向圖的最后 一個結(jié)點(diǎn)的累計概率及其前向結(jié)點(diǎn)序號;然后,從所述有向圖的最后一個結(jié) 點(diǎn)開始,根據(jù)記錄的前向結(jié)點(diǎn)序號向前回溯, 一直回溯到起始結(jié)點(diǎn),獲得概 率最大的 一條路徑,將該路徑中每條弧對應(yīng)的候選詞順序組合得到整句生成 結(jié)果。其中,累計概率的計算公式為當(dāng)前結(jié)點(diǎn)的累計概率=其前向結(jié)點(diǎn)的 累計概率*前向弧的概率。由上述過程可以看出,本發(fā)明實(shí)施例與現(xiàn)有技術(shù)的區(qū)別在于本發(fā)明實(shí) 施例中,起始弧的概率為條件概率最大的候選詞的條件概率,而現(xiàn)有技術(shù)中, 起始弧的概率為根據(jù)詞頻最高候選詞的詞頻計算得到的概率。以上為本發(fā)明實(shí)施例提供的中文整句生成方法,在本發(fā)明其他實(shí)施例中, 也可以在構(gòu)建候選詞有向圖的同時,計算有向圖的起始弧對應(yīng)的候選詞的條 件概率;也可以在構(gòu)建完候選詞有向圖之后,計算有向圖的起始弧對應(yīng)的候 選詞的條件概率,并不影響本發(fā)明實(shí)施例的實(shí)現(xiàn)。在具體實(shí)現(xiàn)上述方法時,可以采用如下方法計算候選詞起始弧對應(yīng)的候 選詞的條件概率根據(jù)所述候選詞組合的詞頻,及所述前次生成的候選詞的詞頻,計算所 述候選詞組合的共現(xiàn)概率; 根據(jù)所述起始弧對應(yīng)的候選詞的詞頻,計算所述候選詞的單獨(dú)概率;將所述共現(xiàn)概率與所述單獨(dú)概率相加,獲得所述起始弧對應(yīng)的候選詞的 條件概率。在本發(fā)明實(shí)施例中,具體可以采用如下公式計算共現(xiàn)概率,單獨(dú)概率及條件概率共現(xiàn)概率=所述候選詞組合的詞頻除以所述前次生成的候選詞的詞頻再 乘以第一參數(shù);單獨(dú)概率=所述起始弧對應(yīng)的候選詞的詞頻/拼音詞典中所有詞的詞頻總 和再乘以第二參數(shù);條件概率=共現(xiàn)概率+單獨(dú)概率+偏移量5其中,所述第一參數(shù)與第二參數(shù)為大于零小于1的正數(shù),且所述第一參數(shù)與第二參數(shù)的和小于l;偏移量5= (l-第一參數(shù)-第二參數(shù))/拼音詞典的總詞數(shù),偏移量5可以近似等于0。在本發(fā)明其他實(shí)施例中,亦可采用其他公式計算上述三種概率,均不影 響本發(fā)明實(shí)施例的實(shí)現(xiàn)。以下舉例說明本發(fā)明實(shí)施例提供的整句生成方法的具體實(shí)現(xiàn)過程。假設(shè)用戶想輸入"這間臥室很大,,,如果用戶分兩次輸入,第一次輸入 "zhejian",用戶選擇"這間",此時,緩沖區(qū)保存"這間",用戶繼續(xù)輸入 "woshihenda",經(jīng)過對"woshihenda,,的音節(jié)劃分,得到的音節(jié)劃分結(jié)果為 "wo, shi, hen' da,',,在拼音詞典中查詢拼音串中所有的候選詞,構(gòu)建如圖 6所示的候選詞有向圖,該候選詞有向圖一共5個結(jié)點(diǎn),起始結(jié)點(diǎn)編號為O, 最后一個結(jié)點(diǎn)的編號為4,將該有向圖起始弧對應(yīng)的候選詞分別與"這間"進(jìn)行 組合,得到"這間我","這間握","這間臥室","這間我使"等候選詞組合, 在詞頻信息文件中上述候選詞組合的詞頻,得到"這間臥室,,的詞頻為大于零的 整數(shù),而其他候選詞組合的詞頻均為零,因此,"臥室"的條件概率大于起始弧 對應(yīng)的其他候選詞的條件概率,將"臥室"的條件概率作為起始弧的概率,然后, 根據(jù)其他弧攜帶的詞頻最大的候選詞的詞頻,計算其他弧的概率;將0號節(jié)
點(diǎn)也就是起始節(jié)點(diǎn)的累計概率初始化為1,從第O號結(jié)點(diǎn)開始,計算出每個結(jié) 點(diǎn)的累積概率及其前向弧結(jié)點(diǎn)序號,最后,從第4號結(jié)點(diǎn)開始,根據(jù)記錄的前向弧結(jié)點(diǎn)序號向前回溯, 一直回溯到第0個結(jié)點(diǎn),獲得概率最大的路徑。 在本例中由結(jié)點(diǎn)4向前回溯,它的前向結(jié)點(diǎn)為2,然后由結(jié)點(diǎn)2向前回溯,它 的前向結(jié)點(diǎn)為O,結(jié)束,得到的概率最大路徑的結(jié)點(diǎn)為0-2-4,將路徑對應(yīng) 的候選詞順序組合得到"臥室很大"。在本發(fā)明實(shí)施例中,由于起始弧的概率中 最大的是"臥室"的條件概率,那么,2號節(jié)點(diǎn)記錄的其前向節(jié)點(diǎn)為O號節(jié)點(diǎn), 而4號節(jié)點(diǎn)記錄的其前向節(jié)點(diǎn)是2號節(jié)點(diǎn)而不是3號節(jié)點(diǎn)的原因是"很大" 的概率乘以"2號節(jié)點(diǎn)"的累計概率大于"大"的概率乘以"3號節(jié)點(diǎn),,的累 計概率,所以,該整句生成的結(jié)果是"臥室很大",而不是現(xiàn)有技術(shù)生成的"我 是很大"。本發(fā)明實(shí)施例還提供了一種中文整句生成裝置,請參見圖7(a),該裝置 包括有向圖構(gòu)建單元701,用于獲取拼音串中出現(xiàn)的候選詞,構(gòu)建候選詞有向圖;前次候選詞獲取單元702,用于獲取前次生成的候選詞; 候選詞選擇單元703,用于從所述有向圖的起始弧對應(yīng)的候選詞中,選擇出所述前次生成的候選詞對應(yīng)的條件概率最大的候選詞;整句生成單元704,用于基于所述條件概率最大的候選詞,獲得整句生成結(jié)果。在具體實(shí)現(xiàn)時,所述有向圖構(gòu)建單元701可以由如下三個單元構(gòu)成,請 參見圖7(b),包括音節(jié)劃分單元7011,用于將拼音串進(jìn)行音節(jié)劃分;候選詞查找單元7012,用于根據(jù)音節(jié)劃分結(jié)果,在拼音詞典中查找所述 拼音串中出現(xiàn)的候選詞;有向圖生成單元7013,用于根據(jù)所述候選詞查找單元獲得的候選詞,構(gòu) 建候選詞有向圖。在具體實(shí)現(xiàn)時,所述候選詞選擇單元703可以由如下四個單元構(gòu)成,請
參見圖7 (c),包括候選詞組合單元7031,用于將所述有向圖的起始弧對應(yīng)的候選詞分別與 前次生成的候選詞組合;詞頻查詢單元7032,用于分別查詢所述候選詞組合的詞頻,所述起始弧 對應(yīng)的候選詞的詞頻,以及所述前次生成的候選詞的詞頻;選擇單元7033,用于根據(jù)所述候選詞組合的詞頻,所述起始弧對應(yīng)的候 選詞的詞頻,以及所述前次生成的候選詞的詞頻,分別計算所述起始弧對應(yīng) 的候選詞的條件概率,選擇條件概率最大的候選詞。在具體實(shí)現(xiàn)時,所述選擇單元7033可以有如下4個單元構(gòu)成,請參見圖 7 (d),包括共現(xiàn)概率計算單元70331,用于根據(jù)所述候選詞組合的詞頻,及所述前次 生成的候選詞的詞頻,計算所述候選詞組合的共現(xiàn)概率;單獨(dú)概率計算單元70332,用于根據(jù)所述起始弧對應(yīng)的候選詞的詞頻,計 算所述候選詞的單獨(dú)概率;條件概率計算單元70333,用于將所述共現(xiàn)概率與所述單獨(dú)概率相加,獲 得所述起始弧對應(yīng)的候選詞的條件概率;選詞單元70334,用于選擇條件概率最大的候選詞。其中,共現(xiàn)概率計算單元70331和單獨(dú)概率計算單元70332可以采用前 文已述的計算共現(xiàn)概率和單獨(dú)概率的計算公式,計算得到共現(xiàn)概率和單獨(dú)概 率,相關(guān)內(nèi)容請參照前文已述內(nèi)容,此處不再贅述。在具體實(shí)現(xiàn)時,整句生成單元704可以由以下幾個單元構(gòu)成,請參見圖7 (e),包括起始弧概率獲取單元7041,用于獲取所述條件概率最大的候選詞的條件 概率作為所述候選詞有向圖的起始弧的概率;其他弧概率計算單元7042,用于計算所述候選詞有向圖中除起始弧外其 他弧的概率;路徑選擇單元7043,采用最短路徑算法,求出概率最大的一條路徑作為 所述拼音串的整句生成結(jié)果。
為了實(shí)現(xiàn)顯示所述整句生成結(jié)果,上述裝置還可以進(jìn)一步包括 整句顯示單元,用于將所述整句生成結(jié)果顯示在候選詞窗口的第一位。此外,在本發(fā)明實(shí)施例中,如果用戶將一個詞分為兩次輸入,比如,用 戶將"摩托車,,分兩次輸入,第一次輸入"摩,,,第二次輸入"托車",此時,可以將保存的緩沖區(qū)中的"摩"的拼音與第二次輸入的"touch6,,的拼音組合 在一起得到"motuoche",然后,在拼音詞典中查找"motuoche,,對應(yīng)的詞, 然后,將"摩托車"中對應(yīng)的"托車"作為生成結(jié)果顯示在候選詞窗口的第 一位。以上對本發(fā)明所提供的一種中文整句生成方法及裝置進(jìn)行了詳細(xì)介紹, 對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明實(shí)施例的思想,在具體實(shí)施方式
及 應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明 的限制。
權(quán)利要求
1、 一種中文整句生成方法,其特征在于,包括 獲取前次生成的候選詞;獲取拼音串中出現(xiàn)的候選詞,構(gòu)建候選詞有向圖;從所述有向圖的起始弧對應(yīng)的候選詞中,選擇出所述前次生成的候選詞 對應(yīng)的條件概率最大的候選詞;基于所述條件概率最大的候選詞,獲得所述拼音串的整句生成結(jié)果。
2、 如權(quán)利要求l所述的方法,其特征在于,所述選擇出所述前次生成的 候選詞對應(yīng)的條件概率最大的候選詞具體包括將所述有向圖的起始弧對應(yīng)的候選詞分別與所述前次生成的候選詞組合;分別查詢所述^美選詞組合的詞頻,所述起始弧對應(yīng)的4吳選詞的詞頻,以 及所述前次生成的候選詞的詞頻;#4居所述候選詞組合的詞頻,所述起始弧對應(yīng)的候選詞的詞頻,以及所 述前次生成的候選詞的詞頻,分別計算所述起始弧對應(yīng)的候選詞的條件概率, 選擇條件概率最大的候選詞。
3、 如權(quán)利要求2所述的方法,其特征在于,所述計算所述起始弧對應(yīng)的 候選詞的條件概率具體為根據(jù)所述候選詞組合的詞頻,及所述前次生成的候選詞的詞頻,計算所述候選詞組合的共現(xiàn)概率;根據(jù)所述起始弧對應(yīng)的候選詞的詞頻,計算所述候選詞的單獨(dú)概率; 將所述共現(xiàn)概率與所述單獨(dú)概率相加,獲得所述起始弧對應(yīng)的候選詞的條件概率。
4、 如權(quán)利要求3所述的方法,其特征在于,所述計算所述候選詞組合的 共現(xiàn)概率具體為用所述候選詞組合的詞頻除以所述前次生成的候選詞的詞頻再乘以第一 參數(shù),得到所述候選詞組合的共現(xiàn)概率; 所述計算所述候選詞的單獨(dú)概率具體為用所述起始弧對應(yīng)的候選詞的詞頻除以拼音詞典中所有詞的詞頻總和再 乘以第二參數(shù),得到所述候選詞的單獨(dú)概率;其中,所述第一參數(shù)與第二參數(shù)為大于0小于1的正數(shù),且所述第一參數(shù)與第二參數(shù)的和小于1。
5、 如權(quán)利要求1至4所述的任一方法,其特征在于,所述基于所選定的 候選詞獲得所述拼音串對應(yīng)的整句生成結(jié)果具體為獲取所述條件概率最大的候選詞的條件概率作為所述候選詞有向圖的起 始弧的概率;計算所述候選詞有向圖中除起始弧外其他弧的概率; 采用最短路徑算法,求出概率最大的一條路徑作為所述拼音串的整句生 成結(jié)果。
6、 如權(quán)利要求1至4所述的任一方法,其特征在于,進(jìn)一步包括 將所述整句生成結(jié)果顯示在候選詞窗口的第 一位。
7、 如權(quán)利要求1至4所述的任一方法,其特征在于,進(jìn)一步包括 將前次生成的候選詞保存在緩沖區(qū)中;在獲得整句生成結(jié)果后,將所述緩沖區(qū)中保存的候選詞替換為所述整句 生成結(jié)果。
8、 一種中文整句生成裝置,其特征在于,包括有向圖構(gòu)建單元,用于獲取拼音串中出現(xiàn)的候選詞,構(gòu)建候選詞有向圖; 前次候選詞獲取單元,用于獲取前次生成的候選詞; 候選詞選擇單元,用于從所述有向圖的起始弧對應(yīng)的候選詞中,選擇出 所述前次生成的候選詞對應(yīng)的條件概率最大的候選詞;整句生成單元,用于基于所述條件概率最大的候選詞,獲得整句生成結(jié)果。
9、 如權(quán)利要求8所述的裝置,其特征在于,所述候選詞選擇單元具體包 括候選詞組合單元,詞頻查詢單元,選擇單元;所述候選詞組合單元,用于將所述有向圖的起始弧對應(yīng)的候選詞分別與 前次生成的候選詞組合;所述詞頻查詢單元,用于分別查詢所述候選詞組合的詞頻,所述起始弧 對應(yīng)的候選詞的詞頻,以及所述前次生成的候選詞的詞頻;所述選擇單元,用于根據(jù)所述候選詞組合的詞頻,所述起始弧對應(yīng)的候 選詞的詞頻,以及所述前次生成的候選詞的詞頻,分別計算所述起始弧對應(yīng) 的候選詞的條件概率,選擇條件概率最大的候選詞。
10、如權(quán)利要求9所述的裝置,其特征在于,所述選擇單元具體包括 共現(xiàn)概率計算單元,單獨(dú)概率計算單元,條件概率計算單元,選詞單元;所述共現(xiàn)概率計算單元用于,用所述候選詞組合的詞頻除以所述前次生 成的候選詞的詞頻再乘以第一參數(shù),得到所述候選詞組合的共現(xiàn)概率;所述單獨(dú)概率計算單元用于,用所述起始弧對應(yīng)的候選詞的詞頻除以拼 音詞典中所有詞的詞頻總和,再乘以第二參數(shù),得到所述候選詞的單獨(dú)概率;其中,所述第一參數(shù)與第二參數(shù)為大于0小于1的正數(shù),且所述第一參數(shù)與第二參數(shù)的和小于1;所述條件概率計算單元,用于將所述共現(xiàn)概率與所述單獨(dú)概率相加,獲得所述起始弧對應(yīng)的候選詞的條件概率;所述選詞單元,用于選擇條件概率最大的候選詞。
全文摘要
本發(fā)明公開了一種中文整句生成方法及裝置。本發(fā)明方法包括獲取前次生成的候選詞;獲取拼音串中出現(xiàn)的候選詞,構(gòu)建候選詞有向圖;從所述有向圖的起始弧對應(yīng)的候選詞中,選擇出所述前次生成的候選詞對應(yīng)的條件概率最大的候選詞;基于所述條件概率最大的候選詞,獲得所述拼音串的整句生成結(jié)果。本發(fā)明實(shí)施例還提供了一種與上述方法對應(yīng)的裝置。由于本發(fā)明實(shí)施例在計算候選詞有向圖中起始弧對應(yīng)的候選詞的概率時,利用了所述候選詞組合的詞頻,以及前次生成的候選詞的詞頻,即利用了上下文信息實(shí)現(xiàn)整句生成,提高了整句生成準(zhǔn)確率和候選詞生成的準(zhǔn)確率。
文檔編號G06F17/30GK101122901SQ20071015133
公開日2008年2月13日 申請日期2007年9月25日 優(yōu)先權(quán)日2007年9月25日
發(fā)明者張會鵬 申請人:騰訊科技(深圳)有限公司