人機(jī)語音交互方法及系統(tǒng)的制作方法

文檔序號：2828162閱讀：476來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

人機(jī)語音交互方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種人機(jī)語音交互方法及系統(tǒng)，通過采集用戶的語音信息，分析語音信息得出語言類型，對語音信息采用與語言類型對應(yīng)的識別模式進(jìn)行識別，將該語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的反饋語音信息，再將識別的語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配，得到匹配的反饋視頻信息；當(dāng)?shù)玫降纳鲜鰞煞N信息存在關(guān)聯(lián)時，則將兩種信息同步輸出。通過上述人機(jī)語音交互方法，可識別多種語言的語音，實(shí)現(xiàn)多種語言的交互，且同時實(shí)現(xiàn)視頻與語音的同步回應(yīng)，使客戶體驗(yàn)感更強(qiáng)，且通過判斷反饋語音信息與反饋視頻信息的關(guān)聯(lián)性，實(shí)現(xiàn)反饋語音信息與反饋視頻信息的一致性，提高交互準(zhǔn)確率，且聲音和畫面更加的協(xié)調(diào)與同步。
【專利說明】人機(jī)語音交互方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子產(chǎn)品【技術(shù)領(lǐng)域】，特別是涉及人機(jī)語音交互方法及系統(tǒng)。

【背景技術(shù)】
[0002]隨著科技的進(jìn)步，數(shù)字文化館內(nèi)的電子產(chǎn)品越來越多，也越來越智能化，人機(jī)語音交互產(chǎn)品就是其中一個。人機(jī)語音交互系統(tǒng)可以為參觀的客戶提供有效的人機(jī)交互功能，通過語音與機(jī)器進(jìn)行交流，讓機(jī)器明白人說的是什么，并給出相應(yīng)的回答。例如，通過人機(jī)語音交互系統(tǒng)獲取數(shù)字文化館內(nèi)的相關(guān)產(chǎn)品的介紹以及相關(guān)功能，也可通過人機(jī)語音交互系統(tǒng)為客戶指引路徑，告訴客戶想要去的地方的路線等功能。
[0003]然而，現(xiàn)有的人機(jī)語音交互方法及系統(tǒng)只是通過采集語音信息，然后對語音信息進(jìn)行識別，再通過該語音信息調(diào)取數(shù)據(jù)庫中預(yù)先存儲的語音回應(yīng)信息并輸出，對用戶的問題進(jìn)行解答，實(shí)現(xiàn)人機(jī)語音交互。這種人機(jī)語音交互系統(tǒng)功能單一，交互準(zhǔn)確性比較低。

【發(fā)明內(nèi)容】

[0004]基于此，有必要針對現(xiàn)有的人機(jī)語音交互方法及系統(tǒng)的交互準(zhǔn)確性較低的問題，提供一種人機(jī)語音交互方法及系統(tǒng)。
[0005]一種人機(jī)語音交互方法，包括以下步驟:
[0006]采集用戶的語音信息；
[0007]對所述語音信息進(jìn)行分析，得出所述語音信息所對應(yīng)的語言類型；
[0008]對所述語音信息采用與所述語言類型對應(yīng)的識別模式進(jìn)行識別；
[0009]將識別的所述語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的所述反饋語音信息；
[0010]將識別的所述語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配，得到匹配的所述反饋視頻信息；
[0011]判斷匹配的所述反饋語音信息與匹配的所述反饋視頻信息是否存在關(guān)聯(lián)；
[0012]若匹配的所述反饋語音信息與匹配的所述反饋視頻信息存在關(guān)聯(lián)；
[0013]則將匹配的所述反饋語音信息與匹配的所述反饋視頻信息同步輸出；
[0014]顯示所述反饋視頻信息。
[0015]本發(fā)明還公開一種人機(jī)語音交互系統(tǒng)，包括:
[0016]采集模塊，用于采集用戶的語音信息；
[0017]語音分析模塊，用于對所述語音信息進(jìn)行分析，得出所述語音信息所對應(yīng)的語言類型；
[0018]語音識別模塊，用于對所述語音信息采用與所述語言類型對應(yīng)的識別模式進(jìn)行識別；
[0019]第一匹配模塊，用于將識別的所述語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配；
[0020]第二匹配模塊，用于將識別的所述語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配；
[0021]關(guān)聯(lián)判斷模塊，用于判斷匹配的所述反饋語音信息與匹配的所述反饋視頻信息是否存在關(guān)聯(lián)；
[0022]輸出模塊，用于將匹配的所述反饋語音信息與匹配的所述反饋視頻信息同步輸出；
[0023]顯示模塊，用于顯示所述反饋視頻信息。
[0024]上述人機(jī)語音交互方法及系統(tǒng)，通過不同的識別模式對不同語言的語音信息進(jìn)行識別，再將識別的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的反饋語音信息，再將識別的語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配，得到匹配的反饋視頻信息；當(dāng)匹配的反饋語音信息與匹配的反饋視頻信息存在關(guān)聯(lián)時，則將這兩種信息同步輸出。通過上述人機(jī)語音交互方法，可識別多種語言的語音，實(shí)現(xiàn)多種語言的交互，且同時實(shí)現(xiàn)視頻與語音的同步輸出，使客戶體驗(yàn)感更強(qiáng)，且通過判斷反饋語音信息與反饋視頻信息的關(guān)聯(lián)性，實(shí)現(xiàn)反饋語音信息與反饋視頻信息的一致性，提高交互準(zhǔn)確率，提高聲音和畫面的協(xié)調(diào)性。

【專利附圖】

【附圖說明】
[0025]圖1為一種實(shí)施方式的人機(jī)語音交互方法的流程圖；
[0026]圖2為一種實(shí)施方式的人機(jī)語音交互系統(tǒng)的模塊圖；
[0027]圖3為另一實(shí)施方式的人機(jī)語音交互系統(tǒng)中的結(jié)構(gòu)子模塊圖。

【具體實(shí)施方式】
[0028]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明了，以下根據(jù)附圖及實(shí)施例，對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不限定本發(fā)明。
[0029]請參考參閱1，一種人機(jī)語音交互方法，包括以下步驟:
[0030]SlOO:采集用戶的語音信息。
[0031]只有通過采集到用戶的語音信息，才能根據(jù)用戶的語音信息進(jìn)行后續(xù)相應(yīng)的處理，整個系統(tǒng)是以用戶的語音信息為依據(jù)，為用戶提供相應(yīng)的回應(yīng)，實(shí)現(xiàn)人機(jī)語音交互。
[0032]S200:對語音信息進(jìn)行分析，得出語音信息所對應(yīng)的語言類型。
[0033]不同的用戶可能采用不同的語言方式進(jìn)行交互，即采用不同的語種進(jìn)行交互，例如，采用中文、英文或其他語種，則采集的用戶語音信息包括多種語言的語音信息，若對不同語言類型的語音信息均采用同樣的識別模式進(jìn)行識別，則識別錯誤率會較高，所以首先需要分析采集的用戶語音信息的語言類型。
[0034]S300:對語音信息采用與語言類型對應(yīng)的識別模式進(jìn)行識別。
[0035]分析得出用戶的語音信息的語言類型后，需要選擇與語言類型對應(yīng)的識別模式對語音信息進(jìn)行識別，多種識別模式預(yù)先設(shè)置的。例如，分析得到用戶的語音信息的語音類型為中文，則采用對應(yīng)的中文識別模式對語音信息進(jìn)行識別；分析得到用戶的語音信息的語音類型為英文，則采用對應(yīng)的英文識別模式對語音信息進(jìn)行識別。這樣采用對應(yīng)的識別模式對不同語言類型的語音信息進(jìn)行識別，可提高識別準(zhǔn)確性。
[0036]S400:將識別的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的反饋語音信息。
[0037]在數(shù)據(jù)庫中預(yù)先存儲了反饋語音信息，當(dāng)語音信息經(jīng)過識別后，將其與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到與用戶的語音信息相對應(yīng)的反饋語音信息。例如，數(shù)據(jù)庫中預(yù)先存儲了數(shù)字文化館內(nèi)肉眼3D電視機(jī)的功能介紹語音信息，用戶詢問的語音信息是需要知道肉眼3D電視機(jī)的相關(guān)信息，通過檢索匹配，可以得到與用戶的語音信息相對應(yīng)的反饋語音信息，即肉眼3D電視機(jī)的功能介紹語音信息。
[0038]S500:將識別的語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配，得到匹配的反饋視頻信息。
[0039]同樣的，在數(shù)據(jù)庫中預(yù)先存儲了反饋視頻信息，當(dāng)語音信息經(jīng)過識別后，將其與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配，得到與用戶的語音信息相對應(yīng)的反饋視頻信息。例如，數(shù)據(jù)庫中預(yù)先存儲了數(shù)字文化館內(nèi)關(guān)于肉眼3D電視機(jī)的視頻信息，用戶詢問的語音信息是需要知道肉眼3D電視機(jī)的相關(guān)信息，通過檢索匹配，可以得到與用戶的語音信息相對應(yīng)的反饋視頻信息，即肉眼3D電視機(jī)的視頻信息。
[0040]S600:判斷匹配的反饋語音信息與匹配的反饋視頻信息是否存在關(guān)聯(lián)。
[0041]在數(shù)據(jù)庫中預(yù)先存儲了反饋語音信息與反饋視頻信息的關(guān)聯(lián)關(guān)系，例如，預(yù)先存儲了 3D電視機(jī)功能介紹語音信息和關(guān)于3D電視機(jī)的視頻信息的關(guān)聯(lián)，這種關(guān)聯(lián)關(guān)系可以是多對多的，即多個語音信息可關(guān)聯(lián)到多個視頻信息，一個語音信息可關(guān)聯(lián)多個視頻信息，一個視頻信息可關(guān)聯(lián)到多個語音信息。
[0042]若匹配的反饋語音信息與匹配的反饋視頻信息存在關(guān)聯(lián)，則執(zhí)行以下步驟:
[0043]S700:將匹配的反饋語音信息與匹配的反饋視頻信息同步輸出。
[0044]S800:顯示反饋視頻信息。
[0045]通過識別的語音信息匹配出的反饋語音信息和反饋視頻信息存在關(guān)聯(lián)，則將匹配的反饋語音信息與匹配的反饋視頻信息同步輸出，并顯示反饋視頻信息，使聲音和畫面更為協(xié)調(diào)，且使得用戶不但能聽到回應(yīng)的信息，而且能觀看視頻。
[0046]在其中一個實(shí)施例中，若匹配的反饋語音信息與匹配的反饋視頻信息不存在關(guān)聯(lián)，則執(zhí)行以下步驟:
[0047]S610:統(tǒng)計關(guān)聯(lián)失敗的次數(shù)。
[0048]S620:判斷關(guān)聯(lián)失敗的次數(shù)是否小于等于預(yù)設(shè)值。
[0049]若關(guān)聯(lián)失敗的次數(shù)小于等于預(yù)設(shè)值；則執(zhí)行以下步驟:
[0050]返回并繼續(xù)執(zhí)行將識別的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的反饋語音信息的步驟S400 ;直到匹配的反饋語音信息與匹配的反饋視頻信息存在關(guān)聯(lián)或者關(guān)聯(lián)失敗的次數(shù)大于預(yù)設(shè)值。
[0051]若匹配出的反饋語音信息與反饋視頻信息不存在關(guān)聯(lián)，則統(tǒng)計關(guān)聯(lián)失敗的次數(shù)，當(dāng)關(guān)聯(lián)失敗的次數(shù)小于等于一個預(yù)設(shè)值時，再返回重新進(jìn)行檢索匹配，直到關(guān)聯(lián)成功，再將此時匹配的反饋語音信息與反饋視頻信息同步輸出。
[0052]上述人機(jī)語音交互方法，通過采集用戶的語音信息，對語音信息進(jìn)行分析后得出語音的語言類型，對語音信息采用與語言類型對應(yīng)的識別模式進(jìn)行識別，將識別的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的反饋語音信息，再將識別的語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配，得到匹配的反饋視頻信息；當(dāng)?shù)玫降姆答佌Z音信息與反饋視頻信息存在關(guān)聯(lián)時，則將這種信息同步輸出。通過上述人機(jī)語音交互方法，可識別多種語言的語音，實(shí)現(xiàn)多種語言的交互，且同時實(shí)現(xiàn)視頻與語音的同步回應(yīng)，使客戶體驗(yàn)感更強(qiáng)，且通過判斷反饋語音信息與反饋視頻信息的關(guān)聯(lián)性，實(shí)現(xiàn)反饋語音信息與反饋視頻信息的一致性，提高交互準(zhǔn)確率，且聲音和畫面更加的協(xié)調(diào)與同步。
[0053]在其中一個實(shí)施例中，若關(guān)聯(lián)失敗的次數(shù)大于預(yù)設(shè)值，則執(zhí)行以下步驟:
[0054]將匹配的反饋語音信息與匹配的反饋視頻信息同步輸出的步驟S700。
[0055]當(dāng)關(guān)聯(lián)失敗的次數(shù)大于預(yù)設(shè)值，不再進(jìn)行重新檢索匹配，直接將此時匹配的反饋語音信息與反饋視頻信息同步輸出。
[0056]在每次進(jìn)行采集用戶的語音信息前，先將關(guān)聯(lián)失敗的次數(shù)清零。確保原先的關(guān)聯(lián)失敗次數(shù)對本次的識別過程產(chǎn)生影響。在其中一個實(shí)施例中，采集用戶的語音信息的步驟SlOO之前還包括以下步驟:
[0057]判斷當(dāng)前的交互模式；
[0058]若當(dāng)前的交互模式為人機(jī)語音交互模式，再執(zhí)行采集用戶的語音信息的步驟SlOOo
[0059]若當(dāng)前的交互模式為普通播放模式，則執(zhí)行以下步驟:
[0060]獲取用戶的切換指令；
[0061]根據(jù)切換指令，切換至人機(jī)語音交互模式。
[0062]當(dāng)前的交互模式時普通播放模式時，是播放預(yù)先存儲的視頻語音信息，例如，數(shù)字文化館的宣傳片等視頻。當(dāng)用戶需要進(jìn)行交互時，需要切換到人機(jī)語音交互模式，才能對用戶的語音信息進(jìn)行采集。通過用戶輸入的切換指令，切換到人機(jī)語音交互模式。
[0063]在其中一個實(shí)施例中，反饋視頻信息播放完畢后，自動切換至普通播放模式；或
[0064]獲取用戶的終止指令；
[0065]根據(jù)該終止指令，切換人機(jī)語音交互模式至普通播放模式。
[0066]根據(jù)用戶的語音信息進(jìn)行回應(yīng)輸出的反饋視頻信息播放完畢后，會自動回復(fù)到普通播放模式；或者用戶已經(jīng)了解了相關(guān)內(nèi)容，不需要再進(jìn)行觀看，用戶可輸入終止指令，切換人機(jī)語音交互模式至普通播放模式，或者另一個用戶需要進(jìn)行語音交互時，但當(dāng)前還在播放上一個用戶的反饋視頻信息，也可輸入終止指令，切換人機(jī)語音交互模式至普通播放模式。再通過輸入切換指令切換至語音交互模式，進(jìn)行下一次的語音信息采集。
[0067]在其中一個實(shí)施例中，將識別的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的反饋語音信息的步驟S400之前包括以下步驟:
[0068]對識別的語音信息進(jìn)行關(guān)鍵語音段提取。
[0069]對關(guān)鍵語音段進(jìn)行整合，得到整合后的語音信息。
[0070]用戶輸入的語音信息中可能包含許多非必要的信息，需要對整個語音信息進(jìn)行關(guān)鍵信息提取，再將關(guān)鍵信息進(jìn)行整合后得到精簡的語音信息，為后續(xù)的匹配提高效率。
[0071]在其中一個實(shí)施例中，將識別的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的反饋語音信息的步驟S400具體為:
[0072]將整合后的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配。
[0073]將識別的語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配，得到匹配的反饋視頻信息的步驟S500具體為:
[0074]將整合后的語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配。
[0075]經(jīng)過整合后，且是對關(guān)鍵信息的提取，不但不會丟失用戶想要表達(dá)的信息，也使語音信息更加精簡，很大程度上減少了檢索匹配時間，提高匹配效率。
[0076]請參閱圖2，本發(fā)明還公開了一種人機(jī)語音交互系統(tǒng)，包括:
[0077]采集模塊100，用于采集用戶的語音信息。
[0078]語音分析模塊200，用于對語音信息進(jìn)行分析，得出語音信息所對應(yīng)的語言類型。
[0079]語音識別模塊300，用于對語音信息采用與語言類型對應(yīng)的識別模式進(jìn)行識別。
[0080]第一匹配模塊400，用于將識別的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配。
[0081]第二匹配模塊500，用于將識別的語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配。
[0082]關(guān)聯(lián)判斷模塊600，用于判斷匹配的反饋語音信息與匹配的反饋視頻信息是否存在關(guān)聯(lián)。
[0083]輸出模塊700，用于當(dāng)關(guān)聯(lián)判斷模塊判斷匹配的反饋語音信息與匹配的反饋視頻信息存在關(guān)聯(lián)時，將匹配的反饋語音信息與匹配的反饋視頻信息同步輸出。
[0084]顯示模塊800，用于顯示反饋視頻信息。
[0085]上述人機(jī)語音交互系統(tǒng)，通過采集模塊100采集用戶的語音信息，語音分析模塊200對語音信息進(jìn)行分析后得到語音的語言類型，語音識別模塊300采用與語言類型對應(yīng)的識別模式進(jìn)行識別，通過第一匹配模塊400將識別的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的反饋語音信息，再通過第二匹配模塊500將識別的語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配，得到匹配的反饋視頻信息；當(dāng)?shù)玫降纳鲜鰞煞N信息存在關(guān)聯(lián)時，則將兩種信息同步輸出。通過上述人機(jī)語音交互方法，可識別多種語言的語音，實(shí)現(xiàn)多種語言的交互，且同時實(shí)現(xiàn)視頻與語音的同步回應(yīng)，使客戶體驗(yàn)感更強(qiáng)，且通過判斷反饋語音信息與反饋視頻信息的關(guān)聯(lián)性，實(shí)現(xiàn)反饋語音信息與反饋視頻信息的一致性，提高交互準(zhǔn)確率，且聲音和畫面更加的協(xié)調(diào)與同步。
[0086]在其中一個實(shí)施例中，請參閱圖3，上述人機(jī)語音交互系統(tǒng)還包括:
[0087]統(tǒng)計模塊610，用于當(dāng)關(guān)聯(lián)判斷模塊判斷匹配的反饋語音信息與匹配的反饋視頻信息不存在關(guān)聯(lián)時，統(tǒng)計關(guān)聯(lián)失敗的次數(shù)。
[0088]第一判斷模塊620，用于判斷關(guān)聯(lián)失敗的次數(shù)是否小于等于預(yù)設(shè)值。
[0089]在其中一個實(shí)施例中，上述人機(jī)語音交互系統(tǒng)還包括:
[0090]第二判斷模塊，用于判斷當(dāng)前的交互模式是否為人機(jī)語音交互模式。
[0091]獲取模塊，用于獲取用戶的切換指令。
[0092]切換模塊，用于根據(jù)切換指令，切換至人機(jī)語音交互模式。
[0093]若判斷當(dāng)前的交互模式為普通播放模式時，獲取用戶的切換指令，根據(jù)切換指令，切換至人機(jī)語音交互模式，再通過采集模塊100進(jìn)行語音采集。若判斷當(dāng)前的交互模式為人機(jī)語音交互模式時，則可通過采集模塊100采集用戶的語音信息。
[0094]在其中一個實(shí)施例中，獲取模塊，還用于獲取用戶的終止指令。
[0095]切換模塊，還用于當(dāng)反饋視頻信息播放完畢后，自動切換至普通播放模式，且用于根據(jù)終止指令切換人機(jī)語音交互模式至普通播放模式。
[0096]在其中一個實(shí)施例中，上述人機(jī)語音交互系統(tǒng)還包括:
[0097]關(guān)鍵語音段提取模塊，用于對識別的語音信息進(jìn)行關(guān)鍵語音段提取。
[0098]整合模塊，用于對關(guān)鍵語音段進(jìn)行整合，得到整合后的語音信息。
[0099]第一匹配模塊400，還用于將整合后的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配。
[0100]第二匹配模塊500，還用于將整合后的語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配。
[0101]以上實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式，其描述較為具體和詳細(xì)，但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是，對于本領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)，這些都屬于本發(fā)明的保護(hù)范圍。因此，本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種人機(jī)語音交互方法，其特征在于，包括以下步驟: 采集用戶的語音信息；對所述語音信息進(jìn)行分析，得出所述語音信息所對應(yīng)的語言類型；對所述語音信息采用與所述語言類型對應(yīng)的識別模式進(jìn)行識別；將識別的所述語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的所述反饋語音信息；將識別的所述語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配，得到匹配的所述反饋視頻?目息；判斷匹配的所述反饋語音信息與匹配的所述反饋視頻信息是否存在關(guān)聯(lián)；若匹配的所述反饋語音信息與匹配的所述反饋視頻信息存在關(guān)聯(lián)；則將匹配的所述反饋語音信息與匹配的所述反饋視頻信息同步輸出；顯示所述反饋視頻信息。
2.根據(jù)權(quán)利要求1所述的人機(jī)語音交互方法，其特征在于，若匹配的所述反饋語音信息與匹配的所述反饋視頻信息不存在關(guān)聯(lián)；統(tǒng)計關(guān)聯(lián)失敗的次數(shù)；若所述關(guān)聯(lián)失敗的次數(shù)小于等于預(yù)設(shè)值；則返回并繼續(xù)執(zhí)行所述將識別的所述語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的所述反饋語音信息的步驟；直到匹配的所述反饋語音信息與匹配的所述反饋視頻信息存在關(guān)聯(lián)或者所述關(guān)聯(lián)失敗的次數(shù)大于所述預(yù)設(shè)值。
3.根據(jù)權(quán)利要求2所述的人機(jī)語音交互方法，其特征在于，若所述關(guān)聯(lián)失敗的次數(shù)大于預(yù)設(shè)值；則執(zhí)行所述則將匹配的所述反饋語音信息與匹配的所述反饋視頻信息同步輸出的步驟。
4.根據(jù)權(quán)利要求1所述的人機(jī)語音交互方法，其特征在于，所述采集用戶的語音信息的步驟之前還包括以下步驟: 判斷當(dāng)前的交互模式是否為人機(jī)語音交互模式；若當(dāng)前的交互模式為人機(jī)語音交互模式，則執(zhí)行所述采集用戶的語音信息的步驟；若判斷當(dāng)前的交互模式為普通播放模式，則執(zhí)行以下步驟: 獲取用戶的切換指令；根據(jù)所述切換指令，切換至人機(jī)語音交互模式。
5.根據(jù)權(quán)利要求1所述的人機(jī)語音交互方法，其特征在于，所述將識別的所述語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的所述反饋語音信息的步驟之前包括以下步驟: 對識別的所述語音信息進(jìn)行關(guān)鍵語音段提??；對所述關(guān)鍵語音段進(jìn)行整合，得到整合后的語音信息。
6.根據(jù)權(quán)利要求5所述的人機(jī)語音交互方法，其特征在于，所述將識別的所述語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配，得到匹配的反饋語音信息的步驟具體為: 將所述整合后的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配；所述將識別的所述語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配，得到匹配的反饋視頻信息的步驟具體為: 將所述整合后的語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配。
7.—種人機(jī)語音交互系統(tǒng)，其特征在于，包括: 采集模塊，用于采集用戶的語音信息；語音分析模塊，用于對所述語音信息進(jìn)行分析，得出所述語音信息所對應(yīng)的語言類型；語音識別模塊，用于對所述語音信息采用與所述語言類型對應(yīng)的識別模式進(jìn)行識別；第一匹配模塊，用于將識別的所述語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配；第二匹配模塊，用于將識別的所述語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配；關(guān)聯(lián)判斷模塊，用于判斷匹配的所述反饋語音信息與匹配的所述反饋視頻信息是否存在關(guān)聯(lián); 輸出模塊，用于將匹配的所述反饋語音信息與匹配的所述反饋視頻信息同步輸出；顯示模塊，用于顯示所述反饋視頻信息。
8.根據(jù)權(quán)利要求7所述的人機(jī)語音交互系統(tǒng)，其特征在于，還包括: 統(tǒng)計模塊，用于當(dāng)所述關(guān)聯(lián)判斷模塊判斷匹配的所述反饋語音信息與匹配的所述反饋視頻信息不存在關(guān)聯(lián)時，統(tǒng)計關(guān)聯(lián)失敗的次數(shù)；第一判斷模塊，用于判斷所述關(guān)聯(lián)失敗的次數(shù)是否小于等于預(yù)設(shè)值。
9.根據(jù)權(quán)利要求7所述的人機(jī)語音交互系統(tǒng)，其特征在于，還包括: 第二判斷模塊，用于判斷當(dāng)前的交互模式是否為人機(jī)語音交互模式；獲取模塊，用于獲取用戶的切換指令；切換模塊，用于根據(jù)所述切換指令，切換至人機(jī)語音交互模式。
10.根據(jù)權(quán)利要求7所述的人機(jī)語音交互系統(tǒng)，其特征在于，還包括: 關(guān)鍵語音段提取模塊，用于對識別的所述語音信息進(jìn)行關(guān)鍵語音段提?。? 整合模塊，用于對所述關(guān)鍵語音段進(jìn)行整合，得到整合后的語音信息；第一匹配模塊，還用于將所述整合后的語音信息與預(yù)先存儲的反饋語音信息進(jìn)行檢索匹配；第二匹配模塊，還用于將所述整合后的語音信息與預(yù)先存儲的反饋視頻信息進(jìn)行檢索匹配。
【文檔編號】G10L15/22GK104505091SQ201410830417
【公開日】2015年4月8日申請日期:2014年12月26日優(yōu)先權(quán)日:2014年12月26日
【發(fā)明者】周新華, 王小蘭申請人:湖南華凱文化創(chuàng)意股份有限公司

完整全部詳細(xì)技術(shù)資料下載