專利名稱:一種多人語音通信中的語音控制方法及裝置的制作方法
技術(shù)領域:
本發(fā)明涉及語音通信技術(shù)領域,尤其涉及一種多人語音通信中的語音控制方法及
>J-U ρ α裝直。
背景技術(shù):
目前,多人語音軟件在網(wǎng)絡生活中已經(jīng)被廣泛應用于遠程會議、游戲團隊在線指揮和在線唱歌等各個領域。但是,目前在語音群聊時,如果多人同時說話,整個群聊聲音會變得嘈雜,無法分清每個人的聲音,整個群聊狀態(tài)變得不可使用。為了讓多人語音群聊具有 更好的聽覺效果,需要用戶手動占用麥克風進行說話,一旦不占用麥克風,則不再上傳他的語音數(shù)據(jù)。但是這需要用戶去單獨操作,費時費力。多人語音軟件通常都提供給用戶一些麥克風的管理方法。但是這些麥克風的管理方法,都需要去和服務器通信,浪費網(wǎng)絡流量。同時,由于網(wǎng)絡延遲也會造成語音環(huán)境不穩(wěn)定。一種技術(shù)是在語音軟件中提供麥克風的管理方法。例如,語音軟件將用戶分為頻道管理員和普通用戶,并提供多種通話模式,包括麥序模式,想說話的用戶點擊發(fā)言并輪流說話,每人默認有300秒時間,頻道管理員不受此限制;管理員模式,此時只允許管理員講話,普通會員不能講話;自由模式,任何人都可以講話。這種技術(shù)的缺點是,在開一個會議需要多人同時討論的時候,上述方法變得不那么方便,麥序模式和管理員模式都只允許有限的人同時說話,自由模式無法控制同時說話人的數(shù)量,會使語音環(huán)境嘈雜混亂。另一種技術(shù)是在多人語音軟件的服務器端設置同時傳遞用戶聲音的最大值,用戶想占用麥克風的時候,需要從服務器端獲取當前說話人的個數(shù),然后根據(jù)當前的說話的人數(shù)來判斷是否能夠占麥發(fā)言。這種技術(shù)的缺點是用戶端每次說話的時候都需要與服務器通信一次,然后再判斷當前是否可以通話,如果有網(wǎng)絡延遲,還容易造成用戶端判斷不準確,本來可以上傳的語音被服務器拋棄。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種多人語音通信中的語音控制方法及裝置,用于實時判斷用戶端當前是否可以占用麥克風發(fā)言,不用每次發(fā)言之前都與多人語音服務器通信確認是否可以發(fā)言,減少網(wǎng)絡延遲量,使用戶的占麥信息得到實時響應。本發(fā)明的一個方面,提出了一種多人語音通信中的語音控制方法,包括以下步驟接收多人語音服務器傳送的各路語音數(shù)據(jù);根據(jù)所述各路語音數(shù)據(jù)確定語音來源數(shù)量;根據(jù)所述語音來源數(shù)量和預設閾值生成控制指令;根據(jù)所述控制指令控制是否上傳語音數(shù)據(jù)。采用該技術(shù)方案,能夠使多人語音通信的用戶端在判斷能否占麥發(fā)言時,不需要通過與多人語音服務器進行通信判定,能夠?qū)崟r判斷并進行多人語音通信。優(yōu)選的,根據(jù)所述各路語音數(shù)據(jù)確定語音來源數(shù)量的步驟包括對所述語音數(shù)據(jù)進行噪音分析;如果所述語音數(shù)據(jù)是語音信息、或語音信息和噪音信息的混合,則語音來源數(shù)量增加一個;如果所述語音數(shù)據(jù)是噪音信息,則語音來源數(shù)量不增加。該技術(shù)方案通過對語音數(shù)據(jù)進行噪音分析,能夠排除掉純噪音通話麥路,為其他用戶節(jié)省麥路語音,提高麥路的使用效率。優(yōu)選的,如果所述語音數(shù)據(jù)包括噪音信息,則過濾所述噪音信息。該技術(shù)方案能夠使噪音大的麥路通話質(zhì)量提高,提高多用戶通話效果。優(yōu)選的,根據(jù)所述各路語音數(shù)據(jù)確定語音來源數(shù)量的步驟包括檢測所述語音數(shù)據(jù)是否來自于語音文件;如果是,則語音來源數(shù)量不增加。該技術(shù)方案能夠根據(jù)用戶需要使來自于語音文件的通話不占用麥路,節(jié)省通話麥路。優(yōu)選的,所述如果語音數(shù)據(jù)來自于語音文件,則過濾所述來自于語音文件的語音信息。該技術(shù)方案能夠根據(jù)用戶需要排除掉來自于語音文件的麥路語音數(shù)據(jù),提高多人語音通話效果。
優(yōu)選的,所述根據(jù)所述語音來源數(shù)量和預設閾值生成控制指令的步驟包括如果所述語音來源數(shù)量小于所述預設閾值,則生成上傳語音數(shù)據(jù)的控制指令;如果所述語音來源數(shù)量大于或等于所述預設閾值,則生成不上傳語音數(shù)據(jù)的控制指令。該技術(shù)方案能夠根據(jù)用戶需要設定通話人數(shù),通過預設閾值和實時語音來源數(shù)量調(diào)節(jié)多人語音通話的人數(shù),保證多人語音通信的通暢。本發(fā)明的另一個方面,提出了一種多人語音通信中的語音數(shù)據(jù)控制裝置,包括接收模塊、分析模塊、指令生成模塊和控制模塊,其中,所述接收模塊,用于接收多人語音服務器傳送的各路語音數(shù)據(jù);所述分析模塊,用于根據(jù)所述各路語音數(shù)據(jù)確定語音來源數(shù)量;所述指令生成模塊,用于根據(jù)所述語音來源數(shù)量和預設閾值生成控制指令;所述控制模塊,用于根據(jù)所述控制指令控制是否上傳語音數(shù)據(jù)。優(yōu)選的,所述分析模塊包括噪音分析單元和來源數(shù)量計算單元,其中,所述噪音分析單元,用于對所述各路語音數(shù)據(jù)進行噪音分析;所述來源數(shù)量計算單元,用于在所述語音數(shù)據(jù)是語音信息、或語音信息和噪音信息的混合時,控制語音來源數(shù)量增加一個;以及在所述語音數(shù)據(jù)是噪音信息時,控制語音來源數(shù)量不增加。優(yōu)選的,所述分析模塊還包括噪音過濾單元,用于過濾所述噪音信息。優(yōu)選的,所述分析模塊還包括來源分析單元,用于檢測所述語音數(shù)據(jù)是否來自于語音文件;如果是,則所述來源數(shù)量計算單元控制語音來源數(shù)量不增加。優(yōu)選的,所述分析模塊還包括語音文件過濾單元,用于過濾所述來自于語音文件的語音數(shù)據(jù)。優(yōu)選的,所述指令生成模塊用于在所述語音來源數(shù)量小于所述預設閾值時,生成上傳語音數(shù)據(jù)的控制指令;以及在所述語音來源數(shù)量大于或等于所述預設閾值時,生成不上傳語音數(shù)據(jù)的控制指令。本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中圖1為本發(fā)明實施例中語音控制方法的流程圖;圖2為本發(fā)明實施例中語音控制方法的一種優(yōu)選實施方式的流程圖;圖3為本發(fā)明實施例中語音控制方法的另一種優(yōu)選實施方式的流程圖;圖4為本發(fā)明實施例中語音控制裝置的結(jié)構(gòu)示意圖;圖5為本發(fā)明實施例中一個多人語音界面的示意圖; 圖6為本發(fā)明實施例中語音控制裝置分析模塊的結(jié)構(gòu)示意圖;圖7為本發(fā)明實施例中語音控制裝置分析模塊另一種優(yōu)選實施方式的結(jié)構(gòu)示意圖。
具體實施例方式以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行說明,應當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。實施例一如圖1所示,為一種多人語音通信中的語音控制方法的一種實施例,包括以下步驟步驟101、接收多人語音服務器傳送的各路語音數(shù)據(jù);步驟102、根據(jù)所述各路語音數(shù)據(jù)確定語音來源數(shù)量;步驟103、根據(jù)所述語音來源數(shù)量和預設閾值生成控制指令;步驟104、根據(jù)所述控制指令控制是否上傳語音數(shù)據(jù)。在該實施例中,用戶端接收語音服務器發(fā)送的各麥路語音數(shù)據(jù)并進行分析,得到當前語音來源數(shù)量之后,與用戶端預先設置的閾值進行比較,判斷當前用戶端能否占用麥克進行發(fā)言,不再需要通過與多人語音服務器進行通信由服務器進行判定,一方面節(jié)省了網(wǎng)絡流量,另一方面能夠?qū)崟r判斷并進行多人語音通信。實施例二如圖2所示,為上述方法的一個優(yōu)選實施例,包括以下步驟步驟201、接收多人語音服務器傳送的各路語音數(shù)據(jù);步驟202、對所述各路語音數(shù)據(jù)進行噪音分析;步驟203、根據(jù)所述各路語音數(shù)據(jù)確定語音來源數(shù)量,如果所述語音數(shù)據(jù)是語音信息、或語音信息和噪音信息的混合,則語音來源數(shù)量增加I個;如果所述語音數(shù)據(jù)是噪音信息,則語音來源數(shù)量不增加;步驟204、過濾包含噪音信息的麥路語音數(shù)據(jù)中的噪音信息;步驟205、根據(jù)所述語音來源數(shù)量和預設閾值生成控制指令;步驟206、根據(jù)所述控制指令控制語音數(shù)據(jù)的傳輸。在步驟205中,預設閾值為預先設置的或接收多人語音服務器發(fā)送的允許同時說話人數(shù)閾值;其判斷過程是,如果所述語音來源數(shù)量小于所述預設閾值,則生成上傳語音數(shù)據(jù)的控制指令;如果所述語音來源數(shù)量大于或等于所述預設閾值,則生成不上傳語音數(shù)據(jù)的控制指令。
因為同時允許說話的人數(shù)限制,如果有人的麥克中噪音比較大,即使他停止說話,麥克仍然會有語音數(shù)據(jù)上傳,這時,在其他終端,該麥克始終占據(jù)一個來源,影響他人說話。為了保證語音服務器所傳來的數(shù)據(jù)都是用戶真正所說的話,而不是周圍噪音,該實施例對語音數(shù)據(jù)進行噪音分析,能夠排除掉純噪音通話麥路,為其他用戶節(jié)省出一路麥路語音,使其他用戶可以有機會說話,提高麥路的使用效率。如果語音數(shù)據(jù)同時包括噪音和語音信息,則對噪音進行消除處理,只保留語音信息,使噪音大的麥路通話質(zhì)量提高,提高多用戶通話效果,并能夠根據(jù)用戶需要設定通話人數(shù),通過預設閾值和實時語音來源數(shù)量調(diào)節(jié)多人語音通話的人數(shù),保證多人語音通信的通暢。實施例三如圖3所示,為本發(fā)明方法實施例的另一種優(yōu)選實施例,包括以下步驟步驟301、接收多人語音服務器傳送的各路語音數(shù)據(jù); 步驟302、對所述各路語音數(shù)據(jù)進行噪音分析;步驟303、過濾包含噪音信息的語音數(shù)據(jù)中的噪音信息;步驟304、檢測所述語音數(shù)據(jù)是否來自于語音文件;步驟305、過濾所述來自于語音文件的語音數(shù)據(jù);步驟306、根據(jù)語音數(shù)據(jù)確定語音來源數(shù)量,如果所述語音數(shù)據(jù)是語音信息、或語音信息和噪音信息的混合,則語音來源數(shù)量增加I個;如果所述語音數(shù)據(jù)是噪音信息或來自于語音文件,則語音來源數(shù)量不增加;步驟307、根據(jù)所述語音來源數(shù)量和預設閾值生成控制指令;步驟308、根據(jù)所述控制指令控制語音數(shù)據(jù)的傳輸。多人語音軟件在使用過程中,會將正在聽的歌曲、背景音等不是由麥克風傳來的語音進行傳遞,同樣會占用一路語音。為了保證語音數(shù)據(jù)來自于麥克風而不是語音文件,該實施例中對語音數(shù)據(jù)進行了來源分析,當檢測到的語音數(shù)據(jù)來自于某一語音文件時,屏蔽掉該語音信息,并不將其計算在語音來源數(shù)量中,從而達到節(jié)省麥路的目的。實施例四該實施例為多人語音通信中的語音控制裝置的實施例,如圖4所示,該裝置包括接收模塊401、分析模塊402、指令生成模塊403和控制模塊404,并依次連接。接收模塊401,用于接收多人語音服務器傳送的各路語音數(shù)據(jù)。分析模塊402,用于對接收模塊接收到的各路語音數(shù)據(jù)進行分析,確定信息來源和語音信息,信息來源即語音來源數(shù)量,是當前多人語音通信中同時發(fā)言的人數(shù)。如圖5所示,為一個多人語音軟件的界面,信息來源即當前說話的人數(shù),如圖5中所示名字前方有標志的人,取得語音來源數(shù)量后將該信息發(fā)送給指令生成模塊403,語音信息則直接播放。指令生成模塊403中存儲有允許同時說話人數(shù)的一個閾值,默認值可以自己設置,或者由頻道管理員設置,通過服務器向每個客戶端發(fā)送。指令生成模塊403根據(jù)語音來源數(shù)量和預設閾值生成控制指令,例如,假設預設閾值是X = 3,即同時允許3個人發(fā)言,而語音來源數(shù)量為1,則生成上傳指令并發(fā)送給控制模塊404。控制模塊404根據(jù)接收到的上傳指令上傳來自于麥克風的語音數(shù)據(jù),此時用戶端可以進行發(fā)言。實施例五
如圖6所示,為語音控制裝置中分析模塊的一個優(yōu)選實施例,該模塊包括噪音分析單元4011、噪音過濾單元4012和來源數(shù)量計算單元4013。噪音分析單元4011對接收模塊接收到的語音數(shù)據(jù)進行噪音分析,確定當前麥路語音數(shù)據(jù)是否包含噪音數(shù)據(jù)。如果包含噪音數(shù)據(jù),則通過噪音過濾單元4012過濾掉噪音部分,如果都是噪音數(shù)據(jù),沒有語音數(shù)據(jù),則該路語音不接收。來源數(shù)量計算單元4013用于計算來源數(shù)量,當語音數(shù)據(jù)是語音信息或語音信息和噪音信息的混合時,控制語音來源數(shù)量增加I個;以及當所述語音數(shù)據(jù)是噪音信息時,控制語音來源數(shù)量不增加。指令生成模塊用于,在所述語音來源數(shù)量小于所述預設閾值時,生成上傳語音數(shù)據(jù)的控制指令;以及在所述語音來源數(shù)量大于或等于所述預設閾值時,生成不上傳語音數(shù)據(jù)的控制指令。實施例六如圖7所示,為語音控制裝置中分析模塊的另一個優(yōu)選實施例,除實施例五中的 各單元外,該模塊還包括來源分析單元4014和語音文件過濾單元4015,來源分析單元4014用于檢測所述語音數(shù)據(jù)是否來自于語音文件;如果是,則來源數(shù)量計算單元在計算語音來源數(shù)量時不增加來源數(shù)量。語音文件過濾單元4015,用于過濾所述來自于語音文件的語音信息。由于在多人語音通信過程中一些歌曲或者背景音等來自于語音文件的語音數(shù)據(jù)是由發(fā)言人主動播放給大家的,因此不能在統(tǒng)計過程中排除掉該麥路語音,因此,根據(jù)具體情況,該實施例中的功能單元可以由發(fā)言人自行開關(guān),以便于用戶適應具體情況。本發(fā)明實施例通過在多人語音通信的客戶端實時判斷,確定當前用戶是否可以占用麥克風發(fā)言,將原本由多人語音服務器完成的判定工作轉(zhuǎn)移到客戶端進行,節(jié)省了響應時間,減少了網(wǎng)絡延遲量,使用戶的占麥信息可以得到實時響應。要說明的是,本發(fā)明各實施例考慮的背景是網(wǎng)絡運行正常的情況,當本地網(wǎng)絡狀況不好、延遲比較高的時候,用戶端檢測語音麥路數(shù)據(jù)時,可能一些麥路信息沒有傳遞過來,造成統(tǒng)計得到的用戶來源數(shù)量與實際情況不符,此時本地用戶端雖然判定可以通話,但實際上超過了麥路原來的設定。此種情況下,可以繼續(xù)在多人語音服務器中保留麥路設定,這樣即使因為網(wǎng)絡延遲造成了本地的麥路開通,但是多人語音服務器仍然會檢測該通話是否超過麥路限制,保證整個多人語音環(huán)境的暢通。本領域內(nèi)的技術(shù)人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。顯然,本領域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不 脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種多人語音通信中的語音控制方法,包括以下步驟 接收多人語音服務器傳送的各路語音數(shù)據(jù); 根據(jù)所述各路語音數(shù)據(jù)確定語音來源數(shù)量; 根據(jù)所述語音來源數(shù)量和預設閾值生成控制指令; 根據(jù)所述控制指令控制是否上傳語音數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述各路語音數(shù)據(jù)確定語音來源數(shù)量的步驟包括 對所述各路語音數(shù)據(jù)進行噪音分析; 如果所述語音數(shù)據(jù)包括語音信息、或語音信息和噪音信息的混合,則語音來源數(shù)量增加一個; 如果所述語音數(shù)據(jù)是噪音信息,則語音來源數(shù)量不增加。
3.如權(quán)利要求2所述的方法,其特征在于,如果所述語音數(shù)據(jù)是噪音信息和語音信息的混合,則過濾所述噪音信息。
4.如權(quán)利要求1至3任一所述的方法,其特征在于,根據(jù)所述各路語音數(shù)據(jù)確定語音來源數(shù)量的步驟包括 檢測所述語音數(shù)據(jù)的來源,如果所述語音數(shù)據(jù)來自于語音文件,則所述語音來源數(shù)量不增加。
5.如權(quán)利要求4所述的方法,其特征在于,所述的方法還包括 過濾所述來自于語音文件的語音數(shù)據(jù)。
6.如權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述語音來源數(shù)量和預設閾值生成控制指令的步驟包括 如果所述語音來源數(shù)量小于所述預設閾值,則生成上傳語音數(shù)據(jù)的控制指令; 如果所述語音來源數(shù)量大于或等于所述預設閾值,則生成不上傳語音數(shù)據(jù)的控制指令。
7.一種多人語音通信中語音控制裝置,包括接收模塊、分析模塊、指令生成模塊和控制模塊,其中, 所述接收模塊,用于接收多人語音服務器傳送的各路語音數(shù)據(jù); 所述分析模塊,用于根據(jù)所述各路語音數(shù)據(jù)確定語音來源數(shù)量; 所述指令生成模塊,用于根據(jù)所述語音來源數(shù)量和預設閾值生成控制指令; 所述控制模塊,用于根據(jù)所述控制指令控制是否上傳語音數(shù)據(jù)。
8.如權(quán)利要求7所述的裝置,其特征在于,所述分析模塊進一步包括噪音分析單元和來源數(shù)量計算單元,其中, 所述噪音分析單元,用于對所述各路語音數(shù)據(jù)進行噪音分析; 所述來源數(shù)量計算單元,用于在所述語音數(shù)據(jù)包括語音信息、或語音信息和噪音信息的混合時,控制語音來源數(shù)量增加一個;以及在所述語音數(shù)據(jù)是噪音信息時,控制語音來源數(shù)量不增加。
9.如權(quán)利要求8所述的裝置,其特征在于,所述分析模塊還包括噪音過濾單元,用于過濾所述噪音信息。
10.如權(quán)利要求7至9任一所述的裝置,其特征在于,所述分析模塊還包括來源分析單元,用于檢測所述語音數(shù)據(jù)的來源; 所述來源數(shù)量計算單元用于在所述語音數(shù)據(jù)來自于語音文件時,控制語音來源數(shù)量不增加。
11.如權(quán)利要求10所述的裝置,其特征在于,所述分析模塊還包括語音文件過濾單元,用于過濾所述來自于語音文件的語音數(shù)據(jù)。
12.如權(quán)利要求7或8所述的裝置,其特征在于,所述指令生成模塊用于在所述語音來源數(shù)量小于所述預設閾值時,生成上傳語音數(shù)據(jù)的控制指令;以及在所述語音來源數(shù)量大于或等于所述預設閾值時,生成不上傳語音數(shù)據(jù)的控制指令。
全文摘要
本發(fā)明公開了一種多人語音通信中的語音控制方法。該方法包括接收多人語音服務器傳送的各路語音數(shù)據(jù);根據(jù)所述各路語音數(shù)據(jù)確定語音來源數(shù)量;根據(jù)所述語音來源數(shù)量和預設閾值生成控制指令;根據(jù)所述控制指令控制是否上傳語音數(shù)據(jù)。采用該技術(shù)方案,能夠使多人語音通信的用戶端在判斷能否占麥發(fā)言時,不需要通過與多人語音服務器進行通信判定,能夠?qū)崟r判斷并進行多人語音通信。本發(fā)明還公開了用于實現(xiàn)所述方法的裝置。
文檔編號H04M7/00GK103024224SQ20121048045
公開日2013年4月3日 申請日期2012年11月22日 優(yōu)先權(quán)日2012年11月22日
發(fā)明者林形省, 樊家麟, 張鵬飛 申請人:北京小米科技有限責任公司