專利名稱:一種語(yǔ)音會(huì)議紀(jì)要的分類方法、設(shè)備和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,尤其涉及一種語(yǔ)音會(huì)議紀(jì)要的分類方法、設(shè)備和系統(tǒng)。
背景技術(shù):
隨著視頻會(huì)議技術(shù)的飛速發(fā)展,類似于普通會(huì)議開會(huì)過程中人工產(chǎn)生會(huì)議記錄,在多點(diǎn)視頻會(huì)議中,也同樣存在會(huì)議紀(jì)要的需求?,F(xiàn)有產(chǎn)品已經(jīng)可以實(shí)現(xiàn)在視頻會(huì)議過程中自動(dòng)記錄整個(gè)會(huì)議的音視頻、數(shù)據(jù)等內(nèi)容,如果只是對(duì)音頻數(shù)據(jù)單純的記錄下來(lái),當(dāng)對(duì)會(huì)議的重點(diǎn)內(nèi)容或者特定內(nèi)容進(jìn)行回顧時(shí),就無(wú)法達(dá)到普通會(huì)議那種可以按發(fā)言人進(jìn)行分類的會(huì)議紀(jì)要整理需求。在視頻會(huì)議進(jìn)行中,如果可以確定整個(gè)語(yǔ)音文件只有一個(gè)人在講話,就可以直接 將整個(gè)文件的語(yǔ)音數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)進(jìn)行識(shí)別。如果語(yǔ)音文件中有多個(gè)人的語(yǔ)音,則需要先對(duì)語(yǔ)音文件進(jìn)行分段,然后對(duì)每段語(yǔ)音數(shù)據(jù)分別進(jìn)行聲紋識(shí)別?,F(xiàn)有的聲紋識(shí)別系統(tǒng),通常需要10秒以上的語(yǔ)音數(shù)據(jù),數(shù)據(jù)越長(zhǎng),準(zhǔn)確度越高。因此,在對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行分段時(shí),段不能太短。由于在視頻會(huì)議中,自由交談的場(chǎng)景較多,因此當(dāng)對(duì)語(yǔ)音數(shù)據(jù)的分段較長(zhǎng)時(shí),一段語(yǔ)音可能包含多個(gè)人的語(yǔ)音,在將這多個(gè)人的語(yǔ)音數(shù)據(jù)段送到聲紋識(shí)別系統(tǒng)進(jìn)行識(shí)別時(shí),識(shí)別結(jié)果將是不可靠的。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種語(yǔ)音會(huì)議紀(jì)要的分類方法、設(shè)備和系統(tǒng),能夠?qū)?huì)場(chǎng)中的語(yǔ)音數(shù)據(jù)按照說話人的方位分別進(jìn)行聲紋識(shí)別,提高了聲紋識(shí)別準(zhǔn)確率,進(jìn)而提高了語(yǔ)音會(huì)議紀(jì)要分類的可靠性。為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案第一方面,提供一種語(yǔ)音會(huì)議紀(jì)要的分類方法,包括根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將所述聲源的方位寫入所述音頻數(shù)據(jù)的附加域信息;將所述音頻數(shù)據(jù)打包成音頻碼流,將所述音頻碼流和所述音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得所述錄播服務(wù)器根據(jù)所述附加域信息對(duì)所述音頻數(shù)據(jù)進(jìn)行分類。在一種可能實(shí)現(xiàn)的方式中,結(jié)合第一方面,在將所述音頻數(shù)據(jù)打包成音頻碼流,將所述音頻碼流和所述音頻碼流的附加域信息發(fā)送至錄播服務(wù)器之前,所述方法還包括將語(yǔ)音激活標(biāo)志寫入所述附加域信息,其中所述語(yǔ)音激活標(biāo)志包括已激活或未激活,以便所述錄播服務(wù)器在將解碼出的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,檢測(cè)所述音頻數(shù)據(jù)的附加域信息中的語(yǔ)音激活標(biāo)志,并在語(yǔ)音激活標(biāo)志為已激活時(shí)將所述音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。在第二種可能實(shí)現(xiàn)的方式中,結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,所述將語(yǔ)音激活標(biāo)志寫入所述附加域信息包括
對(duì)所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音活動(dòng)偵測(cè)處理,以識(shí)別所述音頻數(shù)據(jù)是否為語(yǔ)音數(shù)據(jù),若所述音頻數(shù)據(jù)為語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為激活;若所述音頻數(shù)據(jù)不是語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為未激活。第二方面,提供一種語(yǔ)音會(huì)議紀(jì)要的分類方法,包括從多點(diǎn)控制單元接收會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息,所述音頻碼流的附加域信息包括所述音頻碼流所對(duì)應(yīng)的聲源的方位;將所述音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與所述音頻碼流所屬的會(huì)場(chǎng)號(hào)以及所述音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中,并將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng);從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,所述聲紋識(shí)別結(jié)果包括所述音頻數(shù)據(jù)所 對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入所述音頻碼流的附加域信息中。在第一種可能實(shí)現(xiàn)的方式中,結(jié)合第二方面,在所述將所述音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與所述音頻碼流所屬的會(huì)場(chǎng)號(hào)以及所述音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中之后,所述方法還包括將所述音頻碼流的時(shí)間信息寫入音頻碼流的附加域信息中,以便當(dāng)接收到的音頻碼流為至少兩個(gè)時(shí),將所述至少兩個(gè)音頻碼流按照時(shí)間信息進(jìn)行排序。在第二種可能實(shí)現(xiàn)的方式中,結(jié)合第二方面或第二方面的第一種可能實(shí)現(xiàn)的方式,將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng);從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,所述聲紋識(shí)別結(jié)果包括所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入所述音頻碼流的附加域信息中包括將所述碼流文件中的第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng);從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,所述聲紋識(shí)別結(jié)果包括所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息中。在第三種可能實(shí)現(xiàn)的方式中,結(jié)合第二方面的第二種可能實(shí)現(xiàn)的方式,從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果之前還包括將所述碼流文件中的第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果發(fā)送至所述聲紋識(shí)別系統(tǒng),所述第二單位時(shí)間為所述第一單位時(shí)間的上一個(gè)單位時(shí)間,以便在所述聲紋識(shí)別系統(tǒng)對(duì)所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)進(jìn)行聲紋識(shí)別時(shí),將所述第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果作為參考。在第四種可能實(shí)現(xiàn)的方式中,結(jié)合第二方面或第二方面的第一種更可能實(shí)現(xiàn)的方式至第三種可能實(shí)現(xiàn)的方式,在將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,還包括檢測(cè)所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息,若所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的所有附加域信息中的語(yǔ)音激活標(biāo)志都為未激活,則不將所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。
在第五種可能實(shí)現(xiàn)的方式中,結(jié)合第二方面或第二方面的第一種可能實(shí)現(xiàn)的方式至第四種可能實(shí)現(xiàn)的方式,在將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,還包括檢測(cè)所述音頻碼流的附加域信息中的聲源方位;若所述音頻碼流的附加域信息中所述音頻碼流對(duì)應(yīng)的聲源方位只有一個(gè),則將所述碼流文件發(fā)送至聲紋識(shí)別系統(tǒng);若所述音頻碼流的附加域信息包括的所述音頻碼流對(duì)應(yīng)的聲源方位至少有兩個(gè),且所述至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份已經(jīng)在上一次進(jìn)行聲紋識(shí)別時(shí)識(shí)別出來(lái),則將已識(shí)別出來(lái)的所述至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份寫入所述音頻碼流的附加域信息中。 第三方面,提供一種視頻設(shè)備,包括方位獲取單元,用于根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將所述聲源的方位寫入所述音頻數(shù)據(jù)的附加域信息,再將所述音頻數(shù)據(jù)以及所述音頻數(shù)據(jù)的附加域信息發(fā)送至發(fā)送單元;發(fā)送單元,用于從方位獲取單元和標(biāo)志寫入單元接收所述音頻數(shù)據(jù)以及所述音頻數(shù)據(jù)的附加域信息,將所述音頻數(shù)據(jù)打包成音頻碼流,將所述音頻碼流和所述音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得所述錄播服務(wù)器根據(jù)所述附加域信息對(duì)所述音頻數(shù)據(jù)進(jìn)行分類。在一種可能實(shí)現(xiàn)的方式中,結(jié)合第三方面,所述視頻設(shè)備還包括標(biāo)志寫入單元,用于將語(yǔ)音激活標(biāo)志寫入所述附加域信息,其中所述語(yǔ)音激活標(biāo)志包括已激活或未激活,以便所述錄播服務(wù)器在將解碼出的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,檢測(cè)所述音頻數(shù)據(jù)的附加域信息中的語(yǔ)音激活標(biāo)志,并在語(yǔ)音激活標(biāo)志為已激活時(shí)將所述音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。在第二種可能實(shí)現(xiàn)的方式中,結(jié)合第三方面的第一種可能的實(shí)現(xiàn)方式,所述標(biāo)志寫入單元具體用于對(duì)所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音活動(dòng)偵測(cè)處理,以識(shí)別所述音頻數(shù)據(jù)是否為語(yǔ)音數(shù)據(jù),若所述音頻數(shù)據(jù)為語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為激活;若所述音頻數(shù)據(jù)不是語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為未激活。第四方面,提供一種錄播服務(wù)器,包括接收單元,用于從多點(diǎn)控制單元接收會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息,所述音頻碼流的附加域信息包括所述音頻碼流所對(duì)應(yīng)的聲源的方位,并將所述音頻碼流發(fā)送至分類識(shí)別單元;分類識(shí)別單元,用于從所述接收單元接收所述音頻碼流,將所述音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與所述音頻碼流所屬的會(huì)場(chǎng)號(hào)以及所述音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中,并將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng);身份匹配單元,用于從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,所述聲紋識(shí)別結(jié)果包括所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入所述音頻碼流的附加域信息中。在第一種可能實(shí)現(xiàn)的方式中,結(jié)合第四方面,所述錄播服務(wù)器還包括
排序單元,用于將所述音頻碼流的時(shí)間信息寫入音頻碼流的附加域信息中,以便當(dāng)接收到的音頻碼流為至少兩個(gè)時(shí),將所述至少兩個(gè)音頻碼流按照時(shí)間信息進(jìn)行排序。在第二種可能實(shí)現(xiàn)的方式中,結(jié)合第四方面或第四方面的第一種可能實(shí)現(xiàn)的方式,所述分類識(shí)別單元具體用于將所述碼流文件中的第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng);所述身份匹配單元具體用于從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,所述聲紋識(shí)別結(jié)果包括所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入所述第一單 位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息中。在第三種可能實(shí)現(xiàn)的方式中,結(jié)合第四方面的第二種可能實(shí)現(xiàn)的方式中,包括所述分類識(shí)別單元還具體用于將所述碼流文件中的第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果發(fā)送至所述聲紋識(shí)別系統(tǒng),所述第二單位時(shí)間為所述第一單位時(shí)間的上一個(gè)單位時(shí)間,以便在所述聲紋識(shí)別系統(tǒng)對(duì)所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)進(jìn)行聲紋識(shí)別時(shí),將所述第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果作為參考。在第四種可能實(shí)現(xiàn)的方式中,結(jié)合第四方面或第四方面的第一種可能實(shí)現(xiàn)的方式至第三種可能實(shí)現(xiàn)的方式,在將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,所述分類識(shí)別單元還用于檢測(cè)所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息,若所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的所有附加域信息中的語(yǔ)音激活標(biāo)志都為未激活,則不將所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。在第五種可能實(shí)現(xiàn)的方式中,結(jié)合第四方面或第四方面的第一種可能實(shí)現(xiàn)的方式至第四種可能實(shí)現(xiàn)的方式,在將碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,所述分類識(shí)別單元還具體用于檢測(cè)所述音頻碼流的附加域信息中的聲源方位;若所述音頻碼流的附加域信息中所述音頻碼流對(duì)應(yīng)的聲源方位只有一個(gè),則所述分類識(shí)別單元還具體用于將所述碼流文件發(fā)送至聲紋識(shí)別系統(tǒng);若所述音頻碼流的附加域信息包括的所述音頻碼流對(duì)應(yīng)的聲源方位至少有兩個(gè),且所述至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份已經(jīng)在上一次進(jìn)行聲紋識(shí)別時(shí)識(shí)別出來(lái),則所述身份匹配單元還具體用于將已識(shí)別出來(lái)的所述至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份寫入所述音頻碼流的附加域信息中。第五方面,提供一種視頻會(huì)議,包括聲紋識(shí)別系統(tǒng)和多點(diǎn)控制單元,還包括所述視頻設(shè)備和所述錄播服務(wù)器。本發(fā)明實(shí)施例提供一種語(yǔ)音會(huì)議紀(jì)要的分類方法、設(shè)備和系統(tǒng),通過根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將聲源的方位寫入音頻數(shù)據(jù)的附加域信息,再將語(yǔ)音激活標(biāo)志寫入附加域信息,其中語(yǔ)音激活標(biāo)志包括已激活或未激活,而后將音頻數(shù)據(jù)打包成音頻碼流,并將音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得錄播服務(wù)器根據(jù)附加域信息對(duì)音頻數(shù)據(jù)進(jìn)行分類,將音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中,能夠?qū)?huì)場(chǎng)中的語(yǔ)音數(shù)據(jù)按照說話人的方位分別進(jìn)行聲紋識(shí)別,提高了聲紋識(shí)別準(zhǔn)確率,進(jìn)而提高了語(yǔ)音會(huì)議紀(jì)要分類的可靠性。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明實(shí)施例提供的一種語(yǔ)音會(huì)議紀(jì)要的分類方法流程示意圖;圖2為本發(fā)明實(shí)施例提供的另一種語(yǔ)音會(huì)議紀(jì)要的分類方法流程示意圖;圖3為本發(fā)明另一實(shí)施例提供的一種語(yǔ)音會(huì)議紀(jì)要的分類方法流程示意圖;
圖4為本發(fā)明又一實(shí)施例提供的一種視頻設(shè)備結(jié)構(gòu)示意圖;圖5為本發(fā)明又一實(shí)施例提供的另一種視頻設(shè)備結(jié)構(gòu)示意圖;圖6為本發(fā)明又一實(shí)施例提供的一種錄播服務(wù)器結(jié)構(gòu)示意圖;圖7為本發(fā)明又一實(shí)施例提供的另一種錄播服務(wù)器結(jié)構(gòu)示意圖;圖8為本發(fā)明又一實(shí)施例提供的又一種視頻設(shè)備結(jié)構(gòu)示意圖;圖9為本發(fā)明又一實(shí)施例提供的又一種錄播服務(wù)器結(jié)構(gòu)示意圖;圖10為本發(fā)明又一實(shí)施例提供的一種視頻會(huì)議系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明實(shí)施例提供一種語(yǔ)音會(huì)議紀(jì)要的分類方法,該方法應(yīng)用于視頻會(huì)議系統(tǒng),該視頻會(huì)議系統(tǒng)由會(huì)場(chǎng)、多點(diǎn)控制單元、錄播服務(wù)器、聲紋識(shí)別系統(tǒng)組成,其中會(huì)場(chǎng)中包括一個(gè)或多個(gè)視頻設(shè)備和麥克風(fēng),基于視頻設(shè)備側(cè)的方法,如圖I所示,包括S101、視頻設(shè)備根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將聲源的方位寫入音頻數(shù)據(jù)的附加域信息。S102、視頻設(shè)備將音頻數(shù)據(jù)打包成音頻碼流,將音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得錄播服務(wù)器根據(jù)附加域信息對(duì)音頻數(shù)據(jù)進(jìn)行分類。進(jìn)一步的,在執(zhí)行S102之前還可以包括視頻設(shè)備將語(yǔ)音激活標(biāo)志寫入附加域信息,其中語(yǔ)音激活標(biāo)志包括已激活或未激活,以便錄播服務(wù)器在將解碼出的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,檢測(cè)音頻數(shù)據(jù)的附加域信息中的語(yǔ)音激活標(biāo)志,并在語(yǔ)音激活標(biāo)志為已激活時(shí)將音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。示例性的,可以對(duì)音頻數(shù)據(jù)進(jìn)行語(yǔ)音活動(dòng)偵測(cè)處理,以識(shí)別音頻數(shù)據(jù)是否為語(yǔ)音數(shù)據(jù),若音頻數(shù)據(jù)為語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為激活;若音頻數(shù)據(jù)不是語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為未激活。需要說明的是,一般情況下視頻設(shè)備需要將音頻碼流和音頻碼流的附加域信息先發(fā)送至多點(diǎn)控制單元(Multi-Control Unit, MCU)再由多點(diǎn)控制單元轉(zhuǎn)發(fā)至發(fā)送至錄播服務(wù)器。本發(fā)明實(shí)施例提供另一種語(yǔ)音會(huì)議紀(jì)要的分類方法,基于錄播服務(wù)器側(cè),如圖2所示,包括S201、錄播服務(wù)器從多點(diǎn)控制單元接收會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息,音頻碼流的附加域信息包括音頻碼流所對(duì)應(yīng)的聲源的方位。S202、 錄播服務(wù)器將音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與音頻碼流所屬的會(huì)場(chǎng)號(hào)以及音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中,并將碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。S203、錄播服務(wù)器從聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,聲紋識(shí)別結(jié)果包括音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中。本發(fā)明實(shí)施例提供一種語(yǔ)音會(huì)議紀(jì)要的分類方法,通過根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將聲源的方位寫入音頻數(shù)據(jù)的附加域信息,再將語(yǔ)音激活標(biāo)志寫入附加域信息,其中語(yǔ)音激活標(biāo)志包括已激活或未激活,而后將音頻數(shù)據(jù)打包成音頻碼流,并將音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得錄播服務(wù)器根據(jù)附加域信息對(duì)音頻數(shù)據(jù)進(jìn)行分類,將音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中,能夠?qū)?huì)場(chǎng)中的語(yǔ)音數(shù)據(jù)按照說話人的方位分別進(jìn)行聲紋識(shí)別,提高了聲紋識(shí)別準(zhǔn)確率,進(jìn)而提高了語(yǔ)音會(huì)議紀(jì)要分類的可靠性。本發(fā)明又一實(shí)施例提供一種語(yǔ)音會(huì)議紀(jì)要的分類方法,如圖3所示,包括S301、視頻設(shè)備根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將聲源的方位寫入音頻數(shù)據(jù)的附加域信息。具體的,可以通過聲源定位技術(shù)獲取會(huì)場(chǎng)中聲源的方位,該聲源定位技術(shù)是通過麥克風(fēng)陣列拾取語(yǔ)音信號(hào),并用數(shù)字信號(hào)處理技術(shù)對(duì)其進(jìn)行分析和處理來(lái)得到聲源方位的。S302、視頻設(shè)備將語(yǔ)音激活標(biāo)志寫入附加域信息,其中語(yǔ)音激活標(biāo)志包括已激活或未激活??蛇x的,視頻設(shè)備在將語(yǔ)音激活標(biāo)志寫入附加域信息之前,要先識(shí)別音頻數(shù)據(jù)是否為語(yǔ)音數(shù)據(jù)。具體的,可以通過VAD(Voice Activation Detection,語(yǔ)音活動(dòng)偵測(cè))處理識(shí)別音頻數(shù)據(jù)是否為語(yǔ)音數(shù)據(jù),對(duì)音頻數(shù)據(jù)進(jìn)行語(yǔ)音活動(dòng)偵測(cè)處理,以識(shí)別音頻數(shù)據(jù)是否為語(yǔ)音數(shù)據(jù),若音頻數(shù)據(jù)為語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為激活;若音頻數(shù)據(jù)不是語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為未激活。這樣做的目的是從音頻數(shù)據(jù)的信號(hào)流里識(shí)別非語(yǔ)音數(shù)據(jù),以便在進(jìn)行聲紋識(shí)別時(shí)不對(duì)非語(yǔ)音數(shù)據(jù)進(jìn)行識(shí)別,以達(dá)到節(jié)省資源的目的。S303、視頻設(shè)備將音頻數(shù)據(jù)打包成音頻碼流,將音頻碼流和音頻碼流的附加域信息發(fā)送至多點(diǎn)控制單元。具體的,在視頻設(shè)備將會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器之前,可以通過MCU從視頻設(shè)備接收音頻碼流和音頻碼流的附加域信息,并將音頻碼流和音頻碼流的附加域信息轉(zhuǎn)發(fā)至NRS (Net Record Server,錄播服務(wù)器)其中,音頻碼流的附加域信息包括音頻碼流所對(duì)應(yīng)的聲源的方位。
其中,多點(diǎn)控制單元是視頻會(huì)議系統(tǒng)的核心部分,可以為視頻會(huì)議用戶提供群組會(huì)議、多組會(huì)議的連接服務(wù)。視頻設(shè)備在將打包后的音頻碼流和音頻碼流的附加域信息發(fā)送至多點(diǎn)控制單元時(shí),音頻碼流和附加域信息是通過不同的信道進(jìn)行傳輸?shù)摹304、多點(diǎn)控制單元從視頻設(shè)備接收會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息,并將接收的會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,音頻碼流的附加域信息包括音頻碼流所對(duì)應(yīng)的聲源的方位。其中,由于多點(diǎn)控制單元接收到的音頻碼流和附加域信息是經(jīng)過打包的,因此多點(diǎn)控制單元在接收到音頻碼流和附加域信息后,需要通過解碼器對(duì)接收到的音頻碼流和音頻碼流的附加域信息進(jìn)行解碼,以恢復(fù)音頻碼流和附加域信息,其中,音頻碼流的附加域信息包括音頻碼流所對(duì)應(yīng)的聲源的方位。進(jìn)一步的,當(dāng)有多個(gè)會(huì)場(chǎng)發(fā)送音頻碼流時(shí),多點(diǎn)控制單元在接收到各個(gè)會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息后,可以對(duì)各個(gè)會(huì)場(chǎng)的音頻碼流的增益大小進(jìn)行排序,而 后選取音頻碼流增益最大的前N個(gè)會(huì)場(chǎng)。例如,可以選取各個(gè)會(huì)場(chǎng)中的音頻碼流增益最大的前3個(gè)會(huì)場(chǎng)或者前4個(gè)會(huì)場(chǎng)。而后,多點(diǎn)控制單元將語(yǔ)音最大的前N個(gè)會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器。S305、錄播服務(wù)器將音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與音頻碼流所屬的會(huì)場(chǎng)號(hào)以及音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中。示例性的,錄播服務(wù)器在接收到由多點(diǎn)控制單元篩選出的最大的前N個(gè)會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息時(shí),可以根據(jù)這些音頻碼流所屬會(huì)場(chǎng)的會(huì)場(chǎng)號(hào)以及這些音頻碼流的附加域信息中的聲源方位創(chuàng)建對(duì)應(yīng)的碼流文件,并將音頻碼流存儲(chǔ)在對(duì)應(yīng)的碼流文件中,這樣通過將音頻碼流與會(huì)場(chǎng)及聲源方位進(jìn)行關(guān)聯(lián),實(shí)現(xiàn)了音頻碼流的精準(zhǔn)分類,以便在進(jìn)行聲紋識(shí)別時(shí)能夠準(zhǔn)確的識(shí)別出該音頻碼流在該會(huì)場(chǎng)中所屬聲源方位的參會(huì)者身份。S306、錄播服務(wù)器將音頻碼流的時(shí)間信息寫入音頻碼流的附加域信息中,以便當(dāng)接收到的音頻碼流為至少兩個(gè)時(shí),將至少兩個(gè)音頻碼流按照時(shí)間信息進(jìn)行排序。其中,在錄播服務(wù)器將解碼出的音頻數(shù)據(jù),存儲(chǔ)到與音頻碼流所屬的會(huì)場(chǎng)號(hào)以及音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中之后,錄播服務(wù)器要將音頻碼流的時(shí)間信息寫入音頻碼流的附加域信息中,以便當(dāng)接收到的音頻碼流為至少兩個(gè)時(shí),將至少兩個(gè)音頻碼流按照時(shí)間信息進(jìn)行排序。具體的,在做會(huì)議紀(jì)要記錄的同時(shí),需要對(duì)與會(huì)者的說話先后順序進(jìn)行排序,因此需要將接收到的各條音頻碼流的時(shí)間信息寫入該音頻碼流的附加域信息中,以便將各個(gè)會(huì)場(chǎng)中的各個(gè)音頻碼流按照時(shí)間信息進(jìn)行排序,做到會(huì)議紀(jì)要記錄的清晰準(zhǔn)確。S307、錄播服務(wù)器檢測(cè)音頻碼流的附加域信息中的聲源方位。S308、錄播服務(wù)器判斷音頻碼流對(duì)應(yīng)的附加域信息中是否只有一個(gè)聲源方位,若音頻碼流的附加域信息包括的音頻碼流對(duì)應(yīng)的聲源方位至少有兩個(gè),則執(zhí)行S309 ;若音頻碼流的附加域信息中音頻碼流對(duì)應(yīng)的聲源方位只有一個(gè),則執(zhí)行S310。S309、錄播服務(wù)器判斷至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份是否已經(jīng)在上一次進(jìn)行聲紋識(shí)別時(shí)識(shí)別出來(lái),若至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份已經(jīng)在上一次進(jìn)行聲紋識(shí)別時(shí)識(shí)別出來(lái),則執(zhí)行S311 ;若至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份沒有在上一次進(jìn)行聲紋識(shí)別時(shí)識(shí)別出來(lái),則再次執(zhí)行S307 S309。S310、錄播服務(wù)器將碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)(TheVoiceprint identification System, VPS),而后執(zhí)行 S312。其中,在錄播服務(wù)器將碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,錄播服務(wù)器要檢測(cè)第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息,若第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的所有附加域信息中的語(yǔ)音激活標(biāo)志都為未激活,則不將第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。具體的,錄播服務(wù)器檢測(cè)第η個(gè)單位時(shí)間內(nèi)存儲(chǔ)的屬于某一會(huì)場(chǎng)的某一方位的音頻碼流的附加域信息中的語(yǔ)音激活標(biāo)志,若這段音頻碼流的所有附加域信息中的語(yǔ)音激活標(biāo)志都未激活,則不進(jìn)行處理,這樣,當(dāng)該第η個(gè)單位時(shí)間內(nèi)存儲(chǔ)的屬于某一會(huì)場(chǎng)的某一方位的音頻碼流的附加域信息中的語(yǔ)音激活標(biāo)志都未激活時(shí),表示這些音頻數(shù)據(jù)不是語(yǔ)音, 就不用將該音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)進(jìn)行檢測(cè)了,節(jié)省了資源。示例性的,上述的單位時(shí)間的時(shí)間長(zhǎng)度可以根據(jù)實(shí)際情況來(lái)設(shè)置,例如,可以將單位時(shí)間的時(shí)間長(zhǎng)度設(shè)置為lrnin。聲紋識(shí)別技術(shù)是一種生物特征識(shí)別技術(shù),也稱為說話人識(shí)別,具體的,聲紋識(shí)別系統(tǒng)可以將需要識(shí)別的語(yǔ)音數(shù)據(jù)的聲紋特征與聲紋庫(kù)中的所有聲紋進(jìn)行匹配,以識(shí)別說話人身份。一般為了進(jìn)行可靠的識(shí)別,通常需要10秒以上的語(yǔ)音數(shù)據(jù)存儲(chǔ),數(shù)據(jù)越長(zhǎng),準(zhǔn)確度越聞。S311、錄播服務(wù)器將已識(shí)別出來(lái)的至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中。具體的,由于當(dāng)一段音頻碼流的附加域信息中出現(xiàn)至少兩個(gè)聲源方位時(shí),若將該音頻碼流送入聲紋識(shí)別系統(tǒng)可能會(huì)到導(dǎo)致識(shí)別錯(cuò)誤,因此,當(dāng)音頻碼流的附加域信息存在至少兩個(gè)聲源的方位時(shí),由于之前已經(jīng)檢測(cè)出的該方位的姓名信息,就不再將音頻碼流進(jìn)行聲紋識(shí)別,而是將之前檢測(cè)出的該方位對(duì)應(yīng)的參會(huì)者身份即姓名信息直接寫入該方位出現(xiàn)重疊的音頻碼流附加域的姓名信息上,從而實(shí)現(xiàn)了在多個(gè)人同時(shí)說話時(shí)識(shí)別聲源方位的目的,也增加會(huì)議紀(jì)要分類的準(zhǔn)確度。S312、錄播服務(wù)器從聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,聲紋識(shí)別結(jié)果包括音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中。示例性的,錄播服務(wù)器可以將在第一單位時(shí)間內(nèi)的音頻碼流所解碼出的音頻數(shù)據(jù)存儲(chǔ)到與音頻碼流所屬的會(huì)場(chǎng)號(hào)以及音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件,并將碼流文件中的第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng);而后錄播服務(wù)器從聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,聲紋識(shí)別結(jié)果包括在第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息中?;蛘?,優(yōu)選的,在從聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果之前還可以包括將碼流文件中的第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果發(fā)送至聲紋識(shí)別系統(tǒng),第二單位時(shí)間為第一單位時(shí)間的上一個(gè)單位時(shí)間,以便在聲紋識(shí)別系統(tǒng)對(duì)第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)進(jìn)行聲紋識(shí)別時(shí),將第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果作為參考。這樣,在有前一次識(shí)別結(jié)果作為參考的情況下進(jìn)行識(shí)別,可以提高聲紋識(shí)別速度。本發(fā)明實(shí)施例提供一種語(yǔ)音會(huì)議紀(jì)要的分類方法,通過根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將聲源的方位寫入音頻數(shù)據(jù)的附加域信息,再將語(yǔ)音激活標(biāo)志寫入附加域信息,其中語(yǔ)音激活標(biāo)志包括已激活或未激活,而后將音頻數(shù)據(jù)打包成音頻碼流,并將音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得錄播服務(wù)器根據(jù)附加域信息對(duì)音頻數(shù)據(jù)進(jìn)行分類,將音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中,能夠?qū)?huì)場(chǎng)中的語(yǔ)音數(shù)據(jù)按照說話人的方位分別進(jìn)行聲紋識(shí)別,提高了聲紋識(shí)別準(zhǔn)確率,進(jìn)而提高了語(yǔ)音會(huì)議紀(jì)要分類的可靠性。本發(fā)明又一實(shí)施例提供一種視頻設(shè)備01,如圖4所示,包括方位獲取單元011,用于根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將聲源的方位寫入音頻數(shù)據(jù)的附加域信息,再將音頻數(shù)據(jù)以及音頻數(shù)據(jù)的附加域信息發(fā)送至發(fā)送單元013。發(fā)送單元013,用于從方位獲取單元011接收音頻數(shù)據(jù)以及音頻數(shù)據(jù)的附加域信息,將音頻數(shù)據(jù)打包成音頻碼流,將音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得錄播服務(wù)器根據(jù)附加域信息對(duì)音頻數(shù)據(jù)進(jìn)行分類。進(jìn)一步的,如圖5所示,視頻設(shè)備01還可以包括標(biāo)志寫入單元012,用于在將音頻數(shù)據(jù)以及音頻數(shù)據(jù)的附加域信息發(fā)送至發(fā)送單元013之前,從方位獲取單元011接收附加域信息,并將語(yǔ)音激活標(biāo)志寫入附加域信息,其中語(yǔ)音激活標(biāo)志包括已激活或未激活,而后將附加域信息發(fā)送至發(fā)送單元013,以便錄播服務(wù)器在將解碼出的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,檢測(cè)音頻數(shù)據(jù)的附加域信息中的語(yǔ)音激活標(biāo)志,并在語(yǔ)音激活標(biāo)志為已激活時(shí)將音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。
其中,標(biāo)志寫入單元012可以具體用于對(duì)音頻數(shù)據(jù)進(jìn)行語(yǔ)音活動(dòng)偵測(cè)處理,以識(shí)別音頻數(shù)據(jù)是否為語(yǔ)音數(shù)據(jù),若音頻數(shù)據(jù)為語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為激活;若音頻數(shù)據(jù)不是語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為未激活。本發(fā)明實(shí)施例提供一種視頻設(shè)備,通過會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將聲源的方位寫入音頻數(shù)據(jù)的附加域信息,將語(yǔ)音激活標(biāo)志寫入附加域信息,將音頻數(shù)據(jù)打包成音頻碼流,將音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得錄播服務(wù)器根據(jù)附加域信息對(duì)音頻數(shù)據(jù)進(jìn)行分類,能夠?qū)?huì)場(chǎng)中的語(yǔ)音數(shù)據(jù)按照說話人的方位分別進(jìn)行聲紋識(shí)別,提高了聲紋識(shí)別準(zhǔn)確率,進(jìn)而提高了語(yǔ)音會(huì)議紀(jì)要分類的可靠性。本發(fā)明又一實(shí)施例提供一種錄播服務(wù)器02,如圖6所示,包括接收單元021,用于從多點(diǎn)控制單元接收會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息,音頻碼流的附加域信息包括音頻碼流所對(duì)應(yīng)的聲源的方位,并將音頻碼流發(fā)送至分類識(shí)別單元022。分類識(shí)別單元022,用于從接收單元021接收音頻碼流,將音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與音頻碼流所屬的會(huì)場(chǎng)號(hào)以及音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中,并將碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。
身份匹配單元023,用于從分類識(shí)別單元022的聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,聲紋識(shí)別結(jié)果包括音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中。進(jìn)一步的,如圖7所示,錄播服務(wù)器02還可以包括排序單元024,用于將音頻碼流的時(shí)間信息寫入音頻碼流的附加域信息中,以便當(dāng)接收到的音頻碼流為至少兩個(gè)時(shí),將至少兩個(gè)音頻碼流按照時(shí)間信息進(jìn)行排序。再進(jìn)一步的,分類識(shí)別單元022可以具體用于將在第一單位時(shí)間內(nèi)的音頻碼流所解碼出的音頻數(shù)據(jù)存儲(chǔ)到與音頻碼流所屬的會(huì)場(chǎng)號(hào)以及音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件,并將碼流文件中的第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。身份匹配單元023可以具體用于從聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,聲紋識(shí)別結(jié)果包括第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將第一單位 時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息中。優(yōu)選的,在從聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果之前,分類識(shí)別單元022還可以具體用于將碼流文件中的第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果發(fā)送至聲紋識(shí)別系統(tǒng),第二單位時(shí)間為第一單位時(shí)間的上一個(gè)單位時(shí)間,以便在聲紋識(shí)別系統(tǒng)對(duì)第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)進(jìn)行聲紋識(shí)別時(shí),將第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果作為參考。再進(jìn)一步的,在將碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,分類識(shí)別單元還用于022還可以具體用于檢測(cè)第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息,若第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的所有附加域信息中的語(yǔ)音激活標(biāo)志都為未激活,則不將第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。更進(jìn)一步的,在將碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,分類識(shí)別單元022還可以具體用于檢測(cè)音頻碼流的附加域信息中的聲源方位;若音頻碼流的附加域信息中音頻碼流對(duì)應(yīng)的聲源方位只有一個(gè),則分類識(shí)別單元022還可以用于將碼流文件發(fā)送至聲紋識(shí)別系統(tǒng);若音頻碼流的附加域信息包括的音頻碼流對(duì)應(yīng)的聲源方位至少有兩個(gè),且至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份已經(jīng)在上一次進(jìn)行聲紋識(shí)別時(shí)識(shí)別出來(lái),則身份匹配單元023還可以用于將已識(shí)別出來(lái)的兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中。本發(fā)明實(shí)施例提供一種錄播服務(wù)器,通過從多點(diǎn)控制單元接收會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息,音頻碼流的附加域信息包括音頻碼流所對(duì)應(yīng)的聲源的方位,將音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與音頻碼流所屬的會(huì)場(chǎng)號(hào)以及音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中,并將碼流文件發(fā)送至聲紋識(shí)別系統(tǒng),從聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,再將音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中,能夠?qū)?huì)場(chǎng)中的語(yǔ)音數(shù)據(jù)按照說話人的方位分別進(jìn)行聲紋識(shí)別,提高了聲紋識(shí)別準(zhǔn)確率,進(jìn)而提高了語(yǔ)音會(huì)議紀(jì)要分類的可靠性。本發(fā)明又一實(shí)施例提供一種視頻設(shè)備05,包括第一接收機(jī)051、第一存儲(chǔ)器052和總線055,如圖8所示,還包括第一處理器053,用于根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將聲源的方位寫入音頻數(shù)據(jù)的附加域信息。第一發(fā)射機(jī)054,用于將音頻數(shù)據(jù)打包成音頻碼流,將音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得錄播服務(wù)器根據(jù)附加域信息對(duì)音頻數(shù)據(jù)進(jìn)行分類。進(jìn)一步的,第一處理器053在將音頻數(shù)據(jù)打包成音頻碼流,將音頻碼流和音頻碼流的附加域信息發(fā)送至第一發(fā)射機(jī)054之前,還用于將語(yǔ)音激活標(biāo)志寫入附加域信息,其中語(yǔ)音激活標(biāo)志包括已激活或未激活,以便錄播服務(wù)器在將解碼出的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,檢測(cè)音頻數(shù)據(jù)的附加域信息中的語(yǔ)音激活標(biāo)志,并在語(yǔ)音激活標(biāo)志為已激活時(shí)將音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。其中,第一處理器053還可以具體用于對(duì)音頻數(shù)據(jù)進(jìn)行語(yǔ)音活動(dòng)偵測(cè)處理,以識(shí)別音頻數(shù)據(jù)是否為語(yǔ)音數(shù)據(jù),若音頻數(shù)據(jù)為語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為激活;若音頻數(shù)據(jù)不是語(yǔ)音數(shù)據(jù),則 在附加域信息中將語(yǔ)音激活標(biāo)志寫為未激活。本發(fā)明實(shí)施例提供一種視頻設(shè)備,通過會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將聲源的方位寫入音頻數(shù)據(jù)的附加域信息,將語(yǔ)音激活標(biāo)志寫入附加域信息,將音頻數(shù)據(jù)打包成音頻碼流,將音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得錄播服務(wù)器根據(jù)附加域信息對(duì)音頻數(shù)據(jù)進(jìn)行分類,能夠?qū)?huì)場(chǎng)中的語(yǔ)音數(shù)據(jù)按照說話人的方位分別進(jìn)行聲紋識(shí)別,提高了聲紋識(shí)別準(zhǔn)確率,進(jìn)而提高了語(yǔ)音會(huì)議紀(jì)要分類的可靠性。本發(fā)明又一實(shí)施例提供一種錄播服務(wù)器06,包括第二存儲(chǔ)器061、第二發(fā)射機(jī)063和總線065,如圖9所示,還包括第二接收機(jī)062,用于從多點(diǎn)控制單元接收會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息,音頻碼流的附加域信息包括音頻碼流所對(duì)應(yīng)的聲源的方位。第二存儲(chǔ)器061,用于將音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與音頻碼流所屬的會(huì)場(chǎng)號(hào)以及音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中,并通過第二發(fā)射機(jī)063將碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。第二處理器064,用于從聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,聲紋識(shí)別結(jié)果包括音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中。進(jìn)一步的,在將音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與音頻碼流所屬的會(huì)場(chǎng)號(hào)以及音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中之后,第二處理器064還可以用于將音頻碼流的時(shí)間信息寫入音頻碼流的附加域信息中,以便當(dāng)接收到的音頻碼流為至少兩個(gè)時(shí),將至少兩個(gè)音頻碼流按照時(shí)間信息進(jìn)行排序。再進(jìn)一步的,第二存儲(chǔ)器061可以具體用于將在第一單位時(shí)間內(nèi)的音頻碼流所解碼出的音頻數(shù)據(jù)存儲(chǔ)到與音頻碼流所屬的會(huì)場(chǎng)號(hào)以及音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件,并通過第二發(fā)射機(jī)063將碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng);第二接收機(jī)062可以具體用于從聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,聲紋識(shí)別結(jié)果包括在第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息中。再進(jìn)一步的,在從聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果之前,可以通過第二發(fā)射機(jī)063將碼流文件中的第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果發(fā)送至聲紋識(shí)別系統(tǒng),第二單位時(shí)間為第一單位時(shí)間的上一個(gè)單位時(shí)間,以便在聲紋識(shí)別系統(tǒng)對(duì)第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)進(jìn)行聲紋識(shí)別時(shí),將第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果作為參考。再進(jìn)一步的,在將碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,第二處理器064還可以用于檢測(cè)第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息,若第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的所有附加域信息中的語(yǔ)音激活標(biāo)志都為未激活,則不將第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。更進(jìn)一步的,在將碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,第二處理器 064還可以用于檢測(cè)音頻碼流的附加域信息中的聲源方位;若音頻碼流的附加域信息中音頻碼流對(duì)應(yīng)的聲源方位只有一個(gè),則將碼流文件發(fā)送至聲紋識(shí)別系統(tǒng);若音頻碼流的附加域信息包括的音頻碼流對(duì)應(yīng)的聲源方位至少有兩個(gè),且至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份已經(jīng)在上一次進(jìn)行聲紋識(shí)別時(shí)識(shí)別出來(lái),則通過第二發(fā)射機(jī)063將已識(shí)別出來(lái)的兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中。本發(fā)明實(shí)施例提供一種錄播服務(wù)器,通過從多點(diǎn)控制單元接收會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息,音頻碼流的附加域信息包括音頻碼流所對(duì)應(yīng)的聲源的方位,將音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與音頻碼流所屬的會(huì)場(chǎng)號(hào)以及音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中,并將碼流文件發(fā)送至聲紋識(shí)別系統(tǒng),從聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,再將音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中,能夠?qū)?huì)場(chǎng)中的語(yǔ)音數(shù)據(jù)按照說話人的方位分別進(jìn)行聲紋識(shí)別,提高了聲紋識(shí)別準(zhǔn)確率,進(jìn)而提高了語(yǔ)音會(huì)議紀(jì)要分類的可靠性。本發(fā)明又一實(shí)施例提供一種視頻會(huì)議系統(tǒng)1,包括多點(diǎn)控制單元03和聲紋識(shí)別系統(tǒng)04,如圖10所示,還包括前述實(shí)施例提供的視頻設(shè)備01和錄播服務(wù)器02,或視頻設(shè)備05和錄播服務(wù)器06。本發(fā)明實(shí)施例提供一種視頻會(huì)議系統(tǒng),通過根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將聲源的方位寫入音頻數(shù)據(jù)的附加域信息,再將語(yǔ)音激活標(biāo)志寫入附加域信息,其中語(yǔ)音激活標(biāo)志包括已激活或未激活,而后將音頻數(shù)據(jù)打包成音頻碼流,并將音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得錄播服務(wù)器根據(jù)附加域信息對(duì)音頻數(shù)據(jù)進(jìn)行分類,將音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中,能夠?qū)?huì)場(chǎng)中的語(yǔ)音數(shù)據(jù)按照說話人的方位分別進(jìn)行聲紋識(shí)別,提高了聲紋識(shí)別準(zhǔn)確率,進(jìn)而提高了語(yǔ)音會(huì)議紀(jì)要分類的可靠性。在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露方法、設(shè)備和系統(tǒng),可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的設(shè)備實(shí)施例僅僅是示意性的,例如,單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。另外,在本發(fā)明各個(gè)實(shí)施例中,各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理包括,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。且上述的各單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來(lái)完成,前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(Read Only Memory,簡(jiǎn)稱ROM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory,簡(jiǎn)稱RAM)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。以上所述,僅為本發(fā)明的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種語(yǔ)音會(huì)議紀(jì)要的分類方法,其特征在于,包括 根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將所述聲源的方位寫入所述音頻數(shù)據(jù)的附加域信息; 將所述音頻數(shù)據(jù)打包成音頻碼流,將所述音頻碼流和所述音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得所述錄播服務(wù)器根據(jù)所述附加域信息對(duì)所述音頻數(shù)據(jù)進(jìn)行分類。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,在將所述音頻數(shù)據(jù)打包成音頻碼流,將所述音頻碼流和所述音頻碼流的附加域信息發(fā)送至錄播服務(wù)器之前,所述方法還包括 將語(yǔ)音激活標(biāo)志寫入所述附加域信息,其中所述語(yǔ)音激活標(biāo)志包括已激活或未激活,以便所述錄播服務(wù)器在將解碼出的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,檢測(cè)所述音頻數(shù)據(jù)的附加域信息中的語(yǔ)音激活標(biāo)志,并在語(yǔ)音激活標(biāo)志為已激活時(shí)將所述音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將語(yǔ)音激活標(biāo)志寫入所述附加域信息包括 對(duì)所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音活動(dòng)偵測(cè)處理,以識(shí)別所述音頻數(shù)據(jù)是否為語(yǔ)音數(shù)據(jù),若所述音頻數(shù)據(jù)為語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為激活;若所述音頻數(shù)據(jù)不是語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為未激活。
4.一種語(yǔ)音會(huì)議紀(jì)要的分類方法,其特征在于,包括 從多點(diǎn)控制單元接收會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息,所述音頻碼流的附加域信息包括所述音頻碼流所對(duì)應(yīng)的聲源的方位; 將所述音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與所述音頻碼流所屬的會(huì)場(chǎng)號(hào)以及所述音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中,并將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng); 從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,所述聲紋識(shí)別結(jié)果包括所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入所述音頻碼流的附加域信息中。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述將所述音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與所述音頻碼流所屬的會(huì)場(chǎng)號(hào)以及所述音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中之后,所述方法還包括 將所述音頻碼流的時(shí)間信息寫入音頻碼流的附加域信息中,以便當(dāng)接收到的音頻碼流為至少兩個(gè)時(shí),將所述至少兩個(gè)音頻碼流按照時(shí)間信息進(jìn)行排序。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng);從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,所述聲紋識(shí)別結(jié)果包括所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入所述音頻碼流的附加域信息中包括 將所述碼流文件中的第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng); 從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,所述聲紋識(shí)別結(jié)果包括所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息中。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果之前還包括 將所述碼流文件中的第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果發(fā)送至所述聲紋識(shí)別系統(tǒng),所述第二單位時(shí)間為所述第一單位時(shí)間的上一個(gè)單位時(shí)間,以便在所述聲紋識(shí)別系統(tǒng)對(duì)所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)進(jìn)行聲紋識(shí)別時(shí),將所述第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果作為參考。
8.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,在將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,還包括 檢測(cè)所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息,若所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的所有附加域信息中的語(yǔ)音激活標(biāo)志都為未激活,則不將所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。
9.根據(jù)權(quán)利要求4至8任意一項(xiàng)所述的方法,其特征在于,在將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,還包括 檢測(cè)所述音頻碼流的附加域信息中的聲源方位; 若所述音頻碼流的附加域信息中所述音頻碼流對(duì)應(yīng)的聲源方位只有一個(gè),則將所述碼流文件發(fā)送至聲紋識(shí)別系統(tǒng); 若所述音頻碼流的附加域信息包括的所述音頻碼流對(duì)應(yīng)的聲源方位至少有兩個(gè),且所述至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份已經(jīng)在上一次進(jìn)行聲紋識(shí)別時(shí)識(shí)別出來(lái),則將已識(shí)別出來(lái)的所述至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份寫入所述音頻碼流的附加域信息中。
10.一種視頻設(shè)備,其特征在于,包括 方位獲取單元,用于根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將所述聲源的方位寫入所述音頻數(shù)據(jù)的附加域信息,再將所述音頻數(shù)據(jù)以及所述音頻數(shù)據(jù)的附加域信息發(fā)送至發(fā)送單元; 發(fā)送單元,用于從所述方位獲取單元接收所述音頻數(shù)據(jù)以及所述音頻數(shù)據(jù)的附加域信息,將所述音頻數(shù)據(jù)打包成音頻碼流,將所述音頻碼流和所述音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得所述錄播服務(wù)器根據(jù)所述附加域信息對(duì)所述音頻數(shù)據(jù)進(jìn)行分類。
11.根據(jù)權(quán)利要求9所述的視頻設(shè)備,其特征在于,所述視頻設(shè)備還包括 標(biāo)志寫入單元,用于將語(yǔ)音激活標(biāo)志寫入所述附加域信息,其中所述語(yǔ)音激活標(biāo)志包括已激活或未激活,以便所述錄播服務(wù)器在將解碼出的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,檢測(cè)所述音頻數(shù)據(jù)的附加域信息中的語(yǔ)音激活標(biāo)志,并在語(yǔ)音激活標(biāo)志為已激活時(shí)將所述音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。
12.根據(jù)權(quán)利要求11所述的視頻設(shè)備,其特征在于,所述標(biāo)志寫入單元具體用于 對(duì)所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音活動(dòng)偵測(cè)處理,以識(shí)別所述音頻數(shù)據(jù)是否為語(yǔ)音數(shù)據(jù),若所述音頻數(shù)據(jù)為語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為激活;若所述音頻數(shù)據(jù)不是語(yǔ)音數(shù)據(jù),則在附加域信息中將語(yǔ)音激活標(biāo)志寫為未激活。
13.一種錄播服務(wù)器,其特征在于,包括 接收單元,用于從多點(diǎn)控制單元接收會(huì)場(chǎng)的音頻碼流和音頻碼流的附加域信息,所述音頻碼流的附加域信息包括所述音頻碼流所對(duì)應(yīng)的聲源的方位,并將所述音頻碼流發(fā)送至分類識(shí)別單元;分類識(shí)別單元,用于從所述接收單元接收所述音頻碼流,將所述音頻碼流所解碼出的音頻數(shù)據(jù),存儲(chǔ)到與所述音頻碼流所屬的會(huì)場(chǎng)號(hào)以及所述音頻碼流所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的碼流文件中,并將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng); 身份匹配單元,用于從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,所述聲紋識(shí)別結(jié)果包括所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將所述音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入所述音頻碼流的附加域信息中。
14.根據(jù)權(quán)利要求13所述的錄播服務(wù)器,其特征在于,所述錄播服務(wù)器還包括 排序單元,用于將所述音頻碼流的時(shí)間信息寫入音頻碼流的附加域信息中,以便當(dāng)接收到的音頻碼流為至少兩個(gè)時(shí),將所述至少兩個(gè)音頻碼流按照時(shí)間信息進(jìn)行排序。
15.根據(jù)權(quán)利要求13或14所述的錄播服務(wù)器,其特征在于,包括 所述分類識(shí)別單元具體用于將所述碼流文件中的第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng); 所述身份匹配單元具體用于從所述聲紋識(shí)別系統(tǒng)接收聲紋識(shí)別結(jié)果,所述聲紋識(shí)別結(jié)果包括所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份,并將所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息中。
16.根據(jù)權(quán)利要求15所述的錄播服務(wù)器,其特征在于,包括 所述分類識(shí)別單元還具體用于將所述碼流文件中的第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果發(fā)送至所述聲紋識(shí)別系統(tǒng),所述第二單位時(shí)間為所述第一單位時(shí)間的上一個(gè)單位時(shí)間,以便在所述聲紋識(shí)別系統(tǒng)對(duì)所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)進(jìn)行聲紋識(shí)別時(shí),將所述第二單位時(shí)間內(nèi)的音頻數(shù)據(jù)的聲紋識(shí)別結(jié)果作為參考。
17.根據(jù)權(quán)利要求15或16所述的錄播服務(wù)器,其特征在于,在將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前,所述分類識(shí)別單元還用于 檢測(cè)所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的附加域信息,若所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)的所有附加域信息中的語(yǔ)音激活標(biāo)志都為未激活,則不將所述第一單位時(shí)間內(nèi)的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)。
18.根據(jù)權(quán)利要求13至17任意一項(xiàng)所述的錄播服務(wù)器,其特征在于,在將所述碼流文件中的音頻數(shù)據(jù)發(fā)送至聲紋識(shí)別系統(tǒng)之前, 所述分類識(shí)別單元還具體用于檢測(cè)所述音頻碼流的附加域信息中的聲源方位; 若所述音頻碼流的附加域信息中所述音頻碼流對(duì)應(yīng)的聲源方位只有一個(gè),則所述分類識(shí)別單元還具體用于將所述碼流文件發(fā)送至聲紋識(shí)別系統(tǒng); 若所述音頻碼流的附加域信息包括的所述音頻碼流對(duì)應(yīng)的聲源方位至少有兩個(gè),且所述至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份已經(jīng)在上一次進(jìn)行聲紋識(shí)別時(shí)識(shí)別出來(lái),則所述身份匹配單元還具體用于將已識(shí)別出來(lái)的所述至少兩個(gè)聲源方位對(duì)應(yīng)的參會(huì)者身份寫入所述音頻碼流的附加域信息中。
19.一種視頻會(huì)議系統(tǒng),包括聲紋識(shí)別系統(tǒng)和多點(diǎn)控制單元,其特征在于,所述系統(tǒng)還包括如權(quán)利要求10至12任意一項(xiàng)所述的視頻設(shè)備;如權(quán)利要求13至18任意一項(xiàng)所述的錄播服務(wù)器。
全文摘要
本發(fā)明實(shí)施例提供一種語(yǔ)音會(huì)議紀(jì)要的分類方法、設(shè)備和系統(tǒng),涉及通信領(lǐng)域,能夠?qū)?huì)場(chǎng)中的語(yǔ)音數(shù)據(jù)按照說話人的方位分別進(jìn)行聲紋識(shí)別,提高了聲紋識(shí)別準(zhǔn)確率,進(jìn)而提高了語(yǔ)音會(huì)議紀(jì)要分類的可靠性。其方法為根據(jù)會(huì)場(chǎng)的音頻數(shù)據(jù)進(jìn)行聲源定位,以獲取音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位,并將聲源的方位寫入音頻數(shù)據(jù)的附加域信息,再將語(yǔ)音激活標(biāo)志寫入附加域信息,而后將音頻數(shù)據(jù)打包成音頻碼流,并將音頻碼流和音頻碼流的附加域信息發(fā)送至錄播服務(wù)器,以使得錄播服務(wù)器根據(jù)附加域信息對(duì)音頻數(shù)據(jù)進(jìn)行分類,將音頻數(shù)據(jù)所對(duì)應(yīng)的聲源的方位對(duì)應(yīng)的參會(huì)者身份寫入音頻碼流的附加域信息中。本發(fā)明實(shí)施例用于對(duì)語(yǔ)音會(huì)議紀(jì)要進(jìn)行分類。
文檔編號(hào)G10L17/14GK102968991SQ20121049927
公開日2013年3月13日 申請(qǐng)日期2012年11月29日 優(yōu)先權(quán)日2012年11月29日
發(fā)明者詹五洲 申請(qǐng)人:華為技術(shù)有限公司