本發(fā)明涉及一種網(wǎng)絡(luò)教學(xué)錄播技術(shù),可以用于基于網(wǎng)絡(luò)教學(xué)或者在線會議等的教學(xué)活動或會議過程的錄制和播放,特別是涉及一種能夠?qū)︿浿频慕虒W(xué)語音數(shù)據(jù)進(jìn)行修正的裝置。
背景技術(shù):
近些年來,由于傳統(tǒng)教學(xué)模式已經(jīng)越來越不能滿足用戶對于多媒體、信息化、便于回放等新型教學(xué)方式的需求,隨著互聯(lián)網(wǎng)技術(shù),特別是移動互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和普及,各種網(wǎng)絡(luò)教學(xué)錄播系統(tǒng)蓬勃發(fā)展。在網(wǎng)絡(luò)教學(xué)中,通過課堂錄制將教學(xué)過程錄制下來,可以在互聯(lián)網(wǎng)上共享教學(xué)資源,用戶可以使用終端在線訪問這些教學(xué)資源,可以滿足用戶遠(yuǎn)程學(xué)習(xí)和回顧的需求。
教學(xué)錄播方面早期的技術(shù),比如cn101141271a(公開日2008年3月12日)公開了一種網(wǎng)絡(luò)教學(xué)的錄播系統(tǒng),包括:錄制器、處理器、第一網(wǎng)絡(luò)、第二網(wǎng)絡(luò),服務(wù)器、數(shù)據(jù)庫及三個(gè)客戶端。其中,錄制器主要包括攝像頭及無線數(shù)字話筒以錄制課件的視頻信息及語音數(shù)據(jù)。第一網(wǎng)絡(luò)于將所述課件信息傳送至服務(wù)器。服務(wù)器一方面用于進(jìn)一步處理所述課件信息,產(chǎn)生課件數(shù)據(jù),另一方面用于在數(shù)據(jù)庫中搜尋并調(diào)用所述課件數(shù)據(jù),進(jìn)而將所述課件數(shù)據(jù)轉(zhuǎn)換回所述課件信息。數(shù)據(jù)庫用于存儲所述課件數(shù)據(jù)。第二網(wǎng)絡(luò)用于連接客戶端與服務(wù)器??蛻舳擞糜诜奖阌脩舨樵冋n件信息及調(diào)用課件信息。所述專利申請公開了一種比較典型的流媒體格式錄制課程的技術(shù),現(xiàn)在看其主要缺點(diǎn)在于錄制后形成的文件比較大,上傳下載速度慢,需要的存儲空間大等。
教學(xué)錄播方面近期的技術(shù),比如cn105306861a(公開日2016年2月3日)公開了一種有效的課堂教學(xué)錄播方法和系統(tǒng),在網(wǎng)絡(luò)教學(xué)或在線會議過程中,可以實(shí)現(xiàn)對于用戶使用多媒體白板的功能操作、講話/說話語音、與其他用戶的交流和/或輔導(dǎo)等的交流語音進(jìn)行錄制,分別形成不同的數(shù)據(jù)流,并且由網(wǎng)絡(luò)教學(xué)的錄播系統(tǒng)產(chǎn)生統(tǒng)一的時(shí)間戳對各種數(shù)據(jù)流進(jìn)行標(biāo)記,而不是完全以流媒體的格式將整個(gè)事件記錄下來,使得網(wǎng)絡(luò)用戶可隨時(shí)隨地方便的通過網(wǎng)絡(luò)從云端服務(wù)器或局域網(wǎng)服務(wù)器下載各種需要播放的數(shù)據(jù)流,獲取數(shù)據(jù)流后用戶終端的客戶端根據(jù)時(shí)間戳再現(xiàn)獲得數(shù)據(jù)流,有機(jī)組合播放出來給用戶進(jìn)行展示,從而完成點(diǎn)播瀏覽。所述專利申請公開了一種根據(jù)時(shí)間戳以三種數(shù)據(jù)流格式分別存儲和記錄課堂教學(xué)數(shù)據(jù)的課堂錄播方法。
隨著對錄制課程品質(zhì)的追求越來越高,越來越多的教學(xué)錄播系統(tǒng)采用了語音識別技術(shù),通常需要將語音轉(zhuǎn)換成文字,在屏幕上以字幕方式顯示或者保存為文本格式?,F(xiàn)有技術(shù)中,關(guān)于語音識別,特別是將語音轉(zhuǎn)換為文字或者將文字轉(zhuǎn)換為語音的專利申請不在少數(shù),比如:
cn101354748a(公開日2009年1月28日)公開了一種文字識別裝置,包括攝像裝置、字符識別裝置、語音轉(zhuǎn)換裝置、及語音輸出裝置,所述攝像裝置,用于攝入文字信息,將攝入的文字信息以圖片形式發(fā)送到所述字符識別裝置;所述字符識別裝置,用于在上述圖片中識別出上述文字信息,發(fā)送到所述語音轉(zhuǎn)換裝置;所述語音轉(zhuǎn)換裝置,用于將上述文字信息轉(zhuǎn)換為語音數(shù)據(jù),發(fā)送到所述語音輸出裝置;所述語音輸出裝置,用于播放上述語音數(shù)據(jù)。所述專利申請公開了一種采集和識別圖像信息中的文字符號,然后將文字符號轉(zhuǎn)換成語音的技術(shù)。
cn102956231a(公開日2013年3月6日)公開了一種語音識別技術(shù)領(lǐng)域的基于半自動校正的語音關(guān)鍵信息記錄裝置及方法,所述裝置包括:關(guān)鍵信息提取單元和與之相連的信息校正單元,其中:關(guān)鍵信息提取單元獲取未經(jīng)校正的文本數(shù)據(jù)并提取出關(guān)鍵信息后輸出至信息校正單元,信息校正單元輸出用戶反饋確認(rèn)后的文本數(shù)據(jù)。本發(fā)明通過半自動的信息校正單元,降低了人工校正的工作量;利用數(shù)據(jù)庫對特殊名詞如地名、專業(yè)工具名稱進(jìn)行校正,降低了人工校正中操作員的知識量限制所造成的影響;提取語音數(shù)據(jù)中的關(guān)鍵信息,從而提高所記錄信息的有效信息量。所述專利申請旨在解決語音轉(zhuǎn)換成文本之后,對文本數(shù)據(jù)進(jìn)行半自動校正的問題。
cn105159870a(公開日2015年12月16日)公開了一種精確完成連續(xù)自然語音文本化的處理系統(tǒng),所述處理系統(tǒng)包括云端語音識別引擎及語音識別后修正平臺,所述語音識別后修正平臺與所述云端語音識別引擎連接,所述語音識別后修正平臺包括顯示單元、修正操作單元、控制單元及三維一體生成單元,所述修正操作單元包括語音修正、鍵盤修正、鼠標(biāo)修正及鍵盤加鼠標(biāo)的修正操作方式,其中公開了可以對于待識別的語音文件進(jìn)行精細(xì)切分,實(shí)現(xiàn)精準(zhǔn)識別。
cn105808197a(公開日2016年7月27日)公開了一種信息處理方法,應(yīng)用于具有語音識別模塊的電子設(shè)備,所述方法包括:接收輸入語音數(shù)據(jù);在依據(jù)預(yù)設(shè)的語音識別模型對所述輸入語音數(shù)據(jù)進(jìn)行識別得到識別結(jié)果后,當(dāng)所述識別結(jié)果中的第一信息為需要修正的內(nèi)容時(shí),所述第一信息為所述識別結(jié)果中的至少一個(gè)字符,采用通過操作體輸入的方式對所述識別結(jié)果中的第一信息進(jìn)行修正,所述用操作體輸入的方式對識別結(jié)果中的第一信息進(jìn)行修正,只需對目的修正的部分進(jìn)行修正,而無需用戶再次輸入語音數(shù)據(jù)即可得到目的結(jié)果,操作過程簡單,提高了信息輸入的整體速度。所述專利申請公開了可以只需要通過對語音識別后的第一處需要修正的內(nèi)容進(jìn)行修正,從而提高了修正的速度,但是這樣的修正只是針對識別后的文本數(shù)據(jù),其中在語音識別的過程中,使用了將待識別信息與標(biāo)準(zhǔn)語音數(shù)據(jù)進(jìn)行比對,進(jìn)而提高識別準(zhǔn)確率的方式。
cn106328145a(公開日2017年1月11日)公開了一種語音修正方法及裝置,包括:獲取用戶輸入的語音數(shù)據(jù);對所述語音數(shù)據(jù)進(jìn)行識別,以得到所述語音數(shù)據(jù)對應(yīng)的文本內(nèi)容;當(dāng)所述文本內(nèi)容中包含第一預(yù)設(shè)關(guān)鍵詞時(shí),根據(jù)所述第一預(yù)設(shè)關(guān)鍵詞將所述文本內(nèi)容劃分為原始文本和編輯文本,其中,所述編輯文本用于對所述原始文本進(jìn)行修正;根據(jù)所述編輯文本從所述原始文本中提取出待修正文本;根據(jù)所述編輯文本和所述待修正文本修正所述原始文本,以得到修正后的文本。所述專利申請公開了,可以通過關(guān)鍵字識別的方式獲得原始文本中需要編輯的文本即編輯文本,針對性的進(jìn)行修正。
cn102215233a(公開日2011年10月12日)公開了一種信息系統(tǒng)客戶端,安裝于用戶的終端設(shè)備中,可以應(yīng)用于微博、博客、論壇或個(gè)人空間等,包括:用戶交互模塊以及連接所述用戶交互模塊的語音模塊,優(yōu)選的,還包括反饋模塊,轉(zhuǎn)換模塊,所述語音模塊包括語音采集單元、語音識別單元、語音合成單元,語音采集單元用于采集用戶的語音;語音識別單元將語音采集單元采集的語音識別為文字輸出至所述用戶交互模塊;語音合成單元將所述用戶交互模塊從所述信息系統(tǒng)服務(wù)器上獲取的文字轉(zhuǎn)換為語音向用戶輸出;所述反饋模塊,連接所述語音識別單元,用于確認(rèn)所述語音識別為文字是否正確,若正確,所述反饋模塊將所述文字輸出至所述用戶交互模塊,若不正確,所述反饋模塊使所述語音采集單元重新采集用戶的語音或者所述語音識別單元修正所述文字直至確認(rèn)正確。所述專利申請公開了一種可以進(jìn)行語音和文字分別互相轉(zhuǎn)換的技術(shù),旨在將一種格式的信息轉(zhuǎn)換成另一種格式的信息,所述反饋模塊如果輸出的文字信息不正確,就重新采集用戶語音,或者直接修正所述輸出的文字信息。
cn106486113a(2017年3月8日)公開了一種會議記錄方法,包括:獲取語音信號;由語音轉(zhuǎn)化軟件將所述語音信號轉(zhuǎn)化成對應(yīng)的文字信息,并在文檔中予以顯示,其中,所述文字信息包括正確文字信息和錯(cuò)誤文字信息;對文檔中的錯(cuò)誤文字信息進(jìn)行標(biāo)記,并將標(biāo)記的所述錯(cuò)誤文字信息與對應(yīng)所述錯(cuò)誤文字信息的語音信號進(jìn)行關(guān)聯(lián)鏈接;點(diǎn)擊所述錯(cuò)誤文字信息時(shí),采用所述語音轉(zhuǎn)化軟件對與所述錯(cuò)誤文字信息關(guān)聯(lián)鏈接的語音信號進(jìn)行二次識別,并在文檔中對二次識別出來的文字信息進(jìn)行可編輯顯示;通過可編輯顯示中對錯(cuò)誤文字信息進(jìn)行更正編輯,以得到更正的文字信息,并用所述更正的文字信息替換所述錯(cuò)誤文字信息。
綜上可見,在現(xiàn)有技術(shù)中,無論是教學(xué)錄播領(lǐng)域,還是語音識別轉(zhuǎn)換領(lǐng)域,都沒有涉及對于待識別語音本身的修正構(gòu)思,大家關(guān)心的都是語音識別轉(zhuǎn)換特別是語音轉(zhuǎn)換成文字的準(zhǔn)確率的問題。然而,在各種教學(xué)或者會議過程中,對于任何說話者來說,都可能存在錯(cuò)說、漏說或者發(fā)音不標(biāo)準(zhǔn),甚至表達(dá)不標(biāo)準(zhǔn)的情況,對于這些問題,通常是采用在語音識別時(shí),也就是轉(zhuǎn)換成文字時(shí)(比如以字幕呈現(xiàn)),加上文字標(biāo)注(比如以括號中解釋的方式)的方式進(jìn)行標(biāo)識。
特別地,對于教學(xué)錄播系統(tǒng),由于講授的課程要進(jìn)行錄制并且通過網(wǎng)絡(luò)重現(xiàn)給用戶,錯(cuò)說、漏說、表達(dá)不標(biāo)準(zhǔn)等問題帶來的影響因?yàn)檎Z言數(shù)據(jù)被壓縮而變得突出而且影響很大,一方面,因?yàn)橛脩敉ǔky以識別出這些錯(cuò)誤,而且即使以字幕方式進(jìn)行標(biāo)識,另一方面,因?yàn)槭褂铆h(huán)境的原因,用戶可能不方便看字幕,僅能以語音的形式收聽,語音表達(dá)不清楚,進(jìn)一步影響了用戶學(xué)習(xí)的效果。
針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明旨在提供一種教學(xué)錄播數(shù)據(jù)修正裝置,在對語音轉(zhuǎn)換成的文本進(jìn)行修正的基礎(chǔ)上,對于具體修正的文字,使用標(biāo)準(zhǔn)的語音數(shù)據(jù)替換所述修正的文字內(nèi)容所對應(yīng)的在原始錄播語音數(shù)據(jù)中的相應(yīng)的語音片段,形成標(biāo)準(zhǔn)的語音數(shù)據(jù)和對應(yīng)的文本,使得在事后點(diǎn)播回顧錄播數(shù)據(jù)的時(shí)候,可以播放不同于原始錄制語音數(shù)據(jù)的正確語音,以及顯示對應(yīng)的正確字幕信息。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在提供一種具備語音修正功能的教學(xué)錄播數(shù)據(jù)修正裝置,包括使用錄音設(shè)備將在網(wǎng)絡(luò)教學(xué)或在線會議過程中的語音信號轉(zhuǎn)換成帶有時(shí)間戳的原始語音數(shù)據(jù),使用語音識別模型將所述原始語音數(shù)據(jù)識別轉(zhuǎn)換成原始文本數(shù)據(jù),對所述原始文本數(shù)據(jù)進(jìn)行校對,使用新文本內(nèi)容替換需要修正的舊文本內(nèi)容,實(shí)現(xiàn)對原始文本數(shù)據(jù)的修正形成修正文本數(shù)據(jù),使用時(shí)間戳進(jìn)行定位,將新文本內(nèi)容的標(biāo)準(zhǔn)語音數(shù)據(jù)替換舊文本內(nèi)容的相應(yīng)語音數(shù)據(jù)片段,形成修正語音數(shù)據(jù)。
應(yīng)該理解的是,盡管說明書中主要以網(wǎng)絡(luò)教學(xué)的錄播系統(tǒng)或者網(wǎng)絡(luò)會議系統(tǒng)的名義描述了本發(fā)明的實(shí)施例,但是可以理解的是,本發(fā)明的裝置還可以用于其他網(wǎng)絡(luò)在線交流過程的錄制和播放。也就是說,本發(fā)明涉及給予網(wǎng)絡(luò)教學(xué)、在線培訓(xùn)、應(yīng)急指揮(地圖標(biāo)注和語音錄制)、金融系統(tǒng)或者在線會議登系統(tǒng)的教學(xué)活動或者會議過程錄制及播放的方法、系統(tǒng)以及計(jì)算機(jī)程序產(chǎn)品,在網(wǎng)絡(luò)教學(xué)、在線培訓(xùn)、應(yīng)急指揮(地圖標(biāo)注及語音錄制)、金融系統(tǒng)(操盤講解)或者在線會議的過程中,只要涉及錄制語音數(shù)據(jù)的,通過對所述語音數(shù)據(jù)識別轉(zhuǎn)換后形成的文本數(shù)據(jù)的修正,將修正的文本內(nèi)容的標(biāo)準(zhǔn)語音數(shù)據(jù)替換原始錄制的相應(yīng)語音數(shù)據(jù),可以實(shí)現(xiàn)對于錄制語音數(shù)據(jù)的修正。
本發(fā)明提供一種教學(xué)錄播數(shù)據(jù)修正裝置,在對多媒體課堂(或網(wǎng)絡(luò)課堂)或類似場景的錄制和點(diǎn)播回顧過程中,特別是在對多媒體課堂進(jìn)行錄制時(shí),包括將語音數(shù)據(jù)、多媒體白板上的動作數(shù)據(jù)(電子白板板書)、用戶終端屏幕上的操作數(shù)據(jù)、錄像設(shè)備錄制的視頻數(shù)據(jù)等以數(shù)據(jù)流格式添加時(shí)間戳后分別保存,形成錄制數(shù)據(jù),用戶登錄網(wǎng)絡(luò)教學(xué)錄播系統(tǒng)之后,使用有線或無線局域或廣域網(wǎng)絡(luò),獲得所述錄制數(shù)據(jù),借助時(shí)間戳在用戶終端上實(shí)現(xiàn)重現(xiàn)或模擬重現(xiàn)課堂的授課過程,從而實(shí)現(xiàn)對錄制課堂的回顧播放或點(diǎn)播播放。
本發(fā)明的教學(xué)錄播數(shù)據(jù)修正裝置,包括文件標(biāo)識生成單元、語音數(shù)據(jù)采集單元、語音數(shù)據(jù)修正單元、其他數(shù)據(jù)采集單元、錄制數(shù)據(jù)播放單元和錯(cuò)誤信息反饋單元,其中,
文件標(biāo)識生成單元,用于在開始錄制教學(xué)過程時(shí),生成文件標(biāo)識id;
語音數(shù)據(jù)采集單元,用于使用音頻采集設(shè)備將語音信號轉(zhuǎn)換成原始語音數(shù)據(jù),以語音數(shù)據(jù)流格式保存;
語音數(shù)據(jù)修正單元,用于修正所述原始語音數(shù)據(jù)需要修正的語音數(shù)據(jù),形成修正語音數(shù)據(jù);
其他數(shù)據(jù)采集單元,用于采集以下數(shù)據(jù)中的至少一種:多媒體白板上的動作數(shù)據(jù)、用戶終端屏幕上的操作數(shù)據(jù)、錄像設(shè)備的視頻數(shù)據(jù),對于采集的每種數(shù)據(jù)添加所述時(shí)間戳,均以數(shù)據(jù)流格式分別保存,與所述修正語音數(shù)據(jù)流和所述修正文本數(shù)據(jù)共同形成可以播放的錄制數(shù)據(jù);
錄制數(shù)據(jù)播放單元,用戶使用終端通過網(wǎng)絡(luò)獲取所述錄制數(shù)據(jù),根據(jù)所述時(shí)間戳組合不同數(shù)據(jù)流,從而在所述終端上播放所述錄制數(shù)據(jù),重現(xiàn)和/或模擬重現(xiàn)教學(xué)過程,實(shí)現(xiàn)對教學(xué)過程的學(xué)習(xí)和/或復(fù)習(xí);
錯(cuò)誤信息反饋單元,用戶使用所述終端播放所述錄制數(shù)據(jù)時(shí),可以將發(fā)現(xiàn)的所述修正文本數(shù)據(jù)中的錯(cuò)誤文字內(nèi)容選定并提交反饋,反饋的內(nèi)容經(jīng)由管理員確認(rèn)之后,更新所述修正文本數(shù)據(jù),并重復(fù)所述語音數(shù)據(jù)替換單元,更新所述修正語音數(shù)據(jù)。
所述語音數(shù)據(jù)修正單元進(jìn)一步包括語音數(shù)據(jù)識別單元、文本數(shù)據(jù)修正單元和語音數(shù)據(jù)替換單元,其中:
語音數(shù)據(jù)識別單元,用于將所述原始語音數(shù)據(jù)識別轉(zhuǎn)換成原始文本數(shù)據(jù);
文本數(shù)據(jù)修正單元,用于對所述原始文本數(shù)據(jù)進(jìn)行校對,將其中需要修正的舊文字內(nèi)容,修正為準(zhǔn)確的新文字內(nèi)容,形成修正文本數(shù)據(jù);
語音數(shù)據(jù)替換單元,用于使用所述新文字內(nèi)容的標(biāo)準(zhǔn)語音數(shù)據(jù)替換在所述原始語音數(shù)據(jù)中的所述舊文字內(nèi)容的語音數(shù)據(jù)流片段,形成修正語音數(shù)據(jù)流。
所述語音數(shù)據(jù)采集單元,用于從至少一個(gè)語音源采集至少一個(gè)語音數(shù)據(jù),并添加時(shí)間戳,以語音數(shù)據(jù)流格式保存;
所述語音數(shù)據(jù)識別單元,用于將所述語音數(shù)據(jù)流識別轉(zhuǎn)換成文本數(shù)據(jù),所述文本數(shù)據(jù)包含所述時(shí)間戳,根據(jù)所述時(shí)間戳可以確定所述文本數(shù)據(jù)中的每個(gè)文字內(nèi)容的時(shí)間坐標(biāo)。
所述語音數(shù)據(jù)替換單元,用于從標(biāo)準(zhǔn)語音數(shù)據(jù)庫中,調(diào)取所述新文字內(nèi)容的標(biāo)準(zhǔn)語音數(shù)據(jù),根據(jù)所述時(shí)間戳,使用所述標(biāo)準(zhǔn)語音數(shù)據(jù)替換所述原始語音數(shù)據(jù)中的所述舊文字內(nèi)容對應(yīng)的語音數(shù)據(jù)流片段,從而形成修正語音數(shù)據(jù)流。
所述修正文本數(shù)據(jù),根據(jù)所述時(shí)間戳,以字幕方式顯示在所述終端的屏幕上,優(yōu)選的是,顯示在在播放視頻數(shù)據(jù)的屏幕區(qū)域,更優(yōu)選的是,所述文本數(shù)據(jù)以可編輯的方式如可選定的方式,顯示在所述終端的特定區(qū)域。
在對文本數(shù)據(jù)和語音數(shù)據(jù)進(jìn)行修正或更新時(shí),形成修正歷史記錄,所述修正歷史記錄可以包括修正時(shí)間、修正內(nèi)容、修正操作人、問題發(fā)現(xiàn)人等等。
所述語音數(shù)據(jù)替換單元,用于根據(jù)被替換的舊文字內(nèi)容在所述原始語音數(shù)據(jù)中的發(fā)音時(shí)間以及新文字內(nèi)容的標(biāo)準(zhǔn)語音數(shù)據(jù)的發(fā)音時(shí)間,計(jì)算出平滑系數(shù),再根據(jù)所述平滑系數(shù),調(diào)整所述新文字內(nèi)容的發(fā)音時(shí)間,由此使得替換前后語音數(shù)據(jù)的平滑和同步。
所述舊文字內(nèi)容可以為空內(nèi)容,也就是,替換所述空內(nèi)容的新文字內(nèi)容是遺漏的,現(xiàn)在需要添加的文字內(nèi)容。
所述新文字內(nèi)容可以為空內(nèi)容,也就是,被替換的所述舊文字內(nèi)容是多余的,現(xiàn)在需要?jiǎng)h除的文字內(nèi)容。
通過本發(fā)明的方法,提高了課堂錄制的水平,借助時(shí)間戳的標(biāo)識,分別保存各種數(shù)據(jù),通過對語音數(shù)據(jù)的識別轉(zhuǎn)換和文本數(shù)據(jù)的修正,并根據(jù)修正的文本內(nèi)容修正語音數(shù)據(jù),修正了原始錄制語音數(shù)據(jù)中需要修正的內(nèi)容,克服了課堂上“少說、錯(cuò)說和漏說”等帶來的問題,可以獲得雙修正后的語音數(shù)據(jù)和文本數(shù)據(jù)(字幕信息)。
本發(fā)明的上述和進(jìn)一步的目的以及特征,根據(jù)結(jié)合附圖的以下詳細(xì)說明就會更加清楚和完整。
附圖說明
圖1是根據(jù)本發(fā)明的錄播系統(tǒng)架構(gòu)圖;
圖2是根據(jù)本發(fā)明的錄播步驟流程圖;和
圖3是根據(jù)本發(fā)明的語音修正流程圖。
具體實(shí)施方式
以下,將結(jié)合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行進(jìn)一步詳細(xì)的描述。
本發(fā)明中網(wǎng)絡(luò)教學(xué)不局限于學(xué)生和教師的課堂教學(xué)形式,其可以包括以教師和學(xué)生、或培訓(xùn)人為參與主體的在線網(wǎng)絡(luò)教學(xué)、遠(yuǎn)程網(wǎng)絡(luò)教學(xué)、本地網(wǎng)絡(luò)教學(xué),和以企事業(yè)單位員工等為參與主體的在線網(wǎng)絡(luò)會議、遠(yuǎn)程網(wǎng)絡(luò)會議、本地網(wǎng)絡(luò)會議,以及其他的利用網(wǎng)絡(luò)進(jìn)行在線交流和/或文件內(nèi)容展示的交流/交互形式,比如遠(yuǎn)程協(xié)同工作。
如圖1所示,教師1、學(xué)生2分別使用安裝有網(wǎng)絡(luò)教學(xué)錄播系統(tǒng)客戶端的終端設(shè)備,通過互聯(lián)網(wǎng)連接至教學(xué)服務(wù)器3,由此實(shí)現(xiàn)多媒體課堂的網(wǎng)絡(luò)授課/聽課/錄制/點(diǎn)播/回顧等。
所述終端設(shè)備包括:處理器、網(wǎng)絡(luò)模塊、控制模塊、顯示模塊以及智能操作系統(tǒng),可以智能手機(jī)、pad、筆記本電腦、臺式電腦等。所述終端上可以設(shè)有通過數(shù)據(jù)總線連接各種拓展類設(shè)備和配件的多種數(shù)據(jù)接口。所述智能操作系統(tǒng)包括windows、android及其改進(jìn)、ios,在其上可以安裝、運(yùn)行應(yīng)用軟件,實(shí)現(xiàn)在智能操作系統(tǒng)下的各種應(yīng)用軟件、服務(wù)和應(yīng)用程序商店/平臺的功能。
終端設(shè)備可以通過rj45/wi-fi/藍(lán)牙/2g/3g/4g/g.hn/zigbee/z-ware/rfid等連接方式連接到互聯(lián)網(wǎng)絡(luò),并借助互聯(lián)網(wǎng)連接到其它的終端或其它電腦及設(shè)備,通過1394/usb/串行/sata/scsi/pci-e/thunderbolt/數(shù)據(jù)卡接口等多種數(shù)據(jù)接口或者總線方式,通過hdmi/ypbpr/spdif/av/dvi/vga/trs/scart/displayport等音視頻接口等連接方式,來連接各種拓展類設(shè)備和配件,組成了一個(gè)會議/教學(xué)設(shè)備互動系統(tǒng)。帶有軟件形式的聲音捕捉控制模塊和動作捕捉控制模塊,或通過數(shù)據(jù)總線板載硬件形式的聲音捕捉控制模塊和動作捕捉控制模塊,來實(shí)現(xiàn)聲控和形控功能;通過音視頻接口連接顯示/投影模塊、麥克風(fēng)、音響設(shè)備和其它音視頻設(shè)備,來實(shí)現(xiàn)顯示、投影、聲音接入、音視頻播放,以及數(shù)字或模擬的音視頻輸入和輸出功能;通過數(shù)據(jù)接口連接攝像頭、麥克風(fēng)、電子白板、rfid讀取設(shè)備,實(shí)現(xiàn)影像接入、聲音接入、電子白板的使用控制和錄屏,rfid讀取功能,并通過相應(yīng)的接口可接入和管控移動存儲設(shè)備、數(shù)字設(shè)備和其它設(shè)備;通過dlna/igrs技術(shù)和互聯(lián)網(wǎng)絡(luò)技術(shù),來實(shí)現(xiàn)的包括多屏設(shè)備之間的操控、互動和甩屏等功能。
本發(fā)明中,處理器定義為包括但不限于:指令執(zhí)行系統(tǒng),如基于計(jì)算機(jī)/處理器的系統(tǒng)、專用集成電路(asic)、計(jì)算設(shè)備、或能夠從非暫時(shí)性存儲介質(zhì)或非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì)取得或獲取邏輯并執(zhí)行非暫時(shí)性存儲介質(zhì)或非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì)中包含的指令的硬件和/或軟件系統(tǒng)。所述處理器還可以包括任意控制器,狀態(tài)機(jī),微處理器,基于互聯(lián)網(wǎng)絡(luò)的實(shí)體、服務(wù)或特征,或它們的任意其它模擬的、數(shù)字的和/或機(jī)械的實(shí)現(xiàn)方式。
本發(fā)明中,互聯(lián)網(wǎng)可以包括局域網(wǎng)和廣域互聯(lián)網(wǎng),可以是有線互聯(lián)網(wǎng),也可以是無線互聯(lián)網(wǎng),或者這些網(wǎng)絡(luò)的任意組合。
如圖2所示,根據(jù)本發(fā)明的網(wǎng)絡(luò)教學(xué)錄播的主要步驟:
s100:啟動錄播系統(tǒng):用戶使用終端登錄,智能電子白板、教師終端屏幕操作動作捕捉程序、攝像機(jī)、麥克風(fēng)等多媒體教學(xué)設(shè)備進(jìn)入工作狀態(tài),所述攝像機(jī)可以不止一個(gè),所述麥克風(fēng)包括至少一個(gè),分別用于捕捉教師的語音和用于捕捉學(xué)生的語音,錄播系統(tǒng)的教學(xué)服務(wù)器可以用于產(chǎn)生數(shù)字時(shí)間戳。
s200:開始網(wǎng)絡(luò)教學(xué):教師開始課堂教學(xué),錄播系統(tǒng)生成一個(gè)教學(xué)文件id,在教學(xué)過程中,比如教師使用智能電子白板進(jìn)行展示(作為授課板書或者講解題板)、使用實(shí)時(shí)語音進(jìn)行講解、使用實(shí)時(shí)交互語音進(jìn)行交流、還可以在教師終端上使用電子文檔比如ppt文檔進(jìn)行展示和說明,從而進(jìn)行多媒體授課及與學(xué)生互動問答交流。
s300:錄制數(shù)據(jù)保存:在錄制過程中,智能電子白板上的動作以“動作數(shù)據(jù)流+時(shí)間戳”的方式傳輸和保存,授課及互動過程中的語音以“語音數(shù)據(jù)流+時(shí)間戳”的方式傳輸和保存,教師終端上涉及的電子文檔如ppt文檔的操作動作以“電子文檔操作數(shù)據(jù)流+時(shí)間戳”的方式傳輸和保存,采集的視頻數(shù)據(jù)以“視頻數(shù)據(jù)流+時(shí)間戳”的方式傳輸和保存。整個(gè)授課過程中的所有這些數(shù)據(jù)流與教學(xué)文件id綁定實(shí)現(xiàn)對應(yīng)錄制課程的標(biāo)識。這些數(shù)據(jù),可以根據(jù)需要進(jìn)行添加或刪減,一種典型的情況是所錄制數(shù)據(jù)包括語音數(shù)據(jù)、視頻數(shù)據(jù)和ppt文檔演示數(shù)據(jù),而ppt文檔演示數(shù)據(jù)通常也可以以視頻數(shù)據(jù)的方式進(jìn)行展示,不一定非要使用動作操作進(jìn)行重現(xiàn)。在現(xiàn)有技術(shù)中,分類錄制分屏展示是比較成熟的技術(shù)。錄制得到的各種數(shù)據(jù)可以先保存到本地?cái)?shù)據(jù)庫或者終端數(shù)據(jù)庫,再由這些數(shù)據(jù)庫通過網(wǎng)絡(luò)上傳到遠(yuǎn)程教學(xué)服務(wù)器,也可直接保存到遠(yuǎn)程教學(xué)服務(wù)器。
在一個(gè)示例中,對于語音數(shù)據(jù)的采集,可以使用語音采集設(shè)備比如各種可用的麥克風(fēng)采集語音信號,將語音信號轉(zhuǎn)換成語音數(shù)據(jù),以數(shù)據(jù)流格式保存。對于單一語音源的情況,可以標(biāo)記出語音源的性別,這樣在進(jìn)行后續(xù)語音修正(替換)操作時(shí),可以選擇相應(yīng)性別的標(biāo)準(zhǔn)語音。對于多個(gè)語音源的情況,可以分別識別出語音源的性別,這些多個(gè)語音源可以識別出來,添加時(shí)間戳后分別進(jìn)行保存,將多個(gè)語音源分別識別出來的方法可以使用現(xiàn)有技術(shù),在此不再贅述。
s400:語音數(shù)據(jù)轉(zhuǎn)換:對于錄制的原始語音數(shù)據(jù),首先通過語音模型進(jìn)行識別轉(zhuǎn)換形成原始文本數(shù)據(jù),再對所述原始文本數(shù)據(jù)進(jìn)行校對修正。在形成原始文本數(shù)據(jù)時(shí),將原始語音數(shù)據(jù)的時(shí)間戳添加到文本數(shù)據(jù)中,使得可以對文本數(shù)據(jù)中的文字內(nèi)容進(jìn)行時(shí)間定位。所述文字內(nèi)容可以是文本數(shù)據(jù)中的至少一個(gè)字、詞、句或段。通過所述時(shí)間定位獲取可以標(biāo)記音頻數(shù)據(jù)的時(shí)間維度的時(shí)鐘數(shù)據(jù),也就是可以相對定位一個(gè)音頻數(shù)據(jù)中某個(gè)數(shù)據(jù)片段的時(shí)間點(diǎn)的時(shí)鐘參數(shù)。
在進(jìn)行識別轉(zhuǎn)換時(shí),可以使用各種可用的語音模型將原始語音數(shù)據(jù)識別轉(zhuǎn)換為原始文本數(shù)據(jù),在進(jìn)行語音數(shù)據(jù)識別轉(zhuǎn)換時(shí),首先識別語音源的性別,并且將性別信息添加到所述文本數(shù)據(jù)中。對于文本數(shù)據(jù)的校對修正包括人工校對、半自動校對、語音校對等。
s500:語音數(shù)據(jù)修正:使用語音修正指令即使用語音校對方式(cn106406807a)對原始文本數(shù)據(jù)進(jìn)行修正,但是本發(fā)明不限于此。語音校對單元包括,接受語音修正指令,在待修正的文本數(shù)據(jù)中識別與所述語音修正指令讀音相同的所有文字以及這些文字內(nèi)容的時(shí)間戳,確定識別出的所有文字中的待修正文字,顯示所述待修正文字對應(yīng)的備選文字列表,接受備選文字選定指令,進(jìn)行替換操作,形成修正文本數(shù)據(jù),從而完成文本修正。
完成文本修正的過程中,從標(biāo)準(zhǔn)語音數(shù)據(jù)庫中調(diào)取修正文字的標(biāo)準(zhǔn)發(fā)音信息,根據(jù)被修正的文字的時(shí)間戳,用標(biāo)準(zhǔn)發(fā)音信息替換對應(yīng)的語音數(shù)據(jù)片段,形成修正語音數(shù)據(jù)。所述標(biāo)準(zhǔn)語音數(shù)據(jù)庫可以包括女生標(biāo)準(zhǔn)語音數(shù)據(jù)庫、男生標(biāo)準(zhǔn)語音數(shù)據(jù)庫和/或個(gè)性化標(biāo)準(zhǔn)語音數(shù)據(jù)庫。所述個(gè)性化標(biāo)準(zhǔn)語音數(shù)據(jù)庫是,通過對于特定發(fā)音人錄制形成的標(biāo)準(zhǔn)語音數(shù)據(jù)庫,或者通過語料訓(xùn)練,形成的特定發(fā)音人的語音模型,可以用于語音識別,還可以用于生成個(gè)性化標(biāo)準(zhǔn)語音數(shù)據(jù)庫。
在從標(biāo)準(zhǔn)語音數(shù)據(jù)中調(diào)取標(biāo)準(zhǔn)發(fā)音信息時(shí),根據(jù)所述原始文本數(shù)據(jù)的語音源性別信息,或者其他個(gè)性化信息,選擇相應(yīng)的標(biāo)準(zhǔn)語音。作為一種選擇,所述舊文字內(nèi)容可以為空內(nèi)容,也就是,替換所述空內(nèi)容的新文字內(nèi)容是遺漏的,現(xiàn)在需要添加的文字內(nèi)容。所述新文字內(nèi)容可以為空內(nèi)容,也就是,被替換的所述舊文字內(nèi)容是多余的,現(xiàn)在需要?jiǎng)h除的文字內(nèi)容。
如圖3所示,在一個(gè)示例中,語音修正的具體步驟如下:
s11:接收指令
當(dāng)識別的文本數(shù)據(jù)發(fā)現(xiàn)問題時(shí),如需要修正的文字為“胡建”,接收語音修正指令,如用戶可以通過此單元發(fā)出“選中胡建”的語音指令,發(fā)起修正問題文字“胡建”的指令。
s12:查找文字
在原始文本數(shù)據(jù)中識別與所述語音修正指令指定讀音相同的所有文字。
s13:確定文字
確定識別出的文本數(shù)據(jù)中的所有待修正文字。
其中,當(dāng)在文本數(shù)據(jù)中出現(xiàn)多個(gè)與語音修正指令指定讀音相同的文字時(shí),用戶可以通過進(jìn)一步的語音指令明確哪個(gè)文字需要修正。例如,在待修正文本數(shù)據(jù)中從前往后識別出讀音為“hujian”的文字依次有:“胡建”、“互見”、“護(hù)肩”...等,用戶當(dāng)前想要將識別出的第一個(gè)文字進(jìn)行修正,則可發(fā)出“第一個(gè)”的語音來將識別出的第一個(gè)文字確定為當(dāng)前待修正的文字。
s14:備選列表
顯示所述待修正的文字對應(yīng)的備選文字列表;所述備選文字與所述待修正的文字同音。
其中,當(dāng)選定了待修正的文字后,在所述文字的附近顯示同音的備選文字列表,便于用戶后續(xù)選擇備選文字。例如:若將文本數(shù)據(jù)中的第一個(gè)發(fā)音為“hujian”的文字“胡建”確定為待修正文字,則此步驟中在文本數(shù)據(jù)中的第一個(gè)發(fā)音為“hujian”的文字“胡建”附近顯示備選文字列表:1、福建;2、附件;3、護(hù)肩;4、互見,...
s15:選定指令
接收備選文字選定指令。
其中,用戶可以通過語音說出備選文字在備選文字列表中的位置,完成備選文字選中的工作。比如使用福建替換胡建。
s16:修正文字
將所述待修正文字修正為所述備選文字選定指令所指定的備選文字。在進(jìn)行修正替換的過程中,將待修正文字的時(shí)間位置信息,以時(shí)間戳進(jìn)行標(biāo)記,從而準(zhǔn)確定位被修正文字所對應(yīng)的語音數(shù)據(jù)的時(shí)間位置信息。優(yōu)選的是,在修正文本數(shù)據(jù)和語音數(shù)據(jù)流的過程中,形成修正歷史記錄,所述修正歷史記錄包括修正時(shí)間、修正內(nèi)容、修正操作人等等。
s17:語音片段
從標(biāo)準(zhǔn)語音庫中,根據(jù)備選文字搜索其標(biāo)準(zhǔn)語音數(shù)據(jù),如果多字詞或句子,就組合形成一段新的語音數(shù)據(jù)片段。優(yōu)選的是,文本數(shù)據(jù)中包含有語音源的性別信息,在進(jìn)行所述搜索時(shí),就可以根據(jù)性別信息獲得女生發(fā)音或男生發(fā)音,或者各種高音、低音等不同的語音數(shù)據(jù)。
s18:語音替換
根據(jù)之前所述的時(shí)間位置信息,將所述新的語音數(shù)據(jù)片段替換原始語音數(shù)據(jù)中的相應(yīng)語音數(shù)據(jù)片段,形成新的語音數(shù)據(jù)。優(yōu)選的是,由于標(biāo)準(zhǔn)語音的發(fā)音時(shí)間和被替換的語音的發(fā)音時(shí)間,即使文字內(nèi)容完全相同,發(fā)音時(shí)間也不一定相同,為了平滑的無縫替換,可以先根據(jù)兩個(gè)語音片段的發(fā)音時(shí)間計(jì)算出平滑系數(shù),根據(jù)所述平滑系數(shù),加快或減慢所述標(biāo)準(zhǔn)發(fā)音時(shí)間,使得替換后和替換前同樣文字內(nèi)容的發(fā)音持續(xù)時(shí)間保持一致。
用戶使用終端通過互聯(lián)網(wǎng)登錄錄播系統(tǒng),可以實(shí)現(xiàn)對錄制課堂的回顧播放或點(diǎn)播播放。當(dāng)然,對于某些用戶比如網(wǎng)絡(luò)在線會議用戶,這些錄制課堂可以是網(wǎng)絡(luò)在線會議的過程記錄文件,錄播系統(tǒng)會把用戶請求回顧或點(diǎn)播的教學(xué)文件id通過socket加密信道發(fā)送給教學(xué)服務(wù)器,通過教學(xué)文件id獲取此課程的帶有時(shí)間戳的動作數(shù)據(jù)流、語音數(shù)據(jù)流、電子文檔操作數(shù)據(jù)流、視頻數(shù)據(jù)流以及文本數(shù)據(jù)等發(fā)送給請求相應(yīng)教學(xué)文件id的用戶終端,用戶終端在本地根據(jù)時(shí)間戳還原(重現(xiàn)或者模擬重現(xiàn))整個(gè)課堂教學(xué)過程。這些數(shù)據(jù)流可以在用戶終端的各個(gè)功能區(qū)分別進(jìn)行顯示或者切換式顯示。對于視頻一般可以在用戶終端上進(jìn)行重現(xiàn),但是對于電子白板的操作,通過電子白板的模擬程序,可以實(shí)現(xiàn)模擬重現(xiàn)。
當(dāng)然,用戶可以選擇只播放這些數(shù)據(jù)流的至少一種,比如可以只聽語音。對于文本數(shù)據(jù),可以以字幕的方式顯示在用戶終端的特定區(qū)域,比如視頻展示區(qū)內(nèi)。
在一個(gè)示例中,起到字幕作用的文本數(shù)據(jù)可以顯示在特定的可編輯區(qū)域,使得用戶可以進(jìn)行選定操作等,這樣對于發(fā)現(xiàn)的不標(biāo)準(zhǔn)的語音數(shù)據(jù)或者文字信息,只需要選定相應(yīng)的文字信息即可進(jìn)行反饋。錄播系統(tǒng)的管理員在接到用戶的反饋之后,進(jìn)行核實(shí),如果發(fā)現(xiàn)確實(shí)存在錯(cuò)誤,就重復(fù)前面的文本數(shù)據(jù)和語音數(shù)據(jù)流的修正步驟,使得文本數(shù)據(jù)和語音數(shù)據(jù)能夠得到不斷的完善和改進(jìn)。
在上述實(shí)施例中,終端和服務(wù)器是可以由與包含互聯(lián)網(wǎng)在內(nèi)的通信網(wǎng)絡(luò)進(jìn)行連接的構(gòu)成,所以也可以是以經(jīng)由通信網(wǎng)絡(luò)下載程序代碼的方式流動地承載程序代碼的媒體。在這樣從通信網(wǎng)絡(luò)下載程序代碼的情況下,也可以是所述下載用的程序預(yù)先保存在主體裝置中或者從別的記錄媒體進(jìn)行安裝的構(gòu)成。此外,本發(fā)明可以通過上述程序代碼以電子傳輸所體現(xiàn)的、被嵌入于載波中的計(jì)算機(jī)數(shù)據(jù)信號的形態(tài)而得以實(shí)現(xiàn)。以上介紹了本發(fā)明的較佳實(shí)施方式,旨在使得本發(fā)明的精神更加清楚和便于理解,并不是為了限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的修正、替換、改進(jìn),均應(yīng)包含在本發(fā)明所附的權(quán)利要求概況的保護(hù)范圍之內(nèi)。