一種語言資源有聲數據的存儲和檢索方法
【技術領域】
[0001]本發(fā)明涉及一種語言資源有聲數據的存儲和檢索方法,屬于數據處理技術領域。
【背景技術】
[0002]中國是世界上語言資源最豐富的國家之一,中國擁有55個少數民族,除滿族和回族已使用通用漢語外,其他民族都有自己的語言,有些民族內部的不同支系還使用著不同的語言。因此,傳承和發(fā)展少數民族語言文字和文化,成為中國保護語言多樣性的關鍵工作。國家語言文字工作委員會于2008年啟動了 “中國語言資源有聲數據庫”項目,要求各地以縣為單位按照科學、統(tǒng)一的規(guī)劃,調查收集當代漢語方言、少數民族語言和帶有地方特色的普通話的實態(tài)、有聲語料,并進行科學整理、加工和有效保存,以便將來深入研究和有效地開發(fā)利用,保護民族語言文化遺產。這是一項具有深遠意義的國家重大語言文字工程。
[0003]語言資源有聲數據一般包括語音和對該語音的說明材料兩部分,在目前的數據庫中,這兩部分多數是分開存儲的,即將每種語言對每個單詞的發(fā)音做成獨立的音頻文件存儲在一處,而每個音頻文件相對應的說明材料存儲在另一處,需要學習某種語言的某個單詞時,通過軟件從音頻文件庫和說明材料文件庫中分別檢索并調取相應的文件進行組合播放,這種存儲方法可以在多臺電腦上保存,容量大,但當數據庫容量較大時,軟件對單詞的檢索耗時較長,播放發(fā)音會比較慢,用戶體驗不佳,而且此類軟件一般只能在電腦上使用,無法在手機、電視等客戶端進行使用,使用終端過于局限。另外,由于目前所選用的說明材料一般僅采用文本,沒有結合對應的說明圖像、動畫等進行合成處理,對于一些單詞的表達可能會不夠確切,比如有些方言同一個詞,不同的動作有不同的方言表達,如果配有動畫動作加以說明就比較清楚些,更利用學習者的領會。
【發(fā)明內容】
[0004]本發(fā)明的目的是提供一種與常規(guī)方法完全不同的語言資源有聲數據的存儲和檢索方法,本存儲方法是將多個單詞的語音、說明文本、圖像、動畫合成為一個有聲視頻進行整體保存,并對該有聲視頻建立一個具有檢索播放功能的播放工具,使其可在多種媒體上進行對單詞的快速檢索和播放,學習者使用起來會非常方便。
[0005]本發(fā)明的語言資源有聲數據的存儲和檢索方法包括以下步驟:
(I)、將需要存儲的所有單詞的語音、說明文本、圖像、動畫文件采集完整,把所有單詞排列成若干頁,排列方法為:先設定每頁最多排入的單詞數,然后由前至后排滿前頁后再排入下一頁,最后一頁剩余多少則排入多少。
[0006](2)、按單詞在頁面上排列順序依次對該頁單詞的語音文件進行播放,播放單詞語音的同時還調用該單詞對應的說明文本、圖像和動畫在頁面一旁進行同步顯示,一頁單詞播放完后跳轉到下一頁繼續(xù)播放,直至所有單詞全部播放完成;播放時為單詞設定一個統(tǒng)一的播放時長,使每個單詞的播放時間均相等,并且要保證在設定的播放時長內所有單詞的語音文件均能完全發(fā)音;播放時還要為翻頁時的頁面跳轉設定一個頁面跳轉時間。
[0007]在本步驟中,對于單詞的播放可以只選擇一種語言的發(fā)音,也可以選擇多種語言的發(fā)音。只選擇一種語言的發(fā)音時,每個單詞的語音文件均按設定的播放時長播放一遍;當選擇多種語言的發(fā)音時,每個單詞的每種被選擇語言的語音文件均按設定的播放時長依次播放一遍。
[0008](3)、將步驟(2)中所有單詞的語音、說明文本、圖像、動畫的播放和顯示過程用錄屏軟件錄成一段視頻,由此實現將單詞的語音、說明文本、圖像、動畫合為一個有聲視頻進行整體存儲。
[0009]在本步驟中,可將錄制好的視頻轉換為不同的視頻格式以便在不同的設備上存儲和播放。
[0010](4)、將所錄制視頻的所有單詞從第一頁第一個到最后一頁最后一個按順序排入一個數組中,用編程語言編制一個具有檢索播放功能的播放工具,使用該播放工具,根據所錄制視頻的單詞播放時長、頁面跳轉時間和各單詞在數組中的排列位置,即可算出任一單詞在視頻中的播放位置,進而實現對任一單詞的語言資源有聲數據的精確檢索和播放。
[0011]在本步驟中,可使用不同的編程語言編寫成不同的播放工具,以適應電腦、手機、網絡、電視等不同媒體的播放需求。
[0012]由于各單詞的語音長短有時相差很大,設定一個統(tǒng)一的播放時長時要按照語音最長的單詞定,這樣在播放語音較短的單詞時會有很長的空白時間,不利于簡潔播放,因此可以先將單詞按照單詞語音的長短分好組,分別對每組單詞設定一個合適的播放時長,再按照上述步驟(1)、(2)、(3)的方法將各組單詞分別錄成一段視頻,然后將各段視頻合并成一個整體視頻,由此實現對語言資源有聲數據的整體存儲;檢索播放時,將每組單詞從第一頁第一個到最后一頁最后一個按順序排入一個數組中,再根據各段視頻在整體視頻中的順序將各數組合并成一個總數組,用編程語言編制一個具有檢索播放功能的播放工具,使用該播放工具,根據每段視頻在整體視頻中的位置、每段視頻的單詞數量、每段視頻的單詞播放時長、頁面跳轉時間和各單詞在總數組中的排列位置,即可算出任一單詞在整體視頻中的播放位置,進而實現對任一單詞的語言資源有聲數據的精確檢索和播放。
[0013]本發(fā)明的語言資源有聲數據的存儲及檢索方法具有以下優(yōu)點:
(1)、本發(fā)明對語言資源有聲數據的處理采用語音數據加上對應的說明文本、圖像、動畫,對語音的說明更加準確。因為對于某些特殊的方言,僅僅是用語音說明只能保證讀音的準確,但缺乏圖像或動畫說明,有時會造成學習者意思上的誤解。
[0014]比如:老鷹在廣西都安瑤族自治縣的一個地方瑤語中有兩種講法,一種是個子比較大的,常在高山巖洞上,能抓雞抓羊,目前已基本絕跡,當地漢語名叫“大老鷹”,另一種是個子相對較小的,只能抓雞,目前還偶有見到,當地漢語名叫“小老鷹”,“大老鷹”和“小老鷹”瑤語的錄音如果只是用語音和文本記錄下來,后人在學習瑤語時可能就會將“大老鷹”理解為成年會飛的老鷹,“小老鷹”理解為在窩里毛沒長完的雛鷹,如能加上圖像說明,學習者一看就懂得這是兩個品種的老鷹,這就保證了保存下來的瑤語語音表達意思的準確性。
[0015](2)、本發(fā)明將語音數據加上對應的說明文本、圖像、動畫合成為視頻進行存儲,可以在電腦、手機、網絡、電視等不同媒體上傳播,同時數據不容易被人修改,時代不同,只要轉換格式,又可以在新的設備上使用。
[0016](3)、本發(fā)明將語音數據加上對應的說明文本、圖像、動畫合成為視頻后,可以針對電腦、手機等制作簡單的檢索播放工具,在電腦、手機上對單詞進行檢索播放,檢索速度快,非常方便。
【附圖說明】
[0017]圖1為單詞播放軟件的一個頁界面。
[0018]圖2為錄成視頻的一個播放頁。
[0019]圖3為視頻檢索播放工具的一個檢索頁界面。
【具體實施方式】
[0020]下面結合具體實施例和附圖對本發(fā)明做進一步說明。
[0021]本發(fā)明的語言資源有聲數據的存儲及檢索方法包括以下步驟:
(I)、將需要存儲的所有單詞的語音、說明文本、圖像、動畫文件采集完整,把所有單詞排列成若干頁,排列方法為:先設定每頁最多排入的單詞數,然后由前至后排滿前頁后再排入下一頁,最后一頁剩余多少則排入多少。
[0022]如本實施例單詞總量有3000個,設定每頁排入58個單詞,則排成52頁,前51頁全部排滿,第52頁排入42個單詞。
[0023](2)、按單詞在頁面上排列順序依次對該頁單詞的語音文件進行播放,播放單詞語音的同時還調用該單詞對應的說明文本、圖像和動畫在頁面一旁進行同步顯示,一頁單詞播放完后跳轉到下一頁繼續(xù)播放,直至所有單詞全部播放完成;播放時為單詞設定一個統(tǒng)一的播放時長,使每個單詞的播放時間均相等,并且要保證在設定的播放時長內所有單詞的語音文件均能完全發(fā)音;播放時還要為翻頁時的頁面跳轉設定一個頁面跳轉時間。
[0024]圖1為按上述條件制作的單詞播放軟件的一個頁界面,播放單詞語音文件的同時在頁界面左邊顯示單詞對應的說明文本、圖像、動畫,如圖1所示,本頁第28個單詞“公雞”發(fā)出普通話語音時左邊顯示的對應的說明文本(包括文字和拼音)和圖像。右邊的是本頁的單詞排列。在頁界面的左下方可以選擇一種語言的發(fā)音或選擇多種語言的發(fā)音,在頁界面的右下方設有單發(fā)音按鈕、播放時長設定按鈕和多發(fā)音按鈕,單發(fā)音按鈕用于連續(xù)播放一種語言的發(fā)音,而多發(fā)音按鈕用于連續(xù)播放多種語言的發(fā)音,播放時長設定按鈕用于設定每個單詞發(fā)音的播放時長。如圖中設定的播放時長是2秒,當按下單發(fā)音按鈕時,會從“公雞”單詞開始