本發(fā)明公開了一種利用gps定位與地理信息系統(tǒng)支持的地域方言的聲學特征記錄儀器,方言獲取的地理信息錄入與方言取樣地的地理信息自動錄入。本發(fā)明通過對方言錄制過程中自動形成地理特征與方言特征數(shù)據(jù)集,形成快速索引。方言聲學特征數(shù)據(jù)提取形成重要特征聲學數(shù)據(jù)譜存儲與方言聲學特征譜系存儲,直觀顯示,顯示方言的地域與聲學特征。利用gps形成地理位置對方言人聲學取樣。利用dsp技術(shù)對聲音指紋并進行存儲管理,形成方言的地理屬性識別。本發(fā)明在對方言的全面檢索方面,顯示出方便性,極大提高方言采集的可靠性,降低采集難度。
背景技術(shù):
:方言錄制過程中,對方言發(fā)聲人的身份信息與地理信息、方言的相關(guān)文字或聲學文件均需要記錄,或形成標注,以便于使用。但傳統(tǒng)的人工記錄信息繁瑣,自動錄音的后期工作量極大,而形成的電子文件(聲音)對后期的分析與處理,均存在低效瓶頸。本發(fā)明公開了一種標準化方言聲取樣存儲與數(shù)據(jù)存儲技術(shù)。本發(fā)明涉及到聲學特征結(jié)構(gòu)、方言數(shù)據(jù)格式、指定函數(shù)dsp芯片計算模塊、字-音數(shù)據(jù)存儲模塊、顯示與管理方法??梢赃M行方言聲數(shù)據(jù)的可查詢、可管理、可計算的快速實現(xiàn),大量用于方言的研究與識別、轉(zhuǎn)換、互譯,以及利用方言進行的地域分類。方言聲特征譜的存儲可以為方言的研究與標準化校準提供有效方法。聲音文件的形成有磁帶技術(shù)、磁盤技術(shù)、固態(tài)存儲三方式,所形成的文件系統(tǒng)存在檢索困難、計算復雜問題;方言的聲學采樣是方言研究與方言應用系統(tǒng)必要步驟,但方言采樣中即時發(fā)現(xiàn)特殊的方言特征,并進行方言的社會學與環(huán)境研究,是方言研究中急待解決的問題;而方言間的互譯技術(shù)核心,是快速的方言計算(識別、比較與查詢),目前的相關(guān)方言的言語聲學研究,完成了原理級的實驗,但缺少可實現(xiàn)的技術(shù)手段。本發(fā)明在利用標準言語聲紋庫的基礎上,實現(xiàn)了方言特征的快速發(fā)現(xiàn)與精確計算,形成地理位置為標志的方言聲學參數(shù)特征圖譜繪制。技術(shù)實現(xiàn)要素:方言地理-聲譜特征采集原理本發(fā)明采用gps輔助定位、方言朗讀人像識別與方言的數(shù)據(jù)聲譜技術(shù),可以快速的完成方言的完整數(shù)據(jù)采集,提高方言采集到應用的效率。原理如圖1所示。本發(fā)明技術(shù)的原理如圖1所示。器件①為普通話筒,用于對聲音數(shù)據(jù)的獲取,前置處理后形成數(shù)字信號;器件②為方言取樣人的相片與嘴形攝像,形成圖片;③為信號處理的dsp芯片組成的具有fft與hmm函數(shù)的計算單元,用于對聲音流與圖像流數(shù)據(jù)計算,形成mfcc特征數(shù)據(jù)系數(shù),用于與標準字-聲存儲器④的數(shù)據(jù)比較計算后,形成文本內(nèi)容,構(gòu)造索引并存儲;器件⑥用于文本掃描,用于對證件與相關(guān)文件的數(shù)據(jù)內(nèi)容識別,是索引的一個組成部分;④是已知的方言字-音數(shù)據(jù)庫,用于對方言聲音內(nèi)容行文本字識別,方言字-音是指由本方言的標準發(fā)聲音(或樣本)字(或詞句)對應的“音的特征數(shù)據(jù)形成的數(shù)據(jù)集”,由系統(tǒng)的字-音庫生成模塊形成。由dsp系統(tǒng)處理的(聲音文件,文本內(nèi)容,圖像文件以及對應索引文件)文件系統(tǒng),由arm系統(tǒng)⑦結(jié)合gps⑤信息,形成有效方言數(shù)據(jù)存儲到數(shù)據(jù)庫中。所存儲的數(shù)據(jù)在文本顯示器⑧中顯示與管理。圖2為方言聲文件形成存儲的過程。方言錄制的方法是通過對方言聲閱讀人(樣本人)文本顯示內(nèi)容,進行閱讀形成聲音信號,聲音信號通過dsp處理形成音素(子)隊列與方言聲音文件,聲音文件直接存入存儲器;如果本地方言無標準音-字對應數(shù)據(jù)庫,則需要生成字-音標準庫⑩,方法是啟動字-音計算算法⑨,生成標準庫;如果存在本地字音庫,則將方言音素(子)隊列與字-音庫進行識別,形成方言文本;不同的字-音庫,識別出的方言文本內(nèi)容是不同的。這個方言文本的特征參數(shù)生成后,成為方言數(shù)據(jù)庫索引的一部分;另一方面,gps信號用于對地理位置識別,并用于輔助確定本地數(shù)據(jù)庫中是否具有標準庫資料,同時也是方言索引的一個部分;圖像信息分方言樣本人的資料(包括掃描文件,人像)與方言閱讀過程圖像同步信號,信號由dps系統(tǒng)處理形成與相應的音素隊列對應的圖像幀(音素與圖像幀系列)文件,圖像幀特征數(shù)據(jù)為索引的一個組成部分;在索引形成后,構(gòu)造出索引、聲音文件、圖像文件的存儲結(jié)構(gòu),存儲到中,并形成可管理數(shù)據(jù)庫。數(shù)據(jù)庫的內(nèi)容與整個系統(tǒng)由顯示界面管理,并提供人機互動界面。3.2字-音數(shù)據(jù)模塊方言音素隊列形成框架如圖3所示,由文本顯示器提供閱讀內(nèi)容(字詞句),閱讀人面對話筒與攝像頭閱讀,形成圖像與聲音文件。電子文件流為聲音存儲到存儲器中,由dsp進行處理的聲音源。dsp讀取數(shù)據(jù)后調(diào)入快速傅里葉變換(fastfouriertransformation,fft),以能量為主要參數(shù),結(jié)合mfcc(melfrequencycepstrumcoefficient)進行音素(子)分割,形成以時間為id的對應音素隊列(圖4)。其中的字-音模塊,是由標準字與方言聲音對應數(shù)據(jù)庫模塊,其中聲音數(shù)據(jù)由mfcc系數(shù)集,每個文字(詞、短句)對應一組聲音分解后的音素隊列,每個音素由一mfcc系數(shù)集(結(jié)構(gòu))對應。所選用的dsp由tms320c5502芯片組成計算系統(tǒng),并使用通用的ftt(fastfouriertransformation,fft)代碼與hmm(hiddenmarkovmodels,hmm)代碼形成聲音的數(shù)據(jù)處理,并輸出mfcc(melfrequencycepstrumcoefficient,mfcc)值。朗讀的每字或詞(句)對應的聲音文件,由dsp的fft標準函數(shù)進行頻率-能量峰轉(zhuǎn)換,形成能量幀,以供mfcc形成計算,mfcc使用了通用的隱馬爾科夫(hiddenmarkovmodels,hmm)通用計算函數(shù),形成音素隊列。每音素索引數(shù)據(jù)結(jié)構(gòu),由標準mfcc系數(shù)生成,對應六個變量選擇聲音的六個能量集中頻率點,為170hz、280hz、400hz、870hz、1200hz、1700hz對應mfcc變量。每次方言聲文件由音素排列,形成id,并形成音素對應的數(shù)據(jù)結(jié)構(gòu),如表1所示:表1音素的mfcc構(gòu)造的數(shù)據(jù)結(jié)構(gòu)字-音模塊,由單音字、雙音字與短句計100個字組成朗讀文本,標準朗讀字(詞、句)逐一顯示在顯示器上,供朗讀者對應該朗讀并錄入形成聲音文件,形成“標準字-方言音”對應文件數(shù)據(jù),數(shù)據(jù)由dsp的fft函數(shù)與mfcc變量數(shù)組進行過濾計算,形成mfcc參數(shù)集,構(gòu)成字對應的聲音數(shù)據(jù)索引,字-音模塊形成。字-音模塊生成的數(shù)據(jù)存儲到flash數(shù)據(jù)庫中,flash存儲格式由音素隊列組成對標準字描述索引。3.3方言字-音模塊音素隊列形成標準庫,是由逐字讀音、逐詞讀音、逐句讀音形成,要求可靠且唯一對應。所形成的方言標準音-字庫格式,是方言識別的核心數(shù)據(jù)庫,結(jié)構(gòu)由字索引與音素索引二個方式。字-音標準庫為dsp系統(tǒng)的一部分。字-音標準庫是指具有與gps或可識別行政標識(地址)地域性字-方言音數(shù)據(jù)庫,是形成方言可查詢的索引基礎。標準庫由確定的單字、雙字(詞)、多字(詞)與句子(單一語義)的相對聲音片斷(音素,音子)組成。標準庫定義為有限常用字庫,數(shù)量定義為100個字與200字(含句子)。也就是標準庫的閱讀文檔是通用統(tǒng)一的。而對于方言聲文件進行識別時,只能是對方言文件中部分字形成文本資料,稱之為方言聲文件的文本特征,并成為字符類數(shù)據(jù)(類型)成為索引的“文字索引部分”。音素部分以隊列特征與mel參數(shù)形成“語音特征”(方言)。其中的格式如表一所示:地址屬性字符地理位置閱讀人語音特征標準語料表一flash或rom中標準字-音數(shù)據(jù)庫表結(jié)構(gòu)方言文本是由方言朗讀者在當?shù)兀╣ps)的方言標準庫識別下,形成的文本文件。如圖6所示。圖像信號形成的文件,用于生成方言人的身份信息,與gps數(shù)據(jù)共同形成本次方言采集的索引文件。索引文件與聲音、朗讀文本、圖像共同形成存儲,其中索引格式如表二所示:id屬性方言文本gps閱讀人語音特征標準語料文件位置表二方言聲文件索引格式。方言的字-數(shù)據(jù)聲譜格式計算方言聲學數(shù)據(jù)譜形成,由方言朗讀人對照標準文本,形成的一個完整聲音文件,構(gòu)造一個數(shù)組,該數(shù)組結(jié)構(gòu)為匹配率(1字節(jié))、個人信息代碼(64字節(jié))、圖像代碼(16字節(jié))、聲音文件與相關(guān)圖像文件存儲位置(url,128字節(jié))、其它(8字節(jié)),稱為方言聲學數(shù)據(jù)譜。方言聲學數(shù)據(jù)特征匹配率定位算法,用于形成對最高匹配率的朗讀人方言提供地域識別名(地址或地理位置),其算法由已有地域(行政地址)數(shù)據(jù)庫提供,或由gps提供(地理);匹配率計算由匹配率算法完成,其偽過程如下:;已知有地理位置-音素排隊表k張,代表k個方言類型;欲匹配音素排隊表1張;遍歷k張表,形成k個匹配率;取最大或1的為符合類型;取地域名或gps值;否則(k值不唯一或為0);k=null或0,確定位置取gps值個人信息代碼由性別、年齡與身份組成;圖像代碼由圖像編號(整數(shù),8字節(jié))以及朗讀人頭像文件(2字節(jié))、聲音文件名稱id組成(6字節(jié));文件存儲位置(url),由文件系統(tǒng)(操作系統(tǒng))確定;其它包括本類方言的分類樹位置與錯誤代碼(2字節(jié))。方言地域識別模塊地域方言字-音識別庫模塊,用于方言朗讀標準字(詞)聲音再轉(zhuǎn)換為“方言字”的對比庫,其中匹配率(“方言字”與標準字的比率)最高(或為1)的區(qū)域名稱(行政地址或地理位置名),為方言歸屬地;二種地域不一致時,記錄為二個的結(jié)論數(shù)據(jù),以gps為主要計算數(shù)據(jù)。附圖說明:圖1方言地理-聲譜特征采集原理框架;圖2方言地理-聲索引存儲管理框架;圖3方言音素隊列形成框架;圖4tms320c5502芯片組成計算系統(tǒng);圖5音素隊列與圖像幀隊列形成框架示意圖;圖6方言文本形成框架。當前第1頁12