方言地理-聲譜特征采集技術(shù)的制作方法

文檔序號：11774531閱讀：194來源：國知局

本發(fā)明公開了一種利用gps定位與地理信息系統(tǒng)支持的地域方言的聲學特征記錄儀器,方言獲取的地理信息錄入與方言取樣地的地理信息自動錄入。本發(fā)明通過對方言錄制過程中自動形成地理特征與方言特征數(shù)據(jù)集，形成快速索引。方言聲學特征數(shù)據(jù)提取形成重要特征聲學數(shù)據(jù)譜存儲與方言聲學特征譜系存儲，直觀顯示，顯示方言的地域與聲學特征。利用gps形成地理位置對方言人聲學取樣。利用dsp技術(shù)對聲音指紋并進行存儲管理，形成方言的地理屬性識別。本發(fā)明在對方言的全面檢索方面，顯示出方便性，極大提高方言采集的可靠性，降低采集難度。
背景技術(shù)：
：方言錄制過程中，對方言發(fā)聲人的身份信息與地理信息、方言的相關(guān)文字或聲學文件均需要記錄，或形成標注，以便于使用。但傳統(tǒng)的人工記錄信息繁瑣，自動錄音的后期工作量極大，而形成的電子文件（聲音）對后期的分析與處理，均存在低效瓶頸。本發(fā)明公開了一種標準化方言聲取樣存儲與數(shù)據(jù)存儲技術(shù)。本發(fā)明涉及到聲學特征結(jié)構(gòu)、方言數(shù)據(jù)格式、指定函數(shù)dsp芯片計算模塊、字－音數(shù)據(jù)存儲模塊、顯示與管理方法?？梢赃M行方言聲數(shù)據(jù)的可查詢、可管理、可計算的快速實現(xiàn)，大量用于方言的研究與識別、轉(zhuǎn)換、互譯，以及利用方言進行的地域分類。方言聲特征譜的存儲可以為方言的研究與標準化校準提供有效方法。聲音文件的形成有磁帶技術(shù)、磁盤技術(shù)、固態(tài)存儲三方式，所形成的文件系統(tǒng)存在檢索困難、計算復雜問題；方言的聲學采樣是方言研究與方言應用系統(tǒng)必要步驟，但方言采樣中即時發(fā)現(xiàn)特殊的方言特征，并進行方言的社會學與環(huán)境研究，是方言研究中急待解決的問題；而方言間的互譯技術(shù)核心，是快速的方言計算（識別、比較與查詢），目前的相關(guān)方言的言語聲學研究，完成了原理級的實驗，但缺少可實現(xiàn)的技術(shù)手段。本發(fā)明在利用標準言語聲紋庫的基礎上，實現(xiàn)了方言特征的快速發(fā)現(xiàn)與精確計算，形成地理位置為標志的方言聲學參數(shù)特征圖譜繪制。技術(shù)實現(xiàn)要素：方言地理-聲譜特征采集原理本發(fā)明采用ｇｐｓ輔助定位、方言朗讀人像識別與方言的數(shù)據(jù)聲譜技術(shù)，可以快速的完成方言的完整數(shù)據(jù)采集，提高方言采集到應用的效率。原理如圖1所示。本發(fā)明技術(shù)的原理如圖1所示。器件①為普通話筒，用于對聲音數(shù)據(jù)的獲取，前置處理后形成數(shù)字信號；器件②為方言取樣人的相片與嘴形攝像，形成圖片；③為信號處理的dsp芯片組成的具有fft與hmm函數(shù)的計算單元，用于對聲音流與圖像流數(shù)據(jù)計算，形成mfcc特征數(shù)據(jù)系數(shù)，用于與標準字-聲存儲器④的數(shù)據(jù)比較計算后，形成文本內(nèi)容，構(gòu)造索引并存儲；器件⑥用于文本掃描，用于對證件與相關(guān)文件的數(shù)據(jù)內(nèi)容識別，是索引的一個組成部分；④是已知的方言字-音數(shù)據(jù)庫，用于對方言聲音內(nèi)容行文本字識別，方言字-音是指由本方言的標準發(fā)聲音（或樣本）字（或詞句）對應的“音的特征數(shù)據(jù)形成的數(shù)據(jù)集”，由系統(tǒng)的字-音庫生成模塊形成。由ｄｓｐ系統(tǒng)處理的（聲音文件，文本內(nèi)容，圖像文件以及對應索引文件）文件系統(tǒng)，由arm系統(tǒng)⑦結(jié)合gps⑤信息，形成有效方言數(shù)據(jù)存儲到數(shù)據(jù)庫中。所存儲的數(shù)據(jù)在文本顯示器⑧中顯示與管理。圖2為方言聲文件形成存儲的過程。方言錄制的方法是通過對方言聲閱讀人（樣本人）文本顯示內(nèi)容，進行閱讀形成聲音信號，聲音信號通過dsp處理形成音素（子）隊列與方言聲音文件，聲音文件直接存入存儲器；如果本地方言無標準音－字對應數(shù)據(jù)庫，則需要生成字-音標準庫⑩，方法是啟動字-音計算算法⑨，生成標準庫；如果存在本地字音庫，則將方言音素（子）隊列與字-音庫進行識別，形成方言文本；不同的字-音庫，識別出的方言文本內(nèi)容是不同的。這個方言文本的特征參數(shù)生成后，成為方言數(shù)據(jù)庫索引的一部分；另一方面，gps信號用于對地理位置識別，并用于輔助確定本地數(shù)據(jù)庫中是否具有標準庫資料，同時也是方言索引的一個部分；圖像信息分方言樣本人的資料（包括掃描文件，人像）與方言閱讀過程圖像同步信號，信號由dps系統(tǒng)處理形成與相應的音素隊列對應的圖像幀（音素與圖像幀系列）文件，圖像幀特征數(shù)據(jù)為索引的一個組成部分；在索引形成后，構(gòu)造出索引、聲音文件、圖像文件的存儲結(jié)構(gòu)，存儲到中，并形成可管理數(shù)據(jù)庫。數(shù)據(jù)庫的內(nèi)容與整個系統(tǒng)由顯示界面管理，并提供人機互動界面。3.2字-音數(shù)據(jù)模塊方言音素隊列形成框架如圖3所示，由文本顯示器提供閱讀內(nèi)容（字詞句），閱讀人面對話筒與攝像頭閱讀，形成圖像與聲音文件。電子文件流為聲音存儲到存儲器中，由dsp進行處理的聲音源。dsp讀取數(shù)據(jù)后調(diào)入快速傅里葉變換(fastfouriertransformation，fft)，以能量為主要參數(shù)，結(jié)合mfcc(melfrequencycepstrumcoefficient)進行音素（子）分割，形成以時間為ｉｄ的對應音素隊列(圖4)。其中的字-音模塊，是由標準字與方言聲音對應數(shù)據(jù)庫模塊，其中聲音數(shù)據(jù)由mfcc系數(shù)集，每個文字（詞、短句）對應一組聲音分解后的音素隊列，每個音素由一ｍｆｃｃ系數(shù)集（結(jié)構(gòu)）對應。所選用的dsp由tms320c5502芯片組成計算系統(tǒng)，并使用通用的ftt(fastfouriertransformation，fft)代碼與hmm(hiddenmarkovmodels,hmm)代碼形成聲音的數(shù)據(jù)處理，并輸出mfcc(melfrequencycepstrumcoefficient,mfcc)值。朗讀的每字或詞（句）對應的聲音文件，由dsp的fft標準函數(shù)進行頻率－能量峰轉(zhuǎn)換，形成能量幀，以供mfcc形成計算，mfcc使用了通用的隱馬爾科夫(hiddenmarkovmodels,hmm)通用計算函數(shù)，形成音素隊列。每音素索引數(shù)據(jù)結(jié)構(gòu)，由標準mfcc系數(shù)生成，對應六個變量選擇聲音的六個能量集中頻率點，為170hz、280hz、400hz、870hz、1200hz、1700hz對應mfcc變量。每次方言聲文件由音素排列，形成id，并形成音素對應的數(shù)據(jù)結(jié)構(gòu)，如表１所示：表１音素的ｍｆｃｃ構(gòu)造的數(shù)據(jù)結(jié)構(gòu)字－音模塊，由單音字、雙音字與短句計100個字組成朗讀文本，標準朗讀字（詞、句）逐一顯示在顯示器上，供朗讀者對應該朗讀并錄入形成聲音文件，形成“標準字－方言音”對應文件數(shù)據(jù)，數(shù)據(jù)由dsp的fft函數(shù)與mfcc變量數(shù)組進行過濾計算，形成mfcc參數(shù)集，構(gòu)成字對應的聲音數(shù)據(jù)索引，字-音模塊形成。字-音模塊生成的數(shù)據(jù)存儲到flash數(shù)據(jù)庫中，flash存儲格式由音素隊列組成對標準字描述索引。3.3方言字-音模塊音素隊列形成標準庫，是由逐字讀音、逐詞讀音、逐句讀音形成，要求可靠且唯一對應。所形成的方言標準音-字庫格式，是方言識別的核心數(shù)據(jù)庫，結(jié)構(gòu)由字索引與音素索引二個方式。字-音標準庫為dsp系統(tǒng)的一部分。字-音標準庫是指具有與gps或可識別行政標識（地址）地域性字-方言音數(shù)據(jù)庫，是形成方言可查詢的索引基礎。標準庫由確定的單字、雙字（詞）、多字（詞）與句子（單一語義）的相對聲音片斷（音素，音子）組成。標準庫定義為有限常用字庫，數(shù)量定義為１００個字與２００字（含句子）。也就是標準庫的閱讀文檔是通用統(tǒng)一的。而對于方言聲文件進行識別時，只能是對方言文件中部分字形成文本資料，稱之為方言聲文件的文本特征，并成為字符類數(shù)據(jù)（類型）成為索引的“文字索引部分”。音素部分以隊列特征與mel參數(shù)形成“語音特征”（方言）。其中的格式如表一所示：地址屬性字符地理位置閱讀人語音特征標準語料表一flash或rom中標準字-音數(shù)據(jù)庫表結(jié)構(gòu)方言文本是由方言朗讀者在當?shù)兀╣ps）的方言標準庫識別下，形成的文本文件。如圖6所示。圖像信號形成的文件，用于生成方言人的身份信息，與ｇｐｓ數(shù)據(jù)共同形成本次方言采集的索引文件。索引文件與聲音、朗讀文本、圖像共同形成存儲，其中索引格式如表二所示：id屬性方言文本gps閱讀人語音特征標準語料文件位置表二方言聲文件索引格式。方言的字-數(shù)據(jù)聲譜格式計算方言聲學數(shù)據(jù)譜形成，由方言朗讀人對照標準文本，形成的一個完整聲音文件，構(gòu)造一個數(shù)組，該數(shù)組結(jié)構(gòu)為匹配率(1字節(jié))、個人信息代碼（６４字節(jié)）、圖像代碼（１６字節(jié)）、聲音文件與相關(guān)圖像文件存儲位置（url，１２８字節(jié)）、其它（８字節(jié)），稱為方言聲學數(shù)據(jù)譜。方言聲學數(shù)據(jù)特征匹配率定位算法，用于形成對最高匹配率的朗讀人方言提供地域識別名（地址或地理位置），其算法由已有地域（行政地址）數(shù)據(jù)庫提供，或由gps提供（地理）；匹配率計算由匹配率算法完成，其偽過程如下：；已知有地理位置－音素排隊表k張，代表k個方言類型；欲匹配音素排隊表１張；遍歷k張表，形成k個匹配率；取最大或１的為符合類型；取地域名或gps值；否則（k值不唯一或為0）；k=null或0,確定位置取gps值個人信息代碼由性別、年齡與身份組成；圖像代碼由圖像編號（整數(shù)，８字節(jié)）以及朗讀人頭像文件（２字節(jié)）、聲音文件名稱ｉｄ組成（６字節(jié)）；文件存儲位置（ｕｒｌ）,由文件系統(tǒng)（操作系統(tǒng)）確定；其它包括本類方言的分類樹位置與錯誤代碼（２字節(jié)）。方言地域識別模塊地域方言字－音識別庫模塊，用于方言朗讀標準字（詞）聲音再轉(zhuǎn)換為“方言字”的對比庫，其中匹配率（“方言字”與標準字的比率）最高（或為１）的區(qū)域名稱（行政地址或地理位置名），為方言歸屬地；二種地域不一致時，記錄為二個的結(jié)論數(shù)據(jù)，以ｇｐｓ為主要計算數(shù)據(jù)。附圖說明：圖1方言地理-聲譜特征采集原理框架；圖2方言地理-聲索引存儲管理框架；圖3方言音素隊列形成框架；圖4tms320c5502芯片組成計算系統(tǒng)；圖5音素隊列與圖像幀隊列形成框架示意圖；圖6方言文本形成框架。當前第1頁12

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王雪飛;劉珺
技術(shù)所有人：黃山學院
我是此專利的發(fā)明人

上一篇：新型預制輕型FRP快鉚基礎的制作方法與工藝
上一篇：目標位置搜索方法和裝置與流程

該領域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

方言地理-聲譜特征采集技術(shù)的制作方法