本發(fā)明屬于語(yǔ)音數(shù)據(jù)處理,具體涉及到基于語(yǔ)音mfcc特征的兒童孤獨(dú)癥傾向檢測(cè)方法。
背景技術(shù):
1、孤獨(dú)癥,又稱孤獨(dú)癥,被歸類為由于神經(jīng)系統(tǒng)失調(diào)導(dǎo)致的發(fā)育障礙,其病征包括不完整的社交能力、溝通能力、興趣和行為模式。孤獨(dú)癥是一種廣泛性發(fā)展障礙,以嚴(yán)重的、廣泛的社會(huì)相互影響和溝通技能的損害以及刻板的行為、興趣和活動(dòng)為特征的精神疾病。通過(guò)早期孤獨(dú)癥傾向檢測(cè),可以幫助患者及早獲得專業(yè)幫助,促進(jìn)語(yǔ)言、社交及認(rèn)知能力的發(fā)展,也可以幫助家長(zhǎng)和教育者正確理解孤獨(dú)癥,并提供適當(dāng)?shù)闹С趾椭笇?dǎo)。目前,大量研究采用各種方法來(lái)檢測(cè)孤獨(dú)癥,目前,常見(jiàn)的輔助診斷方式有眼動(dòng)追蹤、腦ct掃描、眼動(dòng)追蹤、行為分析以及多量表綜合匯評(píng)等,多數(shù)醫(yī)生還是依據(jù)長(zhǎng)期的臨床觀察輔以多種量表進(jìn)行診斷。由于沒(méi)有制定出行之有效的客觀評(píng)估方式,導(dǎo)致診斷周期過(guò)長(zhǎng),容易錯(cuò)過(guò)最佳的干預(yù)時(shí)期,而且以上研究方法上面需要昂貴的特定設(shè)備,由于成本和設(shè)備限制,通常只適用于專門的臨床環(huán)境,難以大規(guī)模推廣。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問(wèn)題在于提供一種成本低、效率高、準(zhǔn)確率高的基于語(yǔ)音mfcc特征的兒童孤獨(dú)癥傾向檢測(cè)方法。
2、解決上述技術(shù)問(wèn)題所采用的技術(shù)方案是:一種基于語(yǔ)音mfcc特征的兒童孤獨(dú)癥傾向檢測(cè)方法,包括以下步驟:
3、步驟1.構(gòu)建語(yǔ)音數(shù)據(jù)集
4、基于篩查孤獨(dú)癥兒童傾向設(shè)計(jì)的特定虛擬現(xiàn)實(shí)游戲場(chǎng)景,讓孤獨(dú)癥兒童和正常兒童分別在虛擬現(xiàn)實(shí)動(dòng)畫場(chǎng)景中模仿醫(yī)生和患者的行為,并說(shuō)出特定的情感語(yǔ)句,從而獲取孤獨(dú)癥兒童的語(yǔ)音情感數(shù)據(jù)和正常兒童語(yǔ)音數(shù)據(jù);
5、步驟2.提取正常和患病兒童的語(yǔ)音情感數(shù)據(jù)中的mfcc特征,同時(shí)對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,最后進(jìn)行特征數(shù)據(jù)增強(qiáng),得到mfcc特征增強(qiáng)數(shù)據(jù)集,將mfcc特征增強(qiáng)數(shù)據(jù)集按照比例分為訓(xùn)練集和測(cè)試集;
6、步驟3.構(gòu)建混合局域型注意力機(jī)制的網(wǎng)絡(luò)模型
7、所述混合局域型注意力機(jī)制的網(wǎng)絡(luò)模型由依次相連的雙向lstm層、全局注意力機(jī)制層、gru層、自注意力機(jī)制層、分類單元構(gòu)成;
8、所述雙向lstm層包括前向lstm層和后向lstm層,前向lstm層和后向lstm層分別對(duì)mfcc特征增強(qiáng)數(shù)據(jù)集進(jìn)行處理,生成每個(gè)時(shí)間步的前向隱藏狀態(tài)和后向隱藏狀態(tài)并融合,形成雙向lstm層在每個(gè)時(shí)間步的隱藏狀態(tài)并輸出;
9、所述全局注意力機(jī)制層,按照下式得到雙向lstm層輸出的每個(gè)隱藏狀態(tài)的注意力權(quán)重,并進(jìn)行加權(quán)聚合;
10、et=vttanh(whht+bh)
11、
12、式中,et是注意力權(quán)重的得分,wh和bh是注意力機(jī)制的可訓(xùn)練參數(shù),ht是雙向lstm層輸出的第t時(shí)間步的隱藏狀態(tài),et′是序列中所有時(shí)間步t′的得分,其中t′可以是任何時(shí)間步,包括t自身,αt是通過(guò)softmax函數(shù)歸一化后的注意力權(quán)重,c是加權(quán)聚合后的上下文向量;
13、所述gru層根據(jù)全局注意力機(jī)制層的輸出,學(xué)習(xí)和建模語(yǔ)音信號(hào)的特征;
14、所述自注意力機(jī)制層,用于對(duì)gru層的輸出按照下式計(jì)算序列中所有位置之間的相似度,捕捉和保持長(zhǎng)時(shí)間依賴;
15、q=hgru·wq,k=hgru·wk,v=hgru·wv
16、
17、hsa=α·v
18、式中,wq,wk,wv分別是query、key、value的權(quán)重矩陣,hgru是gru層的輸出,q,k,v分別是query、key、value矩陣,query用于尋找當(dāng)前輸入元素應(yīng)該關(guān)注的信息,key是輸入元素的特征,用于與query匹配,value包含實(shí)際的信息,用于生成最終的注意力輸出,是縮放因子,α是通過(guò)softmax得到的注意力權(quán)重矩陣,hsa是自注意力機(jī)制的最終輸出;
19、所述分類單元由依次相連的全連接層和softmax層構(gòu)成,用于輸出語(yǔ)音屬于孤獨(dú)癥或正常人的概率值;
20、步驟4.訓(xùn)練混合局域型注意力機(jī)制的網(wǎng)絡(luò)模型
21、通過(guò)model.fit方法訓(xùn)練模型,指定的參數(shù)包括epochs為32和batch_size為32,達(dá)到訓(xùn)練次數(shù),訓(xùn)練完成;
22、步驟5.測(cè)試混合局域型注意力機(jī)制的網(wǎng)絡(luò)模型
23、將測(cè)試集輸入到訓(xùn)練完成的混合局域型注意力機(jī)制的網(wǎng)絡(luò)模型,輸出語(yǔ)音屬于孤獨(dú)癥或正常人的概率值。
24、優(yōu)選的,所述提取語(yǔ)音情感數(shù)據(jù)中的mfcc特征,包括以下步驟:
25、步驟a1.對(duì)原始語(yǔ)音情感數(shù)據(jù)進(jìn)行預(yù)加重、分幀、加窗進(jìn)行預(yù)處理操作;
26、步驟a2.對(duì)加窗后的信號(hào)x(n),進(jìn)行按照下式進(jìn)行傅里葉變換,將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào);
27、
28、式中,x[k]是信號(hào)x(n)的第k個(gè)頻率分量的離散傅里葉變換系數(shù),j是虛數(shù)單位,n是是信號(hào)x(n)的總長(zhǎng)度,即信號(hào)的采樣點(diǎn)數(shù);
29、步驟a3.對(duì)每一個(gè)頻域信號(hào)的幅度進(jìn)行平方處理,得到每個(gè)幀的功率譜;
30、步驟a4.使用梅爾濾波器組對(duì)功率譜進(jìn)行濾波,并對(duì)結(jié)果取對(duì)數(shù);
31、步驟a5.對(duì)取對(duì)數(shù)后的梅爾頻譜應(yīng)用離散余弦變換,得到mfcc系數(shù),即提取相應(yīng)的mfcc特征。
32、優(yōu)選的,步驟a4中所述梅爾濾波器組中梅爾濾波器的數(shù)量20~40個(gè)。
33、優(yōu)選的,在步驟2中,所述對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理的方式為:使用python庫(kù)和librosa軟件對(duì)語(yǔ)音信號(hào)進(jìn)行處理和分析。
34、優(yōu)選的,在步驟2中,所述特征數(shù)據(jù)增強(qiáng)的操作包括:
35、1)添加噪聲:將隨機(jī)值加入數(shù)據(jù)中,噪聲系數(shù)為0.03;
36、2)音量增益:隨機(jī)改變信號(hào)的音調(diào),螺距系數(shù)為1.2;
37、3)時(shí)間平移:隨機(jī)向左或向右移動(dòng)語(yǔ)音信號(hào),移位最大值為0.2秒。
38、本發(fā)明的有益效果如下:
39、本發(fā)明的語(yǔ)音分析基于客觀的聲學(xué)數(shù)據(jù),減少了主觀判斷的影響,相對(duì)于現(xiàn)有技術(shù)需要昂貴設(shè)備和專業(yè)環(huán)境的檢測(cè)方法,語(yǔ)音數(shù)據(jù)采集相對(duì)容易且采集速度快,可以通過(guò)日常對(duì)話或?qū)iT設(shè)計(jì)的語(yǔ)音任務(wù)完成,數(shù)據(jù)處理的成本也較低。
40、本發(fā)明通過(guò)混合局域型注意力機(jī)制,模型能夠更準(zhǔn)確地捕捉和表示語(yǔ)音信號(hào)中的關(guān)鍵特征,從而提高孤獨(dú)癥傾向檢測(cè)的準(zhǔn)確性,數(shù)據(jù)增強(qiáng)技術(shù)的應(yīng)用提高了模型對(duì)不同語(yǔ)音條件下孤獨(dú)癥特征的泛化能力。
41、本發(fā)明使用虛擬現(xiàn)實(shí)動(dòng)畫場(chǎng)景進(jìn)行語(yǔ)音數(shù)據(jù)采集,可以提高孤獨(dú)癥兒童的參與度和興趣,使檢測(cè)過(guò)程更加友好,由于能夠快速準(zhǔn)確地進(jìn)行孤獨(dú)癥傾向檢測(cè),有助于更早地識(shí)別孤獨(dú)癥兒童,從而抓住最佳的干預(yù)時(shí)期。
42、本發(fā)明不需要特定設(shè)備,更容易在不同環(huán)境中實(shí)施,有利于大規(guī)模推廣。
1.一種基于語(yǔ)音mfcc特征的兒童孤獨(dú)癥傾向檢測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述基于語(yǔ)音mfcc特征的兒童孤獨(dú)癥傾向檢測(cè)方法,其特征在于,在步驟2中,所述提取語(yǔ)音情感數(shù)據(jù)中的mfcc特征,包括以下步驟:
3.根據(jù)權(quán)利要求2所述基于語(yǔ)音mfcc特征的兒童孤獨(dú)癥傾向檢測(cè)方法,其特征在于,步驟a4中所述梅爾濾波器組中梅爾濾波器的數(shù)量20~40個(gè)。
4.根據(jù)權(quán)利要求1所述基于語(yǔ)音mfcc特征的兒童孤獨(dú)癥傾向檢測(cè)方法,其特征在于,在步驟2中,所述對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理的方式為:使用python庫(kù)和librosa軟件對(duì)語(yǔ)音信號(hào)進(jìn)行處理和分析。
5.根據(jù)權(quán)利要求1所述基于語(yǔ)音mfcc特征的兒童孤獨(dú)癥傾向檢測(cè)方法,其特征在于,在步驟2中,所述特征數(shù)據(jù)增強(qiáng)的操作包括: