數(shù)。生成針對由統(tǒng)計(jì)模型組成的每個(gè)類別的概率密度函數(shù)的過程被稱為“學(xué)習(xí)”。可以通過基于貝葉斯估計(jì)進(jìn)行分類來識(shí)別模式。如圖3C所示,神經(jīng)網(wǎng)絡(luò)方案在由處理單位(神經(jīng)元)構(gòu)成的網(wǎng)絡(luò)對輸入刺激(模式)進(jìn)行響應(yīng)的過程中對模式進(jìn)行分類。在這種情況下,與每個(gè)模式相關(guān)的信息(知識(shí))被存儲(chǔ)為神經(jīng)鍵的權(quán)重因子。神經(jīng)網(wǎng)絡(luò)方案能夠?qū)W習(xí)、了解或訓(xùn)練,并且該方案可以將被訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)視為黑盒。此外,只要存在足夠的神經(jīng)元的層,該方法就可以最小化在先知識(shí)并在理論上創(chuàng)建任何復(fù)雜的確定區(qū)域。如圖3D所示,結(jié)構(gòu)方案獲取模式之間的結(jié)構(gòu)相似性并基于獲取的結(jié)構(gòu)相似性來進(jìn)行分類。與模式相關(guān)的信息(知識(shí))按照形式語法(formal grammar)或類圖(graph-1 ike)的相關(guān)性描述來表示。結(jié)構(gòu)方案用于描述對象以及用于對對象進(jìn)行分類。該結(jié)構(gòu)方案對根據(jù)相似的部分模式構(gòu)建的復(fù)雜模式的分級描述進(jìn)行歸納。
[0061]根據(jù)本公開的實(shí)施例,可以使用各種之前描述的模式識(shí)別算法之一以逐音節(jié)、單詞或句子的方式來執(zhí)行模式識(shí)別??梢杂裳邪l(fā)者的設(shè)計(jì)或處理器的性能來確定模式識(shí)別的單位。
[0062]根據(jù)本公開的實(shí)施例,電子設(shè)備的存儲(chǔ)器可以包括訓(xùn)練數(shù)據(jù)庫(DB)。訓(xùn)練DB可以用于模式識(shí)別算法(例如神經(jīng)網(wǎng)絡(luò)方案)以識(shí)別模式。訓(xùn)練DB可以包括被學(xué)習(xí)以提高模式識(shí)別算法的模式識(shí)別率的信息。與每個(gè)模式相對應(yīng)的文本數(shù)據(jù)可以保留在訓(xùn)練DB中。訓(xùn)練DB可以存儲(chǔ)通過在制造商之前收集的樣本中充分訓(xùn)練模式識(shí)別算法(例如神經(jīng)網(wǎng)絡(luò)方案)所獲得的學(xué)習(xí)信息,該樣本是例如:關(guān)于用戶的種族、年齡和性別、以及取決于用戶說的語言的每個(gè)用戶的嘴部或嘴部周圍的部分的形狀、用戶眼部的形狀、用戶的相貌、或者用戶眉毛的位置變化,以達(dá)到例如神經(jīng)網(wǎng)絡(luò)方案的目標(biāo)識(shí)別率。訓(xùn)練DB可以存儲(chǔ)通過電子設(shè)備的用戶對模式識(shí)別算法(例如神經(jīng)網(wǎng)絡(luò)方案)進(jìn)行充分的訓(xùn)練所獲得的學(xué)習(xí)信息,以達(dá)到例如神經(jīng)網(wǎng)絡(luò)方案的目標(biāo)識(shí)別率。
[0063]與其它模式識(shí)別算法相比,神經(jīng)網(wǎng)絡(luò)方案顯示出了相對較高的識(shí)別率。根據(jù)本公開的實(shí)施例,可以使用神經(jīng)網(wǎng)絡(luò)方案。
[0064]神經(jīng)網(wǎng)絡(luò)方案包括隱藏層(該隱藏層包括輸入節(jié)點(diǎn))、中間節(jié)點(diǎn)和輸出節(jié)點(diǎn)。識(shí)別率可以通過以下方式增加:在作為輸入數(shù)據(jù)的嘴部、每個(gè)嘴部周圍的部分、以及眼部的各種形狀和眉毛的各種位置、以及面部肌肉的各種移動(dòng)中來訓(xùn)練模式識(shí)別,同時(shí)實(shí)驗(yàn)性地調(diào)節(jié)中間節(jié)點(diǎn)和隱藏層的數(shù)量。除了最佳訓(xùn)練時(shí)間以外,神經(jīng)網(wǎng)絡(luò)方案還允許高級別的識(shí)別率。在圖4A中示出了各種類型的神經(jīng)網(wǎng)絡(luò)算法。其中,考慮來到識(shí)別率和訓(xùn)練時(shí)間,多層感知或贏者通吃可以提供相對更好的結(jié)果。取決于輸入模式的特征和目標(biāo)識(shí)別率,多樣化的選擇是可能的。
[0065]現(xiàn)在描述基于神經(jīng)網(wǎng)絡(luò)方案的訓(xùn)練方法。神經(jīng)網(wǎng)絡(luò)方案具有向量輸入和輸出或者矩陣(matrical)權(quán)重因子。因此,神經(jīng)網(wǎng)絡(luò)方案需要矩陣計(jì)算。因此,隨著處理器具有更高的性能,訓(xùn)練時(shí)間可以減少。基于神經(jīng)網(wǎng)絡(luò)方案的訓(xùn)練方法包括引導(dǎo)訓(xùn)練、自我訓(xùn)練和競爭訓(xùn)練。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),引導(dǎo)訓(xùn)練需要輸入X和目標(biāo)值d的對。該對被稱作訓(xùn)練模式對。一般的訓(xùn)練程序如下:
[0066]步驟1:設(shè)計(jì)適合于應(yīng)用目的的神經(jīng)網(wǎng)絡(luò)架構(gòu)
[0067]步驟2:將權(quán)重因子初始化
[0068]步驟3:輸入訓(xùn)練模式對(X,d)以獲取神經(jīng)網(wǎng)絡(luò)的輸出y
[0069]步驟4:比較輸出y與目標(biāo)值d以產(chǎn)生誤差
[0070]步驟5:向訓(xùn)練信號生成器輸入誤差,以計(jì)算權(quán)重因子中的變化Aw
[0071]步驟6:將權(quán)重因子改變Aw
[0072]步驟7:針對改變的權(quán)重因子(W+ Δ w)重復(fù)步驟3至6
[0073]步驟8:如果權(quán)重因子不再進(jìn)一步變化,終止程序
[0074]如圖4C所示,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),自我訓(xùn)練不需要目標(biāo)值。一般的自我訓(xùn)練的程序如下:
[0075]步驟1:設(shè)計(jì)適合于應(yīng)用目的的神經(jīng)網(wǎng)絡(luò)架構(gòu)
[0076]步驟2:將權(quán)重因子初始化
[0077]步驟3:輸出訓(xùn)練模式X以獲得神經(jīng)網(wǎng)絡(luò)的輸出y
[0078]步驟4:向訓(xùn)練信號生成器輸入輸出y以計(jì)算權(quán)重因子中的變化Aw
[0079]步驟5:將權(quán)重因子改變Aw
[0080]步驟6:針對改變的權(quán)重因子(w+ Δ w)重復(fù)步驟3至5[0081 ]步驟7:如果權(quán)重因子不再進(jìn)一步變化,終止程序
[0082]除了在每個(gè)步驟中只有特定部分的權(quán)重因子發(fā)生改變而不是整體權(quán)重因子發(fā)生改變以外,競爭訓(xùn)練與引導(dǎo)訓(xùn)練程序相同。在這個(gè)意義上講,使該過程容易,顯著降低了訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需要的時(shí)間。
[0083]根據(jù)本公開的實(shí)施例,制造商可以將識(shí)別模塊包括在不同的設(shè)備中,以便實(shí)現(xiàn)目標(biāo)識(shí)別率,該識(shí)別模塊具有在用于傳達(dá)用戶意圖的用戶的各種模式下充分訓(xùn)練的神經(jīng)網(wǎng)絡(luò)方案。備選地,無論何時(shí)當(dāng)電子設(shè)備的用戶使用電子設(shè)備時(shí),例如每次創(chuàng)建用于傳達(dá)用戶意圖的模式時(shí),可以在模式中訓(xùn)練神經(jīng)網(wǎng)絡(luò)方案,因此向用戶提供更高的識(shí)別率。該訓(xùn)練針對用于后續(xù)使用的增長的識(shí)別率。因此,取決于輸入模式的數(shù)量或長度或者負(fù)責(zé)識(shí)別模塊的處理的處理器的處理能力,電子設(shè)備可以在輸入模式下實(shí)時(shí)或間歇地訓(xùn)練。備選地,非實(shí)時(shí)處理是可能的,該非實(shí)時(shí)處理在用戶的意圖通知應(yīng)用保持激活但處于空閑模式下的同時(shí)進(jìn)行訓(xùn)練,或在應(yīng)用程序終止或操作之前進(jìn)行訓(xùn)練。
[0084]根據(jù)本公開的實(shí)施例,輸出控制模塊230可以將從識(shí)別模塊220接收的文本數(shù)據(jù)轉(zhuǎn)換成語音數(shù)據(jù),并且輸出控制模塊230可以將經(jīng)轉(zhuǎn)換的語音數(shù)據(jù)輸出為用戶意圖的結(jié)果。輸出控制模塊230可以使用TTS(文本到語音)方案來執(zhí)行轉(zhuǎn)換。TTS方案可以包括拼接合成(CS)方案和共振峰合成(FS)方案。如圖5A所示,CS方案提供包括記錄的語音數(shù)據(jù)或壓縮的語音數(shù)據(jù)在內(nèi)的最小數(shù)據(jù)庫,或者提供包括預(yù)記錄的單詞和短語在內(nèi)的語音數(shù)據(jù)庫。語音數(shù)據(jù)庫包含與語音合成所必需的語音相關(guān)的數(shù)據(jù)。在CS方案中,當(dāng)從識(shí)別模塊220接收文本數(shù)據(jù)并從語音數(shù)據(jù)庫接收語音數(shù)據(jù)時(shí),拼接TTS引擎可以生成音頻信號。音頻數(shù)據(jù)被轉(zhuǎn)換成要通過圖1的電子設(shè)備101的揚(yáng)聲器輸出的電子音頻信號,或者是通過呼叫線路上的另一方的電子設(shè)備的揚(yáng)聲器或耳機(jī)輸出的電子音頻信號。輸出控制模塊230可以包含將文本數(shù)據(jù)輸出為語音所需要的一系列內(nèi)置字典和發(fā)音規(guī)則。如圖5B所示,與CS方案不同,F(xiàn)S方案提供用于語音合成的聲學(xué)模型,而不是人類語音樣本或類似的(壓縮的)語音數(shù)據(jù)。在FS方案中,當(dāng)從識(shí)別模塊220接收文本數(shù)據(jù)庫并且從參數(shù)存儲(chǔ)器接收與語音有關(guān)的參數(shù)時(shí),共振峰TTS引擎可以生成音頻數(shù)據(jù)。音頻數(shù)據(jù)可以被轉(zhuǎn)換成電子音頻信號,然后該電子音頻信號可以通過電子設(shè)備的揚(yáng)聲器或通過呼叫線路上的另一方的電子設(shè)備的揚(yáng)聲器或耳機(jī)作為語音來輸出。與FS方案相比,CS方案可以提供接近人類語音的輸出結(jié)果,但是該方案需要更大容量的存儲(chǔ)器以存儲(chǔ)語音數(shù)據(jù)。FS方案在低存儲(chǔ)器容量的意義上優(yōu)于CS方案。然而,與CS方案相比,輸出結(jié)果略微遠(yuǎn)離人類語音。隨著半導(dǎo)體設(shè)計(jì)和處理技術(shù)的發(fā)展,F(xiàn)S將會(huì)產(chǎn)生接近人類語音的質(zhì)量更好的聲音輸出。在不考慮為了精致的語音輸出結(jié)果需要在存儲(chǔ)器中存儲(chǔ)更多的數(shù)據(jù)的事實(shí)的情況下,讀取并將語音數(shù)據(jù)合成為語音輸出的方式(就像CS方案一樣)將是優(yōu)選的。當(dāng)向音頻輸出端發(fā)送具有數(shù)字聲波形式的語音信號時(shí),輸出控制模塊230可以通過電子設(shè)備101的揚(yáng)聲器或者另一方的電子設(shè)備104的揚(yáng)聲器或耳機(jī)向另一方的電子設(shè)備104傳輸不使用語音的作為語音數(shù)據(jù)接收的用戶意圖。當(dāng)在電子設(shè)備在呼叫的線路上的同時(shí)向電子設(shè)備的發(fā)送端傳輸語音數(shù)據(jù)時(shí),輸出控制模塊230可以經(jīng)由語音編解碼器、發(fā)送端的天線、以及與電子設(shè)備連接的基站和蜂窩網(wǎng)絡(luò)向另一方的電子設(shè)備104的揚(yáng)聲器或耳機(jī)發(fā)送語音數(shù)據(jù)。輸出控制模塊230可以使用濾波器(例如低通濾波器、高通濾波器、或帶通濾波器)來對語音數(shù)據(jù)執(zhí)行濾波,使得語音數(shù)據(jù)更接近人類語音。例如,可以設(shè)計(jì)濾波器的濾波器參數(shù)以產(chǎn)生各種語音效果,例如使得用戶的語音聽上去有趣,就像他吸入了氦氣,或者是變化的聲調(diào),例如男性聲調(diào)或高的女性聲調(diào)。
[0085]當(dāng)使用模板匹配或統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)、或者結(jié)構(gòu)方案來確定用戶的意圖時(shí),可能會(huì)出現(xiàn)誤差。例如,在輸入背離了預(yù)測的用戶輸入模式的情況下,神經(jīng)網(wǎng)絡(luò)方案可以產(chǎn)生與用戶意圖不同的識(shí)別結(jié)果。在這樣的情況下,不應(yīng)當(dāng)在沒有用戶確認(rèn)的情況下向另一方傳達(dá)該識(shí)別結(jié)果。輸出控制模塊230可以使作為用戶意圖的結(jié)果的語音數(shù)據(jù)輸出通過電子設(shè)備101的顯示器150顯示為文本數(shù)據(jù),或者通過電子設(shè)備101的揚(yáng)聲器或連接到電子設(shè)備101的耳機(jī)來輸出,使得在向另一方的電子設(shè)備發(fā)送語音數(shù)據(jù)之前,用戶可以識(shí)別用戶意圖的結(jié)果。當(dāng)在顯示器150上顯示文本數(shù)據(jù)的同時(shí)由用戶選擇了文本數(shù)據(jù)時(shí),輸出控制模塊230可以將選擇的文本數(shù)據(jù)轉(zhuǎn)換成語音數(shù)據(jù)。當(dāng)在顯示器150上顯示文本數(shù)據(jù)的同時(shí)修改文本數(shù)據(jù)時(shí),輸出控制模塊230可以向識(shí)別模塊220發(fā)送修改的結(jié)果,以更新訓(xùn)練DB。
[0086]圖6是示出了根據(jù)本公開的實(shí)施例的從電子設(shè)備輸出語音數(shù)據(jù)的操作的流程圖600。參照圖6,檢測模塊210可以實(shí)時(shí)或在每個(gè)預(yù)定時(shí)間上接收用于傳達(dá)用戶意圖的圖像數(shù)據(jù)(操作610)。圖像數(shù)據(jù)可以由相機(jī)模塊180來獲取。檢測模塊210將圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器130中,并且可以使用圖像處理算法來預(yù)處理(例如噪聲移除、信號放大、或灰度級別歸一化)圖像數(shù)據(jù)(操作620)。檢測模塊210可以從預(yù)處理的圖像數(shù)據(jù)中檢測至少一個(gè)特征,例如嘴的形狀、嘴周圍的形狀、改變的相貌(面部肌肉的運(yùn)動(dòng))、眼部形狀、眨眼、或眉毛位置的變化。檢測模塊210可以向識(shí)別模塊220發(fā)送至少一個(gè)檢測到的特征。
[0087]當(dāng)接收特征時(shí),識(shí)別模塊220可以將至少一個(gè)特征結(jié)合到模式中(操作630)。
[0088]識(shí)別模塊220可以將獲取的模式應(yīng)用到模式識(shí)別算法(例如神經(jīng)網(wǎng)絡(luò)方案),以確定與模式相對應(yīng)的文本數(shù)據(jù)(音素、音節(jié)、短語、從句或句子)(操作640)。識(shí)別模塊220可以向輸出控制模塊230發(fā)送所確定的與用戶的意圖相對應(yīng)的文本數(shù)據(jù)。
[0089]在從識(shí)別模塊220接收文本數(shù)據(jù)時(shí),輸出控制模塊230可以使用TTS方案將文本數(shù)據(jù)轉(zhuǎn)換成語音數(shù)據(jù)(操作650)。
[0090]輸出控制模塊230可以執(zhí)行控制,以通過揚(yáng)聲器、耳機(jī)或另一方的電子設(shè)備來輸出經(jīng)轉(zhuǎn)換的語音數(shù)據(jù)(操作660)??蛇x的,在操作660處,輸出控制模塊230可以執(zhí)行控制,以向另一方的電子設(shè)備發(fā)送與用戶意圖相對應(yīng)的語音數(shù)據(jù),使得取決于用戶進(jìn)行的設(shè)置,當(dāng)接收來自用戶的輸出確認(rèn)命令或在不需要用戶的確認(rèn)的情況下,可以通過在呼叫線路上的另一方的電子設(shè)備來輸出語音數(shù)據(jù)。例如,當(dāng)在用戶不方便的同時(shí)用戶有呼入呼叫時(shí),用戶可以接受呼叫并在相機(jī)模塊前面以低語音與另一方交談,或者可以在不說出的情況下與另一方通信。輸出控制模塊230可以通過電子設(shè)備的揚(yáng)聲器輸出語音數(shù)據(jù)向面對用戶的另一方傳達(dá)用戶意圖。例如,當(dāng)用戶具有語言障礙或處在他不能說話的情況下時(shí),電子設(shè)備可以通過相機(jī)模塊接收用戶的嘴的形狀、嘴周圍的形狀、眼部形狀、眉毛位置或相貌,并且輸出與包括接收的嘴的形狀或相貌在內(nèi)的特征相對應(yīng)的語音數(shù)據(jù),從而實(shí)現(xiàn)與另一方通信。
[0091]在操作660處,輸出控制模塊230可以執(zhí)行控制,以在顯示器150上顯示與語音數(shù)據(jù)相對應(yīng)的文本數(shù)據(jù)。用戶可以根據(jù)在顯示器150上顯示的文本數(shù)據(jù)來識(shí)別作為用