欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

字符串識(shí)別方法及裝置制造方法

文檔序號(hào):6631608閱讀:206來源:國(guó)知局
字符串識(shí)別方法及裝置制造方法
【專利摘要】本發(fā)明涉及一種字符串識(shí)別方法及裝置,在一個(gè)實(shí)施例中所述方法包括以下步驟:獲取字符串,所述字符串由多種類型子字符串組成;將所述字符串根據(jù)所述多種類型子字符串及其組合的子字符串類型進(jìn)行分詞,將所述字符串分成至少一個(gè)子字符串;判斷所述至少一個(gè)子字符串是否為單詞匯,所述單詞匯為所述子字符串所屬語種中有唯一含義的詞匯;若判斷所述子字符串不是單詞匯,則將所述至少一個(gè)子字符串進(jìn)行識(shí)別處理;以及將識(shí)別后的所有子字符串合成連貫語音。根據(jù)本發(fā)明實(shí)施例的方法及裝置,可以準(zhǔn)確識(shí)別字符串的含義。
【專利說明】字符串識(shí)別方法及裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,特別涉及一種字符串識(shí)別方法及裝置。

【背景技術(shù)】
[0002]現(xiàn)在計(jì)算機(jī)技術(shù)的發(fā)展,語音合成也隨之出現(xiàn),語音合成即將任意的文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來。這種方式無論是在內(nèi)容、存儲(chǔ)、傳輸或者方便性、及時(shí)性等方面都方便用戶傳送消息以及閱讀消息。但是大量字符串都有多種讀法,不同的讀法也有不同的含義,只有正確的讀法才能在合成語音后,表達(dá)出恰當(dāng)含義。因此在語音合成時(shí),準(zhǔn)確的識(shí)別字符串的詞義尤為重要。


【發(fā)明內(nèi)容】

[0003]有鑒于此,本發(fā)明提供一種字符串識(shí)別方法及裝置,可以準(zhǔn)確識(shí)別字符串的含義。
[0004]一種字符串識(shí)別方法,所述方法包括以下步驟:
[0005]獲取字符串,所述字符串由多種類型子字符串組成;
[0006]將所述字符串根據(jù)所述多種類型的子字符串及其組合的子字符串類型進(jìn)行分詞,將所述字符串分成至少一個(gè)子字符串;
[0007]判斷所述至少一個(gè)子字符串是否為單詞匯,所述單詞匯為所述子字符串所屬語種中有唯一含義的詞匯;
[0008]若判斷所述子字符串不是單詞匯,則將所述至少一個(gè)子字符串進(jìn)行識(shí)別處理;以及
[0009]將識(shí)別后的所有子字符串合成連貫語音。
[0010]一種字符串識(shí)別裝置,所述裝置包括以下模塊:
[0011]獲取模塊,用于獲取字符串,所述字符串由多種類型子字符串組成;
[0012]分詞模塊,用于將所述字符串根據(jù)所述多種類型子字符串及其組合的子字符串類型進(jìn)行分詞,將所述字符串分成至少一個(gè)子字符串;
[0013]判斷模塊,用于判斷所述至少一個(gè)子字符串是否為單詞匯,所述單詞匯為所述子字符串所屬語種中有唯一含義的詞匯;
[0014]處理模塊,用于若判斷所述子字符串不是單詞匯,則將所述至少一個(gè)子字符串進(jìn)行識(shí)別處理;以及
[0015]合成模塊,用于將識(shí)別后的所有子字符串合成連貫語音。
[0016]根據(jù)上述實(shí)施例的方法及裝置,通過按照字符串的分類對(duì)字符串進(jìn)行分詞,然后逐詞進(jìn)行識(shí)別,提聞字符串識(shí)別的準(zhǔn)確性。
[0017]為讓本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附圖式,作詳細(xì)說明如下。

【專利附圖】

【附圖說明】
[0018]圖1為一種電子裝置的結(jié)構(gòu)框圖。
[0019]圖2為第一實(shí)施例提供的字符串識(shí)別方法流程圖。
[0020]圖3為第二實(shí)施例提供的字符串識(shí)別方法流程圖。
[0021]圖4為第三實(shí)施例提供的字符串識(shí)別方法流程圖。
[0022]圖5為第四實(shí)施例提供的字符串識(shí)別方法流程圖。
[0023]圖6為第五實(shí)施例提供的字符串識(shí)別方法流程圖。
[0024]圖7為第六實(shí)施例提供的字符串識(shí)別裝置結(jié)構(gòu)框圖。
[0025]圖8為第七實(shí)施例提供的字符串識(shí)別裝置結(jié)構(gòu)框圖。
[0026]圖9為第八實(shí)施例提供的字符串識(shí)別裝置結(jié)構(gòu)框圖。
[0027]圖10為第九實(shí)施例提供的字符串識(shí)別裝置結(jié)構(gòu)框圖。
[0028]圖11為第十實(shí)施例提供的字符串識(shí)別裝置結(jié)構(gòu)框圖。

【具體實(shí)施方式】
[0029]為更進(jìn)一步闡述本發(fā)明為實(shí)現(xiàn)預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié)合附圖及較佳實(shí)施例,對(duì)依據(jù)本發(fā)明的【具體實(shí)施方式】、結(jié)構(gòu)、特征及其功效,詳細(xì)說明如后。
[0030]本發(fā)明實(shí)施例中涉及一種字符串識(shí)別方法及裝置,可以用于語音合成中字符串的識(shí)別,具體其可用于電子裝置中。
[0031]圖1為上述電子裝置的結(jié)構(gòu)框圖。如圖1所示,電子裝置100包括一個(gè)或多個(gè)(圖中僅示出一個(gè))處理器102、存儲(chǔ)器104、RF (Rad1 Frequency,射頻)模塊106、網(wǎng)絡(luò)模塊108、音頻模塊110、輸入模塊112、顯示模塊114、。本領(lǐng)域普通技術(shù)人員可以理解,圖1所示的結(jié)構(gòu)僅為示意,其并不對(duì)電子裝置100的結(jié)構(gòu)造成限定。例如,電子裝置100還可包括比圖1中所示更多或者更少的組件,或者具有與圖1所示不同的配置。上述的電子裝置100的具體實(shí)例包括但并不限于手持式計(jì)算機(jī)、移動(dòng)電話、媒體播放器、車載設(shè)備、個(gè)人數(shù)字助理及前述裝置的各種組合。
[0032]本領(lǐng)域普通技術(shù)人員可以理解,相對(duì)于處理器102來說,所有其他的組件均屬于外設(shè),處理器102與這些外設(shè)之間通過多個(gè)外設(shè)接口 124相耦合。外設(shè)接口 124可基于以下標(biāo)準(zhǔn)實(shí)現(xiàn):通用異步接收 / 發(fā)送裝置(Universal Asynchronous Receiver/Transmitter,UART)、通用輸入 / 輸出(General Purpose Input Output, GP1)、串行外設(shè)接口(SerialPeripheral Interface, SPI)、內(nèi)部集成電路(Inter-1ntegrated Circuit, I2C),但不并限于上述標(biāo)準(zhǔn)。在一些實(shí)例中,外設(shè)接口 124可僅包括總線;在另一些實(shí)例中,外設(shè)接口 124還可包括其他元件,如一個(gè)或者多個(gè)控制器,例如用于連接液晶顯示面板的顯示控制器或者用于連接存儲(chǔ)器的存儲(chǔ)控制器122。此外,這此控制器還可以從外設(shè)接口 124中脫離出來,而集成于處理器102內(nèi)或者相應(yīng)的外設(shè)內(nèi)。
[0033]存儲(chǔ)器104可用于存儲(chǔ)軟件程序以及模塊,如本發(fā)明實(shí)施例中的字符串識(shí)別方法/裝置對(duì)應(yīng)的程序指令/模塊,處理器102通過運(yùn)行存儲(chǔ)在存儲(chǔ)器104內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述的字符串識(shí)別方法。存儲(chǔ)器104可包括高速隨機(jī)存儲(chǔ)器,還可包括非易失性存儲(chǔ)器,如一個(gè)或者多個(gè)磁性存儲(chǔ)裝置、閃存、或者其他非易失性固態(tài)存儲(chǔ)器。在一些實(shí)例中,存儲(chǔ)器104可進(jìn)一步包括相對(duì)于處理器102遠(yuǎn)程設(shè)置的存儲(chǔ)器,這些遠(yuǎn)程存儲(chǔ)器可以通過網(wǎng)絡(luò)連接至電子裝置100。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。
[0034]RF模塊106用于接收以及發(fā)送電磁波,實(shí)現(xiàn)電磁波與電信號(hào)的相互轉(zhuǎn)換,從而與通訊網(wǎng)絡(luò)或者其他設(shè)備進(jìn)行通訊。RF模塊106可包括各種現(xiàn)有的用于執(zhí)行這些功能的電路元件,例如,天線、射頻收發(fā)器、數(shù)字信號(hào)處理器、加密/解密芯片、用戶身份模塊(SM)卡、存儲(chǔ)器等等。RF模塊106可與各種網(wǎng)絡(luò)如互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、無線網(wǎng)絡(luò)進(jìn)行通訊或者通過無線網(wǎng)絡(luò)與其他設(shè)備進(jìn)行通訊。上述的無線網(wǎng)絡(luò)可包括蜂窩式電話網(wǎng)、無線局域網(wǎng)或者城域網(wǎng)。上述的無線網(wǎng)絡(luò)可以使用各種通信標(biāo)準(zhǔn)、協(xié)議及技術(shù),包括但并不限于全球移動(dòng)通信系統(tǒng)(Global System for Mobile Communicat1n, GSM)、增強(qiáng)型移動(dòng)通信技術(shù)(Enhanced Data GSM Environment, EDGE),寬帶碼分多址技術(shù)(wideband code divis1nmultiple access, W-CDMA),碼分多址技術(shù)(Code divis1n access, CDMA)、時(shí)分多址技術(shù)(time divis1n multiple access, TDMA),無線保真技術(shù)(Wireless, Fidelity, WiFi)(如美國(guó)電氣和電子工程師協(xié)會(huì)標(biāo)準(zhǔn)IEEE 802.11a, IEEE 802.lib, IEEE802.1Ig和/或IEEE 802.1ln)、網(wǎng)絡(luò)電話(Voice over internet protocal, VoIP)、全球微波互聯(lián)接入(Worldwide Interoperability for Microwave Access,W1-Max)、其他用于郵件、即時(shí)通訊及短消息的協(xié)議,以及任何其他合適的通訊協(xié)議,甚至可包括那些當(dāng)前仍未被開發(fā)出來的協(xié)議。
[0035]網(wǎng)絡(luò)模塊108用于接收以及發(fā)送網(wǎng)絡(luò)信號(hào)。上述網(wǎng)絡(luò)信號(hào)可包括無線信號(hào)或者有線信號(hào)。在一個(gè)實(shí)例中,上述網(wǎng)絡(luò)信號(hào)為WiFi信號(hào),由于WiFi的工作頻率也處于射頻的頻段內(nèi),此時(shí)網(wǎng)絡(luò)模塊可具有與RF模塊106類似的硬件結(jié)構(gòu),即可包括天線、射頻收發(fā)器、數(shù)字信號(hào)處理器、加密/解密芯片等元件。在一個(gè)實(shí)例中,上述網(wǎng)絡(luò)信號(hào)為有線網(wǎng)絡(luò)信號(hào)。此時(shí),網(wǎng)絡(luò)模塊108可包括處理器、隨機(jī)存儲(chǔ)器、轉(zhuǎn)換器、晶體振蕩器等元件。
[0036]音頻電路110、揚(yáng)聲器、聲音插孔、麥克風(fēng)共同提供用戶與移動(dòng)電子裝置100之間的音頻接口。具體地,音頻電路110從處理器102處接收聲音數(shù)據(jù),將聲音數(shù)據(jù)轉(zhuǎn)換為電信號(hào),將電信號(hào)傳輸至揚(yáng)聲器。揚(yáng)聲器101將電信號(hào)轉(zhuǎn)換為人耳能聽到的聲波。音頻電路110還從麥克風(fēng)處接收電信號(hào),將電信號(hào)轉(zhuǎn)換為聲音數(shù)據(jù),并將聲音數(shù)據(jù)傳輸給處理器102以進(jìn)行進(jìn)一步的處理。音頻數(shù)據(jù)可以從存儲(chǔ)器104處或者通過RF模塊106、網(wǎng)絡(luò)模塊108獲取。此外,音頻數(shù)據(jù)也可以存儲(chǔ)至存儲(chǔ)器104中或者通過RF模塊106及網(wǎng)絡(luò)模塊108進(jìn)行發(fā)送。
[0037]輸入單元112可用于接收輸入的字符信息,以及產(chǎn)生與用戶設(shè)置以及功能控制有關(guān)的鍵盤、鼠標(biāo)、操作桿、光學(xué)或者軌跡球信號(hào)輸入。具體地,輸入單元112可包括按鍵以及觸控表面。按鍵例如可包括用于輸入字符的字符按鍵,以及用于觸發(fā)控制功能的控制按鍵??刂瓢存I的實(shí)例包括“返回主屏”按鍵、開機(jī)/關(guān)機(jī)按鍵、拍照鍵等等。觸控表面可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控表面上或在觸控表面附近的操作),并根據(jù)預(yù)先設(shè)定的程序驅(qū)動(dòng)相應(yīng)的連接裝置??蛇x的,觸控表面可包括觸摸檢測(cè)裝置和觸摸控制器兩個(gè)部分。其中,觸摸檢測(cè)裝置檢測(cè)用戶的觸摸方位,并檢測(cè)觸摸操作帶來的信號(hào),將信號(hào)傳送給觸摸控制器;觸摸控制器從觸摸檢測(cè)裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點(diǎn)坐標(biāo),再送給處理器102,并能接收處理器102發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實(shí)現(xiàn)觸控表面。除了觸控表面,輸入單元112還可以包括其他輸入設(shè)備。上述的其他輸入設(shè)備包括但不限于物理鍵盤、軌跡球、鼠標(biāo)、操作桿等中的一種或多種。
[0038]顯示模塊114用于顯示由用戶輸入的信息、提供給用戶的信息以及電子裝置100的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標(biāo)、視頻和其任意組合來構(gòu)成。在一個(gè)實(shí)例中,顯示模塊114包括一個(gè)顯示面板。顯示面板例如可為一個(gè)液晶顯示面板(Liquid Crystal Display, LCD)、有機(jī)發(fā)光二極管(Organic Light-Emitting D1deDisplay, OLED)顯不面板、電泳顯不面板(Electro-Phoretic Display, EPD)等。進(jìn)一步地,觸控表面可設(shè)置于顯示面板上從而與顯示面板構(gòu)成一個(gè)整體。在另一些實(shí)施例中,顯示模塊114還可包括其他類型的顯示裝置,例如包括一個(gè)投影顯示裝置。相比于一般的顯示面板,投影顯示裝置還需要包括一些用于投影的部件例如透鏡組。
[0039]第一實(shí)施例
[0040]圖2為本實(shí)施例提供的一種字符串識(shí)別方法流程圖,如圖2所示,本實(shí)施例的方法包括以下步驟:
[0041 ] 步驟SlO1、獲取字符串,所述字符串由多種類型子字符串組成。
[0042]所述字符串可以是由用戶即時(shí)輸入的字符串,也可以是當(dāng)前電子裝置中已有的字符串。在一個(gè)實(shí)例中,本實(shí)施例中的方法用于一款即時(shí)通訊工具中,第一用戶端與第二用戶端之間互相發(fā)送字符串,所述獲取字符串可以是當(dāng)前界面接收到的字符串也可以通訊工具歷史記錄中的字符串。在另一個(gè)實(shí)例中,本實(shí)施例的方法可用于一款翻譯軟件中,所述字符串可為電子裝置接收用戶輸入的字符串。
[0043]可以知道的是,字符串有多種類型,例如,阿拉伯文,中午,英文,數(shù)字,符號(hào)及其任意的組合等類型。所述多種類型字符串還對(duì)應(yīng)匹配相應(yīng)配置文件,所述配置文件用于標(biāo)記所述預(yù)存的字符串類型對(duì)應(yīng)確定目標(biāo)類型。例如,數(shù)字加符號(hào)加數(shù)字“Number2Punct1n2Number”可以表示為小數(shù),電話號(hào)碼,數(shù)值等。例如,“2.13”,“010-88888888,,。相應(yīng)配置為:“Number2Punct1n2Number:Decimal, Telephone,,。進(jìn)一步地,所述配置文件可以更改及增加字符串定義的含義。例如字符串“3,247”屬于上述的數(shù)字加符號(hào)加數(shù)字“Number2Punct1n2Number”類型,但是字符串“3,247”不屬于配置文件中設(shè)置的類型,屬于數(shù)值。則可在對(duì)上述字符串類型的配置文件進(jìn)行增加目標(biāo)類型“Numerical”。
[0044]步驟S102、將所述字符串根據(jù)所述多種類型子字符串及其組合的子字符串類型進(jìn)行分詞,將所述字符串分成至少一個(gè)子字符串。
[0045]在一個(gè)實(shí)施方式中,將字符串分為四大類字符串:英文(English),表示漢字(Kanji),符號(hào)(Punctuat1n),數(shù)字(Number)。上述四類字符串也可以任意組合,例如,English2Number:表示英語加數(shù)字的類型,類型長(zhǎng)度為2,比如“CA1419”;Number2Punctuat1n2Number:表示數(shù)字加符號(hào)加數(shù)字的類型,類型長(zhǎng)度為3,比如,“010-88888888” ;Number2Kanj1:表示數(shù)字加漢字的類型,類型長(zhǎng)度為2,比如,2014年??梢园凑沼⑽?English),表示漢字(Kanji),符號(hào)(Punctuat1n),數(shù)字(Number)及其組合分
ο
[0046]在一個(gè)實(shí)例中,將句子“中國(guó)移動(dòng)(0941)3月16日在香港發(fā)布2005財(cái)年經(jīng)營(yíng)業(yè)績(jī)”進(jìn)行分詞“中國(guó)/移動(dòng)/ (/0941/) /3月/16日/在/香港/發(fā)布/2005/財(cái)年/經(jīng)營(yíng)/業(yè)績(jī)”。進(jìn)一步地,在進(jìn)行分詞時(shí)也將各子字符串標(biāo)注詞性。例如,“中國(guó)”標(biāo)注詞性“Kanji”,“3月”標(biāo)注詞性“Numberf Kanji”。通過標(biāo)注個(gè)子字符串的詞性,可用于子字符串識(shí)別處理時(shí),作為前后子字符串的參照信息。
[0047]步驟S103、判斷所述至少一個(gè)子字符串是否為單詞匯。
[0048]所述單詞匯為所述子字符串所屬語種中有唯一含義的詞匯。即用口語輸出時(shí)只有唯一的讀法。例如,若所述子字符串為“中國(guó)”則可以理解的是,“中國(guó)”在中文中有唯一含義,則可判定字符串“中國(guó)”為單詞匯。例如,子字符串“China”在英文中也有唯一含義,也可以判定“China”為單詞匯。
[0049]在本發(fā)明實(shí)施例中,根據(jù)上述字符串的四種分類,可以知道的是,若所述子字符串為中文或者英文單詞則可以直接識(shí)別其含義,一般情況下不存在歧義。例如,“中國(guó)”在語音合成時(shí)可以直接順序解讀。判斷子字符串是否為英文或者中文,若為中英文單詞則可以直接讀取,不需要再進(jìn)行含義的識(shí)別。若不是中英單詞匯,則需要進(jìn)行歧義的解讀,例如“2001
年”可以理解為“兩千零一年”也可以解讀為“二零零一年”。
[0050]步驟S104、若判斷所述子字符串不是單詞匯,則將所述至少一個(gè)子字符串進(jìn)行識(shí)別處理。
[0051]在一種實(shí)施方式中,本實(shí)施例的方法用于語音合成。語音合成,又稱文語轉(zhuǎn)換(Text to Speech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。為了合成語言,除了依賴于各種規(guī)則,包括語義學(xué)規(guī)則、詞匯規(guī)則、語音學(xué)規(guī)則外,還必須對(duì)文字的內(nèi)容有很好的理解,這也涉及到自然語言理解的問題。
[0052]對(duì)于上述四大類型的組合的字符串可能存在歧義多個(gè)含義,同一類型的字符串也可以表示多種類型的內(nèi)容,則需要對(duì)子字符串在當(dāng)前字符串中的含義進(jìn)行識(shí)別。
[0053]例如,“120”可以表示急救電話讀作“幺二零”,也可以表示數(shù)值讀作“一百二”。貝IJ可根據(jù)前后子字符串的意思進(jìn)行識(shí)別,例如在一個(gè)實(shí)例中,“撥打120急救電話”,則可根據(jù)后面字符串“急救電話”判斷“ 120”為電話號(hào)碼。
[0054]“Number2Punct1n2Number”類型可以表示為小數(shù),電話號(hào)碼,數(shù)值等。例如,“2014年/中國(guó)/移動(dòng)/營(yíng)收/3,247/億元/人民幣”,其中的“3,247”可以根據(jù)前后的字符串“億元”判斷為數(shù)值。例如,“010-88888888”也是“Number2Punct1n2Number”類型表示電話號(hào)碼。例如,上述例子中的“2014年”可以表示“兩千零十四年”也可以表示“二零一四年”。則可根據(jù)前后字符串信息建立匹配模型,通過模型處理,然后選擇模型的結(jié)果做為最終識(shí)別結(jié)果。在一個(gè)實(shí)例中可采用“條件隨機(jī)場(chǎng)模型(CRF模型)”。所述條件隨機(jī)場(chǎng)模型具有無向的圖模型,圖中的頂點(diǎn)代表隨機(jī)變量,頂點(diǎn)間的連線代表隨機(jī)變量間的相依關(guān)系,在條件隨機(jī)場(chǎng)中,隨機(jī)變量Y的分布為條件機(jī)率,給定的觀察值則為隨機(jī)變量X。原則上,條件隨機(jī)場(chǎng)的圖模型布局是可以任意給定的,一般常用的布局是鏈結(jié)式的架構(gòu)。上述例子中的“2014年”可以根據(jù)后面的多個(gè)字符串“中國(guó)/移動(dòng)/營(yíng)收”判斷為“二零一四年”,而不是“兩千零十四年”。
[0055]例如,對(duì)于數(shù)字加百分符號(hào)有確切的含義,表示百分?jǐn)?shù)。則用通用的規(guī)則進(jìn)行匹配識(shí)別。例如,數(shù)字加百分號(hào)表示百分?jǐn)?shù)。
[0056]例如,字符串“jpg”,“gif”等為圖片類型字符。則可以設(shè)定默認(rèn)規(guī)則,當(dāng)出現(xiàn)“BMP”、“ JPG”、“GIF”、“PNG”則識(shí)別為圖片格式,可直接按照字符串中字母、數(shù)字挨個(gè)解讀。
[0057]步驟S105、將識(shí)別后的所有子字符串合成連貫語音。
[0058]將上述識(shí)別的字符串轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的口語輸出。
[0059]進(jìn)一步地,本實(shí)施例的方法,還可以將識(shí)別后的字符串語音合成。
[0060]根據(jù)本實(shí)施例的方法,通過對(duì)待是別的字符串進(jìn)行分詞,再對(duì)子字符串分別識(shí)別處理,提高識(shí)別的準(zhǔn)確性。
[0061]第二實(shí)施例
[0062]本實(shí)施例提供一種字符串識(shí)別方法,本實(shí)施例與第一實(shí)施例類似,其不同之處在于,如圖3所示,步驟S104具體還包括:
[0063]步驟S201、根據(jù)所述子字符串對(duì)應(yīng)的前后字符串的內(nèi)容識(shí)別所述子字符串。
[0064]步驟S202、將識(shí)別后的所述子字符串合成語音。
[0065]本實(shí)施例的方法可根據(jù)前面或后面的子字符串進(jìn)行識(shí)別。根據(jù)前后子字符串部分字符串不存在歧義,則可以得出結(jié)果。
[0066]例如,“120”可以表示急救電話讀作“幺二零”,也可以表示數(shù)值讀作“一百二”。則可根據(jù)前后子字符串的意思進(jìn)行識(shí)別,例如在一個(gè)實(shí)例中,“撥打120急救電話”,則可根據(jù)后面字符串“急救電話”判斷“ 120”為電話號(hào)碼。例如,“2014年/中國(guó)/移動(dòng)/營(yíng)收/3,247/億元/人民幣”,其中的“3,247”可以根據(jù)前后的字符串“億元”判斷為數(shù)值。識(shí)別出準(zhǔn)確的結(jié)果再將當(dāng)前識(shí)別的子字符串合成語音。
[0067]根據(jù)本實(shí)施例的方法,對(duì)子字符串進(jìn)行識(shí)別處理時(shí),通過前后的子字符串的信息識(shí)別子字符串的含義,避免多含義的字符串干擾,實(shí)現(xiàn)較高的準(zhǔn)確率。
[0068]第三實(shí)施例
[0069]本實(shí)施例提供一種字符串識(shí)別方法,本實(shí)施例與第一實(shí)施例類似,其不同之處在于,如圖4所示,步驟S104具體還包括:
[0070]步驟S301、建立字符串匹配模型,根據(jù)所述匹配模型識(shí)別所述子字符串的含義。
[0071]步驟S302、將識(shí)別后的所述子字符串合成語音。
[0072]所述多種類型子字符串還對(duì)應(yīng)匹配相應(yīng)配置文件,所述配置文件用于標(biāo)記所述預(yù)存的字符串類型對(duì)應(yīng)確定目標(biāo)類型。例如,數(shù)字加符號(hào)加數(shù)字“Number2PunCti0n2Number”可以表示為小數(shù),電話號(hào)碼,數(shù)值等。相應(yīng)配置為:“Number2Punct1n2Number:Decimal,Telephone,Numerical”。識(shí)別字符串時(shí)可根據(jù)子字符串對(duì)應(yīng)類型的字符串對(duì)應(yīng)匹配的相應(yīng)配置文件識(shí)別。
[0073]例如,“2014年/中國(guó)/移動(dòng)/營(yíng)收/3,247/億元/人民幣”,其中的“3,247”可以根據(jù)前后的字符串“億元”判斷為數(shù)值。例如,“010-88888888”也是“Number2Punct1n2Number”類型表示電話號(hào)碼。例如,上述例子中的“2014年”可以表示“兩千零十四年”也可以表示“二零一四年”。則可根據(jù)前后字符串信息建立匹配模型,通過模型處理,然后選擇模型的結(jié)果做為最終識(shí)別結(jié)果。在一個(gè)實(shí)例中,可采用“條件隨機(jī)場(chǎng)模型(CRF模型)”。所述條件隨機(jī)場(chǎng)模型具有無向的圖模型,圖中的頂點(diǎn)代表隨機(jī)變量,頂點(diǎn)間的連線代表隨機(jī)變量間的相依關(guān)系,在條件隨機(jī)場(chǎng)中,隨機(jī)變量Y的分布為條件機(jī)率,給定的觀察值則為隨機(jī)變量X。原則上,條件隨機(jī)場(chǎng)的圖模型布局是可以任意給定的,一般常用的布局是鏈結(jié)式的架構(gòu)。上述例子中的“2014年”可以根據(jù)后面的多個(gè)字符串“中國(guó)/移動(dòng)/營(yíng)收”判斷為“二零一四年”,而不是“兩千零十四年”??梢岳斫獾氖?,所述匹配模型也可以是其它統(tǒng)計(jì)模型,例如隱馬爾科夫模型(HMM模型),條件隨機(jī)場(chǎng)模型(CRF模型),最大熵模型(ME模型)等。最后將識(shí)別的字符串合成語音。
[0074]根據(jù)本實(shí)施例的方法,根據(jù)前后信息,部分字符串仍然可能存在歧義,通過建立匹配模型,對(duì)比前后文的字符串信息識(shí)別當(dāng)前子字符串的含義,從而進(jìn)一步提高字符串識(shí)別的準(zhǔn)確率。
[0075]第四實(shí)施例
[0076]本實(shí)施例提供一種字符串識(shí)別方法,本實(shí)施例與第一實(shí)施例類似,其不同之處在于,如圖5所示,步驟S104具體還包括:
[0077]步驟S401、根據(jù)所述子字符串的含義直接識(shí)別。
[0078]步驟S402、將識(shí)別后的所述子字符串合成語音。
[0079]例如,對(duì)于數(shù)字加百分符號(hào)有確切的含義,表示百分?jǐn)?shù)。則用通用的規(guī)則進(jìn)行匹配識(shí)別。例如,數(shù)字加百分號(hào)表示百分?jǐn)?shù)。
[0080]根據(jù)本實(shí)施例的方法,對(duì)于有直接明確含義的字符串直接識(shí)別,節(jié)省處理資源,同時(shí)也有較高的準(zhǔn)確率。
[0081]第五實(shí)施例
[0082]本實(shí)施例提供一種字符串識(shí)別方法,本實(shí)施例與第一實(shí)施例類似,其不同之處在于,如圖6所示,步驟S104具體還包括:
[0083]步驟S501、根據(jù)所述子字符串中的可識(shí)別字符串按照默認(rèn)類型進(jìn)行識(shí)別。
[0084]步驟S502、將識(shí)別后的所述子字符串合成語音。
[0085]對(duì)于一些字符串有對(duì)應(yīng)默認(rèn)的含義,則可以設(shè)置默認(rèn)的識(shí)別規(guī)則。
[0086]例如,字符串“jpg”,“gif”等為圖片類型字符。則可以設(shè)定默認(rèn)規(guī)則,當(dāng)出現(xiàn)“BMP ”、“ JPG”、“GIF”、“PNG”則識(shí)別為圖片格式,可直接按照字符串中字母、數(shù)字挨個(gè)解讀。合成語音時(shí)則直接按順序合成字符串中字母、數(shù)字的語音。
[0087]根據(jù)本實(shí)施例的方法,對(duì)于部分特殊字符串可直接根據(jù)默認(rèn)的規(guī)則進(jìn)行識(shí)別,可定義特殊規(guī)則,提高字符串的識(shí)別準(zhǔn)確率。
[0088]第六實(shí)施例
[0089]本實(shí)施例提供一種字符串識(shí)別裝置,如圖7所示,本實(shí)施例的裝置包括:獲取模塊601、分詞模塊602、判斷模塊603、處理模塊604、及合成模塊605。
[0090]獲取模塊601,用于獲取字符串,所述字符串由多種類型子字符串組成。
[0091]可以知道的是,字符串有多種類型,例如,阿拉伯文,中午,英文,數(shù)字,符號(hào)及其任意的組合等類型。所述多種類型字符串還對(duì)應(yīng)匹配相應(yīng)配置文件,所述配置文件用于標(biāo)記所述預(yù)存的字符串類型對(duì)應(yīng)確定目標(biāo)類型。例如,數(shù)字加符號(hào)加數(shù)字“Number2Punct1n2Number”可以表示為小數(shù),電話號(hào)碼,數(shù)值等。例如,“2.13”,“010-88888888,,。相應(yīng)配置為:“Number2Punct1n2Number:Decimal, Telephone,,。進(jìn)一步地,所述配置文件可以更改及增加字符串定義的含義。例如字符串“3,247”屬于上述的數(shù)字加符號(hào)加數(shù)字“Number2Punct1n2Number”類型,但是字符串“3,247”不屬于配置文件中設(shè)置的類型,屬于數(shù)值。則可在對(duì)上述字符串類型的配置文件進(jìn)行增加目標(biāo)類型“Numerical”。
[0092]分詞模塊602,用于將所述字符串根據(jù)所述多種類型子字符串及其組合的子字符串類型進(jìn)行分詞,將所述字符串分成至少一個(gè)子字符串。
[0093]在一個(gè)實(shí)施方式中,將字符串分為四大類字符串:英文(English),表示漢字(Kanji),符號(hào)(Punctuat1n),數(shù)字(Number)。上述四類字符串也可以任意組合,例如,English2Number:表示英語加數(shù)字的類型,類型長(zhǎng)度為2,如“CA1419”;Number2Punctuat1n2Number:表示數(shù)字加符號(hào)加數(shù)字的類型,類型長(zhǎng)度為3,比如,“010-88888888” ;Number2Kanj1:表示數(shù)字加漢字的類型,類型長(zhǎng)度為2,比如,2014年??梢园凑沼⑽?English),表示漢字(Kanji),符號(hào)(Punctuat1n),數(shù)字(Number)及其組合分
ο
[0094]在一個(gè)實(shí)例中,將句子“中國(guó)移動(dòng)(0941)3月16日在香港發(fā)布2005財(cái)年經(jīng)營(yíng)業(yè)績(jī)”進(jìn)行分詞“中國(guó)/移動(dòng)/ (/0941/) /3月/16日/在/香港/發(fā)布/2005/財(cái)年/經(jīng)營(yíng)/業(yè)績(jī)”。進(jìn)一步地,在進(jìn)行分詞時(shí)也將各子字符串標(biāo)注詞性。例如,“中國(guó)”標(biāo)注詞性“Kanji”,“3月”標(biāo)注詞性“Numberf Kanji”。通過標(biāo)注個(gè)子字符串的詞性,可用于子字符串識(shí)別處理時(shí),作為前后子字符串的參照信息。
[0095]判斷模塊603,用于判斷所述至少一個(gè)子字符串是否為單詞匯。
[0096]所述單詞匯為所述子字符串所屬語種中有唯一含義的詞匯。
[0097]在本發(fā)明實(shí)施例中,根據(jù)上述字符串的四種分類,可以知道的是,若所述子字符串為中文或者英文單詞則可以直接識(shí)別其含義,一般情況下不存在歧義。例如,“中國(guó)”在語音合成時(shí)可以直接順序解讀。判斷子字符串是否為英文或者中文,若為中英文單詞則可以直接讀取,不需要再進(jìn)行含義的識(shí)別。若不是中英單詞匯,則需要進(jìn)行歧義的解讀,例如“2001年”可以理解為“兩千零一年”也可以解讀為“二零零一年”。
[0098]處理模塊604,用于若判斷所述子字符串不是單詞匯,則將所述至少一個(gè)子字符串進(jìn)行識(shí)別處理。
[0099]對(duì)于可能存在歧義的子字符串進(jìn)行識(shí)別,得出準(zhǔn)確的結(jié)果。
[0100]合成模塊605,用于將識(shí)別后的所有子字符串合成連貫語音。將上述識(shí)別的字符串轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的口語輸出。
[0101]根據(jù)本實(shí)施例的裝置,通過對(duì)待是別的字符串進(jìn)行分詞,對(duì)子字符串分別識(shí)別處理,提高識(shí)別的準(zhǔn)確性。
[0102]第七實(shí)施例
[0103]本實(shí)施例提供一種字符串識(shí)別裝置,本實(shí)施例與第七實(shí)施例類似,其不同之處在于,如圖8所示,所述裝置還包括:
[0104]第一識(shí)別單元6041,用于根據(jù)所述子字符串對(duì)應(yīng)的前后字符串的內(nèi)容識(shí)別所述子字符串的;
[0105]語音合成單元6042,用于將識(shí)別后的所述子字符串合成語音。
[0106]關(guān)于本實(shí)施例的裝置的其他細(xì)節(jié),還可進(jìn)一步參閱第二實(shí)施例,在此不再重復(fù)。
[0107]根據(jù)本實(shí)施例的裝置,對(duì)子字符串進(jìn)行識(shí)別處理時(shí),通過前后的子字符串的信息識(shí)別子字符串的含義,避免多含義的字符串干擾,實(shí)現(xiàn)較高的準(zhǔn)確率。
[0108]第八實(shí)施例
[0109]本實(shí)施例提供一種字符串識(shí)別裝置,本實(shí)施例與第七實(shí)施例類似,其不同之處在于,如圖9所示,所述裝置還包括:
[0110]第二識(shí)別單元6043,用于建立字符串匹配模型,根據(jù)所述匹配模型識(shí)別所述子字符串的含義。
[0111]語音合成單元6042,用于當(dāng)所述字符串中的子字符串識(shí)別后,將識(shí)別后的所述子字符串合成語音。
[0112]關(guān)于本實(shí)施例的裝置的其他細(xì)節(jié),還可進(jìn)一步參閱第三實(shí)施例,在此不再重復(fù)。
[0113]根據(jù)本實(shí)施例的裝置,根據(jù)前后信息,部分字符串仍然可能存在歧義,通過建立匹配模型,對(duì)比前后文的字符串信息識(shí)別當(dāng)前子字符串的含義,從而進(jìn)一步提高字符串識(shí)別的準(zhǔn)確率。
[0114]第九實(shí)施例
[0115]本實(shí)施例提供一種字符串識(shí)別裝置,本實(shí)施例與第七實(shí)施例類似,其不同之處在于,如圖10所示,所述裝置還包括:
[0116]第三識(shí)別單元6044,用于根據(jù)所述子字符串的含義直接識(shí)別。
[0117]語音合成單元6042,用于將識(shí)別后的所述子字符串合成語音。
[0118]關(guān)于本實(shí)施例的裝置的其他細(xì)節(jié),還可進(jìn)一步參閱第四實(shí)施例,在此不再重復(fù)。
[0119]根據(jù)本實(shí)施例的裝置,對(duì)于有直接明確含義的字符串直接識(shí)別,節(jié)省處理資源,同時(shí)也有較高的準(zhǔn)確率。
[0120]第十實(shí)施例
[0121]本實(shí)施例提供一種字符串識(shí)別裝置,本實(shí)施例與第七實(shí)施例類似,其不同之處在于,如圖11所示,所述裝置還包括:
[0122]第四識(shí)別單元6045,用于根據(jù)所述子字符串中的可識(shí)別字符串按照默認(rèn)類型進(jìn)行識(shí)別。
[0123]語音合成單元6042,用于將識(shí)別后的所述子字符串合成語音。
[0124]關(guān)于本實(shí)施例的裝置的其他細(xì)節(jié),還可進(jìn)一步參閱第五實(shí)施例,在此不再重復(fù)。
[0125]根據(jù)本實(shí)施例的裝置,對(duì)于部分特殊字符串可直接根據(jù)默認(rèn)的規(guī)則進(jìn)行識(shí)別,可定義特殊規(guī)則,提高字符串的識(shí)別準(zhǔn)確率。
[0126]此外,本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其內(nèi)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,上述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如為非易失性存儲(chǔ)器例如光盤、硬盤、或者閃存。上述的計(jì)算機(jī)可執(zhí)行指令用于讓計(jì)算機(jī)或者類似的運(yùn)算裝置完成上述的字符串識(shí)別方法中的各種操作。
[0127]以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實(shí)施例揭示如上,然而并非用以限定本發(fā)明,任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)可利用上述揭示的技術(shù)內(nèi)容做出些許更動(dòng)或修飾為等同變化的等效實(shí)施例,但凡是未脫離本發(fā)明技術(shù)方案內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【權(quán)利要求】
1.一種字符串識(shí)別方法,其特征在于,所述方法包括以下步驟: 獲取字符串,所述字符串由多種類型子字符串組成; 將所述字符串根據(jù)所述多種類型子字符串及其組合的子字符串類型進(jìn)行分詞,將所述字符串分成至少一個(gè)子字符串; 判斷所述至少一個(gè)子字符串是否為單詞匯,所述單詞匯為所述子字符串所屬語種中有唯一含義的詞匯; 若判斷所述子字符串不是單詞匯,則將所述至少一個(gè)子字符串進(jìn)行識(shí)別處理;以及 將識(shí)別后的所有子字符串合成連貫語音。
2.如權(quán)利要求1所述的字符串識(shí)別方法,其特征在于,所述將所述子字符串進(jìn)行識(shí)別具體包括: 根據(jù)所述子字符串對(duì)應(yīng)的前后字符串的內(nèi)容識(shí)別所述子字符串; 將識(shí)別后的所述子字符串合成語音。
3.如權(quán)利要求1所述的字符串識(shí)別方法,其特征在于,所述將所述子字符串進(jìn)行識(shí)別具體包括: 建立字符串匹配模型,根據(jù)所述匹配模型識(shí)別所述子字符串的含義; 將識(shí)別后的所述子字符串合成語音。
4.如權(quán)利要求1所述的字符串識(shí)別方法,其特征在于,所述將所述子字符串進(jìn)行識(shí)別具體包括: 根據(jù)所述子字符串的含義直接識(shí)別; 將識(shí)別后的所述子字符串合成語音。
5.如權(quán)利要求1所述的字符串識(shí)別方法,其特征在于,所述將所述子字符串進(jìn)行識(shí)別具體包括: 根據(jù)所述子字符串中的可識(shí)別字符串按照默認(rèn)類型進(jìn)行識(shí)別; 將識(shí)別后的所述字子符串合成語音。
6.如權(quán)利要求1-5任意一項(xiàng)所述的字符串識(shí)別方法,其特征在于,所述多種類型子字符串包括:英語類型、數(shù)字類型、符號(hào)類型、漢字類型及其組合。
7.如權(quán)利要求6所述的字符串識(shí)別方法,其特征在于,所述預(yù)多種類型子字符串還對(duì)應(yīng)匹配相應(yīng)配置文件,所述配置文件用于標(biāo)記所述預(yù)存的字符串類型對(duì)應(yīng)確定目標(biāo)類型。
8.一種字符串識(shí)別裝置,其特征在于,所述裝置包括以下模塊: 獲取模塊,用于獲取字符串,所述字符串由多種類型子字符串組成; 分詞模塊,用于將所述字符串根據(jù)所述多種類型子字符串及其組合的子字符串類型進(jìn)行分詞,將所述字符串分成至少一個(gè)子字符串; 判斷模塊,用于判斷所述至少一個(gè)子字符串是否為單詞匯,所述單詞匯為所述子字符串所屬語種中有唯一含義的詞匯; 處理模塊,用于若判斷所述子字符串不是單詞匯,則將所述至少一個(gè)子字符串進(jìn)行識(shí)別處理;以及 合成模塊,用于將識(shí)別后的所有子字符串合成連貫語音。
9.如權(quán)利要求8所述的字符串識(shí)別裝置,其特征在于,所述識(shí)別模塊具體包括: 第一識(shí)別單元,用于根據(jù)所述子字符串對(duì)應(yīng)的前后字符串的內(nèi)容識(shí)別所述子字符串的; 語音合成單元,用于將識(shí)別后的所述子字符串合成語音。
10.如權(quán)利要求8所述的字符串識(shí)別裝置,其特征在于,所述識(shí)別模塊具體包括: 第二識(shí)別單元,用于建立字符串匹配模型,根據(jù)所述匹配模型識(shí)別所述子字符串的含義; 語音合成單元,用于將識(shí)別后的所述子字符串合成語音。
11.如權(quán)利要求8所述的字符串識(shí)別裝置,其特征在于,所述識(shí)別模塊具體包括: 第三識(shí)別單元,用于根據(jù)所述子字符串的含義直接識(shí)別。 語音合成單元,用于將識(shí)別后的所述子字符串合成語音。
12.如權(quán)利要求8所述的字符串識(shí)別裝置,其特征在于,所述識(shí)別模塊具體包括: 第四識(shí)別單元,用于根據(jù)所述子字符串中的可識(shí)別字符串按照默認(rèn)類型進(jìn)行識(shí)別。 語音合成單元,用于將識(shí)別后的所述子字符串合成語音。
13.如權(quán)利要求8-12任意一項(xiàng)所述的字符串識(shí)別裝置,其特征在于,所述多種類型子字符串包括:英語類型、數(shù)字類型、符號(hào)類型、漢字類型及其組合。
14.如權(quán)利要求13所述的字符串識(shí)別裝置,其特征在于,所述多種類型子字符串還對(duì)應(yīng)匹配相應(yīng)配置文件,所述配置文件用于標(biāo)記所述預(yù)存的字符串類型對(duì)應(yīng)確定目標(biāo)類型。
【文檔編號(hào)】G06F17/27GK104462058SQ201410579684
【公開日】2015年3月25日 申請(qǐng)日期:2014年10月24日 優(yōu)先權(quán)日:2014年10月24日
【發(fā)明者】戴強(qiáng), 劉驍 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
万荣县| 恭城| 绵竹市| 廉江市| 晴隆县| 昌宁县| 永泰县| 肇源县| 乌审旗| 远安县| 清远市| 龙山县| 临安市| 瑞金市| 商河县| 东港市| 拜城县| 伊春市| 古浪县| 禹城市| 多伦县| 盱眙县| 久治县| 东辽县| 广昌县| 泸西县| 湾仔区| 桦南县| 富蕴县| 呼伦贝尔市| 民乐县| 蒙山县| 西乌| 安图县| 额敏县| 镇坪县| 章丘市| 焉耆| 临洮县| 香港 | 七台河市|