專利名稱:信息處理方法和信息處理設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種對諸如文字或圖形的輸入信息執(zhí)行處理的信息處理方法。具體地說,本發(fā)明涉及一種用于提高輸入文字、圖形等的識別率的技術(shù)。
背景技術(shù):
可以將手寫文字或圖形輸入到具有能夠接收通過筆或輸入筆的直接輸入的屏幕的設(shè)備。這樣的設(shè)備的示例包括觸摸屏、電子白板、具有觸摸屏的PDA、以及平板PC。通過該設(shè)備,可以如同在紙張或白板上繪畫手寫文字或圖形一樣實現(xiàn)自然的輸入。如果與手寫文字識別或圖形識別相關(guān)的技術(shù)與該設(shè)備集成在一起,則可以將通過手寫而生成的筆劃信息轉(zhuǎn)換成文本等形式的數(shù)字?jǐn)?shù)據(jù),由此有可能將該數(shù)據(jù)用于各種后續(xù)處理。
同時,隨著語音識別技術(shù)的發(fā)展和硬件性能的提高,變得有可能不僅向PC或工作站而且向各種計算機控制設(shè)備輸入語音。
在這樣的情形下,代替單獨采用筆輸入或者單獨采用語音輸入,提出了用于通過組合使用筆和語音經(jīng)由多個模式輸入來提高操作效率的技術(shù)。在該技術(shù)領(lǐng)域內(nèi),術(shù)語多模式有時用來表示使用兩個或更多個不同模式的輸入。日本專利公開No.06-085983提出了這樣一種系統(tǒng),其中通過以手寫方式用筆繪畫圖形并且同時念出圖形類型,對手寫圖形進行整形并且顯示。
手寫輸入和語音輸入都具有實現(xiàn)直觀輸入的優(yōu)點,但是具有“誤識”的缺點。例如,將考慮這樣的情況,其中用戶通過手寫來繪畫圖形,并且對該圖形應(yīng)用圖形識別處理,以便進行自動整形。即使當(dāng)用戶意欲繪畫“四邊形”時,該圖形可能由于誤識而被識別為“圓形”,并且被整形為圓形以便顯示。與此相對,根據(jù)日本專利公開No.06-085983,當(dāng)用戶繪畫圖形同時念出圖形類型時,在語音上識別該發(fā)音,以識別圖形類型,從而根據(jù)所識別的圖形類型對輸入圖形進行整形。然而,語音識別也遭受誤識。即使當(dāng)用戶念出“四邊形”時,如果該發(fā)音被識別為“三角形”,則將圖形整形為三角形,并且顯示,從而執(zhí)行用戶不意欲的錯誤整形。也就是,存在由于誤識而不能實現(xiàn)系統(tǒng)目的的問題。
在本例中,為了描述起見,采取了使用圖形識別和語音識別的特定示例,但是諸如文字識別、面部識別、以及姿勢識別的模式識別也具有相同的問題。
發(fā)明內(nèi)容
本發(fā)明是鑒于上述問題而提出的,以便提高諸如輸入文字或圖形的信息的識別準(zhǔn)確度。
為了解決上述問題,根據(jù)本發(fā)明的一方面,提供了一種信息處理設(shè)備,包括圖形識別裝置,被適配成通過對給定目標(biāo)執(zhí)行的圖形識別來獲得候選圖形;語音識別裝置,被適配成通過對輸入語音信息執(zhí)行的語音識別來獲得候選圖形;以及選擇裝置,被適配成基于由圖形識別裝置獲得的候選圖形以及由語音識別裝置獲得的候選圖形,選擇圖形。
另外,為了解決上述問題,根據(jù)本發(fā)明的另一方面,提供了一種信息處理設(shè)備,包括文字識別裝置,被適配成通過對給定目標(biāo)執(zhí)行的文字識別來獲得候選文字;語音識別裝置,被適配成通過對輸入語音信息執(zhí)行的語音識別來獲得候選文字讀音;以及選擇裝置,被適配成基于由文字識別裝置獲得的候選文字以及由語音識別裝置獲得的候選文字,選擇文字。
另外,為了解決上述問題,根據(jù)本發(fā)明的另一方面,提供了一種信息處理方法,包括圖形識別結(jié)果獲得步驟,獲得作為對給定目標(biāo)執(zhí)行圖形識別的結(jié)果的候選圖形;語音識別結(jié)果獲得步驟,獲得作為在語音上識別語音信息的結(jié)果的候選圖形;以及選擇步驟,基于在圖形識別結(jié)果獲得步驟中獲得的候選圖形以及在語音識別結(jié)果獲得步驟中獲得的候選圖形,選擇圖形。
另外,為了解決上述問題,根據(jù)本發(fā)明的另一方面,提供了一種信息處理方法,包括文字識別結(jié)果獲得步驟,獲得作為對給定目標(biāo)執(zhí)行文字識別的結(jié)果的候選文字;語音識別結(jié)果獲得步驟,獲得作為在語音上識別語音信息的結(jié)果的候選文字讀音;以及選擇步驟,基于在文字識別結(jié)果獲得步驟中獲得的候選文字以及在語音識別結(jié)果獲得步驟中獲得的候選文字讀音,選擇文字。
根據(jù)下面參照附圖對示例性實施例的描述,本發(fā)明的其它特征將會變得清楚。
圖1是根據(jù)本發(fā)明第一實施例的信息處理設(shè)備中的輸入處理的框圖。
圖2是根據(jù)第一實施例的信息處理設(shè)備的硬件配置圖。
圖3是示出根據(jù)第一實施例的圖形識別單元的操作的流程圖。
圖4是示出根據(jù)第一實施例的語音識別單元的操作的流程圖。
圖5是示出根據(jù)第一實施例的綜合評價單元的操作的流程圖。
圖6示出了根據(jù)第一實施例的、用戶在觸摸屏上通過手寫來繪畫圖形同時進行語音輸入的情況。
圖7示出了根據(jù)第一實施例的、來自圖形識別單元的識別結(jié)果的示例。
圖8示出了根據(jù)第一實施例的、來自語音識別單元的識別結(jié)果的示例。
圖9示出了根據(jù)第一實施例的、由綜合評價單元做出的綜合評價的示例。
圖10是示出根據(jù)第一實施例的、應(yīng)當(dāng)包括與語音輸入相對應(yīng)的筆輸入的時間間隔的圖。
圖11是示出根據(jù)第一實施例的綜合評價單元和生成單元的操作的流程圖。
圖12示出了根據(jù)第一實施例的、由綜合評價單元得到的特征點的示例。
圖13示出了如何顯示根據(jù)第一實施例基于輸入而生成的圖形。
圖14是根據(jù)第二實施例的信息處理設(shè)備中的輸入處理的框圖。
圖15是示出根據(jù)第二實施例的文字識別單元的操作的流程圖。
圖16是根據(jù)第四實施例的圖形識別處理的流程圖。
圖17是示出根據(jù)第二實施例的綜合評價單元的操作的流程圖。
圖18示出了根據(jù)第二實施例的、用戶在觸摸屏上通過手寫來繪畫文字同時進行語音輸入的情況。
圖19是示出根據(jù)第二實施例的文字識別單元的操作的流程圖。
圖20是示出根據(jù)第二實施例的語音識別單元的操作的圖。
圖21示出了根據(jù)第二實施例的、由綜合評價單元做出的綜合評價的示例。
圖22示出了以任意字體顯示根據(jù)第二實施例基于輸入而識別的文字的情況。
圖23示出了根據(jù)第四實施例的、用戶在觸摸屏上通過手寫來繪畫文字同時進行語音輸入的情況。
圖24是根據(jù)第五實施例的多功能設(shè)備的硬件配置圖。
圖25是根據(jù)第五實施例的圖形生成處理的流程圖。
具體實施例方式
以下參照附圖僅僅作為示例來描述本發(fā)明的優(yōu)選實施例。
第一實施例在本實施例中,將描述這樣的示例,其中用筆繪畫圖形同時念出圖形類型,以對輸入圖形進行整形,以顯示在具有大觸摸屏的信息處理設(shè)備上,其中該信息處理設(shè)備可以在諸如會議的情形中使用。
圖1是根據(jù)第一實施例的信息處理設(shè)備中的輸入處理的框圖。在該圖中,標(biāo)號101表示語音信息接收單元,其用于接收語音信息。標(biāo)號102表示語音識別單元,其用于在語音上識別所接收的語音信息。標(biāo)號103表示筆輸入信息接收單元,其用于接收筆輸入信息。標(biāo)號104表示圖形識別單元,其用于基于所接收的坐標(biāo)信息而識別圖形。標(biāo)號105表示綜合評價單元,其用于通過語音識別結(jié)果和圖形識別結(jié)果的綜合評價來選擇圖形。標(biāo)號106表示特征量提取單元,其用于從由筆輸入信息接收單元103接收的筆輸入信息提取特征量。標(biāo)號107表示生成單元,其用于基于由特征量提取單元106提取的特征量,生成由綜合評價單元選擇的圖形。標(biāo)號108表示顯示控制單元,其用于執(zhí)行控制,以便顯示由生成單元107生成的圖形等。
圖2是根據(jù)本實施例的信息處理設(shè)備的硬件配置圖。在該圖中,標(biāo)號201表示CPU,其用于根據(jù)下面將要描述的、用于執(zhí)行信息處理設(shè)備的操作過程的程序來控制輸入處理。標(biāo)號202表示RAM,其用于提供上述程序的操作所需的存儲區(qū)域。標(biāo)號203表示ROM,其用于保存程序等。標(biāo)號204表示觸摸屏,可以執(zhí)行通過筆和手指的輸入。筆輸入信息接收單元103接收在觸摸屏204上輸入的筆輸入信息。另外,顯示控制單元108控制觸摸屏204顯示上述圖形等。標(biāo)號205表示硬盤驅(qū)動器(HDD),其用于保存程序等。在本實施例中要執(zhí)行的程序可以是保存在ROM 203中的程序、或者保存在HDD 205中的程序。另外,該程序可以被分割并且保存在ROM 203和HDD 205中,并且通過引用這些程序來執(zhí)行。標(biāo)號206表示A/D轉(zhuǎn)換器,其用于將輸入語音轉(zhuǎn)換成數(shù)字信號。標(biāo)號207表示麥克風(fēng),其用于接收語音。標(biāo)號208表示總線。
在本實施例中,如圖6所示,將考慮這樣的情況,其中,用戶使用筆602在觸摸屏601上繪畫手寫筆劃603,同時念出“四邊形”。下面將參照流程圖來描述具有上述配置的信息處理設(shè)備的操作。
圖3是示出筆輸入信息接收單元103和圖形識別單元104的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
首先,檢查是否存在從用戶到觸摸屏204的筆輸入(S301)。當(dāng)存在筆輸入時,由筆輸入信息接收單元103接收筆輸入信息,并且圖形識別單元104基于所接收的筆輸入信息而識別圖形(S302)。將識別結(jié)果推入到在圖中未示出的圖形識別結(jié)果棧中(S303)。圖形識別結(jié)果棧存儲在RAM 202或HDD 205中。圖7示出了推入到圖形識別結(jié)果棧中的圖形識別結(jié)果的示例。以這種方式,圖形識別結(jié)果包括筆輸入開始和結(jié)束時間戳(701、702)、以及用置信得分表示圖形類型的N個最佳候選者703(在本例中,N=3)。置信得分可以通過公知方法來得出??梢允褂萌魏畏椒?,只要該方法能夠得出與置信得分相同的概念即可,例如不相似度。
圖4是示出語音信息接收單元101和語音識別單元102的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
首先,語音信息接收單元檢查是否存在來自用戶的語音輸入(S401)。語言輸入的檢測是公知技術(shù),并且例如,基于輸入語音功率的幅度等而確定檢測。當(dāng)存在語音輸入時,接收并且在語音上識別語音輸入(S402)。此后,將識別結(jié)果推入到在圖中未示出的語音識別結(jié)果棧中(S403)。語音識別結(jié)果棧保存在RAM 202或HDD 205中。圖8示出了推入到語音識別結(jié)果棧中的語音識別結(jié)果的示例。以這種方式,語音識別結(jié)果包括發(fā)音開始和結(jié)束時間戳(801、802)、以及用置信得分表示圖形類型的N個最佳候選者803(在本例中,N=3)。語音識別置信得分可以通過公知方法來得出。
圖5是示出綜合評價單元105的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
綜合評價單元105監(jiān)視圖形識別結(jié)果棧,以檢查是否有任何圖形識別結(jié)果保存在該棧中(S501)。當(dāng)保存了圖形識別結(jié)果時,檢查與該圖形識別結(jié)果相對應(yīng)的語音識別結(jié)果是否保存在語音識別結(jié)果棧中(S502)。這里,可以一直監(jiān)視或者定期檢查圖形識別結(jié)果棧。另外,可以監(jiān)視語音識別結(jié)果棧,而非圖形識別結(jié)果棧。在這種情況下,S501和S502的順序顛倒。
首先,例如基于時間戳而確定語音識別結(jié)果是否對應(yīng)于圖形識別結(jié)果。具體地說,如圖10所示,如果圖形識別結(jié)果的筆輸入開始時間戳701或筆輸入結(jié)束時間戳702包括在從語音開始時間之前的T1秒跨越到結(jié)束時間之后的T2秒的時間段D內(nèi),則相互關(guān)聯(lián)語音識別結(jié)果和圖形識別結(jié)果。在本例中,將在假定圖8的語音識別結(jié)果對應(yīng)于圖7的圖形識別結(jié)果時給出描述。
當(dāng)在圖形識別結(jié)果中的一個或多個圖形類型和語音識別結(jié)果中的一個或多個圖形類型當(dāng)中找到對應(yīng)于圖形識別結(jié)果的語音識別結(jié)果時,對匹配圖形類型的置信度進行求和。在圖7和8中,對作為圖形識別結(jié)果的橢圓形的置信得分60和作為語音識別結(jié)果的橢圓形的置信得分10進行求和,并且獲得70。三角形和四邊形的置信度分別是90和110。然后,選擇具有求和置信得分的最大值的圖形類型(S503)。在本例中,選擇具有最大求和置信得分的四邊形。應(yīng)當(dāng)注意,在S502中,如果不存在對應(yīng)的語音識別結(jié)果,則在圖形識別結(jié)果中的一個或多個圖形類型當(dāng)中選擇具有最大置信得分的圖形(S504)。如同以上述方式一樣,完成用于在圖形識別結(jié)果中的一個或多個圖形類型當(dāng)中選擇一個圖形的處理,并且全部清除圖形識別結(jié)果棧和語音識別結(jié)果棧(S505)。作為上述處理的結(jié)果,如圖9所示基于綜合評價結(jié)果而將圖形類型確定為“四邊形”。
圖11是示出特征量提取單元106、生成單元107和顯示控制單元108的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
根據(jù)由綜合評價單元105確定的圖形類型,在本例中提取輸入筆劃的特征點。在四邊形的情況下,找出圖12的四個頂點1201到1204(S1101)。用于找出特征點的算法是公知技術(shù)。根據(jù)特征點,如圖13的標(biāo)號1301所示生成圖形(S1102),并且顯示該圖形(S1103)。在顯示的時候,關(guān)閉原始筆劃顯示。整形后的圖形存儲在RAM 202和/或HDD 205中。
在上述示例中,根據(jù)從筆輸入筆劃的圖形識別,識別結(jié)果的第一候選者是“橢圓形”,其不同于用戶的意圖。另一方面,語音識別結(jié)果的第一候選者是“三角形”,其也不同于用戶的意圖。然而,這兩個識別結(jié)果都經(jīng)受綜合評價,從而有可能作為“四邊形”整形和顯示該圖形,而符合用戶的意圖。以這種方式,圖形識別結(jié)果和語音識別結(jié)果經(jīng)受綜合評價,從而獲得提高按照用戶意圖的識別準(zhǔn)確度的效果。
應(yīng)當(dāng)注意,在本實施例中,已經(jīng)描述了直到圖形生成步驟的過程,但是僅僅直到圖5的圖形類型選擇處理的過程就滿足本發(fā)明的要求。
第二實施例在第二實施例中,將描述這樣的情況,其中在由信息處理設(shè)備提供的觸摸屏上使用筆繪畫文字,同時念出文字的讀音,并且整形和顯示輸入文字。圖14是根據(jù)本實施例的信息處理設(shè)備中的輸入處理的框圖。在該圖中,標(biāo)號1401表示語音信息接收單元。標(biāo)號1402表示語音識別單元。標(biāo)號1403表示筆輸入信息接收單元。標(biāo)號1404表示文字識別單元。標(biāo)號1405表示綜合評價單元。標(biāo)號1406表示顯示控制單元,其用于執(zhí)行控制,以便顯示由綜合評價單元1405輸出的文字等。綜合評價單元1407是單漢字字典。標(biāo)號1408表示語音識別語法。
根據(jù)第二實施例的信息處理設(shè)備的硬件配置與圖2的相同。在本實施例中,將考慮這樣的情況,其中用戶使用筆1802在觸摸屏1801上通過手寫來繪畫文字筆劃1803,同時念出“ai”,如圖18所示。應(yīng)當(dāng)注意,在圖18中,用戶以書寫漢字“藍”的意圖繪畫文字筆劃。漢字“藍”具有“ai”的讀音。
圖15是示出筆輸入信息接收單元1403和文字識別單元1404的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
首先,檢查是否存在從用戶到觸摸屏204的筆輸入(S1501)。當(dāng)存在筆輸入時,筆輸入信息接收單元接收筆輸入信息,然后文字識別單元104將筆輸入信息識別為文字(S1502)。將識別結(jié)果推入到在圖中未示出的文字識別結(jié)果棧中(S1503)。文字識別結(jié)果棧保存在RAM 202或HDD 205中。圖19示出了推入到文字識別結(jié)果棧中的文字識別結(jié)果的示例。以這種方式,文字識別結(jié)果包括筆輸入開始和結(jié)束時間戳(1901、1902)、以及用置信得分表示文字類型的N個最佳候選者1903(在本例中,N=3)。識別結(jié)果的每個文字被提供了讀音(或者在存在多種讀法時,全部讀音)。當(dāng)文字是片假名語音符號、平假名語音符號或字母時,從標(biāo)記(notation)獲得該讀音信息,而當(dāng)文字為漢字時,從單漢字字典1407獲得該讀音信息(在諸如“?”和“#”的符號被視作漢字之一時,單漢字字典可以處理符號)。
語音信息接收單元1401和語音識別單元1402的操作與圖4中的相同。首先,語音信息接收單元檢查是否存在來自用戶的語音輸入(S401)。語言輸入的檢測是公知技術(shù),并且例如,基于輸入語音的幅度等而確定檢測。當(dāng)存在語音輸入時,接收并且在語音上識別語音信息(S402)。語音識別單元1402基于語音識別語法1408而識別語音。語音識別語法1408由無重疊地收集日語音節(jié)系統(tǒng)中的50個文字和包括在單漢字字典1407中的所有單漢字的讀音的列表構(gòu)成。因此,語音識別結(jié)果是日語音節(jié)系統(tǒng)中的50個文字和包括在單漢字字典1407中的單漢字的讀音當(dāng)中的一個。然后,將識別結(jié)果推入到在圖中未示出的語音識別結(jié)果棧中(S403)。語音識別結(jié)果棧保存在RAM 202或HDD 205中。圖20示出了推入到語音識別結(jié)果棧中的語音識別結(jié)果的示例。以這種方式,語音識別結(jié)果包括發(fā)音開始和結(jié)束時間戳(2001、2002)、以及用置信得分表示單漢字讀音的N個最佳候選者2003(在本例中,N=3)。
圖17是示出綜合評價單元1405的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
綜合評價單元1405監(jiān)視文字識別結(jié)果棧,以檢查是否有任何文字識別結(jié)果保存在該棧中(S1701)。如果保存了文字識別結(jié)果,則檢查與該文字識別結(jié)果相對應(yīng)的語音識別結(jié)果是否保存在語音識別結(jié)果棧中(S1702)。這里,可以一直監(jiān)視或者可以定期檢查文字識別結(jié)果棧。另外,可以監(jiān)視語音識別結(jié)果棧,而非文字識別結(jié)果棧。首先基于時間戳而確定是否保存了與文字識別結(jié)果棧相對應(yīng)的語音識別結(jié)果。該確定方法與第一實施例1的情況相同。
當(dāng)發(fā)現(xiàn)與文字識別結(jié)果棧相對應(yīng)的語音識別結(jié)果時,還通過使用語音識別結(jié)果來校正向文字識別結(jié)果中的一個或多個文字類型的每一個給予的置信得分。以下面方式執(zhí)行置信得分校正。作為文字識別結(jié)果的第一候選者的“監(jiān)”具有兩種讀法“kan”和“ken”。對于各個讀音,計算語音識別結(jié)果中的三個候選讀音“ei”、“sai”和“ai”的相似度。例如,作為“監(jiān)”的讀音的“kan”和語音識別結(jié)果中的“ei”根本沒有相互匹配的組成音素,從而相似度是0。因此,如下表達用“ei”對“kan”的校正識別置信得分MC(“kan”|“ei”)。
MC(“kan”|“ei”)=C1(“kan”)+C2(“ei”)/相似度=70+60/0=70其中C1文字識別置信得分,C2語音識別置信得分。
在“kan”和“sai”的情況下,在“kan”的三個音素當(dāng)中,僅僅一個音素與“sai”中的音素“a”相匹配,從而相似度是1/3=0.33。因此,獲得下面表達式。
MC(“kan”|“ai”)=70+55/3=88.3以相同的方式,獲得下面表達式。
MC(“kan”|“sai”)=70+30/3=80在置信度當(dāng)中,采用最大值,因此“kan”的校正識別置信得分MC(“kan”)是88.3。對于“監(jiān)”的另一讀音“ken”,類似地獲得校正識別置信得分MC(“ken”),其為70+60/3=90。文字“監(jiān)”的校正識別置信得分MC(“監(jiān)”)采用這些置信度當(dāng)中的最大值,并且獲得下面表達式。
MC(“監(jiān)”)=90以相同的方式,獲得下面表達式。
MC(“蘭”)=50+55/3=68.3MC(“藍”)=40+55/1.0=95如同以上述方式一樣獲得校正識別置信得分,選擇具有最大校正識別置信得分的文字“藍”作為最終識別結(jié)果(S1703)。應(yīng)當(dāng)注意,在S1702中,如果不存在對應(yīng)的語音識別結(jié)果,則在文字識別結(jié)果中的一個或多個文字當(dāng)中選擇具有最大置信得分的文字(S1704)。此后,確定所選文字作為所采用的文字。
如同以上述方式一樣,完成用于在文字識別結(jié)果中的一個或多個文字當(dāng)中選擇一個文字的處理,并且全部清除文字識別結(jié)果棧和語音識別結(jié)果棧(S1705)。作為上述處理的結(jié)果,如圖21所示基于綜合評價結(jié)果而將文字確定為“藍”,并且如圖22所示以任意字體顯示文字“藍”。所選文字存儲在RAM或HDD中。
在上述示例中,根據(jù)基于筆輸入筆劃的文字識別,識別結(jié)果的第一候選者是“監(jiān)”,其不同于用戶的意圖。另一方面,語音識別結(jié)果的第一候選者是“ei”,其也不同于用戶的意圖。然而,這兩個識別結(jié)果都經(jīng)受綜合評價,由此有可能顯示文字“藍”而符合用戶的意圖。以這種方式,文字識別結(jié)果和語音識別結(jié)果經(jīng)受綜合評價,從而獲得提高按照用戶意圖的識別準(zhǔn)確度的效果。
第三實施例在上述實施例中,當(dāng)筆輸入時間戳在輸入語音的輸入時間段D中時,相互關(guān)聯(lián)語音識別結(jié)果和圖形識別結(jié)果或文字識別結(jié)果,但是本發(fā)明不限于上述方案。對于不擅長在書寫時發(fā)音的用戶,還可以考慮這樣的情況更方便,其中在完成書寫之后進行發(fā)音。因此,在本實施例中,在完成筆輸入之后念出的語音與筆輸入相關(guān)聯(lián)。具體地說,記錄筆輸入的時間戳,并且將在該時間戳所表示的時間之后輸入的語音與筆輸入相關(guān)聯(lián)。這里,可以提供這樣的限制,其中語音輸入僅僅與完成筆輸入之后的預(yù)定時間內(nèi)的筆輸入相關(guān)聯(lián)。當(dāng)然,與此相對,可以將在完成語音輸入之后進行的筆輸入與語音相關(guān)聯(lián)。
通過這樣的配置,提供了念出在筆輸入之后輸入的、與文字或圖形相對應(yīng)的語音的實施例,以及在發(fā)音之后使用筆輸入對應(yīng)的圖形或文字的實施例。
第四實施例在上述實施例中,雖未明確表明,已經(jīng)描述了這樣的示例,其中筆輸入和語音輸入每次都經(jīng)受綜合評價,但是本發(fā)明不限于上述方案??蛇x地,可以重復(fù)執(zhí)行用于使筆輸入經(jīng)受圖形識別或文字識別以顯示識別結(jié)果的處理,并且當(dāng)用戶確定了識別結(jié)果不正確時,進行語音輸入,從而整形圖形或文字。
圖16是這種情況下的處理的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。在本例中描述識別圖形的示例。
首先,檢查是否存在來自用戶的筆輸入(S1601)。當(dāng)存在筆輸入時,從筆劃識別圖形(S1602)。然后,將識別結(jié)果推入到圖形識別結(jié)果棧中(S1603)。此后,顯示作為識別結(jié)果的、具有最大置信得分的圖形(S1604)。此時,用戶確認(rèn)所顯示的圖形。當(dāng)圖形與所意欲的圖形相同時,不輸入語音。因而,在S1605中確定否,清除圖形識別結(jié)果(S1606),并且該流程返回到S1601。應(yīng)當(dāng)注意,用于清除圖形識別結(jié)果棧的定時可以為開始下一個筆輸入的定時,或者可以在給定時間流逝之后清除該棧。
作為用戶的圖形確認(rèn)的結(jié)果,當(dāng)用戶確定了圖形不同于所意欲的圖形時,用戶進行發(fā)音,以將圖形校正成所意欲的圖形。本系統(tǒng)接受發(fā)音(S1605),在語音上識別所接受的發(fā)音(S1607),并且將語音識別結(jié)果推入到語音識別結(jié)果棧中(S1608)。后續(xù)處理與圖5的相同。
應(yīng)當(dāng)注意,當(dāng)連續(xù)進行筆輸入而非逐文字地進行筆輸入時,用戶可能在注意到前面輸入不正確之前輸入下一個圖形。因此,可以考慮,在S1604中顯示的圖形中,指定要被校正的圖形,并且相對于該圖形念出所意欲的圖形名稱。
通過這樣的配置,從用戶的視點,基本上整形使用筆的圖形輸入,并且當(dāng)確定了圖形不正確時,念出所意欲的圖形的名稱,從而使得有可能將圖形校正成期望圖形。
應(yīng)當(dāng)注意,已經(jīng)描述了這樣的示例,其中通過使用筆來進行輸入,并且當(dāng)輸入不正確時,如上進行語音輸入。作為可選方案,可以通過使用語音來進行輸入,并且當(dāng)輸入不正確時,可以通過筆輸入來進行校正。
另外,已經(jīng)描述了如上輸入圖形的示例。然而,當(dāng)然,本發(fā)明可以應(yīng)用于與第二實施例類似地輸入文字的情況。
第五實施例在上述實施例中,已經(jīng)描述了在進行筆輸入時進行發(fā)音的情況,但是本發(fā)明不限于上述方案。本發(fā)明也適用于這樣的情況,其中當(dāng)通過掃描來閱讀手寫紙件文檔等時,整形所書寫內(nèi)容。
在本實施例中,將作為示例描述多功能設(shè)備,其中多功能設(shè)備具有掃描在其上形成了多個手寫圖形的紙張并且整形所掃描的圖形的功能。圖24是根據(jù)本實施例的多功能設(shè)備的硬件配置圖。標(biāo)號2401、2402、2403和2404分別表示CPU、RAM、ROM和硬盤驅(qū)動器。標(biāo)號2405表示A/D轉(zhuǎn)換器,其用于將輸入語音轉(zhuǎn)換成數(shù)字信號。標(biāo)號2406表示麥克風(fēng)。標(biāo)號2407表示圖像讀取單元,其用于從紙張讀出信息。標(biāo)號2408表示觸摸屏。標(biāo)號2409表示打印機單元。
圖25是示出根據(jù)本實施例的處理流程的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。首先,圖像讀取單元2407讀出在其上繪畫了多個手寫圖形的紙張,以將該信息轉(zhuǎn)換成圖像數(shù)據(jù)(S2501)。此后,從圖像數(shù)據(jù)提取圖形(S2502)。所提取的圖形經(jīng)受圖形識別(S2503),并且將識別結(jié)果推入到圖形識別結(jié)果棧中(S2504)。從識別結(jié)果中,選擇具有最大置信得分的圖形,并且基于所選圖形而從在S2503中提取的圖形提取特征量(S2505)?;谒崛〉奶卣髁慷蓤D形(S2506),并且將該圖形顯示在觸摸屏2408上(S2507)。由于在所閱讀的紙張上繪畫了多個圖形,因此在本例中顯示多個圖形。用戶確認(rèn)所顯示的圖形,并且如果存在非意欲的圖形,則指定該圖形。這里,在觸摸屏上直接指定所顯示的圖形。多功能設(shè)備確定指定了由用戶指示的圖形(S2508)。用戶念出所意欲的圖形,然后多功能設(shè)備接收該發(fā)音作為輸入語音(S2509)。在識別接收語音(S2510)之后,語音識別結(jié)果和在S2504中推入到圖形識別結(jié)果棧中的圖形識別結(jié)果經(jīng)受綜合評價(S2511)。綜合評價處理與第一實施例的相同?;谧鳛榫C合評價的結(jié)果而選擇的圖形,從在S2503中提取的圖形提取特征量,使用該特征量來生成圖形,并且顯示所生成的圖形(S2512)。
通過上述配置,可以通過使用語音來不僅將實時筆輸入而且將先前繪畫的圖形校正成所意欲的圖形。應(yīng)當(dāng)注意,文字當(dāng)然如同在第二實施例中一樣可以是目標(biāo)。
第六實施例根據(jù)第二實施例,處理一個文字的識別,但是本發(fā)明可以應(yīng)用于一次識別兩個或更多個文字的短語的情況。在這種情況下,使用短語詞典來代替單漢字字典1407,并且語音識別語法1408由無重疊地收集短語的讀音的列表組成。短語詞典保存各個短語標(biāo)記和讀音的配對數(shù)據(jù)。然后,文字識別單元1404識別多個文字,并且在短語詞典中搜索所識別的文字串,以獲得讀音。此后,將包括讀音信息的結(jié)果推入到文字識別棧中。隨后,與第二實施例中的算法相同的算法可以處理該處理。
通過上述配置,不僅可以提高一個文字的識別準(zhǔn)確度,而且可以提高短語的識別準(zhǔn)確度。
第七實施例根據(jù)第六實施例,已經(jīng)描述了一次識別多個文字的情況。然而,作為可選方案,多個文字可以通過使用根據(jù)第二實施例的方法來一次識別一個文字,以確認(rèn)結(jié)果,然后可以識別下一個文字。在這種情況下,通過按例如安裝在信息處理設(shè)備上的預(yù)定按鈕,執(zhí)行每個文字的識別結(jié)果的確認(rèn)。此外,當(dāng)要識別一個文字時,使用緊靠在這個文字之前的已確認(rèn)文字的識別結(jié)果。因此,圖14的配置還包括短語詞典。將描述在觸摸屏上繪畫短語“憂郁”(由兩文字組合“憂”和“郁”構(gòu)成)的情況。“憂郁”的讀音為“yuuutsu”,并且“憂”的讀音為“yuu”并且“郁”的讀音為“utsu”。首先,用戶在使用筆書寫文字“憂”時念出“yuu”,并且通過根據(jù)第二實施例的方法輸入文字“憂”。在通過確認(rèn)按鈕確認(rèn)之后,在觸摸屏上以任意字體顯示文字“憂”。在緊靠在該文字的右邊,在以書寫文字“郁”的意圖使用筆書寫由圖23中的標(biāo)號2303表示的這樣的筆劃時,用戶念出“utsu”。在基于文字識別和語音識別而通過綜合評價識別該手寫文字之前,從短語詞典中搜索以緊靠之前的文字“憂”開始的短語。然后,獲得“憂郁(yuu/utsu)”、“憂國(yuu/koku)”、“憂傷(yuu/shuu)”、“憂愁(yuu/shoku)”以及“憂慮(yuu/ryo)”。這樣,第二文字有可能是“郁(utsu)”、“國(koku)”、“傷(shuu)”、“愁(shoku)”和“慮(ryo)”。在語音識別語法1408中的識別詞匯表當(dāng)中,增大“utsu”、“koku”、“shuu”、“shoku”和“ryo”的權(quán)重,并且?guī)椭暨x這些文字作為識別結(jié)果。另一方面,文字識別單元1404還對筆劃2303設(shè)置適當(dāng)?shù)臋?quán)重,以挑選諸如“郁”、“國”、“傷”、“愁”以及“慮”的文字作為該識別的識別結(jié)果。通過這樣的配置,獲得獲得按照“短語”的可能識別結(jié)果的效果。
第八實施例根據(jù)第二實施例,語音識別單元1402基于語音識別語法1408而執(zhí)行語音識別。語音識別語法1408由無重疊地收集50個文字日語音節(jié)和單漢字字典1407中的所有單漢字的讀音的列表組成。然而,本發(fā)明不局限于上述方案。準(zhǔn)備了用于接受任何音素的組合的串聯(lián)語音識別語法作為語音識別語法1408,并且允許語音識別單元1402執(zhí)行串聯(lián)語音識別處理。這樣,該單元可以不加限制地將任意的音素串識別為單漢字字典1407中的單漢字的讀音。
第九實施例根據(jù)第二實施例,語音識別單元1402與文字識別單元1404的識別處理相獨立地執(zhí)行語音識別。與此相對,也可以采用下面配置。等待文字識別單元1404的識別,并且在N個最佳候選者列表中包括文字讀音的列表。為了有可能在語音識別結(jié)果中挑選讀音,在語音識別語法1408上設(shè)置適當(dāng)?shù)臋?quán)重,以執(zhí)行語音識別處理。例如,當(dāng)獲得如圖19所示的文字識別結(jié)果時,可以執(zhí)行加權(quán),使得有可能在語音識別結(jié)果中挑選“kan”、“ken”、“ran”和“ai”。
第十實施例與第九實施例相對,還可以采用下面配置。等待語音識別單元1402的識別結(jié)果,并且在N個最佳者中包括文字讀音的列表。為了有可能在文字識別結(jié)果中挑選具有該讀音的文字,在文字識別單元1404上設(shè)置適當(dāng)?shù)臋?quán)重,以執(zhí)行該處理。例如,當(dāng)獲得如圖20所示的語音識別結(jié)果時,可以執(zhí)行加權(quán),使得有可能在文字識別結(jié)果中挑選具有讀音“ei”、“ai”和“sai”的文字。
第十一實施例在上述實施例中,已經(jīng)作為示例描述了這樣的示例,其中當(dāng)語音識別結(jié)果和圖形識別結(jié)果或文字識別結(jié)果經(jīng)受綜合評價時,對置信度進行求和,但是也有可能對結(jié)果進一步執(zhí)行加權(quán)。
例如,當(dāng)在喧鬧的周圍噪聲環(huán)境中執(zhí)行該處理時,可以考慮,語音識別的準(zhǔn)確度由于噪聲的影響而降低。鑒于上述情形,檢測周圍噪聲,并且可以根據(jù)周圍噪聲的幅度而調(diào)整語音識別結(jié)果上的權(quán)重。當(dāng)噪聲電平高時,如果減小語音識別結(jié)果上的權(quán)重,則有可能減小噪聲影響。作為實施例模式,例如,圖1的配置還包括用于檢測噪聲的噪聲檢測單元(未示出),并且由綜合評價單元105接收由噪聲檢測單元檢測的噪聲。當(dāng)進行綜合評價時,可以根據(jù)所接收的噪聲幅度來調(diào)整語音識別結(jié)果上的權(quán)重。
另外,在通過諸如筆的定點設(shè)備輸入的情況下,當(dāng)輸入速度高時,可以建立所書寫圖形或文字粗略的假設(shè)。因此,可以考慮檢測筆輸入速度,并且根據(jù)輸入速度來調(diào)整圖形識別結(jié)果或文字識別結(jié)果上的權(quán)重。當(dāng)速度高時,減小圖形識別結(jié)果或文字識別結(jié)果上的權(quán)重,由此可以預(yù)期整個識別準(zhǔn)確度的提高。作為實施例模式,例如,圖1的配置還包括用于檢測筆輸入速度的筆輸入速度檢測單元(未示出),并且由綜合評價單元105接收由筆輸入速度檢測單元檢測的筆輸入速度。當(dāng)進行綜合評價時,可以根據(jù)所接收的筆輸入速度來調(diào)整圖形識別結(jié)果或文字識別結(jié)果上的權(quán)重。
第十二實施例在上述實施例中,已經(jīng)描述了這樣的示例,其中圖形識別或文字識別和語音識別經(jīng)受綜合評價,但是目標(biāo)可以是面部識別或姿勢識別。具體地說,為了識別人,在語音上識別名稱的發(fā)音,并且隨同面部識別一起進行綜合評價,有可能提高該人的識別率。另外,在表現(xiàn)姿勢時,念出對應(yīng)于該姿勢的語音發(fā)音,從而使得有可能提高姿勢的識別率。
第十三實施例應(yīng)當(dāng)注意,可以如下實現(xiàn)本發(fā)明。也就是,將存儲用于實現(xiàn)上述實施例功能的軟件的程序代碼的存儲介質(zhì)提供給系統(tǒng)或設(shè)備。然后,該系統(tǒng)或設(shè)備的計算機(可選地,CPU或MPU)讀出并且執(zhí)行存儲在存儲介質(zhì)中的程序代碼。同樣以這種方式,當(dāng)然可以實現(xiàn)本發(fā)明。
在這種情況下,從存儲介質(zhì)讀出的程序代碼本身實現(xiàn)上述實施例功能,因此存儲該程序代碼的存儲介質(zhì)構(gòu)成本發(fā)明。
例如,軟盤、硬盤驅(qū)動器、光盤、磁光盤、CD-ROM、CD-R、磁帶、非易失性存儲卡、ROM等可以用作提供該程序代碼的存儲介質(zhì)。
另外,根據(jù)本發(fā)明的實施例不局限于執(zhí)行由計算機讀出的程序代碼以實現(xiàn)上述實施例功能的情況。例如,基于程序代碼的指令,在計算機等上運行的操作系統(tǒng)(OS)執(zhí)行實際處理的部分或全部,并且通過該處理實現(xiàn)上述實施例功能。當(dāng)然,這種情況也在本發(fā)明的范圍內(nèi)。
此外,可以以下面方式實現(xiàn)根據(jù)本發(fā)明的實施例的功能。也就是,將從存儲介質(zhì)讀出的程序代碼寫入到在插入到計算機的功能擴展板或者連接到計算機的功能擴展單元中提供的存儲器。然后,基于程序代碼的指令,向功能擴展板或功能擴展單元提供的CPU執(zhí)行實際處理的全部或部分。當(dāng)然,通過該處理實現(xiàn)了上述實施例功能。
在上面描述中,程序和硬件的組合實現(xiàn)本發(fā)明,但是可以減小程序的比重,并且可以增加硬件的使用。此外,在這些實施例中描述了從輸入步驟到輸出步驟的流程,但是本發(fā)明適用于這些實施例的一部分。
此外,在上述實施例中,作為信息處理方法的步驟,為了描述起見而給出了包括語音識別步驟的示例和包括圖形識別步驟或文字識別步驟的示例,但是本發(fā)明不限于上述方案。代替執(zhí)行諸如語音識別、圖形識別或文字識別的識別,可以實現(xiàn)包括接收識別結(jié)果的步驟和對所接收的識別結(jié)果執(zhí)行處理的步驟的流程。如果OS接收語音識別、圖形識別、文字識別等的結(jié)果,并且包括對這些結(jié)果執(zhí)行綜合評價的步驟,則可以執(zhí)行本發(fā)明。
在本發(fā)明中,給定目標(biāo)是諸如圖形識別或文字識別的模式識別的目標(biāo),例如,第一實施例的用筆繪畫的圖形、第二實施例的用筆繪畫的文字、或者第五實施例的掃描圖形。圖形識別裝置例如是根據(jù)第一實施例的圖形識別單元104。語音識別裝置例如是根據(jù)第一實施例的語音識別單元102。上述實施例中的選擇裝置從綜合評價結(jié)果選擇圖形或文字。提取裝置例如是根據(jù)第一實施例的特征量提取單元106。生成裝置例如是根據(jù)第一實施例的生成單元107。顯示控制裝置例如是根據(jù)第一實施例的顯示控制單元108。置信得分是表示作為識別結(jié)果而獲得的候選者是各個目標(biāo)時的確信度的值,例如,圖7所示的值。文字識別裝置例如是根據(jù)第二實施例的文字識別單元1404。用于識別模式的信息在圖形的情況下為圖形名稱/類型,并且在文字的情況下為文字讀音。圖形類型是表示圖形種類的信息,換句話說,圖形名稱等。
雖然參考示例性實施例描述了本發(fā)明,但是應(yīng)當(dāng)理解,本發(fā)明不局限于所公開的示例性實施例。所附權(quán)利要求的范圍應(yīng)當(dāng)被給予最寬的解釋,以便囊括所有變型、等效結(jié)構(gòu)和功能。
權(quán)利要求
1.一種信息處理設(shè)備,包括圖形識別裝置,被適配成通過對給定目標(biāo)執(zhí)行的圖形識別來獲得候選圖形;語音識別裝置,被適配成通過對輸入語音信息執(zhí)行的語音識別來獲得候選圖形;以及選擇裝置,被適配成基于由圖形識別裝置獲得的候選圖形以及由語音識別裝置獲得的候選圖形,選擇圖形。
2.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,還包括提取裝置,被適配成基于由選擇裝置選擇的圖形而從給定目標(biāo)提取特征量;生成裝置,被適配成基于由提取裝置提取的特征量而生成由選擇裝置選擇的圖形;以及顯示控制裝置,被適配成執(zhí)行控制,以顯示由生成裝置生成的圖形。
3.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中圖形識別裝置獲得置信得分,其表示候選圖形和各個候選者是目標(biāo)圖形的確信度;語音識別裝置獲得置信得分,其表示候選圖形和各個候選者是目標(biāo)圖形的確信度;以及選擇裝置相加由圖形識別裝置獲得的候選圖形和由語音識別裝置獲得的候選圖形的對應(yīng)置信度,并且基于結(jié)果置信得分而選擇圖形。
4.根據(jù)權(quán)利要求3所述的信息處理設(shè)備,還包括檢測裝置,被適配成檢測語音信息中的噪聲度;其中選擇裝置根據(jù)噪聲度而對由語音識別裝置獲得的候選圖形的置信得分設(shè)置權(quán)重,并且相應(yīng)地增加置信得分。
5.根據(jù)權(quán)利要求3所述的信息處理設(shè)備,還包括接收裝置,被適配成接收來自定點設(shè)備的輸入;以及檢測裝置,被適配成檢測來自定點設(shè)備的輸入的速度;其中給定目標(biāo)包括由接收部件接收的來自定點設(shè)備的輸入;并且選擇裝置根據(jù)由檢測裝置檢測的來自定點設(shè)備的輸入的速度,對由圖形識別裝置獲得的候選圖形的置信得分設(shè)置權(quán)重,并且相應(yīng)地增加置信得分。
6.一種信息處理設(shè)備,包括文字識別裝置,被適配成通過對給定目標(biāo)執(zhí)行的文字識別來獲得候選文字;語音識別裝置,被適配成通過對輸入語音信息執(zhí)行的語音識別來獲得候選文字讀音;以及選擇裝置,被適配成基于由文字識別裝置獲得的候選文字以及由語音識別裝置獲得的候選文字,選擇文字。
7.根據(jù)權(quán)利要求6所述的信息處理設(shè)備,其中文字識別裝置獲得置信得分、以及每個候選者的至少一個讀音信息,其中置信得分表示候選圖形和各個候選者是目標(biāo)圖形的確信度;語音識別裝置獲得置信得分,其表示候選圖形和各個候選者是目標(biāo)圖形的確信度;以及選擇裝置包括第一計算裝置,被適配成針對包括在文字識別結(jié)果中的每個候選文字,計算對候選文字給出的讀音和文字識別結(jié)果中的相應(yīng)讀音之間的相似度;以及第二計算裝置,被適配成基于候選文字的原始置信得分、相似度、以及由語音識別裝置獲得的讀音的置信得分而計算校正識別置信得分,并且確定具有最大校正識別置信得分的文字作為選擇結(jié)果。
8.根據(jù)權(quán)利要求6所述的信息處理設(shè)備,還包括短語詞典,包括短語的標(biāo)記和讀音的組合;顯示控制裝置,被適配成控制由選擇裝置選擇的文字,以將其顯示在對應(yīng)于給定目標(biāo)的位置;確認(rèn)裝置,被適配成確認(rèn)由顯示控制裝置顯示的文字;接收裝置,被適配成在確認(rèn)了一個或多個文字之后,接收給定目標(biāo)和語音信息;搜索裝置,被適配成在短語詞典中搜索具有與標(biāo)記部分匹配的已確認(rèn)一個或多個文字的短語;后續(xù)文字獲得裝置,被適配成在由搜索裝置搜索的一個或多個短語的標(biāo)記中,獲得已確認(rèn)一個或多個文字的后續(xù)文字;第二文字識別裝置,被適配成相對于由后續(xù)文字獲得裝置獲得的后續(xù)文字,使由接收裝置接收的連續(xù)坐標(biāo)信息經(jīng)受文字識別,以便幫助將后續(xù)文字包括在識別結(jié)果中;第二語音識別裝置,被適配成在語音上識別由接收裝置接收的語音信息,以便幫助將后續(xù)文字包括在識別結(jié)果中;第二選擇裝置,被適配成基于由第二文字識別裝置獲得的候選文字和由第二語音識別裝置獲得的候選文字讀音而選擇文字;以及第二顯示控制裝置,被適配成控制由第二選擇裝置選擇的文字,以將其顯示在對應(yīng)于坐標(biāo)信息的位置。
9.一種信息處理設(shè)備,包括識別裝置,被適配成使給定目標(biāo)經(jīng)受模式識別,以獲得候選模式;語音識別裝置,被適配成在語音上識別輸入語音信息,以獲得用于指定模式的信息;以及選擇裝置,被適配成基于由識別裝置獲得的候選模式以及由語音識別裝置獲得的用于指定模式的信息,選擇模式。
10.一種信息處理設(shè)備,包括識別裝置,被適配成使給定目標(biāo)經(jīng)受模式識別,以獲得候選模式;語音識別裝置,被適配成對由識別裝置獲得的候選模式設(shè)置權(quán)重,并且在語音上識別輸入語音信息,以獲得候選模式;以及選擇裝置,被適配成在由語音識別裝置獲得的候選模式當(dāng)中選擇模式。
11.一種信息處理設(shè)備,包括語音識別裝置,被適配成在語音上識別輸入語音信息,以獲得候選模式;識別裝置,被適配成對由語音識別裝置獲得的候選模式設(shè)置權(quán)重,并且使給定目標(biāo)經(jīng)受模式識別,以獲得候選模式;以及選擇裝置,被適配成在由識別裝置獲得的候選模式當(dāng)中選擇模式。
12.一種信息處理方法,包括圖形識別結(jié)果獲得步驟,獲得作為對給定目標(biāo)執(zhí)行圖形識別的結(jié)果的候選圖形;語音識別結(jié)果獲得步驟,獲得作為在語音上識別語音信息的結(jié)果的候選圖形;以及選擇步驟,基于在圖形識別結(jié)果獲得步驟中獲得的候選圖形以及在語音識別結(jié)果獲得步驟中獲得的候選圖形,選擇圖形。
13.一種信息處理方法,包括文字識別結(jié)果獲得步驟,獲得作為對給定目標(biāo)執(zhí)行文字識別的結(jié)果的候選文字;語音識別結(jié)果獲得步驟,獲得作為在語音上識別語音信息的結(jié)果的候選文字讀音;以及選擇步驟,基于在文字識別結(jié)果獲得步驟中獲得的候選文字以及在語音識別結(jié)果獲得步驟中獲得的候選文字讀音,選擇文字。
14.一種信息處理方法,包括識別步驟,使給定目標(biāo)經(jīng)受模式識別,以獲得候選模式;語音識別步驟,在語音上識別輸入語音信息,以獲得用于指定模式的信息;以及選擇步驟,基于在識別步驟中獲得的候選模式以及在語音識別步驟中獲得的用于指定模式的信息,選擇模式。
15.一種信息處理方法,包括識別步驟,使給定目標(biāo)經(jīng)受模式識別,以獲得候選模式;語音識別步驟,對在識別步驟中獲得的候選模式設(shè)置權(quán)重,并且在語音上識別輸入語音信息,以獲得候選模式;以及選擇步驟,從在語音識別步驟中獲得的候選模式當(dāng)中選擇模式。
16.一種信息處理方法,包括語音識別步驟,在語音上識別輸入語音信息,以獲得候選模式;識別步驟,對在語音識別步驟中獲得的候選模式設(shè)置權(quán)重,并且使給定目標(biāo)經(jīng)受模式識別,以獲得候選模式;以及選擇步驟,從在識別步驟中獲得的候選模式當(dāng)中選擇模式。
17.一種記錄介質(zhì),用于存儲使計算機執(zhí)行根據(jù)權(quán)利要求12至16任一所述的信息處理方法的控制程序。
全文摘要
在根據(jù)本發(fā)明的用于通過組合使用語音輸入來識別手寫圖形或文字的信息處理方法中,為了提高識別率,使給定目標(biāo)經(jīng)受圖形識別,并且獲得第一候選圖形列表。在語音上識別輸入語音信息,并且獲得第二候選圖形列表?;谕ㄟ^圖形識別獲得的候選圖形以及通過語音識別獲得的候選圖形,選擇最可能的圖形。
文檔編號G06F3/01GK1912803SQ200610110949
公開日2007年2月14日 申請日期2006年8月11日 優(yōu)先權(quán)日2005年8月12日
發(fā)明者廣田誠, 深田俊明, 小森康弘 申請人:佳能株式會社