專利名稱:信息處理裝置和信息處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于管理通過網(wǎng)絡(luò)與圖像拾取裝置連接的計算機上的圖像數(shù)據(jù)的裝置和方法。
背景技術(shù):
現(xiàn)在,數(shù)字照相機已得到廣泛應(yīng)用。用戶一般在個人計算機或服務(wù)器上管理由諸如數(shù)字照相機的便攜式圖像拾取裝置捕獲的數(shù)字圖像。例如,可以在個人計算機或服務(wù)器上的文件夾中組織捕獲的圖像,并可以打印特定的圖像或?qū)⑵洳迦胭R卡中。并且,如果在服務(wù)器上管理一些圖像,那么其它用戶可以訪問這些圖像。
在這些情況下,用戶需要搜索所需的圖像。如果要搜索的圖像很少,那么可以將所有的圖像顯示為縮略圖,這樣可使用戶很容易地瀏覽并找到所需的圖像。但是,如果要搜索幾百張圖像,或者,如果在不同的文件夾中劃分和存儲目標圖像組,那么用戶僅通過瀏覽不容易找到所需的圖像。
一個方法是為圖像拾取裝置上的圖像添加在檢索中使用的聲音注釋。例如,如果捕獲到山的圖像,就將諸如“箱根的山”(意思是位于箱根(地名)的山)的聲音注釋添加到該圖像。將該聲音數(shù)據(jù)與捕獲的圖像的數(shù)據(jù)配對并將其存儲于圖像拾取裝置中。然后,在圖像拾取裝置中或上載了圖像的個人計算機上對聲音數(shù)據(jù)進行語音識別,并將其轉(zhuǎn)換為文本數(shù)據(jù)。將注釋數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)后,就可以通過一般的文本搜索方法用諸如“山”(意思是山)和“箱根”的關(guān)鍵詞找到該圖像。
在日本專利公開No.2003-219327、日本專利公開No.2002-325225和日本專利公開No.9-135417中公開了一些使用這種聲音注釋的技術(shù)。在這些技術(shù)中,用戶在圖像捕獲的過程中或圖像捕獲后將聲音注釋添加到圖像。然后,通過使用公知的語音識別技術(shù),用戶在圖像檢索中使用聲音數(shù)據(jù)。
由于進行語音識別導致極重的處理負荷,因此在當前可用的便攜式圖像拾取裝置中進行語音識別是不現(xiàn)實的。因此,需要將圖像和添加到該圖像上的聲音數(shù)據(jù)從圖像拾取裝置上載到可以進行語音識別的個人計算機或服務(wù)器上。
如上所述,提出和實施了這樣一些技術(shù),即,在這些技術(shù)中,圖像拾取裝置只采集聲音注釋,并且只在上載了圖像數(shù)據(jù)和聲音數(shù)據(jù)的個人電腦或服務(wù)器上進行語音識別。但是,對于對添加到捕獲的圖像的聲音識別數(shù)據(jù)進行的語音識別的定時,沒有清楚的說明,或者,在上載圖像數(shù)據(jù)和聲音數(shù)據(jù)后響應(yīng)用戶的要求進行語音識別。
因此,對于用戶來說,進行“圖像的上載”和給出“語音識別指示”是很繁瑣的。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明一種信息處理裝置,該信息處理裝置包括以下部件接收裝置,用于從其它裝置接收圖像和聲音信息;語音識別裝置,用于在接收裝置接收聲音信息的情況下對聲音信息進行語音識別;和存儲裝置,用于關(guān)聯(lián)并存儲通過語音識別裝置得到的語音識別結(jié)果和圖像。
并且,本發(fā)明提供一種信息處理裝置,該信息處理裝置包括以下部件獲取裝置,用于獲取與圖像有關(guān)的聲音信息;檢測裝置,用于檢測不同于手動(manually)指示語音識別的事件的特定事件;語音識別裝置,用于響應(yīng)所述檢測裝置檢測到所檢測的所述特定事件,對聲音信息進行語音識別;存儲裝置,用于關(guān)聯(lián)并存儲通過所述語音識別裝置得到的語音識別結(jié)果和圖像。
通過參照
以下示例性實施例,本發(fā)明的其它特征和優(yōu)點將變得更加明顯。
圖1表示本發(fā)明的實施例的圖像管理裝置的功能結(jié)構(gòu)。
圖2是本發(fā)明的實施例的圖像管理裝置的流程圖。
圖3表示本發(fā)明的圖像管理裝置的事件解釋數(shù)據(jù)表的例子。
圖4表示第一實施例的便攜式圖像拾取裝置的例子。
圖5表示第一實施例的圖像上載時的操作用戶界面(UI)畫面的例子。
圖6表示第一實施例的存儲語音識別的文件的例子。
圖7表示第一實施例的使用圖像管理裝置中的圖像/語音識別結(jié)果數(shù)據(jù)庫的圖像檢索的過程中的UI畫面的例子。
圖8表示第一實施例的使用圖像管理裝置中的圖像/語音識別結(jié)果數(shù)據(jù)庫的圖像檢索的流程圖。
圖9表示第三實施例的圖像管理裝置的事件解釋數(shù)據(jù)表的例子。
具體實施例方式
現(xiàn)在參照
本發(fā)明的實施例。
(第一實施例)以下將說明圖像管理裝置,作為本發(fā)明的信息處理裝置的示例。
圖1表示根據(jù)本發(fā)明的圖像管理裝置的功能結(jié)構(gòu)。圖像管理裝置101與事件發(fā)布單元102和便攜式圖像拾取裝置103連接。事件發(fā)布單元102包含于外部裝置或應(yīng)用中并發(fā)布(issue)各種事件。通過在特定的存儲區(qū)域內(nèi)設(shè)置特定的值,實現(xiàn)這些事件。
在基本的動作中,圖像管理裝置101接收輸入的事件,并且,如果確定接收的事件是適當?shù)?,則開始動作。該動作涉及對從便攜式圖像拾取裝置103獲取的聲音注釋數(shù)據(jù)進行語音識別,以及在圖像管理裝置101中的圖像/語音識別結(jié)果數(shù)據(jù)庫中存儲聲音數(shù)據(jù)和圖像。
圖像管理裝置101中的事件檢測單元104從圖像管理裝置101外的事件發(fā)布單元102接收事件。然后,將接收的事件發(fā)送到控制單元105,在該控制單元中,響應(yīng)事件確定繼續(xù)進行語音識別是否適當。基于圖像管理裝置101中的事件解釋數(shù)據(jù)表108進行上述確定。將確定結(jié)果保持為例如標記(flag)??梢栽趫D像管理裝置101內(nèi)設(shè)置事件發(fā)布單元102。
圖3表示事件解釋數(shù)據(jù)表的例子。表301包含與表示是否開始語音識別的值配對的事件名稱。當檢測到用于開始語音識別(值是“是”)的事件時,確定語音識別開始。
當確定語音識別開始時,聲音注釋數(shù)據(jù)加載單元106將聲音注釋數(shù)據(jù)從便攜式圖像拾取裝置103加載到圖像管理裝置101中。
將加載的聲音注釋數(shù)據(jù)發(fā)送到聲音注釋數(shù)據(jù)識別單元110,在該聲音注釋數(shù)據(jù)識別單元中,通過使用現(xiàn)有的語音識別技術(shù),對加載的聲音注釋數(shù)據(jù)進行語音識別。將語音識別的結(jié)果發(fā)送到語音識別結(jié)果存儲單元107。聲音注釋數(shù)據(jù)識別單元110使用諸如語音識別語法和聲學模型的語音識別數(shù)據(jù)109用于語音識別。
語音識別結(jié)果存儲單元107將基于文本的語音識別結(jié)果與相應(yīng)的圖像配對,并將它們存儲在圖像/語音識別結(jié)果數(shù)據(jù)庫111中。例如,語音識別的結(jié)果可以被存儲在圖像數(shù)據(jù)文件內(nèi)的注解區(qū)(commentarea)內(nèi),或者,可以被存儲在名稱與圖像數(shù)據(jù)文件相同但擴展名與圖像數(shù)據(jù)文件不同的文件內(nèi)。作為替代方案,可以響應(yīng)語音識別的結(jié)果改變圖像數(shù)據(jù)的文件名。
圖2是圖像管理裝置101的主要流程。當圖像管理裝置101開始時,該流程開始。首先,確定是否檢測到程序終止事件(S201)。如果檢測到終止事件,則終止本處理。
如果沒有檢測到終止事件,則基于圖3中所示的事件解釋數(shù)據(jù)表確定是否檢測到開始語音識別的事件(S202)。如果沒有檢測到開始語音識別的事件,則本處理不執(zhí)行下面的處理而返回流程的頂端。如果檢測到開始語音識別的事件,則從圖像拾取裝置加載聲音注釋數(shù)據(jù)(S203)。
對加載的聲音注釋數(shù)據(jù)進行語音識別(S204)。因此,不需要來自用戶的特定指示就能自動執(zhí)行語音識別過程。由于語音識別的過程是公知的技術(shù),因此這里不進行詳述。與來自圖像拾取裝置的圖像一起,在圖像管理裝置101內(nèi)的數(shù)據(jù)庫中存儲基于文本的語音識別結(jié)果(S205)。
一旦完成上述處理,則處理返回頂端,并重新開始事件的檢測。
因此,當在與圖像拾取裝置連接的個人計算機上執(zhí)行在便攜式圖像拾取裝置內(nèi)輸入的聲音注釋數(shù)據(jù)的語音識別時,可以通過諸如圖像上載指示的不是明示的語音識別指示的事件,觸發(fā)語音識別。
(第二實施例)現(xiàn)在說明包括圖像管理裝置的圖像檢索系統(tǒng)的例子。圖4表示在本實施例中使用的便攜式圖像拾取裝置的例子。
用戶使用諸如數(shù)字照相機或可拍照手機的便攜式圖像拾取裝置401捕獲圖像。該便攜式圖像拾取裝置401具有圖像確認屏403。操作模式開關(guān)405允許在圖像拾取模式和可在圖像確認屏403上確認以前捕獲的圖像的圖像確認模式之間進行切換。
在圖像確認模式中,用戶可以將聲音注釋添加到特定的圖像。例如,使用在圖像確認屏403上顯示的所需的圖像,用戶可以通過按聲音注釋添加按鈕402,將聲音注釋添加到該圖像。具體地說,通過按該按鈕,開始用麥克風404捕獲一定時間的語音。然后,將聲音數(shù)據(jù)與該圖像相關(guān)聯(lián),并將其存儲在圖像拾取裝置內(nèi)的存儲器中。
例如,假定添加諸如“箱根的山”的聲音注釋。在種情況下,圖像拾取裝置將該聲音數(shù)據(jù)與相應(yīng)的圖像相關(guān)聯(lián),并將其存儲在圖像拾取裝置內(nèi)的存儲器中。
圖5表示圖像上載的過程中的操作用戶界面(UI)畫面的例子。當將便攜式圖像拾取裝置與個人計算機連接時,啟動具有圖像確認對話框501的應(yīng)用。在圖像確認對話框501內(nèi)以縮略圖的方式顯示與個人計算機連接的圖像拾取裝置內(nèi)的圖像。
在縮略圖的列表中,可以以不同的方式顯示上載的圖像502和待上載的圖像503。例如,在圖5中,對上載的圖像的縮略圖加陰影,以使用戶辨別已上載了哪些圖像。并且,可以用特定的符號標記添加聲音注釋的圖像的縮略圖。在圖5中,例如,用音符標記這種縮略圖。
用戶選擇待上載的圖像,并選擇上載指示按鈕504。選擇該按鈕允許將圖像拾取裝置401中的所選的圖像上載到個人計算機中的圖像數(shù)據(jù)庫中。
同時,將圖像上載指示事件發(fā)布到圖像管理裝置101。使用圖3中的數(shù)據(jù)表301,將圖像上載指示事件解釋為語音識別的開始。然后,從便攜式圖像拾取裝置401加載添加到對應(yīng)圖像的聲音注釋數(shù)據(jù),并對其進行語音識別。將語音識別的結(jié)果放在文件中并存儲在圖像管理裝置101中的數(shù)據(jù)庫中。
圖6表示這種文件的例子。語音識別結(jié)果文件601存儲對聲音注釋數(shù)據(jù)進行的語音識別的結(jié)果。從一個聲音注釋數(shù)據(jù)產(chǎn)生一個語音識別結(jié)果文件。
語音識別引擎可以為一個語音(聲音注釋數(shù)據(jù))輸出多個候選的識別結(jié)果。在語音識別結(jié)果文件601中,每行存儲一個候選的結(jié)果。圖6中的例子表示輸出五個侯選的識別結(jié)果。
各侯選的識別結(jié)果包含三個字段。從“字符串=”開始的語音識別音素字符串602的字段包含語音識別結(jié)果的音素字符串。從“類型=”開始的語音識別語法類型603的字段包含用于結(jié)果的輸出的語言控制信息(語音識別語法的類型)。在本例子中,將諸如音素類型書寫器(typewriter)(類型=類型書寫器)的語法和用于識別一般單詞的語法的兩個語法用于識別。最后的從“分數(shù)=”開始的分數(shù)604的字段包含侯選的識別結(jié)果的分數(shù)。從聲學上的可能性和語言學上的可能性計算該分數(shù)。較高的分數(shù)表示較高的識別結(jié)果可靠性。
在圖像管理裝置101中的圖像/語音識別結(jié)果數(shù)據(jù)庫中存儲這種語音識別結(jié)果文件601。具體而言,在與圖像數(shù)據(jù)相同的文件夾中,存儲文件名與對應(yīng)的圖像數(shù)據(jù)相同但擴展名變?yōu)椤皏a”的語音識別結(jié)果文件601。
圖7表示使用圖像管理裝置101中的圖像/語音識別結(jié)果數(shù)據(jù)庫111的圖像檢索的過程。
用戶在圖像檢索對話框701中的搜索字符串輸入?yún)^(qū)702中輸入搜索字符串并選擇搜索開始按鈕703。進行搜索,以尋找與搜索查詢匹配的圖像。檢索的圖像顯示為縮略圖704的列表。
該搜索過程的流程如圖8所示。對圖7中的搜索開始按鈕703的選擇啟動該流程。
首先,從搜索字符串輸入?yún)^(qū)702中讀取日文音素字符和日文漢字(中國字)字符的混合的搜索字符串(S801)。然后,使用現(xiàn)有的語言處理方法,將該搜索字符串轉(zhuǎn)換為音素字符串(S802)并將其存儲在變量A中。
然后,從圖像管理裝置101中的圖像/語音識別結(jié)果數(shù)據(jù)庫111中得到一個語音識別結(jié)果文件601。這里,將得到的文件命名為語音識別結(jié)果文件α(S803)。
然后將變量C_max清零(S804)。然后,從語音識別結(jié)果文件α得到語音識別侯選項。如圖6所示,該侯選項是與語音識別結(jié)果文件601中的各行對應(yīng)的信息。將得到的侯選項的“字符串=”后面的語音識別音素字符串(S805)存儲在變量B中。
然后,計算變量A和B中存儲的音素字符串的相似性(S806)??梢酝ㄟ^使用現(xiàn)有的動態(tài)計劃(programming)法完成該步驟。將計算的相似性值存儲在變量C中。
將存儲的變量C與C_max相比較(S807)。如果C比C_max大,則用C更新C_max(S808)。
對語音識別結(jié)果文件α中的所有語音識別的候選頂執(zhí)行上述過程。在對于所有的識別侯選項執(zhí)行該過程(S809)后,將C_max確定為語音識別結(jié)果文件α的分數(shù)(S810)。
對于圖像/語音識別結(jié)果數(shù)據(jù)庫111中的所有語音識別結(jié)果文件601執(zhí)行上述過程。對于所有的語音識別結(jié)果文件完成該過程后(S811),通過為各文件計算的分數(shù)將這些文件分類。向用戶呈現(xiàn)分數(shù)最高的N個圖像(S812),并且本流程在這里結(jié)束。
因此,可以通過使用文本數(shù)據(jù),檢索圖像管理裝置中的圖像。
(第三實施例)在上述各實施例中,以圖像上載指示事件作為用于開始語音識別的事件。也可以用其它事件開始語音識別。這些例子包括當在圖像管理裝置101和便攜式圖像拾取401裝置之間建立連接時發(fā)布的“連接事件”。在這種情況下,由于在不發(fā)布圖像上載指示事件的情況下開始語音識別,因此可以用更少的過程實現(xiàn)所要的操作。
這些例子還包括當啟動特定的應(yīng)用時發(fā)布的“啟動事件”和當打開圖像搜索窗口時發(fā)布的“搜索窗口打開事件”??梢杂纱嗽趯嶋H需要時得到語音識別的結(jié)果。
其它例子包括當用鼠標選擇如圖5所示的縮略圖時發(fā)布的“鼠標點擊事件”;“鼠標結(jié)束事件”;和在用圖像編輯工具編輯特定的圖像后發(fā)布的“圖像編輯事件”。這些例子允許僅對添加到用戶實際感興趣的圖像的聲音數(shù)據(jù)進行語音識別。其優(yōu)點在于,可靠地處理必要的數(shù)據(jù),而可以不處理不必要的數(shù)據(jù)。
也可以使用以一定的時間間隔發(fā)布的“定時器事件”。這樣可以為用戶提供進度安排能力。
(第四實施例)在上述各實施例中,僅通過接收的特定事件確定語音識別的開始。但是,也可以基于與圖像管理裝置101中的其它信息的組合進行確定。例如,可以基于在如圖9所示的事件解釋數(shù)據(jù)表901中說明的條件表達式進行該確定。
在圖9所示的例子中,將關(guān)于是否在圖像/語音識別結(jié)果數(shù)據(jù)庫111中存儲語音識別結(jié)果文件601的信息加入基于定時器事件的確定中。在這種情況下,當發(fā)布一定的定時器事件(例如,每十分鐘)時,搜索圖像/語音識別結(jié)果數(shù)據(jù)庫111,以僅對從其還沒有產(chǎn)生語音識別結(jié)果文件601的聲音數(shù)據(jù)進行語音識別。
并且,可以存儲各種類型的語音識別數(shù)據(jù),使得可以根據(jù)事件的類型改變在語音識別中使用的這種數(shù)據(jù)的類型。例如,在需要相對較快的處理的“鼠標點擊事件”和“圖像編輯事件”的情況下,即使犧牲精度,也要使用允許高速語音識別的語音識別數(shù)據(jù)。另一方面,對于圖像上載指示事件和定時器事件,即使犧牲速度,也要使用允許精確語音識別的語音識別數(shù)據(jù)。
在本發(fā)明中,可以為系統(tǒng)或裝置提供記錄執(zhí)行上述實施例的功能的軟件程序代碼的存儲介質(zhì),使得計算機(或中心處理單元(CPU)或微處理單元(MPU))即該系統(tǒng)或裝置讀出并執(zhí)行在存儲介質(zhì)中存儲的程序代碼。
在這種情況下,從存儲介質(zhì)讀出的程序代碼執(zhí)行上述實施例的功能,使得存儲程序代碼的存儲介質(zhì)構(gòu)成本發(fā)明。
用于供給程序代碼的存儲介質(zhì)可以為例如軟盤、硬盤、光盤、磁光(MO)盤、CD-ROM、可記錄CD(CD-R)、磁帶、非易失性存儲卡和ROM。
不但可以通過讀取并執(zhí)行程序代碼的計算機,而且可以通過在計算機上運行并根據(jù)程序代碼執(zhí)行整個或部分實際處理的操作系統(tǒng)(OS),執(zhí)行上述各實施例的功能。
也可以在將從存儲介質(zhì)讀出的程序代碼寫入與計算機連接的擴展單元中或?qū)懭胗嬎銠C中的功能擴展板的存儲器中后,通過在功能擴展板或擴展單元中包括的CPU等根據(jù)程序代碼的指令執(zhí)行實際處理的全部或一部分,實現(xiàn)上述各實施例的功能。
參照示例性實施例說明了本發(fā)明,但應(yīng)理解本發(fā)明不限于公開的實施例。相反,本發(fā)明意在覆蓋在所附的權(quán)利要求書的精神和范圍內(nèi)包含的各種修改和等同配置。應(yīng)按照最寬的范圍解釋以下權(quán)利要求書,以使其包含所有的這種修改、等同結(jié)構(gòu)和功能。
權(quán)利要求
1.一種信息處理裝置,該信息處理裝置包括接收裝置,用于從其它裝置接收圖像和聲音信息;語音識別裝置,用于在接收裝置接收到聲音信息的情況下對聲音信息進行語音識別;和存儲裝置,用于關(guān)聯(lián)并存儲通過所述語音識別裝置得到的語音識別結(jié)果和圖像。
2.一種信息處理裝置,該信息處理裝置包括獲取裝置,用于獲取與圖像有關(guān)的聲音信息;檢測裝置,用于檢測不同于手動指示語音識別的事件的特定事件;語音識別裝置,用于響應(yīng)所述檢測裝置檢測到所檢測的所述特定事件,對聲音信息進行語音識別;以及存儲裝置,用于關(guān)聯(lián)并存儲通過所述語音識別裝置得到的語音識別結(jié)果和圖像。
3.根據(jù)權(quán)利要求2的信息處理裝置,其中,在指示每個事件是否是用于進行語音識別的觸發(fā)事件的表中被記錄的所述特定事件是所述用于進行語音識別的觸發(fā)事件。
4.根據(jù)權(quán)利要求2的信息處理裝置,其中,所述特定事件是上載圖像時發(fā)布的事件、在信息處理裝置和圖像拾取裝置之間建立連接時發(fā)布的事件、以一定的時間間隔發(fā)布的事件、啟動程序時發(fā)布的事件、啟動特定的對話框時發(fā)布的事件、特定的縮略圖的選擇或在對圖像進行編輯后發(fā)布的事件中的一個或其組合。
5.一種在信息處理裝置中執(zhí)行的信息處理方法,該方法包括以下步驟從其它裝置接收圖像和聲音信息;在聲音信息被接收的情況下對聲音信息進行語音識別;和關(guān)聯(lián)并存儲在進行語音識別步驟中得到的語音識別結(jié)果和圖像。
6.一種在信息處理裝置中執(zhí)行的信息處理方法,該方法包括以下步驟獲取與圖像有關(guān)的聲音信息;檢測不同于手動指示語音識別的事件的特定事件;響應(yīng)在檢測步驟中檢測到的所述特定事件對聲音信息進行語音識別;以及關(guān)聯(lián)并存儲在進行語音識別步驟中得到的語音識別結(jié)果和圖像。
7.根據(jù)權(quán)利要求6的信息處理方法,其中在指示每個事件是否是用于進行語音識別的觸發(fā)事件的表中被記錄的所述特定事件是所述用于進行語音識別的觸發(fā)事件。
8.根據(jù)權(quán)利要求6的信息處理裝置,其中,所述特定事件是上載圖像時發(fā)布的事件、在信息處理裝置和圖像拾取裝置之間建立連接時發(fā)布的事件、以一定的時間間隔發(fā)布的事件、啟動程序時發(fā)布的事件、啟動特定的對話框時發(fā)布的事件、特定的縮略圖的選擇或在對圖像進行編輯后發(fā)布的事件中的一個或其組合。
9.一種信息處理方法,該方法包括以下步驟獲取與圖像有關(guān)的聲音信息;檢測不同于手動指示語音識別的事件的特定事件;響應(yīng)在檢測步驟中檢測到的所述特定事件開始對聲音信息進行語音識別;以及使語音識別結(jié)果和圖像關(guān)聯(lián)并存儲,其中作為對聲音信息進行語音識別的結(jié)果得到所述語音識別結(jié)果。
10.一種記錄介質(zhì),存儲用于使計算機執(zhí)行權(quán)利要求5-9任何一項的信息處理方法的計算機可執(zhí)行程序。
全文摘要
在通過對添加到圖像的聲音信息進行語音識別進行圖像檢索的系統(tǒng)中,通過不是明示的語音識別指示事件的諸如圖像上載事件的事件觸發(fā)語音識別。該系統(tǒng)得到添加到圖像的聲音信息,檢測事件,并且,即使檢測的事件不是明示的語音識別指示事件,該系統(tǒng)也響應(yīng)特定的事件對得到的聲音信息進行語音識別。
文檔編號G06F17/30GK1704926SQ20051007432
公開日2005年12月7日 申請日期2005年6月1日 優(yōu)先權(quán)日2004年6月1日
發(fā)明者中川賢一郎, 廣田誠, 池田裕美, 八木沢津義, 山本寬樹, 深田俊明, 小森康弘 申請人:佳能株式會社