聲音同時處理裝置、方法及程序的制作方法
【專利摘要】本發(fā)明涉及聲音同時處理裝置、方法及程序。將發(fā)聲聲音的識別結(jié)果分割為適當(dāng)?shù)奶幚韱挝?。包括:取得部,取得聲音信號;聲音識別部,生成聲音信號中聲音識別處理結(jié)束后變換為字符串的聲音區(qū)間對應(yīng)的字符串即確定字符串和為后續(xù)于確定字符串的聲音區(qū)間的、處于聲音識別處理途中且未確定作為變換結(jié)果的字符串的聲音區(qū)間對應(yīng)的一個以上的候補字符串;檢測部,對分別連接確定字符串和一個以上的候補字符串而成的一個以上的組合字符串,由表示成為自然語言處理中處理單位的開始位置的詞素的位置的分割點分割該組合字符串時,在存在在組合字符串的各個中相同的包括于確定字符串的字符串時,將該字符串檢測為處理單位字符串;輸出部,輸出處理單位字符串。
【專利說明】聲音同時處理裝置、方法及程序
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明的實施方式涉及聲音同時處理裝置、方法及程序。
【背景技術(shù)】
[0002]近年,伴隨聲音處理技術(shù)的提高,應(yīng)用接收人的發(fā)聲而工作的各種服務(wù)例如聲音指令、聲音檢索及聲音對話等的系統(tǒng)。人的發(fā)聲即口頭語言中沒有書面語言所包括的標(biāo)點符號那樣的明確的斷句(劃分)處,為了提供上述服務(wù),必須將接收的發(fā)聲分割為適于該服務(wù)的單位。作為分割為適于服務(wù)的處理單位的方法,存在將包括無聲區(qū)間即停頓的發(fā)聲分割為處理單位的方法。
【發(fā)明內(nèi)容】
[0003]但是,上述的方法中,由于將因講話者和/或講話方式的差異而變化大的停頓用作發(fā)聲的斷句信息,因此有時無法檢測適當(dāng)?shù)奶幚韱挝?。例如,將以預(yù)先確定的長度的停頓長度斷句的聲音區(qū)間中的聲音識別結(jié)果的字符串分割為處理單位時,事先應(yīng)提供的適當(dāng)?shù)耐nD長度因講話者而異,而且,即使是同一講話者也不一定總是采用一定的停頓長度,因此無法檢測出適當(dāng)?shù)奶幚韱挝弧?br>
[0004]另外,增大停頓長度的閾值時,直到確定處理單位為止的時間增加,因此,對原始發(fā)聲的后續(xù)處理的同步性降低。另一方面,減小停頓長度的閾值時,同步性提高,但是,由于通過停頓而斷句的單位增加,因此,檢測到零碎的處理單位,后續(xù)處理的精度降低。
[0005]本發(fā)明為解決上述問題而提出,目的是提供可以將發(fā)聲聲音的識別結(jié)果分割為適當(dāng)?shù)奶幚韱挝坏穆曇敉瑫r處理裝置、方法及程序。
[0006]本發(fā)明的一實施方式的聲音同時處理裝置包括取得部、聲音識別部、檢測部和輸出部。取得部取得聲音信號。聲音識別部生成:上述聲音信號中的聲音識別處理結(jié)束后變換為字符串的聲音區(qū)間所對應(yīng)的字符串即確定字符串,和為后續(xù)于該確定字符串的聲音區(qū)間的、處于聲音識別的處理途中而未確定作為變換結(jié)果的字符串的聲音區(qū)間所對應(yīng)的一個以上的候補字符串。檢測部對于將上述確定字符串和一個以上的上述候補字符串分別連接而成的一個以上的組合字符串,在通過表示成為自然語言處理中的處理單位的開始位置的詞素的位置的分割點分割該組合字符串時,在存在在上述組合字符串的各個中相同的、包括于上述確定字符串的字符串的情況下,將該字符串檢測為處理單位字符串。輸出部輸出上述處理單位字符串。
[0007]根據(jù)上述構(gòu)成的聲音同時處理裝置,可以將發(fā)聲聲音的識別結(jié)果分割為適當(dāng)?shù)奶幚韱挝弧?br>
【專利附圖】
【附圖說明】
[0008]圖1是表示第I實施方式的聲音同時處理裝置的框圖。
[0009]圖2是表示第I實施方式的聲音同時處理裝置的工作的流程圖。
[0010]圖3是表示識別結(jié)果存儲部存儲的確定字符串和候補字符串的第I例的示圖。
[0011]圖4是表示組合字符串的分割點的檢測結(jié)果的第I例的示圖。
[0012]圖5是表示第I實施方式中的處理單位存儲部存儲的處理單位字符串的示圖。
[0013]圖6是表示識別結(jié)果存儲部存儲的確定字符串和候補字符串的第2例的示圖。
[0014]圖7是表示組合字符串的分割點的檢測結(jié)果的第2例的示圖。
[0015]圖8是表示第2實施方式的聲音同時處理裝置的框圖。
[0016]圖9是表示第2實施方式的聲音同時處理裝置的工作的流程圖。
[0017]圖10是表示第2實施方式的處理單位存儲部存儲的處理單位信息的第I例的示圖。
[0018]圖11是表示再處理單位字符串的分割點的檢測結(jié)果的示圖。
[0019]圖12是表示處理單位存儲部存儲的處理單位信息的第2例的示圖。
[0020]圖13是表示處理單位存儲部存儲的處理單位信息的第3例的示圖。
[0021]圖14是表示再處理單位字符串的分割點的檢測結(jié)果的示圖。
[0022]圖15是表示更新后的處理單位信息的一例的示圖。
【具體實施方式】
[0023]以下,參照附圖詳細說明本公開的一實施方式的聲音同時處理裝置、方法及程序。另外,以下的實施方式中,附同一編號的部分進行同樣的工作,將重復(fù)的說明省略。
[0024](第I實施方式)
[0025]參照圖1的框圖說明第I實施方式的聲音同時處理裝置。
[0026]本實施方式的聲音同時處理裝置100包括取得部101、聲音識別部102、識別結(jié)果存儲部103、檢測部104、處理單位存儲部105及輸出部106。
[0027]取得部101取得講話者發(fā)出的聲音作為聲音信號。聲音信號可以例如通過麥克風(fēng)集音并將其通過模擬及數(shù)字變換器(A/D變換器)處理而獲得。另外,也可以將預(yù)先在記錄介質(zhì)等錄音的聲音通過再現(xiàn)器件等讀入記錄介質(zhì)并再現(xiàn)而取得為聲音信號。
[0028]聲音識別部102從取得部101接收聲音信號,對聲音信號進行聲音識別處理,將聲音信號變換為文本字符串。聲音識別處理例如以采用隱馬爾可夫模型(Hidden MarkovModel:HMM)等的一般方法進行即可,因此這里省略詳細說明。另外,聲音識別部102生成:聲音識別處理結(jié)束后變換為字符串的聲音區(qū)間所對應(yīng)的字符串即確定字符串;為后續(xù)于該確定字符串的聲音區(qū)間的、處于聲音識別的處理途中并且作為變換結(jié)果的字符串未確定的聲音區(qū)間所對應(yīng)的一個以上的候補字符串。
[0029]確定字符串及候補字符串的生成方法生成例如聲音信號中的一定的無聲期間(停頓)作為斷句處即可。即,將比停頓時間性靠前的區(qū)間的聲音所對應(yīng)的確定了一個以上的候補的狀態(tài)下的最大似然的字符串設(shè)為確定字符串,將比停頓靠后的區(qū)間的聲音所對應(yīng)的一個以上的字符串設(shè)為候補字符串即可。以下,將候補字符串的集合稱為候補字符串集口 ο
[0030]另外,確定字符串可以僅僅是相對于確定的聲音區(qū)間的最大似然的字符串,也可以以包括與確定的聲音區(qū)間對應(yīng)的其他候補的形式如字符串點陣(lattice)形式生成。同樣,候補字符串集合也可以按每個候補字符串區(qū)別生成,也可以以字符串點陣形式輸出。
[0031]另外,作為確定字符串及候補字符串的生成方法的其他例,也可以通過:采用與聲音識別處理中的聲音相當(dāng)?shù)淖址蜓a達到預(yù)定單詞數(shù)的位置來取代停頓、采用字符串候補的生成概率超過一定的閾值的位置來取代停頓,生成確定字符串及候補字符串。
[0032]識別結(jié)果存儲部103從聲音識別部102接收確定字符串及一個以上的候補字符串,分別對應(yīng)地存儲。另外,本實施方式中,確定字符串及候補字符串假定是單詞信息未附屬的明碼電文,但是也可以存儲按單詞斷句的系列來作為聲音識別部102的聲音識別處理結(jié)果。
[0033]檢測部104從識別結(jié)果存儲部103取得確定字符串及候補字符串集合。檢測部104將確定字符串和候補字符串集合所包括的各個候補字符串連接,獲得一個以上的組合字符串。檢測部104分析各個組合字符串,在可成為后續(xù)的自然語言處理的處理單位的開始位置的詞素的位置,檢測一個以上表示將組合字符串分割為部分字符串的位置的分割點。檢測部104在通過分割點分割組合字符串時,在存在在各個組合字符串中相同的、包括于確定字符串的字符串的情況下,將確定字符串所包括的字符串檢測為處理單位字符串。另外,各個組合字符串的集合也稱為組合字符串集合。
[0034]這里,處理單位是指:表示對于與聲音同時處理裝置100連接的其他器件的工作最佳的字符串,例如,與機器翻譯裝置連接時是同時并行地譯出向機器翻譯裝置輸入的聲音而獲得最佳的翻譯結(jié)果那樣的翻譯單位。另外,在對發(fā)聲要求高追隨性的同聲翻譯等的聲音對話時,作為除了翻譯結(jié)果的品質(zhì)之外還以相對于發(fā)聲的遲延時間為變量而實現(xiàn)最佳口譯精度和口譯時間的單位,同時并行地將聲音作為聲音對話的任務(wù)而處理的單位與之相當(dāng)。
[0035]另外,檢測部104中,例如,可以用帶條件的隨機域(Condit1ning Random Field,條件隨機域)隨機地推定成為處理單位的分割點。機器學(xué)習(xí)中,也可以采用被賦予理想的處理單位的信息的學(xué)習(xí)數(shù)據(jù)(語料庫)來學(xué)習(xí)分割點,或者,在未被賦予理想的處理單位的信息的數(shù)據(jù)中,也可以學(xué)習(xí)使與本實施方式的聲音同時處理裝置連接的裝置理想地工作的概率最大化的分割點。
[0036]機器學(xué)習(xí)方法除了本實施方式說明的帶條件隨機域之外,也可以采用HMM、支持向量機(Support Vector Machine: SVM)這樣的其他模型來推定分割點,不限于上述的實現(xiàn)方式。另外,除了統(tǒng)計地檢測分割點的方法以外,例如,也可以應(yīng)用基于詞素系列中的圖形匹配的方法和/或采用語法信息的方法等。
[0037]處理單位存儲部105從檢測部104接收處理單位字符串并存儲。
[0038]輸出部106從識別結(jié)果存儲部103接收確定字符串及候補字符串、從處理單位存儲部105接收處理單位字符串,向外部輸出。向外部的輸出可以在每次處理單位字符串生成時輸出,也可以在積累某種程度的處理單位字符串后匯總輸出。另外,也可以包? LCD (Liquid crystal display:液晶顯不器)和 / 或 0LED(organic light emittingd1de:有機發(fā)光二極管)顯示器這樣的顯示器件、和/或打印器件、揚聲器等的聲音器件、硬盤驅(qū)動器等的存儲介質(zhì)的存儲器件。
[0039]接著,參照圖2的流程圖說明第I實施方式的聲音同時處理裝置100的工作。
[0040]步驟S201中,聲音識別部102對取得部101取得的聲音進行聲音識別處理,獲得確定字符串和候補字符串集合。
[0041]步驟S202中,檢測部104將確定字符串和候補字符串集合所包括的各個候補字符串連接,生成組合字符串,獲得以組合字符串為要素的組合字符串集合。這里,生成與候補字符串的數(shù)目對應(yīng)的組合字符串。
[0042]步驟S203中,檢測部104在由分割點分割各個組合字符串時,判定是否存在:使得存在在各個組合字符串中相同的、包括于確定字符串的字符串那樣的分割點。若有使得存在在各個組合字符串中相同的、包括于確定字符串的字符串那樣的分割點,則進入步驟S204,若沒有使得存在在各個組合字符串中相同的、包括于確定字符串的字符串那樣的分割點,則結(jié)束處理。
[0043]步驟S204中,處理單位存儲部105將確定字符串所包括的字符串存儲為處理單位字符串。
[0044]步驟S205中,輸出部106參照處理單位存儲部105,向外部輸出未輸出的處理單位字符串。以上,第I實施方式的聲音同時處理裝置100的工作結(jié)束。
[0045]接著,參照圖3到圖5說明第I實施方式的聲音同時處理裝置100的工作的具體例。這里,表示對聲音同時處理裝置100連接從日語翻譯為英語的機器翻譯裝置的例。
[0046]這里,假定下述狀況:講話者連續(xù)地發(fā)出“千葉市內(nèi)T (V)予約(V) tz
妒良P * r > f見ο If X (Y) i b I t /V分,,的內(nèi)容,聲音同時處理裝置100取得該發(fā)聲。記號(V)表示聲音同時處理裝置100識別為無聲區(qū)間(停頓)的位置。
[0047]首先,發(fā)聲為“千葉市內(nèi)T (V)”時,聲音識別部102進行聲音識別處理,生成確定字符串和一個以上的候補字符串。參照圖3說明識別結(jié)果存儲部103存儲的確定字符串和候補字符串。
[0048]在識別結(jié)果存儲部103,確定字符串301和一個以上的候補字符串302對應(yīng)地存儲。這里,相對于確定字符串301 “千葉市內(nèi)C”,分別對應(yīng)有候補字符串302 “火照3 &”、“ * r ”、“掘ο T ^ & ”、“補填Θ ”。通過連接確定字符串301和各個候補字符串302,可以獲得組合字符串。即,獲得“千葉市內(nèi)T火照石&”、“千葉市內(nèi)O * ^ “千葉市內(nèi)讀。又^ 3 &”、“千葉市內(nèi)T補填O”作為組合字符串,這4個組合字符串的集合成為組合字符串集合。
[0049]接著,檢測部104分析各個組合字符串,檢測分割點。分割點的檢測結(jié)果參照圖4說明。
[0050]圖4表示采用帶條件隨機域向組合字符串401所包括的詞素賦予表示分割點對處理單位的候補位置的標(biāo)簽402的例?!癇”表示成為處理單位的開始位置的詞素的位置,“I”表示處于處理單位的途中的詞素的位置。
[0051]例如,對于組合字符串401 “千葉市內(nèi)T火照石Iv ”,可以在標(biāo)簽402的“B”的分割點的位置分割為部分字符串,因此,可知可以分割為“千葉市內(nèi)^ ”和“火照石的字符串。同樣,對于組合字符串“千葉市內(nèi)T > O”,可以在標(biāo)簽402 “B”的分割點的位置分割為“千葉市內(nèi)T ”和虧 > 乃”。
[0052]這里,檢測部104檢測使得存在在各個組合字符串401中相同的、包括于確定字符串的字符串那樣的分割點。圖4的例中,分割點中,可用標(biāo)簽402 “B”分割,使得存在在各個組合字符串401中相同的、包括于確定字符串的字符串。即,由于存在確定字符串即“千葉市內(nèi)T ”,因此將“千葉市內(nèi)T ”檢測為處理單位字符串。
[0053]圖5表示將檢測部104獲得的處理單位字符串存儲在處理單位存儲部105的一例。如圖5所示,存儲處理單位字符串501“千葉市內(nèi)C”。然后,輸出部106向外部輸出處理單位字符串“千葉市內(nèi)C”。
[0054]圖6表示:接著繼續(xù)發(fā)聲,取得部101取得“ * r 予約(V) ”的發(fā)聲,通過聲音識別部102的處理獲得確定字符串和候補字符串集合的處理結(jié)果。
[0055]這里,假定下述情況:獲得確定字符串601 “ * r 予約”和與確定字符串601對應(yīng)的一個以上的候補字符串602。如圖6所示,作為候補字符串602,獲得^ “退院”、“夕 ^ d > F”。
[0056]圖7表示:接著,檢測部104連接圖6所示的確定字符串和各個候補字符串,生成組合字符串,對各個組合字符串檢測分割點的結(jié)果。
[0057]如圖7所示,組合字符串701 “ * f > O予約f L.tz ^ L,,’在開頭的“ * f 以外不存在與標(biāo)簽702 “B”對應(yīng)的分割點,因此無法分割為部分字符串。另一方面,組合字符串701 “ * r > Q予約f 退院”,在開頭以外存在與標(biāo)簽702 “B”對應(yīng)的分割點,因此可以分割為AG予約& 和“退院”的字符串。另外,關(guān)于與候補字符串的開頭的字符串部分相符的標(biāo)簽702,字符串“夕^ 取得為標(biāo)簽702 “B”,字符串^ >卜取得為標(biāo)簽 702 “ I ”。
[0058]該情況下,在全部的組合字符串701中相同并且以分割點分割的結(jié)果包括于確定字符串那樣的字符串,即,在各個組合字符串中標(biāo)簽702在“B”處相同的分割點,并不存在。因此不生成新的處理單位字符串,不向處理單位存儲部105追加。
[0059]采用現(xiàn)有的以發(fā)聲中的停頓為線索的方法時,“ * r > co予約& 1.(V) ”的發(fā)聲對應(yīng)的“ * f Θ予約f ”的部分被檢測為處理單位,因此,導(dǎo)致將后續(xù)的“ h P & T + ift 二 (二行# 作為其他處理單位被分開進行處理。這表示將分割的字符串作為機器翻譯裝置的處理單位時,作為翻譯結(jié)果,導(dǎo)致分離為“I book a hotel”和“I want, but whereshould I go”,無法正確反映原來的發(fā)聲所具有的意圖。
[0060]另一方面,第I實施方式的聲音同時處理裝置中,分析發(fā)聲的上下文而檢測處理單位,因此,可以抑制無法正確反映原來的發(fā)聲具有的意圖的處理單位的輸出。
[0061]S卩,根據(jù)第I實施方式,可以將發(fā)聲聲音的識別結(jié)果分割為適當(dāng)?shù)奶幚韱挝?,例如與機器翻譯裝置連接時可以按處理單位字符串進行適當(dāng)?shù)姆g,因此,即使在發(fā)聲途中也可以追隨并漸進地輸出。
[0062](第2實施方式)
[0063]第2實施方式中,與第I實施方式的不同點在于:根據(jù)發(fā)聲的狀況,更新處理單位字符串相關(guān)的信息。這樣,即使因后續(xù)的聲音的識別結(jié)果導(dǎo)致適當(dāng)?shù)奶幚韱挝桓淖儠r,也可以輸出正確反映原來的發(fā)聲具有的意圖的處理單位。
[0064]參照圖8說明第2實施方式的聲音同時處理裝置的框圖。
[0065]第2實施方式的聲音同時處理裝置800包括:取得部101、識別結(jié)果存儲部103、檢測部104、輸出部106、聲音識別部801、處理單位存儲部802及更新部803。
[0066]取得部101、識別結(jié)果存儲部103、檢測部104及輸出部106,與第I實施方式進行同樣的工作,因此這里的說明省略。
[0067]聲音識別部801進行與第I實施方式的聲音識別部102同樣的處理,但是,不同點在于:取得聲音發(fā)出的時刻相關(guān)的時間信息和發(fā)出聲音的講話者的講話速度(以下稱為語速)。
[0068]處理單位存儲部802進行與第I實施方式的處理單位存儲部105同樣的處理,但是,不同點在于:將處理單位字符串和檢測處理單位字符串的區(qū)間所對應(yīng)的聲音的時間信息對應(yīng)地作為處理單位信息而存儲。
[0069]更新部803參照處理單位存儲部802存儲的處理單位信息,在新的處理單位信息向處理單位存儲部802追加了時,判定是否是:時間上先于追加的處理單位信息的、與預(yù)先設(shè)定的時間內(nèi)連續(xù)發(fā)聲的聲音區(qū)間對應(yīng)的處理單位信息。該判定也可以從聲音識別部801接收時間信息及語速的至少任一個,參照接收的信息進行判定。
[0070]而且,更新部803,在存在先于追加的處理單位信息的、與預(yù)先設(shè)定的時間內(nèi)連續(xù)發(fā)聲的聲音區(qū)間對應(yīng)的處理單位信息時,將對應(yīng)的處理單位信息所包括的處理單位字符串按時間序列順序連接,生成再處理單位字符串。而且,再處理單位字符串的分割點和處理單位存儲部802存儲的處理單位字符串的分割點不同時,將連接的以前的處理單位信息所包括的處理單位字符串和時間信息置換為再處理單位字符串和與再處理單位字符串對應(yīng)的時間信息。
[0071]確定連續(xù)發(fā)聲的聲音區(qū)間時所采用的閾值,在參照例如時間信息時,也可以根據(jù)在先的處理單位信息對應(yīng)的聲音的結(jié)束時刻和后續(xù)的處理單位信息對應(yīng)的聲音的開始時刻的差來設(shè)定。另外,也可以根據(jù)成為評價對象的連續(xù)的處理單位信息的時間長度的和來設(shè)定。
[0072]另外,參照語速時,可以根據(jù)一個以上的講話者的語速的統(tǒng)計值來確定停頓的長度的閾值,也可以預(yù)先取得每個講話者的語速,按每個講話者設(shè)定閾值。另外,閾值可以是事先設(shè)定的值,也可以根據(jù)發(fā)聲的狀況而動態(tài)地設(shè)定。
[0073]接著,參照圖9的流程圖說明第2實施方式的聲音同時處理裝置800的工作。
[0074]步驟S201到步驟S203為止及步驟S205的處理,與第I實施方式的聲音同時處理裝置100的工作同樣,因此說明省略。
[0075]步驟S901中,處理單位存儲部802將處理單位字符串和與處理單位字符串對應(yīng)的聲音區(qū)間的時間信息對應(yīng)地作為處理單位信息存儲。
[0076]步驟S902中,更新部803判定未輸出的處理單位信息是否存在。未輸出的處理單位信息存在時,進入步驟S903,未輸出的處理單位信息不存在時,進入步驟S205。
[0077]步驟S903中,預(yù)先設(shè)定的時間內(nèi)連續(xù)發(fā)聲的處理單位字符串若為多個,則將多個處理單位字符串按時間序列順序連接,生成再處理單位字符串。
[0078]步驟S904中,更新部803對再處理單位字符串,檢測分割點。分割點的檢測方法采用與檢測部104中的分割點的算出方法同樣的方法即可。
[0079]步驟S905中,更新部803對再處理單位字符串,判定是否檢測到與處理單位存儲部802存儲的處理單位字符串的分割點不同的分割點。檢測到不同分割點時,進入步驟S906,未檢測到不同分割點時,進入步驟S205。
[0080]步驟S906中,更新部803用包括再處理單位字符串的新的處理單位信息更新處理單位存儲部802存儲的處理單位信息,進入步驟S205。以上,第2實施方式的聲音同時處理裝置800的工作結(jié)束。
[0081]接著,參照圖10說明第2實施方式的處理單位存儲部802存儲的處理單位信息的一例。
[0082]圖10是表示處理單位信息1000的表,處理單位字符串501和時間信息1001對應(yīng)地存儲,作為處理單位信息1000。這里,作為時間信息1001,檢測到處理單位字符串501的區(qū)間所對應(yīng)的聲音的開始時刻1002和結(jié)束時刻1003,與處理單位字符串501對應(yīng)。具體地說,圖10所示處理單位字符串501 “千葉市內(nèi)T ”和開始時刻1002 “10:03:31.21”、結(jié)束時刻 1003 “10:03:32.73” 對應(yīng)。
[0083]接著,參照圖11到圖15說明第2實施方式的聲音同時處理裝置800的工作的具體例。
[0084]首先,假定:圖10所示處理單位信息1000所包括的處理單位字符串“千葉市內(nèi)未輸出,預(yù)先設(shè)定的時間內(nèi)連續(xù)的發(fā)聲所對應(yīng)的字符串僅僅為“千葉市內(nèi)T ”。此時,更新部803的步驟S902的處理中,判定為存在未輸出的處理單位信息,對處理單位字符串“千葉市內(nèi)檢測分割點。
[0085]對再處理單位字符串檢測分割點的結(jié)果如圖11所示。再處理單位字符串1101“千葉市內(nèi)T ”所對應(yīng)的標(biāo)簽1102與對圖5所示的處理單位字符串501檢測的分割點的標(biāo)簽(圖4的“千葉市內(nèi)的標(biāo)簽“B,I,I”)相同,因此更新部803的處理結(jié)束。
[0086]圖12表示下述例子:進而,發(fā)聲繼續(xù),后續(xù)于第I實施方式中發(fā)出的聲音,聲音識別部102取得聲音“ tz H f才ff'良P * f f見? (V) ”,檢測部104進行分析,處理單位存儲部802將“良P * f &見? ”存儲為處理單位信息。
[0087]這里,假定為圖12所示處理單位信息從輸出部106全部輸出了的狀態(tài),S卩,“千葉市內(nèi)T ”、“ * r ^ 0予約f 亡P I T t作”、“良P* f f見ο (少? ”按順序輸出了的狀態(tài)。聲音同時處理裝置800與機器翻譯裝置連接時,假定輸出“In Chiba city”、“I’d liketo make a hotel reservat1n.,,、“Please find a good hotel.”。
[0088]接著,取得部101取得聲音“ ? 6 λ f姑/l.分”,通過聲音識別部102及檢測部104的處理獲得“ ? 6 λ々”,作為新的發(fā)聲的處理單位字符串。圖13表示下述例子:其后,將該處理單位字符串對應(yīng)的聲音區(qū)間的開始時刻和結(jié)束時刻對應(yīng)地作為處理單位信息,在處理單位存儲部802存儲。
[0089]圖9所示更新部803的更新處理中,處理單位信息1301 “ ? 6 λ t姑&分”未輸出,因此,處理單位信息1301 h Ii 分”成為處理對象。此時,是否連續(xù)發(fā)聲的閾值為I秒時,處理單位信息1302 “千葉市內(nèi)T ”和處理單位信息1303 “ * r 予約L.tzH f才if ”的發(fā)聲間的差為0.05秒,處理單位信息1303“ * r 予約作”和處理單位信息1304 “良P* f f見? ”的差為0.17秒,處理單位信息1304 “良P* r ^ ?,,和處理單位信息1301 u i b I ± /V分,,的差為0.31秒,因此,這些處理單位信息對應(yīng)的發(fā)聲確定為在預(yù)先設(shè)定的時間內(nèi)連續(xù)發(fā)聲。從而,這些處理單位字符串按時間序列順序連接而成的組合字符串“千葉市內(nèi)T f > O予約I L.tz作良P
^作為再處理單位字符串而生成。
[0090]圖14表示:接著,對再處理單位字符串“千葉市內(nèi)T f > O予約& I tz ^ L V十#良P*亍> f ? O (少? ? 6無f姑&分,,檢測分割點的結(jié)果。
[0091]如圖14所示作為分割點的檢測結(jié)果,檢測到不同于圖13所示處理單位字符串“良P *亍卟奩見O (少? ”和“毛6無f姑/分”的處理單位字符串“良P *亍卟奩見O (少? I
6無t姑九分”。
[0092]最終更新的處理單位存儲部802的處理單位信息如圖15所示。
[0093]作為處理單位信息,將圖13所示處理單位信息1304 “良P * f f見? ”和處理單位信息1301 ui b l± /V分”,更新為圖15所示處理單位信息1501 “良P * r A奩見ο (少?6無f姑九分,,。另外,處理單位字符串“良P *亍卟奩見ο (少?毛b I ±
^力、”的聲音對應(yīng)的開始時刻1002和結(jié)束時刻1003,被更新為處理單位信息1304 “良^ *亍> f見ο汁?,,的開始時刻“10:03:37.72,,和處理單位信息1301 “ ? 6 λ t姑九分,,的結(jié)束時刻 “10:03:41.97”。
[0094]另外,沒有更新部803時,不進行處理單位的更新,從而,圖13所示處理單位信息對應(yīng)的全部的處理單位字符串輸出,因此,形成“In Chiba city”、“I’d like to make ahotel reservat1n,,、“Please find a good hotel,,、“I cannot get it ?,,這一系列翻譯,可能多余地生成原來的發(fā)聲中不存在的“ ? ^ λ々P T +? ”這一含義的翻譯。另一方面,第2實施方式的聲音同時處理裝置中,作為處理單位字符串的機器翻譯,獲得“良P * r A全見分”,因此,這里,向機器翻譯裝置提供處理單位字符串時,例如,獲得 “Could you find a good hotel for me ? ”這一譯文。
[0095]根據(jù)以上所示的第2實施方式,即使因后續(xù)的發(fā)聲的識別結(jié)果導(dǎo)致適當(dāng)?shù)奶幚韱挝桓淖儠r,也可以輸出正確反映原來的發(fā)聲的意圖的處理單位。
[0096]上述的實施方式中所示的處理步驟所示的指示,可以根據(jù)軟件即程序而執(zhí)行。通用的計算機系統(tǒng)通過預(yù)先存儲該程序并讀取該程序,也可以獲得與上述聲音同時處理裝置的效果同樣的效果。上述的實施方式記述的指示,作為可使計算機執(zhí)行的程序,在磁盤(軟盤、硬盤等)、光盤(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD 土 RW、Blu-ray (注冊商標(biāo))Disc等)、半導(dǎo)體存儲器或類似其的記錄介質(zhì)記錄。只要是計算機或插入系統(tǒng)可讀取的記錄介質(zhì),則存儲形式可以是任意的方式。計算機若從該記錄介質(zhì)讀入程序,根據(jù)該程序由(PU執(zhí)行程序所記述的指示,則可以實現(xiàn)與上述實施方式的聲音同時處理裝置同樣的工作。當(dāng)然,計算機取得或讀入程序時也可以通過網(wǎng)絡(luò)取得或讀入。
[0097]另外,也可以根據(jù)從記錄介質(zhì)向計算機和/或插入系統(tǒng)安裝的程序的指示,由計算機上運行的OS(操作系統(tǒng))和/或數(shù)據(jù)庫管理軟件、網(wǎng)絡(luò)等的MW(中間件)等,執(zhí)行用于實現(xiàn)本實施方式的各處理的一部分。
[0098]而且,本實施方式中的記錄介質(zhì)不限于與計算機或者插入系統(tǒng)獨立的介質(zhì),也包括下載并存儲或暫時存儲有由LAN和/或因特網(wǎng)等傳輸?shù)某绦虻挠涗浗橘|(zhì)。
[0099]另外,記錄介質(zhì)不限于一個,即使從多個介質(zhì)執(zhí)行本實施方式中的處理時,也包括在本實施方式中的記錄介質(zhì)中,介質(zhì)的構(gòu)成可以是任意構(gòu)成。
[0100]另外,本實施方式中的計算機或插入系統(tǒng)是用于根據(jù)記錄介質(zhì)存儲的程序來執(zhí)行本實施方式中的各處理的裝置,也可以是包括個人計算機、微計算機等的一個的裝置、多個裝置網(wǎng)絡(luò)連接而成的系統(tǒng)等的任意構(gòu)成。
[0101]另外,本實施方式中的計算機不限于個人計算機,也包括信息處理設(shè)備所包括的運算處理裝置、微計算機等,是可通過程序?qū)崿F(xiàn)本實施方式中的功能的設(shè)備、裝置的總稱。
[0102]雖然說明了本發(fā)明的幾個實施方式,但是這些實施方式只是例示,而不是限定發(fā)明的范圍。這些新實施方式能以其他各種方式實施,在不脫離發(fā)明的要旨的范圍,可以進行各種省略、置換、變更。這些實施方式和/或其變形包括于發(fā)明的范圍和/或要旨中,也包括于技術(shù)方案記載的發(fā)明及其均等的范圍中。
【權(quán)利要求】
1.一種聲音同時處理裝置,其特征在于,具備: 取得聲音信號的取得部; 聲音識別部,其生成:上述聲音信號中的聲音識別處理結(jié)束而變換為字符串的聲音區(qū)間所對應(yīng)的字符串即確定字符串;和為后續(xù)于該確定字符串的聲音區(qū)間的、處于聲音識別的處理途中而未確定作為變換結(jié)果的字符串的聲音區(qū)間所對應(yīng)的一個以上的候補字符串; 檢測部,其對于分別連接上述確定字符串和一個以上的上述候補字符串而成的一個以上的組合字符串,在由分割點分割該組合字符串時,在存在在上述組合字符串的各個中相同的、包括于上述確定字符串的字符串的情況下,將該字符串檢測為處理單位字符串,上述分割點表示成為自然語言處理中的處理單位的開始位置的詞素的位置;以及 輸出上述處理單位字符串的輸出部。
2.權(quán)利要求1所述的聲音同時處理裝置,其特征在于, 還具備更新部,該更新部根據(jù)新取得的第1處理單位字符串和之前取得的第2處理單位字符串的關(guān)系,在上述分割點的位置變化時,更新上述第2處理單位字符串。
3.權(quán)利要求1所述的聲音同時處理裝置,其特征在于,還具備: 存儲部,其將上述處理單位字符串和發(fā)出該處理單位字符串的聲音區(qū)間所對應(yīng)的聲音信號的時間信息對應(yīng)地存儲為處理單位信息;和 更新部,其向上述存儲部追加新的處理單位信息即第1處理單位信息時,在存在先于該第1處理單位信息且在閾值以內(nèi)的時間連續(xù)發(fā)聲的聲音區(qū)間所對應(yīng)的第2處理單位信息時,將該第2處理單位信息和上述第1處理單位信息所包括的處理單位字符串按時間序列順序連接,來生成再處理單位字符串,用該再處理單位字符串及該再處理單位字符串所對應(yīng)的時間信息來更新上述存儲部所存儲的處理單位信息。
4.權(quán)利要求3所述的聲音同時處理裝置,其特征在于, 上述聲音識別部取得與發(fā)出上述處理單位字符串的時間相關(guān)的時間信息, 上述更新部參照上述時間信息,判定是否存在上述第2處理單位信息。
5.權(quán)利要求3所述的聲音同時處理裝置,其特征在于, 上述聲音識別部取得講話者的講話速度即語速, 上述更新部參照上述語速,判定是否存在上述第2處理單位信息。
6.權(quán)利要求1到5的任一項所述的聲音同時處理裝置,其特征在于, 上述自然語言處理為機器翻譯時,上述處理單位是適于將上述聲音信號同時并行譯出的翻譯單位。
7.權(quán)利要求1到5的任一項所述的聲音同時處理裝置,其特征在于, 上述自然語言處理為聲音對話時,上述處理單位是將上述聲音信號作為聲音對話的任務(wù)同時并行輸出的單位。
8.—種聲音同時處理方法,其特征在于, 取得聲音信號, 生成:上述聲音信號中的聲音識別處理結(jié)束而變換為字符串的聲音區(qū)間所對應(yīng)的字符串即確定字符串;和為后續(xù)于該確定字符串的聲音區(qū)間的、處于聲音識別的處理途中而未確定作為變換結(jié)果的字符串的聲音區(qū)間所對應(yīng)的一個以上的候補字符串; 對于分別連接上述確定字符串和一個以上的上述候補字符串而成的一個以上的組合字符串,在由分割點分割該組合字符串時,在存在在上述組合字符串的各個中相同的、包括于上述確定字符串的字符串的情況下,將該字符串檢測為處理單位字符串,上述分割點表示成為自然語言處理中的處理單位的開始位置的詞素的位置; 輸出上述處理單位字符串。
9.一種聲音同時處理程序,其特征在于, 用于使計算機作為以下單元發(fā)揮功能: 取得聲首彳目號的取得單兀; 聲音識別單兀,其生成:上述聲音信號中的聲音識別處理結(jié)束而變換為字符串的聲音區(qū)間所對應(yīng)的字符串即確定字符串;和為后續(xù)于該確定字符串的聲音區(qū)間的、處于聲音識別的處理途中而未確定作為變換結(jié)果的字符串的聲音區(qū)間所對應(yīng)的一個以上的候補字符串; 檢測單元,其對于分別連接上述確定字符串和一個以上的上述候補字符串而成的一個以上的組合字符串,在由分割點分割該組合字符串時,在存在在上述組合字符串的各個中相同的、包括于上述確定字符串的字符串的情況下,將該字符串檢測為處理單位字符串,上述分割點表示成為自然語言處理中的處理單位的開始位置的詞素的位置;以及輸出上述處理單位字符串的輸出單元。
【文檔編號】G10L15/26GK104464734SQ201410465639
【公開日】2015年3月25日 申請日期:2014年9月12日 優(yōu)先權(quán)日:2013年9月19日
【發(fā)明者】釜谷聰史, 坂本明子 申請人:株式會社東芝