專利名稱:模板化特殊語音的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及保存和適配聲音,準(zhǔn)確地說為語音的系統(tǒng)、方法和產(chǎn)品。
今天,只有非?;镜慕橘|(zhì)記錄形式可以保存聲音,例如,用磁帶或數(shù)字記錄設(shè)備來記錄某人的聲音,并保留到以后聽,且能像最初記錄時(shí)那樣重放,或者重放想要聽的那部分。記錄聲音的這些設(shè)備和方法也包括由計(jì)算機(jī)產(chǎn)生的人為的聲音內(nèi)容,它有許多不同的作用,包括例如電話自動和驗(yàn)證,工具或儀器與用戶之間基本的語言、電影和娛樂業(yè)的聲音合成等。在某些應(yīng)用中,這些人為的聲音按照特殊的輸入被編程為一組較窄的響應(yīng)。雖然在某些情況下,更多的是這種響應(yīng),而不是僅僅實(shí)際聲音的記錄,但這種人為聲音的錄音絕不能與本發(fā)明魯棒的聲音能力作簡單比較。的確,在本發(fā)明的某些實(shí)施例中,許多單元與這樣的系統(tǒng)十分不同,或遠(yuǎn)遠(yuǎn)超過現(xiàn)有技術(shù)曾經(jīng)設(shè)想或現(xiàn)有技術(shù)發(fā)現(xiàn)或革新所建議的系統(tǒng)。
世界的許多出版物公開了人工有聲化的方面,同樣,一些參考文獻(xiàn)公開了應(yīng)用和產(chǎn)生人工聲音的系統(tǒng)和技術(shù),但是,沒有一篇公開了本發(fā)明的概念。
模板是有用的,例如,作為捕獲和產(chǎn)生新的與不能即現(xiàn)的人的對話,他可能已亡故,或甚至是同意有模板的聲音并在這種應(yīng)用中使用的人。另一例子是應(yīng)用于介質(zhì),如電影或照片或其它實(shí)際聲音創(chuàng)始者的描述錄產(chǎn)生與原聲創(chuàng)作者的虛擬對話。各種其它的使用和應(yīng)用都在本發(fā)明的考慮范圍之內(nèi)。
圖2是一個聲音捕獲子系統(tǒng)實(shí)施例的原理圖。
圖3是一個聲音分析子系統(tǒng)實(shí)施例的原理圖。
圖4是一個聲音特征子系統(tǒng)實(shí)施例的原理圖。
圖5是一個聲音模板子系統(tǒng)實(shí)施例的原理圖。
圖6是一個聲音模板信號打包器子系統(tǒng)實(shí)施例的原理圖。
圖7是本發(fā)明用于遙控信息下載和上載選項(xiàng)的系統(tǒng)原理圖實(shí)施例。
圖8是本發(fā)明體現(xiàn)在可移動的緊湊部件內(nèi)的一個實(shí)施例原理圖。
圖9是本發(fā)明用于視覺介質(zhì)源的實(shí)施例原理圖。
但是,一般的共識是,人聲音的質(zhì)量代表一種非常獨(dú)特的組合,它能從以前已聽到的聲音中辨別出來。人通過其感覺的關(guān)聯(lián)能力是明顯的,特別涉及到聲音的識別和關(guān)聯(lián)的感覺。生命的大小事件經(jīng)常在數(shù)年或數(shù)十年后,由于曾經(jīng)議論的性質(zhì)或記住的音調(diào)而回憶起來。這就是聲音的持久強(qiáng)度和激勵能力。
當(dāng)然,眾所周知捕獲和回放人的聲音的介質(zhì)和機(jī)器。在磁帶和數(shù)字介質(zhì)中,基本控制被記錄的人的聲音有意或無意地已作了數(shù)十年,但是這種控制受到人實(shí)際上已經(jīng)說過的范圍的限制,而不是能說什么。例如,播放、編輯、混合和重放有時(shí)甚至可以不同的速度來播放人實(shí)際說的段。語音應(yīng)用的其它例子包括有意畸變聲音部分的回放,如在卡通片或其它有關(guān)動物或某種音樂的音頻。當(dāng)然,動畫媒體也已用了人工聲音而無需用實(shí)際聲音來產(chǎn)生。其中的一個例子是由某些電話和通訊系統(tǒng)用的產(chǎn)生“聲音”的計(jì)算機(jī)。合成聲音和發(fā)音的一種方法涉及鏈接,并涉及記錄的波形數(shù)據(jù)樣本或?qū)嶋H人的語音。然后,該方法把預(yù)先記錄的原話分成段,并通過鏈接這些人語音段產(chǎn)生語音話語,以便構(gòu)建音節(jié),字或短語。這些段的大小可變。人語合成的另一種方法稱為參考式,在這一方法中,數(shù)學(xué)模型被用來創(chuàng)建所要的語言發(fā)音。對于每一個所要的發(fā)音,用數(shù)學(xué)模型或數(shù)學(xué)函數(shù)來產(chǎn)生。這樣,參數(shù)方法通常不需要人聲作為要素。最后,通常還有已知的一些參數(shù)語音合成方法。一種稱為清晰度合成器,它用數(shù)學(xué)模擬人體的肺、喉、聲道和氣道的物理狀況。另一種參數(shù)語音合成器稱為格式合成器,它用數(shù)學(xué)模擬人體聲道的聲學(xué)狀況。
其它系統(tǒng)包括用于識別具體聲音的裝置,只要該系統(tǒng)已經(jīng)以該聲音進(jìn)行過訓(xùn)練。其例子包括用于捕獲口語并把它翻譯成文本的各種語音識別系統(tǒng),如聽寫系統(tǒng)等。其它語音有關(guān)的系統(tǒng)涉及生物統(tǒng)計(jì)學(xué)領(lǐng)域,以及某些口語詞作為保密碼或密碼使用。沒有一種這樣的系統(tǒng)、方法、裝置或其它發(fā)明形式考慮到本專利公開的發(fā)明,也沒有作任何發(fā)明來考慮這種技術(shù)創(chuàng)新的需要。長期以來需要一種以動態(tài)和自適應(yīng)的狀態(tài)保存其它生命的聲音以備將來使用或由原創(chuàng)者或其他人受益的系統(tǒng)和方法。還需要用于完成和利用這樣的聲音捕獲和訪形的系統(tǒng)和方法,它能代表連貫的、清晰的或地道的原創(chuàng)人的發(fā)音或聲音,而這些可能從未由該原創(chuàng)者考慮過。實(shí)現(xiàn)這種系統(tǒng)的方法還帶來附加的好處,使任何技術(shù)、文化和語言的所有人都能容易地使用。進(jìn)一步驟的需要是新的業(yè)務(wù)方法、技術(shù)和模型,與補(bǔ)充的設(shè)備和其它裝置一起,產(chǎn)生和促進(jìn)訪問特定聲音模板,然后促進(jìn)這些模板對需要或想要用的人的應(yīng)用,無論是因業(yè)務(wù)還是娛樂。再說一遍,雖然在聲音技術(shù)領(lǐng)域已實(shí)現(xiàn)了很多工作,但過去的努力都沒有考慮到本發(fā)明,而僅僅注意新奇而至今未了解到到對這些發(fā)明的需要。
圖1是系統(tǒng)10的一個實(shí)施例原理圖,用來捕獲具體聲音的起動部分用作該聲音特征的模板。系統(tǒng)10可以是手控設(shè)備的一部分,例如電子手控設(shè)備,或者它是膝上電腦,筆記本或桌面大小的計(jì)算設(shè)備;或系統(tǒng)10僅僅是另一設(shè)備內(nèi)的線路板,或設(shè)計(jì)成暫時(shí)或永久放入的,或與其它電子元件、線路或系統(tǒng)一起用的電子組件或元件;或系統(tǒng)10整體或部分包括計(jì)算機(jī)可讀碼或僅僅神經(jīng)系統(tǒng)內(nèi)的邏輯或功能電路;或系統(tǒng)10可形成一些其它設(shè)備或產(chǎn)品,如分布網(wǎng)絡(luò)式系統(tǒng)。在一個實(shí)施例中,系統(tǒng)10包括輸入或捕獲裝置15,用來捕獲或接收用于處理和構(gòu)建聲音算法的部分聲音,或包括模板裝置19,它可形成數(shù)據(jù)流、數(shù)據(jù)包、電信信號,軟件編碼裝置,用來確定和再生具體的聲音,或一組經(jīng)組織的聲音特征,應(yīng)用于或模版化于另一種聲音或噪聲的組織,以其適合于安排像明顯的原創(chuàng)者的聲音或噪音。其它格式化計(jì)算機(jī)可續(xù)程序編碼裝置,或其它把某些視為同樣的聲音特征數(shù)據(jù)用于人工產(chǎn)生聲音的裝置也在本發(fā)明的內(nèi)考慮。運(yùn)算的邏輯和規(guī)則或模板裝置19最好做成以最小的聲音輸入,但為了形成可接受的用于特別聲音的數(shù)據(jù)組,需要各種聲音的量和其它數(shù)據(jù)。
在本發(fā)明的一個實(shí)施例中,例如為了以少量的模擬或數(shù)字記錄,或?qū)崟r(shí)有聲的輸入形成模板的某人的聲音,捕獲語音的起動部分是需要的。的確,一組規(guī)定的字可以形成該人的最大相關(guān)聲音特征的最佳數(shù)據(jù)捕獲以重復(fù)該聲音。分析裝置用來考慮最有效的確定什么樣的起動部分對特定的人最佳。無論是單個數(shù)據(jù)輸入或一串輸入,聲音數(shù)據(jù)被捕獲和儲存在存儲裝置22的至少一部分。
聲音數(shù)據(jù)分析是在處理器裝置25中進(jìn)行,以鑒別創(chuàng)建具體用戶聲音模板的特征。眾所周知,聲音數(shù)據(jù)可直接路由到處理裝置而不需要起始進(jìn)入存儲裝置22。處理器裝置、存儲裝置和模板裝置之間相互作用的示范討論在下面進(jìn)行,并表示在圖2-8的關(guān)系中。在一個例子中,在足夠的聲音數(shù)據(jù)經(jīng)分析之后,然后,存儲聲音的模板直到由處理裝置25調(diào)用。例如,在聲音AA經(jīng)起動部分捕獲、分析和選擇之后(現(xiàn)表示為AAt),被存儲在存儲裝置22中(它可或駐留在接近其它成分的地方或放在遠(yuǎn)距離或分布式模型的一個或多個位置),直到對它發(fā)出指令請求。指令請求的一個例子是系統(tǒng)10的用戶通過典型的輸入裝置29呈送一個請求,以便利用聲音AA的模板AAt在新創(chuàng)建的對話中與聲音AA參與作為產(chǎn)生的聲音,而不是實(shí)際使用的聲音AA。這可能會發(fā)生聯(lián)合或應(yīng)用一個或多個各種數(shù)據(jù)庫,其中一些是環(huán)境數(shù)據(jù)數(shù)據(jù)庫33或個人數(shù)據(jù)庫36所代表。于是,聲音AA的模板AAt被調(diào)出并用來提供作為具有某些其它噪聲的形成結(jié)構(gòu),以便產(chǎn)生新的對話聲音AA’,該聲音與原輸入數(shù)據(jù)的原音精確地相像。雖然新聲音AA’在所有方面都像原來的聲音AA,但它實(shí)際上是用模板AAt產(chǎn)生的人工聲音,AAt提供對聲音AA的匹配的關(guān)鍵要素,如遺傳碼。在這一方法中,實(shí)際聲音的起動部分可用模板對系統(tǒng)10編碼,使允許用戶以任何實(shí)際的形式再生和限制地使用該被捕獲的聲音。這不是聲音AA位的先前發(fā)聲的簡單合成,該聲音通過鏈接技術(shù)或用構(gòu)形成分技術(shù)的電合成,而是全新的聲音,它用聲音AA的聲音數(shù)據(jù)特征(即聲音模板或仿形),和其它關(guān)于聲音原創(chuàng)者的其它特征來設(shè)計(jì),制造,組裝或構(gòu)建。
當(dāng)然,已認(rèn)識到這種技術(shù)的意義是深遠(yuǎn)的,并且需要保證這種模版化聲音技術(shù)合適使用的安全裝置。確實(shí),這種技術(shù)需要進(jìn)一步驟使用授權(quán)裝置,只允許授權(quán)的用戶訪問和使用模板技術(shù)和數(shù)據(jù)。為了保證避免欺詐或未授權(quán)的用戶用這種產(chǎn)生的聲音,還需要鑒別聽到的聲音是實(shí)在的或模版化的附加裝置。除了許可證、合同和已在大多數(shù)國家存在的其它手段之外,創(chuàng)建認(rèn)可這一技術(shù)領(lǐng)域的法律手段可能也是需要的。
在圖1中,連接裝置41代表能量或數(shù)據(jù)流的路徑,它可以是實(shí)際的引線,光通道或其它電子學(xué)、生物學(xué)或其它系統(tǒng)部件間可開啟的路徑。在一個實(shí)施例中,電源裝置44表示在系統(tǒng)10內(nèi),但如需要也可放在遠(yuǎn)處。
在系統(tǒng)10的另一個實(shí)施例中,算法、信號,編碼裝置或創(chuàng)立的模板,整體或部分或可返回存儲裝置22、模版化裝置19內(nèi),用于儲存或修改,或可返回其它系統(tǒng)部件或結(jié)構(gòu)內(nèi)。這種能力允許和便于按創(chuàng)建者或別的用戶的指示來完善或匹配專門的聲音模板。如果同一人的聲音的多組數(shù)據(jù)可以超時(shí)輸入,或如果發(fā)生不同的年齡、發(fā)育、或其它原創(chuàng)聲音者重理或性情變化的聲音,那么這一工作可以實(shí)現(xiàn)。確實(shí),訓(xùn)練模版化的聲音來回憶以前約定的范圍并包括這些未來操作的知識是可能的。在這些情況下,選擇一個精細(xì)的模型來修改聲音AA’的模板(AA’t)和用分析裝置22或輸入裝置29的比較和更新來修改聲音或模板是有用的。另一個例子包括聲音BB的人的位置,該聲音包括一個或多個類似聲音AA的特征,AA聲音是聲音模板AA’t的原創(chuàng)者。在這種情況下,輸入一個或多個聲音BB的同樣特征作為有限的或精細(xì)的聲音AA’或聲音模板AA’t的輸入或許是有用的。于是,它可能也保持聲音BB和產(chǎn)生聲音BB’和聲音模板BB’t,它們都可能在以后的日子里有用。另一個例子包括對單獨(dú)聲音的原創(chuàng)人創(chuàng)建一個各種經(jīng)修改的聲音數(shù)據(jù)庫,系統(tǒng)或用戶按照出現(xiàn)的情況提出要求時(shí)使用或作為它們的來用。在另一例子中,可提供對聲音匹配的服務(wù)和提供合適的修改工具,如自然或人工產(chǎn)生的波形或其它聲學(xué)或信號單元,來按照用戶需要修改聲音模板。
在進(jìn)一步驟說明系統(tǒng)10或有關(guān)系統(tǒng)的實(shí)施例和方法之前,審查這種技術(shù)可能的應(yīng)用是有用的。一般說來,這種應(yīng)用的數(shù)目很多,很難把它們都列出來。但是,要考慮任何像聲音的噪聲的使用是在本發(fā)明范圍內(nèi)捕獲,該噪聲是由提供的數(shù)據(jù)和用于產(chǎn)生那種聲音噪聲的模板或編碼工具產(chǎn)生的數(shù)據(jù)而產(chǎn)生,特別當(dāng)這樣的編碼工具如果需要與其它噪聲或聲音產(chǎn)生裝置一起用來再生與原創(chuàng)人實(shí)際聲音相同的聲音。這種所產(chǎn)生的聲音在完全新的句子中的使用,或其它語言結(jié)構(gòu),也是在本發(fā)明的范圍內(nèi)。提供機(jī)器、部件,或作為信號形成或聲音模板處理或產(chǎn)品傳輸?shù)囊徊糠值目勺x編碼裝置的能力進(jìn)一步驟促進(jìn)了這種技術(shù)的應(yīng)用。聯(lián)系或激活這一聲音模版和聲音產(chǎn)生技術(shù)用于數(shù)據(jù)流或其它數(shù)據(jù)形式的裝置允許像僅僅提供信息或反應(yīng)一樣,用于虛擬對話,它可能是自適應(yīng)的或智能的,這樣的對話或談話具有的聲音是由用戶選擇的。也識別到這里公開的技術(shù)可像伴音一樣用于視覺圖像。
此外,相信這里描述的聲音模板可以用并不包括原創(chuàng)者聲音的實(shí)際起動部分的數(shù)據(jù)來產(chǎn)生,但是原創(chuàng)者聲音的起動部分可與其它數(shù)據(jù)一起用,以確認(rèn)原創(chuàng)者聲音的準(zhǔn)確性。在這種狀態(tài),可能使用聲音的起動部分于聲音的模版化中或僅僅對別的被模版化的聲音準(zhǔn)確性確認(rèn)中。模版化或復(fù)制的聲音可用于與計(jì)算機(jī)或其它機(jī)器和系統(tǒng)用于相互作有或提示。用戶可從她自己的模版化聲音程序庫、另一個模版化聲音源選擇這樣的模版化聲音,或她可簡單地創(chuàng)建新的聲音。例如,模版化聲音AA’可由用戶選擇用作語音郵件提示或讀文本,或其它通訊界面,而模版化聲音CC可選擇用于有關(guān)交互表演使用。潛伏在用戶機(jī)器內(nèi)的缺點(diǎn)或問題或向設(shè)備用戶發(fā)出警告信號可由用戶在用模版化聲音DD工作的同時(shí)來識別或解決。這是些簡單的例子,表示這種技術(shù)怎樣改善用戶界面和怎樣由用戶應(yīng)用這些技術(shù)與各種功能、任務(wù)、模型或其它特征相結(jié)合。模板選擇和應(yīng)用和產(chǎn)生的聲音的形成和使用既可以在用戶的機(jī)器或設(shè)備內(nèi)完成,部分在用戶機(jī)器或設(shè)備內(nèi)完成,也可在用戶機(jī)器和設(shè)備的外部完成??赡苡幸粋€或多個設(shè)備只是暫時(shí)使用的情況,如在旅館房間內(nèi),會客間內(nèi),或其它過渡場景或有暫時(shí)設(shè)備使用的地方,但這些設(shè)備絕不提供在上面各種可變狀態(tài)下的特性,例如,一個旅客可能想要攜帶或訪問某種聲音作為在飛機(jī)上或旅館房間內(nèi)該旅客的伴隨。本發(fā)明可用于醫(yī)院或醫(yī)院房間內(nèi),或醫(yī)院的其它地方。這些應(yīng)用可能要用這里提到的一個或多個實(shí)施例。有趣的是,這一系統(tǒng)可由一些個人以他們自己的聲音使用,也可作為遺產(chǎn)給別人。許多其它應(yīng)用也在這里教導(dǎo)的范圍內(nèi)。
本發(fā)明的其它應(yīng)用包括教育,如用選好的模版化聲音教兒童數(shù)學(xué)和其它有關(guān)歷史事件。例如,如果父母想要用孩子已故祖父母的一種聲音教孩子學(xué)習(xí)美國60年代的種族關(guān)系,那么被選擇的祖父母的模版化聲音(如果有的話)被設(shè)計(jì),制造和指定使用。系統(tǒng)10訪問一個或多個數(shù)據(jù)庫來捕獲關(guān)于設(shè)定主題的信息和知識,并提供這些信息給系統(tǒng)10內(nèi)的一個或多個數(shù)據(jù)庫,如需要時(shí)用的情景數(shù)據(jù)庫33。該祖父母的模版化聲音EE’在訪問所要的信息之后被使用,并且需要時(shí)該要求將由開始在設(shè)定的主題討論的模版化聲音EE’而得到滿足。這種討論可儲存在系統(tǒng)10內(nèi)或所要的遠(yuǎn)地方供以后使用,或該討論也可在該祖父母,即該模版化聲音,與孩子之間相互使用進(jìn)行。借助于聲音識別模塊的使用,這種特性是可能實(shí)現(xiàn)的,聲音識別模塊能事先知道識別討論中孩子的聲音并包括足夠的詞匯和從孩子的角度出發(fā)來組合各種問題的神經(jīng)認(rèn)知。此外,提供從輸入和聲音識別模塊到該系統(tǒng)模版化聲音部分的橋梁,使能根據(jù)該模版化聲音作出響應(yīng)。根據(jù)描述在此的特殊用途構(gòu)成這種結(jié)構(gòu)時(shí),各種語音識別工具都可設(shè)想用在這種狀態(tài)中。當(dāng)然,這種結(jié)構(gòu)也需要快速搜索對問題的回答和形成適合于孩子聽的響應(yīng)的裝置,很清楚,這一例子說明這種技術(shù)非一般的潛能,特別是當(dāng)與合適的數(shù)據(jù)、系統(tǒng)能力和系統(tǒng)速度相結(jié)合時(shí)。
使用可選擇的聲音識別模塊,可能只要用有限的特性就能使模版化聲音的聽眾指向產(chǎn)生的聲音,以便中止或繼續(xù),或能使某些其它特性具有某種要求。這是一種有限相互作用的形式,適合于某些類型但非全部類型的應(yīng)用。即使用戶不采用這種可選特性而僅僅代之以在缺乏祖父母聲音的情況下安排故事或討論,其對這種或其它類應(yīng)用的效果和有用性也是巨大的。
在用戶只希望使用與聲音原創(chuàng)者的教育和生活經(jīng)歷一致的模版化聲的情況下,它通過各種濾波器或修改器的輸入是可能的。例如,模版化聲音可再次選擇前面祖父母的聲音(模版化聲音EE’),同時(shí)DATA DATES(數(shù)據(jù)日期)濾波器與被選定的日期“BEFORE DECEMBER 1963”(1963年12月前)結(jié)合使用,來討論美國60年代的種族關(guān)系。其結(jié)果不包括任何在指定日期之后發(fā)生的信息的討論。在這一例中,祖父母并不討論1965年的投票權(quán)法(Voting Right Act)或該國60年代后期的城市暴亂。同樣的方式可調(diào)整數(shù)據(jù)不同方面的數(shù)值或模版化聲音本身,例如,用示于圖4中的數(shù)據(jù)特征類型。但是,應(yīng)承認(rèn)其它調(diào)整是可能的并考慮在本發(fā)明范圍之內(nèi),上面的例子僅僅代表本發(fā)明技術(shù)的能力。
在此公開的系統(tǒng)和方法的另一個實(shí)施例中,用戶可控制某一個熟人或其它人的模版化聲音向用戶讀出。在這一例中,對各種年齡的人,用缺席或亡故的家庭成員或其它熟人的聲音讀出給他們聽是可能的。當(dāng)組合大量合適結(jié)構(gòu)的介質(zhì)排列和計(jì)算機(jī)可讀編碼裝置來實(shí)現(xiàn)數(shù)據(jù)鏈接時(shí),這一發(fā)明本身將提供給用戶巨大的利益。這類應(yīng)用廣泛超過這里給出的專門例子。的確,這種技術(shù),這種狀態(tài)的更廣泛的應(yīng)用在于要有一個經(jīng)指定和模版化的聲音數(shù)據(jù)庫,它可以付費(fèi)或其它補(bǔ)償形式供其它人訪問或使用。當(dāng)用于音樂時(shí),這種技術(shù)具有同樣深遠(yuǎn)的意義,特別是,如果人們能訪問過去和現(xiàn)在的著名歌唱家,他們的許多聲音仍可用于模版化。很清楚,這一技術(shù)使一種新的制造業(yè)、租借業(yè)、洽談業(yè)、或其它用聲音模板的工業(yè)以及樣關(guān)的裝置、技術(shù)和開展業(yè)務(wù)的等方法的實(shí)現(xiàn)成為可能。
本發(fā)明在對某些次要或主要的心理疾病的醫(yī)學(xué)處理上也有用處,其中合適的模版化聲音的治療用可很好地減輕甚至治療疾病。這類技術(shù)的另種可能的應(yīng)用在于創(chuàng)立一種新設(shè)計(jì)的聲音來使用,但是它有一種或多種模版化動物聲音的基礎(chǔ)或儲備。新產(chǎn)生的聲音的主權(quán)和進(jìn)一步驟使用可在各種手段或法律強(qiáng)制下控制,如許可證或版稅等。當(dāng)然,這些聲音也可為私人所有限于創(chuàng)作者使用。人們可以想象可能創(chuàng)建的圖書館的性質(zhì)。這些聲音將代表創(chuàng)作者創(chuàng)作的意向,但每種聲音實(shí)際上有真實(shí)哺乳動物聲音的成分或語氣,通過模版化工具或編碼的應(yīng)用作為基礎(chǔ),如同肌肉要素DNA,但可用于具體聲音。這類基于聲音和由哺乳動物產(chǎn)生的發(fā)音的組合代表強(qiáng)有力的新的通訊能力和相互關(guān)系。
按照本發(fā)明的系統(tǒng)可以手持或其它尺寸。系統(tǒng)可裝在其它系統(tǒng)內(nèi)或工作中單獨(dú)使用。這里描述的系統(tǒng)和方法的部分或全部單元可在分布式的、網(wǎng)絡(luò)或其它相互關(guān)系的遙控系統(tǒng)中。這里描述的系統(tǒng)和方法利用可下載或遠(yuǎn)距離可訪問的數(shù)據(jù),并且可用來控制各種其它系統(tǒng)或方法或處理。本發(fā)明的實(shí)施例包括暴露的界面程序,用于請求或?qū)崿F(xiàn)這里發(fā)明的方法和操作,但是它可以整個或部分地由別的操作或應(yīng)用系統(tǒng)來執(zhí)行。模版化過程模版化聲音的應(yīng)用或者可由哺乳動物或者由人工機(jī)器或其它處理來完成和使用。例如,機(jī)器人或其它智能助手可產(chǎn)生或使用一種或多種這類聲音。這一助手也可用來按照某種一般的或有限的準(zhǔn)則自動搜索聲音,然后在聲音工廠里產(chǎn)生虛擬或?qū)嶋H的模版化聲音。在這種狀態(tài)中,可有效的產(chǎn)生模版化聲音的大數(shù)據(jù)庫。在這種或類似系統(tǒng)的使用中,需要產(chǎn)生和應(yīng)用數(shù)據(jù)或其它類型的標(biāo)記和鑒別技術(shù)到一個或多個用于產(chǎn)生模版化聲音的實(shí)際聲音的部分。
下面是應(yīng)用本發(fā)明的應(yīng)用例子,沒有限制,只是作為除了本發(fā)明別的地方已提到的應(yīng)用之外,提供可能應(yīng)用的代表。
例1用本實(shí)施例元件的模板方法產(chǎn)生一個聲音編碼信號,包括具體聲音特征的邏輯結(jié)構(gòu)用于準(zhǔn)確地重現(xiàn)該聲音。
例2個人計(jì)算機(jī)提示器和更新器,狀態(tài)報(bào)告器或應(yīng)用一個或多個用本技術(shù)選擇的聲音的配對器。
例3家庭能量監(jiān)視器、報(bào)告器,或應(yīng)用一個或多個用本技術(shù)的選擇的聲音的配對器。
例4旅館房間助理,或汽車助理,根據(jù)需要的提示提醒用戶,如在旅館里由用戶選擇聲音的起床呼叫。同樣,車輛駕駛員可收到聲音或用戶選擇的聲音的信息。
例5用一個或多個用本技術(shù)的選擇的聲音于個人數(shù)字助理,手持個人計(jì)算設(shè)備,或在任何時(shí)候用于聲音捕獲、配對、警報(bào)等的電子設(shè)備或部件。
例6產(chǎn)生或管理一個或多個選擇的聲音或聲音模板于計(jì)算機(jī)/電子芯片的邏輯、指令、或編碼裝置中,用來實(shí)現(xiàn)本發(fā)明的業(yè)務(wù)、技術(shù)方法和制造。
例7用聲音模版化技術(shù)與其它視覺介質(zhì)相結(jié)合,如與照片,數(shù)字電視或全息圖像。
例8
用這里發(fā)明的技術(shù)與基于剖面卡的閃存儲器相結(jié)合,用于插入任何能記錄、放送或重建聲音的設(shè)備。
例9用這里發(fā)明的技術(shù)與個人的掃描和更新可下載信息的設(shè)備相結(jié)合,由于有想要的聲音或某人選擇的聲音的用戶。例如,它可能用于組織由機(jī)器人能做的活動,如信息機(jī)器人對背景的搜索和用戶不在時(shí)的界面和隨后用一種或多種用于技術(shù)的聲音向用戶報(bào)告狀態(tài)。
例10用這里發(fā)明的技術(shù)與一個或多個車輛或其它運(yùn)輸系統(tǒng)的部件相結(jié)合。
圖11用這里發(fā)明的技術(shù)與一個或多個飛機(jī)部件相結(jié)合,用于飛行中的陪伴。
例12用這里發(fā)明的技術(shù)作為安全提醒,用于工作場所有一個或多個傳動部件或設(shè)備時(shí)。例如個人計(jì)算機(jī)狀態(tài)監(jiān)視器、電氣設(shè)備、危險(xiǎn)設(shè)備等。
例13用這里發(fā)明的技術(shù),作為加入其它聲音激發(fā)系統(tǒng),例如聽寫設(shè)備,如提示、陪讀,或文本閱讀器。
例14用這里發(fā)明的技術(shù),用作社會調(diào)解或控制機(jī)構(gòu),如防止由駕駛員或自動激發(fā)的對道路的憤怒或其它形式的憤怒和受挫的工具,或用其它裝置。
例15用這里發(fā)明的技術(shù)作為家庭、學(xué)?;蚬ぷ鲌鏊虒W(xué)工具。
例16用這里發(fā)明的技術(shù)用于啟發(fā)閱讀。
圖17用這里發(fā)明的技術(shù)作為家族歷史機(jī)的工具。
圖18
用這里發(fā)明的技術(shù)作為聲音源和匹配技術(shù)的音樂匹配標(biāo)記,為歌唱家有最好或想要的聲音。
例19用這里發(fā)明的技術(shù)作為電影或電視匹配技術(shù)用最好的聲音的聲音選擇標(biāo)記,用于已為原表演者所用表演劇的模版化或隨后產(chǎn)生聲音模板技術(shù)聯(lián)合應(yīng)用。
例20用這里發(fā)明的技術(shù)作為“密友”設(shè)備,例如手控單元,它工作于“選擇聲音”或“聲音X”標(biāo)記模式,并具有與聲音匹配的圖像數(shù)據(jù)庫,以及可以選擇的無名模型,類似于例7。
例21用這里發(fā)明的技術(shù)來創(chuàng)建模版化聲音的輪廓。
例22用這里發(fā)明的技術(shù)用作住房內(nèi)床第閱讀器或夜間同伴,用于監(jiān)視或?qū)υ挼陌踩?br>
圖2是聲音捕獲子系統(tǒng)的一個實(shí)施例流程圖,它包括計(jì)算機(jī)可讀編碼裝置或用于實(shí)現(xiàn)捕獲、分析和使用指定用于模版化的聲音AA的方法。圖3是聲音分析子系統(tǒng)的一個實(shí)施例,它包括邏輯或方法裝置,用于有效地確定聲音數(shù)據(jù)特征的程序。在這些實(shí)施例中,聲音AA是在捕獲模塊或步驟103中被捕獲的,如路徑106,通過模版化處理,由邏輯步驟和數(shù)據(jù)傳導(dǎo)路徑路由。捕獲可以用數(shù)字或模擬的方法和部件來完成。代表被捕獲聲音AA的信號由分析裝置111或通過方法來路由,以確定是否存在聲音輪廓或模板匹配聲音AA。這可以借助于比較由捕獲模塊103或由分析裝置111確定的一個或一組特征(例如示于圖4聲音特征化子系統(tǒng)113)來實(shí)現(xiàn)。出現(xiàn)的反饋和初始分析環(huán)路114便利這些步驟,如路徑116所作的那樣。這種比較可包括詢問聲音剖析特征數(shù)據(jù)庫或其它存儲介質(zhì),或本地或遠(yuǎn)距離。分析模塊111的分析步驟和聲音特征化子系統(tǒng)113可根據(jù)算法,統(tǒng)計(jì)或其它技術(shù)重復(fù),以確認(rèn)被分析的聲音是否有關(guān)或是否與現(xiàn)存的聲音剖析特征或數(shù)據(jù)文件匹配。圖4提供聲音特征化子系統(tǒng)113的進(jìn)一步驟詳情。
再參考圖2,如果相應(yīng)于聲音AA的信號不與現(xiàn)存聲音剖析特征組匹配或相同,則該信號被送往特征化子系統(tǒng)進(jìn)一步驟特征化。但是,如果現(xiàn)存聲音剖析特征數(shù)據(jù)文件與聲音AA的剖析特征信號相匹配,則模板的產(chǎn)生不需要在模塊/步驟127中,在該情況下,該信號可被分析和/或特征化,用于產(chǎn)生經(jīng)修正的剖析特征或模板,然后它本身被儲存或應(yīng)用。當(dāng)有附加的特征化數(shù)據(jù)可用時(shí)(例如起動部分的大小,有沒有重音,或其它因素)這種情況是可能發(fā)生的,這些附加特征在以前是不可用的。因此,具體聲音數(shù)據(jù)文件可能包括一組模板。用通常表示在圖2和圖3中所示的驗(yàn)證子系統(tǒng)中的邏輯步驟和系統(tǒng)部件表示驗(yàn)證過程。至于子系統(tǒng)和部件相互位置關(guān)系,應(yīng)強(qiáng)調(diào)這些圖只是原理圖。還有,如圖3所示,在確定該聲音剖析特征數(shù)據(jù)文件存在之后(步驟137),步驟139的驗(yàn)證邏輯可選擇地進(jìn)行。如果現(xiàn)有模板的修正是有價(jià)值的話,則在步驟142中產(chǎn)生。反過來,邏輯步驟145注意到不對現(xiàn)存模板作修正。接著步驟143或步驟145之后,新的、經(jīng)修改的,或以前的聲音剖析特征或模板被儲存或用于步驟155。
圖2的模板創(chuàng)建模塊/步驟127包括利用聲音特征化子系統(tǒng),來產(chǎn)生一個唯一的鑒別器。它最好是數(shù)字鑒別器,用于該具體聲音模版化或取剖析特征。理論上說,這種數(shù)據(jù)與遺傳碼、基因順序碼,或條形碼相似,并像非常特殊的唯一目標(biāo)、實(shí)體、或現(xiàn)象的鑒別器一樣。因此,申請人將這種聲音剖析特征或模板稱為“聲音模板技術(shù)TM”以及“聲音DNATM或VDNATM”和“聲音順序碼TM或聲音順序編碼TM”。術(shù)語“剖析特征”和它的導(dǎo)出術(shù)語可用上面的商標(biāo)術(shù)語或用于本新技術(shù)的其它參考術(shù)語代替。在模板產(chǎn)生之后,該聲音模板可以被儲存(示于儲存模塊或步驟161或用于模塊或步驟164)。
圖4是代表聲音特征化子系統(tǒng)的原理圖,這一公開包括至少一個特征數(shù)據(jù)實(shí)例和確定和特征化顯著的數(shù)據(jù)來確定采用聲音模版化或取聲音剖析特征的聲音的裝置。如圖4所示,各類數(shù)據(jù)在比較特征化數(shù)據(jù)的組成時(shí)是有用的。這一特征化數(shù)據(jù)將被用來按照編碼準(zhǔn)則創(chuàng)立聲音的模板或剖析特征,雖然圖4中的數(shù)據(jù)呈現(xiàn)離散模塊的布置,但一個開放的比較器處理可能是優(yōu)先的選擇,其中任何數(shù)據(jù)可以各種訪問順序或加權(quán)的訪問次序用來比較。如本圖所示,無論如何,數(shù)據(jù)可包括語言的種類,性別,方言,區(qū)域或重音(表示成“聲音特征”在模塊或步驟201的輸出信號VC0);頻率、間距、音調(diào)、持續(xù)時(shí)間、或幅度(表示成在模塊或步驟203的輸出信號VC1);年齡、健康、發(fā)音、詞匯,或生理(表示在模塊或步驟205的輸出信號VC2);圖形、句法、音量、過渡、或聲音型式(表示成在模塊或步驟207的輸出信號VC3);教學(xué)、經(jīng)驗(yàn)、節(jié)拍、背誦、或語法(表示成在模塊或步驟209的輸出信號VC4);職業(yè)、國藉、種族、風(fēng)俗、環(huán)境(表示成在模塊或步驟211的輸出信號VC5);上下文、變異、規(guī)則/模型、起動部分類型、大小和數(shù)目(表示成在模塊或步驟213的輸出信號VC6);速度、情感、音群、類似性、或聲學(xué)模型(表示成在模塊或步驟215的輸出信號VC7);數(shù)學(xué)模型、處理模型、信號模型、發(fā)聲模型、或共享模型(表示成在模塊或步驟217的輸出信號VC8);矢量模型、自適應(yīng)數(shù)據(jù)、分類、語音、或發(fā)音方法(表示成在模塊或步驟219的輸出信號VC9);片段、音節(jié)、組合、自學(xué)習(xí)、或無聲(表示成在模塊或步驟221的輸出信號VC10);包裹、呼吸速率、音色、共振、或循環(huán)模式(表示成在模塊或步驟233的輸出信號VC11);諧波、合成模型、諧振、保真或其它特征(表示成在模塊或步驟255的輸出信號VC12);或各類其它技術(shù)用于唯一地鑒別聲音的一部分(或一部分或全部)。例如,可進(jìn)一步驟包括數(shù)字或模擬聲音特征、調(diào)制、合成輸入數(shù)據(jù),或其它為本發(fā)明形成或使用的數(shù)據(jù),他們都表示成在模塊或步驟227的輸出信號VCx。
識別到來自一個或多個模型或步驟的一種或多種數(shù)據(jù)類型可向聲音模板提供值。還有,為本發(fā)明的目的,不論這里提到的,VCx包含任何已知在解釋時(shí)的分類技術(shù),只要在以后對具體聲音確定唯一的聲音剖析特征或模板有用,并根據(jù)本發(fā)明所教導(dǎo)的使用。還有,也識別到,與聲音特征文件和輸出信號VC0,VC1,VC2,VC3,VC4,VC5,VC6,VC7,VC8,VC9,VC10,VC11,VC12,VCx組合的數(shù)據(jù)可以優(yōu)先化并以各種方式組合,以便準(zhǔn)確地和有效地分析和特征化聲音。用VCx代表仍有進(jìn)一步驟的技術(shù)可結(jié)合在這里作參考。
圖5和圖6說明一個適合于接收各種聲音特征數(shù)據(jù)的信號打包機(jī)模型,如數(shù)字或編碼數(shù)據(jù),它代表確認(rèn)與模版化聲音有關(guān)的信息和聲音的格式。該信號打包機(jī)316結(jié)合信號內(nèi)容模塊或步驟332的輸出和來自一個或多個信號VC0-VCx的值/存儲,并格式化模塊或步驟343的信號或編碼,作為適合于各種潛在用戶界面、設(shè)備或傳輸裝置的轉(zhuǎn)換和使用,以便產(chǎn)生聲音模板、編碼或信號VTx的輸出。也認(rèn)識到各種方法可用來創(chuàng)建一個唯一的鑒別器,來劃分各種方法可用來創(chuàng)建一個唯一的鑒別器來描繪各種聲音特征一從本發(fā)明有更寬的范圍的觀點(diǎn)看,各種可能性可用在這里,使某些成分分類法有某種程度的獨(dú)立。
圖7是一個代表性的電子詢問和在聲音模板產(chǎn)生或存儲設(shè)備404和遠(yuǎn)方用戶之間傳遞的結(jié)構(gòu)和方法。在這一代表中,起動部分可以被各種用戶410,413,416的任一個送到遠(yuǎn)地的聲音模板產(chǎn)生或存儲設(shè)備404。設(shè)備404產(chǎn)生或保存聲音模板數(shù)據(jù)文件或保存聲音模板信號。然后,該模板信號被送到或下載給用戶或它的指定者,示于步驟437。在下載時(shí),或在用戶請求441之后,模板信號被格式化,以適合包括激發(fā)指令和協(xié)議的目的地設(shè)備使用,示于步驟/模塊457。
圖8是一個原理圖,代表可移動介質(zhì),如卡、盤、或芯片,在其中根據(jù)用戶模式和需要裝有基本的部件,用于聲音模板技術(shù)。例如,用圖7和圖8,提供給旅客一個旅館門卡477,以核對進(jìn)入旅館。但是,除了現(xiàn)場保密碼編程和線路479用于該卡之外,也使結(jié)合本發(fā)明的附加特性有用。在這種卡內(nèi),可選特性的代表包括裝置481,用于接收和應(yīng)用用于聲音或旅館在旅館停留期間因各種目的選擇的聲音的聲音模板。如圖所示,這些特性可包括模板接收和存儲單元501,噪聲產(chǎn)生器或產(chǎn)生器線路506,中央處理單元511,輸入/輸出線路515,數(shù)模/模數(shù)轉(zhuǎn)換單元518,時(shí)鐘裝置521。還有,各種其它單元也是有用的,如聲壓縮或擴(kuò)展裝置,如那些已知的在蜂窩電話工業(yè)中用的裝置,或其它能使該卡具有所需功能的部件。于是,用戶可在旅館內(nèi)享受以旅客選擇的聲音與無生命的設(shè)備對話或連接。的確,旅客聲音的剖析特征甚至可保留這種聲音喜歡的信息,并且某種附加可保留這種聲音喜歡的信息,并且某種附加的帳單或利益也能通過這種發(fā)明的使用而自然增長。認(rèn)識到本發(fā)明可在很寬的應(yīng)用范圍內(nèi)和商品中使用。圖8和圖9的例子不應(yīng)認(rèn)為是限制。
圖9是照片602的說明,它布置成具有可歸因于圖形Fjj的聲音JJ和可歸因于圖形Fkk的聲音KK的聲音模板技術(shù)的交互使用。不論是計(jì)算機(jī)可讀編碼裝置或簡單的三維材料,與框610或其它結(jié)構(gòu)相結(jié)合,用來連接照片的主體或?qū)ο螅鶕?jù)用戶需要,以合適的聲音模板重新產(chǎn)生好像發(fā)生或可能已發(fā)生的對話。
認(rèn)識到有多種裝置和方法用來捕獲、分析和合成實(shí)際的或人工的聲音成分。例如,下面的美國專利以及它們引證或列出的參考文獻(xiàn),列出一些用于捕獲、合成、翻譯、識別、特征化或其它分析聲音的裝置,并總體結(jié)合在這里參考4,493,050;4,710,959;5,930,755;5,307,444;5,890,117;5,030,101;4,257,304;5,794,193;5,774,837;5,634,085;5,704,007;5,280,527;5,465,290;5,428,707;5,231,670;4,914,703;4,803,729;5,850,627;5,765,132;5,715,367;4,829,578;4,903,305;4,805,218;5,915,236;5,920,836;5,909,666;5,920,837;4,907,279;5,859,913;5,978,765;5,475,796;5,483,579;4,122,742;5,278,943;4,833,718;4,757,737;4,754,485;4,975,957;4,912,768;4,907,279;4,888,806;4,686,292;4,415,767;4,181,821;3,982,070;以及4,884,972。這些參考文獻(xiàn)中沒有一篇說明本發(fā)明權(quán)利要求書中或本發(fā)明其它地方作出的貢獻(xiàn)。相反,上面提到的專利在本發(fā)明的一個或多個實(shí)施中說明是可以利用而不是必須的工具。這樣,認(rèn)識到各種系統(tǒng)、產(chǎn)品、裝置、方法、處理、數(shù)據(jù)格式、數(shù)據(jù)有關(guān)的儲存和傳遞介質(zhì)、數(shù)據(jù)內(nèi)容和其它方面都考慮在本發(fā)明內(nèi),以獲得獨(dú)特的,并非顯而易見的創(chuàng)新、優(yōu)點(diǎn)、產(chǎn)品和本發(fā)明技術(shù)的應(yīng)用。因此,前面公開的內(nèi)容應(yīng)被認(rèn)為是示例而不是限制。所以,權(quán)利要求書中提供了較寬的范圍,根據(jù)發(fā)展的步驟實(shí)現(xiàn)技術(shù)的有效性,給這種領(lǐng)先技術(shù)無限制的權(quán)利。
權(quán)利要求
1.一種用于捕獲具體聲音起動部分的系統(tǒng),該部分足可用來做該聲音進(jìn)一步使用時(shí)的模板,包括a.裝置,以可用的形式捕獲聲音的起動部分,用于聲音特征分析;b.分析裝置,用于接收和分析捕獲到的聲音,并用于該被捕獲的聲音的特征化要素作為特征化數(shù)據(jù);c.存儲裝置,用于從具體聲音的分析裝置接收特征化數(shù)據(jù);d.恢復(fù)裝置,用于恢復(fù)分析和特征化數(shù)據(jù)供進(jìn)一步使用。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于捕獲聲音的裝置包括數(shù)字記錄裝置。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于捕獲聲音的裝置包括閃存儲卡。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于捕獲聲音的裝置包括模擬記錄裝置。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于捕獲聲音的裝置包括輸入裝置,用于接收活的聲音和用于把這一聲音傳給分析裝置。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于分析裝置包括數(shù)字?jǐn)?shù)據(jù)存儲裝置。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于分析裝置包括用于鑒別在被捕獲聲音數(shù)據(jù)中的特定圖形、句法、頻率、講話的音調(diào)的裝置。
8.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于分析裝置包括用于鑒別特定的詞匯、發(fā)音或被捕獲聲音特有的重音的裝置。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于分析裝置包括用于鑒別被捕獲聲音唯一有的特定特性的裝置,該聲音基本上是聲音原創(chuàng)者的特定解剖學(xué)結(jié)構(gòu)發(fā)出的。
10.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于分析裝置包括用于確定被捕獲的聲音的原創(chuàng)者的特定詞匯的裝置。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于分析裝置包括用于設(shè)置詞匯的裝置,該詞匯作為特征數(shù)據(jù)用于形成將來的模板化聲音。
12.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于分析裝置包括數(shù)字處理設(shè)備,用于數(shù)字處理以聲音或被記錄聲音的數(shù)字表示形式的輸入數(shù)據(jù)。
13.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于分析裝置包括第二輸入裝置,用于接收與聲音原創(chuàng)者的生理有關(guān)的附加數(shù)據(jù)。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于分析裝置的第二輸入裝置包括數(shù)字信號處理器裝置,它適合于有選擇地接收音頻或其它包括關(guān)于聲音原創(chuàng)者形態(tài)學(xué)的可視化信息的數(shù)據(jù)。
15.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于分析裝置包括用于比較輸入聲音數(shù)據(jù)與存儲的數(shù)據(jù)的裝置,該存儲數(shù)據(jù)包括年齡數(shù)據(jù)、語言數(shù)據(jù)、教育數(shù)據(jù)、性別數(shù)據(jù)、職業(yè)數(shù)據(jù)、重音數(shù)據(jù)、國藉數(shù)據(jù)、種族數(shù)據(jù)、聲音類型數(shù)據(jù)、風(fēng)俗數(shù)據(jù)和設(shè)置數(shù)據(jù)。
16.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于分析裝置包括第三輸入裝置,用于接收關(guān)于聲音原創(chuàng)者的數(shù)據(jù),包括年齡數(shù)據(jù)、教育數(shù)據(jù)、性別數(shù)據(jù)、職業(yè)數(shù)據(jù)、重音數(shù)據(jù)、國藉數(shù)據(jù)、種族數(shù)據(jù)、聲音類型數(shù)據(jù)、風(fēng)俗數(shù)據(jù)、語言數(shù)據(jù)和環(huán)境數(shù)據(jù)。
17.一種產(chǎn)生聲音噪聲的方法,該噪聲在語音上與實(shí)際的具體人的聲音相同,包括下列步驟a.捕獲具體的聲音的起動部分,用于存儲和使用;b.存儲具體語音的起動部分;c.分析起動部分,以鑒別被捕獲的聲音的基本成分或特征;d.用經(jīng)鑒別的基本成分或特征創(chuàng)建新的聲音,當(dāng)從一個或多個數(shù)據(jù)庫裝置分配數(shù)據(jù)和收聽時(shí),對于具有正常辨別能力的聽眾,創(chuàng)建的新聲音在各個方面都與該具體人的聲音相同。
18.根據(jù)權(quán)利要求17所述的方法,其特征在于分析步驟包括鑒別被捕獲的具體人聲音的起動部分中的成分,至少包括下列中一個成分頻率、音調(diào)、間距、音量、重音、性別、諧波結(jié)構(gòu)、聽覺觸力、語音的或定時(shí)的重音、功率和周期性。
19.根據(jù)權(quán)利要求18所述的方法,其特征在于捕獲具體人聲音的起動部分用于儲存和使用的步驟包括捕獲具體人聲音的喉部產(chǎn)生的噪聲或氣湍流產(chǎn)生的噪聲。
20.一種準(zhǔn)確地重現(xiàn)人聲音的方法,包括如下步驟a.鑒別最小限度的數(shù)據(jù)組,包括詞、語音或短語的組合,它必須是要重現(xiàn)的聲音原創(chuàng)者提供的;b.捕獲介質(zhì)中發(fā)送的要重現(xiàn)的聲音原創(chuàng)者發(fā)出的詞、語音和短語的組合;c.分析捕獲的上述聲音來鑒別原創(chuàng)者聲音的特征,使足以用鑒別的這些特征人工產(chǎn)生該聲音,所以,該人工產(chǎn)生的聲音對于有正常聲音分辨能力的聽眾,當(dāng)聽到用某些并不包含在捕獲到的實(shí)際聲音的語言成分所產(chǎn)生的聲音時(shí),人工產(chǎn)生的聲音在所有方面是相同的。
21.一種制造的產(chǎn)品,包括a.具有計(jì)算機(jī)可讀程序編碼裝置的計(jì)算機(jī)可用的介質(zhì),用于做人聲音的復(fù)制品,在所述制造產(chǎn)品中的計(jì)算機(jī)可讀程序編碼裝置包括b.計(jì)算機(jī)可讀程序編碼裝置,用于使計(jì)算機(jī)實(shí)現(xiàn)對捕獲到的原創(chuàng)聲音的起動部分的分析,以鑒別足能以人工產(chǎn)生該聲音的特征數(shù)據(jù);c.計(jì)算機(jī)可讀程序編碼裝置,使用被鑒別的聲音特征數(shù)據(jù)人工地產(chǎn)生聲音,所以,對于有正常聲音辨別能力的聽眾,當(dāng)聽到用某些并不包含在捕獲到的原創(chuàng)者實(shí)際聲音的語言成分所產(chǎn)生的聲音時(shí),人工產(chǎn)生的聲音在語音和用法上是相同的。
22.根據(jù)權(quán)利要求21所述的制造產(chǎn)品,其特征在于還包括計(jì)算機(jī)可讀程序編碼裝置,用于儲存以后使用的所產(chǎn)生的聲音。
23.根據(jù)權(quán)利要求21所述的制造產(chǎn)品,其特征在于還包括計(jì)算機(jī)可讀程序編碼裝置,用于用聲音特征數(shù)據(jù)來產(chǎn)生聲音原創(chuàng)者的聲音剖析特征。
24.根據(jù)權(quán)利要求21所述的制造產(chǎn)品,其特征在于還包括計(jì)算機(jī)可讀程序編碼裝置,用于訪問數(shù)據(jù)庫裝置,該數(shù)據(jù)庫裝置儲存包括下列各項(xiàng)的數(shù)據(jù)年齡數(shù)據(jù)、教學(xué)數(shù)據(jù)、性別數(shù)據(jù)、職位數(shù)據(jù)、重音數(shù)據(jù)、語言、國藉數(shù)據(jù)、種族數(shù)據(jù)、聲音類型數(shù)據(jù)、風(fēng)俗數(shù)據(jù)、一般數(shù)據(jù)和設(shè)置數(shù)據(jù)。
25.一種用于聽覺輸出設(shè)備的計(jì)算機(jī)程序產(chǎn)品,所說的計(jì)算機(jī)程序產(chǎn)品包括a.具有計(jì)算機(jī)可讀程序編碼裝置的計(jì)算機(jī)可用介質(zhì),用于通過一個聽覺輸出設(shè)備產(chǎn)生人聲音的復(fù)制品,計(jì)算機(jī)程序產(chǎn)品包括b.計(jì)算機(jī)可讀程序編碼裝置,由于使計(jì)算機(jī)實(shí)現(xiàn)對捕獲到的原創(chuàng)者聲音起動部分的分析,以鑒別足能以人工產(chǎn)生該聲音的聲音特征數(shù)據(jù);c.計(jì)算機(jī)可讀程序編碼裝置,使用被鑒別的聲音特征數(shù)據(jù),以便通過聽覺輸出設(shè)備人工地產(chǎn)生和輸出聲音,所以,對于有正常辨別能力的聽眾,當(dāng)聽到某些并不包含在捕獲到的實(shí)際聲音的語言成分所產(chǎn)生的聲音時(shí),人工產(chǎn)生的聲音在語言和用法上是相同的。
26.一種用于顯示設(shè)備的計(jì)算機(jī)程序產(chǎn)品,所說的計(jì)算機(jī)程序產(chǎn)品包括a.具有計(jì)算機(jī)可讀程序編碼裝置的計(jì)算機(jī)可用介質(zhì),用于產(chǎn)生人聲音的復(fù)制品和驗(yàn)證顯示在顯示設(shè)備上的被復(fù)制的聲音的準(zhǔn)確性,計(jì)算機(jī)程序產(chǎn)品包括b.計(jì)算機(jī)可讀程序編碼裝置,用于使計(jì)算機(jī)實(shí)現(xiàn)對捕獲到的原創(chuàng)者聲音的起動部分的分析,以鑒別足夠以人工產(chǎn)生該聲音的聲音特征數(shù)據(jù);c.計(jì)算機(jī)可讀程序編碼裝置,使用被鑒別的聲音特征數(shù)據(jù)人工地產(chǎn)生聲音和在顯示設(shè)備上把這一產(chǎn)生的聲音特征與原創(chuàng)者聲音比較,所以,該人工產(chǎn)生的聲音,當(dāng)在顯示設(shè)備上選擇指示,并當(dāng)聽眾聽到用某些并不包含在捕獲到的實(shí)際聲音的語言成分所產(chǎn)生的聲音時(shí),人工產(chǎn)生的聲音對聽者來說在語音上是一樣的。
27.一種用于聽覺輸出設(shè)備的計(jì)算機(jī)程序產(chǎn)品,所說的計(jì)算機(jī)程序產(chǎn)品包括a.具有計(jì)算機(jī)可讀程序編碼裝置的計(jì)算機(jī)可用介質(zhì),用于通過一個聽覺輸出設(shè)備產(chǎn)生人聲音的復(fù)制品,計(jì)算機(jī)程序產(chǎn)品包括b.計(jì)算機(jī)可讀程序編碼裝置,用于引起聲音特征數(shù)據(jù)文件的接收和激活,該特征數(shù)據(jù)文件專用于足以人工產(chǎn)生該具體聲音;c.計(jì)算機(jī)可讀程序編碼裝置,使用被鑒別的聲音特征數(shù)據(jù),以便通過聽覺輸出設(shè)備人工地產(chǎn)生和輸出聲音,所以,對收聽者來說,當(dāng)聽到產(chǎn)生的聲音和捕獲到的原創(chuàng)者實(shí)際聲音時(shí),人工產(chǎn)生的聲音與收聽者聽到的聲音相同。
28.一種用于電子設(shè)備的計(jì)算機(jī)程序產(chǎn)品,所說的計(jì)算機(jī)程序產(chǎn)品包括a.具有計(jì)算機(jī)可讀程序編碼裝置的計(jì)算機(jī)可用介質(zhì),用于起動人聲音的復(fù)制,計(jì)算機(jī)程序產(chǎn)品包括b.計(jì)算機(jī)可讀程序編碼裝置,用于引起聲音特征數(shù)據(jù)文件的接收和觸發(fā),該特征數(shù)據(jù)文件專用于足以人工產(chǎn)生該具體聲音;c.計(jì)算機(jī)可讀程序編碼裝置,用于引起已鑒別的聲音特征數(shù)據(jù)文件和一個噪聲產(chǎn)生裝置的聲音輸出到人工產(chǎn)生的聲音中,所以,該人工產(chǎn)生的聲音在語言上與原創(chuàng)者實(shí)際聲音相同。
29.一種存儲數(shù)據(jù)的存儲器,用于應(yīng)用程序在數(shù)據(jù)處理子系統(tǒng)中執(zhí)行時(shí)的訪問,包括a.存儲在所說的存儲器中的數(shù)據(jù)結(jié)構(gòu),所說的數(shù)據(jù)結(jié)構(gòu)包括駐留在數(shù)據(jù)庫中的信息,該數(shù)據(jù)庫由所說的應(yīng)用程序使用,并包括b.至少一個存儲在所說的存儲器中的聲音起動部分?jǐn)?shù)據(jù)文件,每一所說的起動部分?jǐn)?shù)據(jù)文件組含有實(shí)質(zhì)上與任何其它聲音起動部分?jǐn)?shù)據(jù)文件組不同的信息;c.一組聲音特征數(shù)據(jù)文件,含有不同的參考信息,用于一組聲音特征;d.一組聲音剖析特征組,每個具有至少一個聲音剖析特征數(shù)據(jù)文件,其數(shù)據(jù)只屬于該數(shù)據(jù)文件特有;其中,數(shù)據(jù)結(jié)構(gòu)允許對聲音特征數(shù)據(jù)文件和聲音剖析數(shù)據(jù)文件的訪問,以進(jìn)行與至少一個聲音起動部分?jǐn)?shù)據(jù)文件的比較操作。
30.一種數(shù)據(jù)處理系統(tǒng),執(zhí)行應(yīng)用程序并含有由該應(yīng)用程序使用的數(shù)據(jù)庫,所說的數(shù)據(jù)處理系統(tǒng)包括a.CPU裝置,用于處理所說的應(yīng)用程序;b.存儲裝置,用于保持?jǐn)?shù)據(jù)結(jié)構(gòu)為所說的應(yīng)用程序訪問用,所說的數(shù)據(jù)結(jié)構(gòu)由駐留在數(shù)據(jù)庫中的信息組成,該數(shù)據(jù)庫由所說的應(yīng)用程序使用并包括至少一個儲存在所說的存儲器內(nèi)的聲音起動部分?jǐn)?shù)據(jù)文件,每個所說的聲音起動部分?jǐn)?shù)據(jù)文件組含有實(shí)質(zhì)上與任何其它聲音起動部分?jǐn)?shù)據(jù)文件組不同的信息;一組聲音特征數(shù)據(jù)文件,含有不同的參考信息,用于一組聲音特征;一組聲音剖析特征組,每個具有至少一個聲音剖析特征數(shù)據(jù)文件,它具有只屬于該數(shù)據(jù)文件的特殊數(shù)據(jù);c.數(shù)據(jù)處理系統(tǒng)允許對聲音特征數(shù)據(jù)文件和聲音剖析數(shù)據(jù)文件的訪問,以進(jìn)行與至少一個聲音起動部分?jǐn)?shù)據(jù)文件的比較操作。
31.一種傳輸介質(zhì)中的計(jì)算機(jī)數(shù)據(jù)信號,包括a.加密源碼,用于唯一的聲音剖析特征的模板,可用于密鑰附加電子噪聲來創(chuàng)建特定的產(chǎn)生的聲音;b.載體介質(zhì),適用于把加密的源碼放在一個位置并構(gòu)成加密源碼,所以,加密源碼作為密鑰可從應(yīng)用的載體介質(zhì)移開,以創(chuàng)建產(chǎn)生的聲音。
32.一種使用選擇的聲音作為電子設(shè)備的個人聲音助理的方法,包括如下步驟a.激活電子裝置,用于訪問一個遠(yuǎn)距離的數(shù)據(jù)庫;b.把信號部分傳給遠(yuǎn)地含有聲音數(shù)據(jù)庫的數(shù)據(jù)庫,該聲音數(shù)據(jù)庫含有一組聲音剖析特征組,每組至少有一個聲音剖析特征數(shù)據(jù)文件,該文件具有只屬于該數(shù)據(jù)文件的特殊數(shù)據(jù)并可用唯一性鑒定器來鑒定。c.把信號部分傳給遠(yuǎn)地?cái)?shù)據(jù)庫,來唯一地鑒別所要的數(shù)據(jù)文件,然后實(shí)現(xiàn)把該數(shù)據(jù)文件的內(nèi)容傳遞給用戶指定的電子設(shè)備位置;d.使用選擇的并被傳送的數(shù)據(jù)文件作為聲音的模板,并與電子設(shè)備產(chǎn)生的適當(dāng)噪聲或與其他產(chǎn)生這種噪聲的裝置組合,以致如要求的一樣,用戶以鑒別的聲音確定的選擇的聲音從電子設(shè)備接收噪聲。
33.根據(jù)權(quán)利要求32所述的方法,其特征在于該數(shù)據(jù)文件包括,安排成像計(jì)算機(jī)可讀程序編碼方法的被選聲音的數(shù)據(jù)特征,以便使用被鑒別聲音特征數(shù)據(jù)人工地產(chǎn)生聲音模板。
34.根據(jù)權(quán)利要求32所述的方法,其特征在于實(shí)現(xiàn)步驟包括授權(quán)裝置的應(yīng)用,該授權(quán)裝置只允許被授權(quán)的用戶訪問和使用聲音模板技術(shù)和數(shù)據(jù)。
35.根據(jù)權(quán)利要求32所述的方法,其特征在于實(shí)現(xiàn)步驟包括有選擇的訪問驗(yàn)證裝置的應(yīng)用,用來驗(yàn)證聽到的聲音是實(shí)在的或者是模板產(chǎn)生的。
36.一種進(jìn)行業(yè)務(wù)的方法,其中,系統(tǒng)用來捕獲具體聲音的起動部分,使足夠用它作為模板來進(jìn)一步使用該聲音,包括如下步驟a.以有利于分析聲音特征的形式捕獲聲音的起動部分;b.把該起動部分輸入到分析模塊中,用于特征化被捕獲的聲音要素作為特征數(shù)據(jù);c.從分析模塊接收特征數(shù)據(jù),用于特定的聲音;d.存儲該特征數(shù)據(jù)為將來使用。
37.根據(jù)權(quán)利要求36所述的方法,其特征在于用于捕獲聲音的裝置包括數(shù)字輸入裝置。
38.根據(jù)權(quán)利要求36所述的方法,其特征在于聲音的起動部分由電子的方法接收。
39.根據(jù)權(quán)利要求36所述的方法,其特征在于特征化數(shù)據(jù)被打包,形成聲音模板信號,用于與產(chǎn)生的噪聲聯(lián)合產(chǎn)生模版化的聲音,其語音像原來具體的聲音。
40.根據(jù)權(quán)利要求36所述的方法,其特征在于被模版化的聲音這樣控制,使被模版化的聲音可接收語音輸入指令,使在模版化聲音中發(fā)出新的詞,但它未曾由該具體聲音輸入過。
41.一種自動機(jī)器,用于捕獲具體聲音的起動部分和用該部分作為模板,用于模版化聲音的將來使用,包括a.獲取模塊,用于分析聲音特征有用的形式獲取聲音的起動部分;b.分析模塊,用于接收和分析被捕獲的聲音和用于被捕獲聲音的特征化要素作為特征數(shù)據(jù);c.模板產(chǎn)生器模塊,用于自動產(chǎn)生聲音模板信號,作為被捕獲的具體聲音的唯一鑒別器。
42.根據(jù)權(quán)利要求41所述的機(jī)器,其特征在于還包括通訊裝置,用于與存儲裝置的通訊,該存儲裝置用于從數(shù)據(jù)庫接收特征化數(shù)據(jù)。
43.根據(jù)權(quán)利要求41所述的機(jī)器,其特征在于還包括與存儲設(shè)備通訊的通訊裝置,該存儲裝置用來存儲已產(chǎn)生的模板,直到被請求時(shí)為止。
44.一種在線產(chǎn)生聲音模板和為此產(chǎn)生收入的方法,包括a.捕獲具體聲音的起動部分;b.分析該部分,來產(chǎn)生數(shù)據(jù)剖析特征,該特征確定了為以后應(yīng)用可重建該聲音的特征;c.產(chǎn)生聲音模板信號,作為被捕獲的具體聲音的唯一鑒別器;和d.提供至少一種已產(chǎn)生的數(shù)據(jù)剖析特征用于他人的商業(yè)應(yīng)用。
45.一種機(jī)器操作方法,用于產(chǎn)生聲音模板和為此產(chǎn)生收入,包括a.捕獲具體聲音的起動部分;b.分析具體聲音的起動部分,用來產(chǎn)生數(shù)據(jù)剖析特征,該特征確定了被捕獲的聲音的特征,以這種方式,在以后應(yīng)用時(shí)可重建;c.使用數(shù)據(jù)剖析特征產(chǎn)生聲音模板信號,作為被捕獲的具體信號的唯一鑒別器;d.提供至少一種聲音模板信號供商業(yè)用。
46.一種產(chǎn)生聲音模板的業(yè)務(wù)方法,包括a.捕獲具體聲音的起動部分或模版化聲音;b.用計(jì)算機(jī)裝置分析聲音的起動部分,來產(chǎn)生數(shù)據(jù)剖析特征,該特征確定了捕獲聲音的特征,以這種方式,在以后應(yīng)用時(shí)可重建;c.電子產(chǎn)生和保存聲音模板信號,作為被捕獲聲音的唯一鑒別器;d.提供至少一種聲音模板信號用于商業(yè)應(yīng)用。
47.根據(jù)權(quán)利要求46所述的進(jìn)行業(yè)務(wù)的方法,其特征在于提供的步驟是在電子數(shù)據(jù)交換中完成的。
48.從一組聲音產(chǎn)生聲音模板的方法,包括a.捕獲一組聲音的起動部分或模版化聲音;b.用計(jì)算機(jī)裝置分析該部分來產(chǎn)生數(shù)據(jù)剖析特征,該特征確定了被捕獲聲音的特征,以這種方式,它可以打包成單個的聲音信號,以適合于在以后使用時(shí)可重建;c.電子產(chǎn)生聲音模板信號,作為新產(chǎn)生的聲音的唯一鑒別器。
全文摘要
公開的系統(tǒng)和方法捕獲(103)聲音起動部分,然后創(chuàng)建聲音模板(127)或剖析特征信號,這些特征可在以后與另一個原噪聲相組合,來重建原聲音。于是,這樣一種重建的聲音,通過數(shù)字輸入裝置,可用來作以任何形式或內(nèi)容的講話,并且說原聲音未曾以原形式說過的內(nèi)容。發(fā)明了在線應(yīng)用的產(chǎn)品和處理,作為某種業(yè)務(wù)方法和工業(yè)應(yīng)用。
文檔編號G10L21/013GK1391690SQ00816092
公開日2003年1月15日 申請日期2000年11月23日 優(yōu)先權(quán)日1999年11月23日
發(fā)明者史蒂文·J·基奧, 凱瑟琳·阿克西亞·基奧 申請人:史蒂文·J·基奧, 凱瑟琳·阿克西亞·基奧