利用聲學(xué)語境進(jìn)行搜索的方法和系統(tǒng)的制作方法
【專利摘要】提供了一種基于語境搜索的系統(tǒng)、控制器和方法。系統(tǒng)包括:一個以上設(shè)備,被配置成采集至少一個音頻流;以及語境搜索系統(tǒng)。所述語境搜索系統(tǒng)包括數(shù)據(jù)分析器和搜索引擎。所述數(shù)據(jù)分析器被配置成從所述一個以上設(shè)備中接收所述至少一個音頻流,從所述接收到的至少一個音頻流確定語境信息。所述搜索引擎被配置成使用所述語境信息來執(zhí)行至少一個搜索詞的搜索,以產(chǎn)生搜索結(jié)果。
【專利說明】利用聲學(xué)語境進(jìn)行搜索的方法和系統(tǒng)
[0001]相關(guān)申請的交叉引用
[0002]本申請涉及2011年3 月 28 日提交的、名稱為“METHODS AND SYSTEMS FOR SEARCHINGUTILIZING ACOUSTICAL CONTEXT (利用聲學(xué)語境搜索的方法和系統(tǒng))”、申請?zhí)枮?1/516,026的美國臨時申請并請求其權(quán)益,其內(nèi)容通過引用合并于此。
【技術(shù)領(lǐng)域】
[0003]本發(fā)明涉及搜索引擎,尤其涉及使用基于來自一個以上設(shè)備的音頻流的聲學(xué)語境進(jìn)行搜索的方法和系統(tǒng)。
【背景技術(shù)】
[0004]許多設(shè)備能夠?qū)ζ洵h(huán)境采樣不同的信息。在某些情況下,設(shè)備可以在本地處理來自其環(huán)境的音頻信息或者多媒體信息。例如,“智能”移動電話(例如,蘋果iPhone'基于Android?操作系統(tǒng)的電話)具有重要的本地處理能力或音頻和視頻獲取設(shè)備。
【發(fā)明內(nèi)容】
[0005]本發(fā)明體現(xiàn)為基于語境搜索的系統(tǒng)、控制器和方法。系統(tǒng)包括:一個以上設(shè)備,被配置成采集至少一個音頻流;以及語境搜索系統(tǒng)。所述語境搜索系統(tǒng)包括數(shù)據(jù)分析器和搜索引擎。所述數(shù)據(jù)分析器被配置成從所述一個以上設(shè)備中接收所述至少一個音頻流,從所接收到的至少一個音頻流確定語境信息。所述搜索引擎被配置成使用所述語境信息執(zhí)行至少一個搜索詞的搜索,以產(chǎn)生搜索結(jié)果。
[0006]根據(jù)本發(fā)明的一個方案,一個以上設(shè)備能夠?qū)⑿盘柼峁┙o包括分類器和搜索引擎的語境搜索系統(tǒng)。分類器(諸如發(fā)言識別器)可以提供可能對搜索引擎的搜索性能有用的語境信息。信號可以包括音頻信息或其他信息(例如,位置、一天中的時間、環(huán)境條件等)。音頻信息和其他信息可以為搜索詞提供消歧信息(即語境信息)。例如,“turkey (火鳥,土耳其)”可能涉及鳥、國家、個人評估、三明治等。關(guān)于搜索發(fā)起者的意圖、位置、物理環(huán)境和/或其他事件的語境信息可以被搜索引擎使用,例如以擴(kuò)展或者縮小搜索。
[0007]根據(jù)本發(fā)明的另一方案,設(shè)備可以采集發(fā)言信號、環(huán)境聲音、位置特定音頻、以及其他地理位置數(shù)據(jù),并且可以將此數(shù)據(jù)中的一些數(shù)據(jù)或者全部數(shù)據(jù)傳遞給語境搜索系統(tǒng),用于動作或者分析(諸如用于“語音搜索”)。
【專利附圖】
【附圖說明】
[0008]結(jié)合附圖閱讀,可以通過下面的詳細(xì)描述理解本發(fā)明。應(yīng)強(qiáng)調(diào)的是,根據(jù)習(xí)慣做法,可以不按比例繪制附圖的各種特征/元件。相反,為清晰起見,可以任意擴(kuò)大或者縮小各種特征/元件的尺寸。而且,在附圖中,使用共同的附圖標(biāo)記表示類似的特征/元件。附圖中包括以下各圖:
[0009]圖1是根據(jù)本發(fā)明的實(shí)施例基于語境搜索的示例性系統(tǒng)的功能框圖;[0010]圖2是根據(jù)本發(fā)明的實(shí)施例基于語境搜索的示例性特設(shè)(ad-hoc)網(wǎng)絡(luò)系統(tǒng)的功能框圖;
[0011]圖3是根據(jù)本發(fā)明的實(shí)施例圖1和圖2所示的系統(tǒng)的示例性設(shè)備的功能框圖;
[0012]圖4A是根據(jù)本發(fā)明的另一實(shí)施例圖1和圖2所示的系統(tǒng)的示例性設(shè)備的功能框圖;
[0013]圖4B是根據(jù)本發(fā)明的實(shí)施例圖4A所示的設(shè)備的示例性耳麥(earpiece)的立體視圖;以及
[0014]圖5是根據(jù)本發(fā)明的實(shí)施例使用聲學(xué)語境進(jìn)行搜索的示例性方法的流程圖?!揪唧w實(shí)施方式】
[0015]許多設(shè)備可以對其環(huán)境采樣信息。例如,移動電話可以報(bào)告其方位、加速度、音頻環(huán)境、照度水平、狀態(tài),可以顯示內(nèi)容,并且可以提供其他信息。與移動電話或者其他設(shè)備協(xié)同工作的附加的傳感器可以提供訪問接口至:由用戶產(chǎn)生的音頻或者其他生物信號、生物測量信號、物理信號、環(huán)境信號;用戶環(huán)境周圍的音頻;來自電話、無線電或者被調(diào)諧到的其他設(shè)備的電信號;以及可以從這些信號中歸類出的音頻事件的警報(bào)或者通知。這些設(shè)備的每一個依次可以具有訪問接口至:大量本地和遠(yuǎn)程數(shù)據(jù)存儲設(shè)備;一個以上通信協(xié)議;以及可以記錄、轉(zhuǎn)送、分析和/或告知本地用戶的移動電話和/或其他設(shè)備關(guān)于當(dāng)前情況或者將出現(xiàn)的狀況的處理。
[0016]本發(fā)明的方案涉及使用聲學(xué)語境來執(zhí)行搜索的系統(tǒng)和方法。可以從能夠獲取音頻信號(此處也稱為音頻流)的一個以上設(shè)備獲取數(shù)據(jù),或從其他傳感器獲取信息(諸如地理位置)。數(shù)據(jù)可以包括音頻信號和/或與音頻信號相關(guān)的聲學(xué)信息。例如,聲學(xué)信息可以包括:從對應(yīng)的音頻信號提取(例如,通過諸如隱馬爾可夫模型(HMM)的統(tǒng)計(jì)模型)的特征、在音頻信號和/或音頻信號的錄制副本(transcript)中檢測到的關(guān)鍵字。根據(jù)示例性實(shí)施例,一個以上設(shè)備可以被配置為捕獲與該設(shè)備相關(guān)聯(lián)的近場信號和與鄰近該設(shè)備的周邊環(huán)境相關(guān)聯(lián)的遠(yuǎn)場信號,使得所獲取的數(shù)據(jù)可以包括近場信號和遠(yuǎn)場信號??梢耘c搜索詞相關(guān)聯(lián)地分析從一個以上設(shè)備所獲取的數(shù)據(jù),以確定與該搜索詞相關(guān)聯(lián)的語境信息??梢詫τ烧Z境信息修改的搜索詞執(zhí)行搜索。
[0017]根據(jù)本發(fā)明的另一方案,設(shè)備不僅可以從其自己所在的環(huán)境采集和分析信息,而且可以從鏈接在一起以形成信息源的分布采集池的預(yù)先組織的或者特設(shè)的設(shè)備網(wǎng)絡(luò)來采集和分析信息??梢赃x擇性地捕獲(例如,用波束形成或者其他換能器信號處理技術(shù))和分析(例如,針對關(guān)鍵字和/或事件)在網(wǎng)絡(luò)上采集的音頻(或其他信息)??梢越M合來自網(wǎng)絡(luò)中的關(guān)鍵字和/或事件以產(chǎn)生用于搜索的語境。例如,來自從網(wǎng)絡(luò)中所選擇的設(shè)備的換能器可以用作波束形成陣列??梢宰灾鬟x擇設(shè)備或者由網(wǎng)絡(luò)選擇設(shè)備。
[0018]根據(jù)本發(fā)明的另一方案,能夠?qū)碜砸粋€以上設(shè)備的數(shù)據(jù)與已經(jīng)自主處理或者響應(yīng)于動作處理的任何搜索事件(例如,經(jīng)由鍵盤、筆、鼠標(biāo)、觸摸板從用戶接收的指示)組合,一同以適當(dāng)?shù)男问接涗洠杂糜谝院蟮姆治?。該記錄可以在設(shè)備的本地或者遠(yuǎn)程執(zhí)行,并且可以以任何對分析合適的形式執(zhí)行。例如,該記錄可以以音頻流、錄制副本、一個以上關(guān)鍵字、從音頻流中提取的特征、感測到的參數(shù)或者分類結(jié)果、電話元數(shù)據(jù)(metadata)或者無線電信息、來自搜索事件的文本、或者其組合的形式。[0019]可選地,所記錄的數(shù)據(jù)可以與其他元數(shù)據(jù)(例如,諸如溫度的環(huán)境信息)一起被時間標(biāo)記或者地理編碼,并且可以被以后索引或者簡單地提供為數(shù)據(jù)源。與一個以上設(shè)備相關(guān)聯(lián)的發(fā)言者的身份(即用戶的身份)可以如下所述由網(wǎng)絡(luò)確定,或者可以由用戶在發(fā)起或者查看所記錄的信息時指定。還可以在對搜索的語境的確定時中包括發(fā)言者身份。
[0020]根據(jù)示例性實(shí)施例,設(shè)備的用戶可以聽到聲音(諸如非發(fā)言聲、對話、特定發(fā)言者),并且可以指示設(shè)備突出標(biāo)記(highlight)音頻和/或音頻的錄制副本的部分。例如,如果設(shè)備包括耳麥,則用戶可以諸如經(jīng)由耳麥中的麥克風(fēng)為該突出標(biāo)記提供語音激活。通過這種方式,音頻的錄制副本可以在視覺上突出標(biāo)記并且呈現(xiàn)給用戶,用于其以后的查看。
[0021]根據(jù)本發(fā)明的另一方案,語境敏感(context-sensitive)搜索處理的結(jié)果不僅可以提供給本地用戶,還可以提供給發(fā)起搜索的網(wǎng)絡(luò)上的一些或者全部設(shè)備,或者,在層級組織的情形(例如,消防部門、警察行動)中,提供給監(jiān)管組織或者其他支持組織(例如,用于眾包(crowd sourcing))。
[0022]根據(jù)本發(fā)明的另一方案,系統(tǒng)可以提供由與地理位置(例如,城市或者國家)相關(guān)聯(lián)的任何法律限制調(diào)整的本地事件的日志,或從系統(tǒng)采集的事件中的參與者采集的許可的任何狀態(tài)。于是,被記錄日志的信息可以符合關(guān)于記錄人的任何法律限制而無需同意、或者符合由本地法律施加的其他約束。例如,在一些情況下,從電話討論中記錄音頻可能是合法的,但是捕獲該討論的錄制副本或者可能只是該討論的主題可能不是合法的。
[0023]本發(fā)明的方案包括來自對一個以上用戶的環(huán)境采樣或者監(jiān)視的設(shè)備和網(wǎng)絡(luò)的信息的使用。該信息可以用于產(chǎn)生更加有效的搜索,以向這些設(shè)備的一個以上用戶提供關(guān)于其歷史的信息交付、以及與該歷史相關(guān)但不包含在該歷史中的信息的信息交付。該信息還可以用于與歷史事件同時或者稍后的時間提供廣告或者其他機(jī)會。
[0024]參照圖1,示出了基于語境搜索的示例性系統(tǒng)的功能框圖,該示例性系統(tǒng)大體指系統(tǒng)100。系統(tǒng)100可以包括設(shè)備102和服務(wù)器104。設(shè)備102可以被配置為經(jīng)由通信系統(tǒng)106通過通信鏈路108與服務(wù)器104通信。設(shè)備102可以包括設(shè)備語境搜索系統(tǒng)112。服務(wù)器104可以聯(lián)接到遠(yuǎn)程語境搜索系統(tǒng)114。服務(wù)器104還可以聯(lián)接到遠(yuǎn)程存儲設(shè)備110。
[0025]在圖1中,通信系統(tǒng)106被說明為無線數(shù)據(jù)網(wǎng)絡(luò)。根據(jù)另一示例,通信系統(tǒng)106可以包括移動電話系統(tǒng)或者諸如英特網(wǎng)的計(jì)算機(jī)網(wǎng)絡(luò)。雖然圖1示出服務(wù)器104包括遠(yuǎn)程語境搜索系統(tǒng)114,但是應(yīng)理解的是,通信系統(tǒng)106可以直接聯(lián)接到遠(yuǎn)程語境搜索系統(tǒng)114和/或遠(yuǎn)程存儲設(shè)備110。
[0026]設(shè)備102可以包括能夠捕獲聲學(xué)信息的任何合適的設(shè)備。在示例性實(shí)施例中,設(shè)備102可以包括移動電話。根據(jù)另一示例性實(shí)施例,設(shè)備102可以包括結(jié)合圖4A和圖4B進(jìn)一步描述的耳麥和外部設(shè)備。應(yīng)理解的是,設(shè)備102不限于移動電話。設(shè)備102可以是單機(jī)設(shè)備(諸如便攜式計(jì)算機(jī)、平板電腦、無線電功能數(shù)字錄音機(jī)、無線電),或者可以是全球定位系統(tǒng)(GPS)、助聽器、移動電話、手表、電視機(jī)遙控器、汽車鑰匙、便攜式游戲控制器或者任何類似設(shè)備的一個集成部分。設(shè)備102可以由用戶116攜帶,或者可安裝在諸如汽車的車輛中或者車輛上。
[0027]在某些應(yīng)用中,設(shè)備102可以固定和安裝在家中,或者是固定電話、臺式計(jì)算機(jī)、電視機(jī)或者游戲機(jī)的一部分。設(shè)備102可以包括一個以上傳感器并具有相關(guān)聯(lián)的軟件,下面將結(jié)合圖3進(jìn)一步描述。如果設(shè)備102更像“智能”電話,則系統(tǒng)100可以具有訪問接口至:文本數(shù)據(jù)(包括電子郵件、聊天錄制副本和文件)、音頻數(shù)據(jù)(包括電話對話、設(shè)備上或者流至設(shè)備的音樂以及由一個以上麥克風(fēng)拾取的周邊音頻)以及用戶搜索日志。此數(shù)據(jù)的一些或者全部可能與確定語境信息相關(guān)。
[0028]設(shè)備102可以捕獲表示鄰近設(shè)備102的音頻場景的累積聲學(xué)信號122。累積聲學(xué)信號122可以包括:例如,用戶116的發(fā)言(即使不打電話)、用戶116發(fā)出的其他聲音(諸如咳嗽)、鄰近設(shè)備102的說話者118的發(fā)言、以及鄰近設(shè)備102的周圍聲音120 (諸如警笛、飛機(jī)、槍聲以及其它環(huán)境聲音)。累積聲學(xué)信號122可以被設(shè)備102記錄以形成至少一個音頻流(取決于能夠獲取聲學(xué)信息的設(shè)備102的換能器的數(shù)量)。
[0029]設(shè)備102和/或服務(wù)器104可以經(jīng)由各自的語境搜索系統(tǒng)112、114使用音頻流來執(zhí)行基于語境搜索。根據(jù)示例性實(shí)施例,設(shè)備語境搜索系統(tǒng)112可以使用音頻流執(zhí)行初始的基于語境搜索??梢詫碜栽O(shè)備102的初始搜索結(jié)果(以及可選地,音頻流)提供給服務(wù)器104。服務(wù)器104可以使用遠(yuǎn)程語境搜索系統(tǒng)114執(zhí)行進(jìn)一步的基于語境搜索。在此示例中,通過在設(shè)備102和服務(wù)器104之間分布搜索處理,可以取得更直接的搜索結(jié)果,減少設(shè)備102和服務(wù)器104上的計(jì)算負(fù)荷。
[0030]例如,語境搜索系統(tǒng)112 (或者系統(tǒng)114)可以不等到事件的結(jié)束才開始搜索。作為另一示例,設(shè)備語境搜索系統(tǒng)112可以在一整天內(nèi)執(zhí)行大量的初始搜索。在當(dāng)天結(jié)束時,可以將所有的初始搜索結(jié)果提供給遠(yuǎn)程語境搜索系統(tǒng)114。然后,遠(yuǎn)程語境搜索系統(tǒng)114可以使用一個以上初始搜索結(jié)果來弓I導(dǎo)搜索。
[0031]根據(jù)示例性實(shí)施例,設(shè)備102可以用于發(fā)起搜索并且用于提供搜索結(jié)果以告知用戶116??梢詫碜栽O(shè)備102的音頻流和其他信息,連同來自設(shè)備102的音頻流的任何分析結(jié)果,傳遞到設(shè)備語境搜索系統(tǒng)112和/或遠(yuǎn)程語境搜索系統(tǒng)114以提供用于搜索的語境。
[0032]遠(yuǎn)程語境搜索系統(tǒng)114可以包括數(shù)據(jù)分析器124、分類器126和搜索引擎128。設(shè)備語境搜索系統(tǒng)112可以包括與遠(yuǎn)程語境搜索系統(tǒng)114相類似的部件(如圖3所示,諸如數(shù)據(jù)分析器320、分類器322和搜索引擎324)。因此,下面對遠(yuǎn)程語境搜索系統(tǒng)114的描述也與設(shè)備語境搜索系統(tǒng)112有關(guān)。
[0033]數(shù)據(jù)分析器124可以被配置為分析來自設(shè)備102的信息。信息可以包括由設(shè)備語境搜索系統(tǒng)112先前分類的數(shù)據(jù)、由設(shè)備102提供的音頻流、來自包括在設(shè)備102中的其他類型傳感器的信息(下面結(jié)合圖3進(jìn)一步描述)、設(shè)備102的地理位置和/或音頻流的捕獲時間。數(shù)據(jù)分析器124也可以預(yù)先處理音頻流和/或其他傳感器信息,例如大致去除或者減少噪音。
[0034]數(shù)據(jù)分析器124可以經(jīng)由分類器126對多個音頻流(以及其他信息)分類以形成分類信息。分類信息可以包括:例如,特定音頻流、音頻流中的關(guān)鍵字、發(fā)言事件、非發(fā)言時間和/或指定給音頻流各段的主題。數(shù)據(jù)分析器124還可以使用分類器126將其他非音頻信息(即,來自其他類型的傳感器,諸如生物測量傳感器、環(huán)境傳感器、圖像傳感器)分類成其他分類信息。雖然在圖1中示出單個分類器126,但是分類器126可以包括多個分類器,每個分類器可以被配置為對不同類型的數(shù)據(jù)分類。
[0035]數(shù)據(jù)分析器124可以使用分類器126來建立音頻信息(或來自其他類型的傳感器的其他分類信息)的簡介(profiles)。分類器126可以能夠?qū)Ψ前l(fā)言聲音分類并且檢測聲學(xué)(非發(fā)言)事件,例如,警笛或者槍聲。分類器126可以包括發(fā)言識別器以識別發(fā)言,在發(fā)言信息上執(zhí)行關(guān)鍵字發(fā)現(xiàn),以及在設(shè)備102的聽覺范圍內(nèi)建立各種發(fā)言者(諸如用戶116和/或說話者118)的語音模型,用于發(fā)言者識別。數(shù)據(jù)分析器124可以使用分類器126或例如機(jī)器學(xué)習(xí)方法,以從音頻流中識別性別、可能的年齡范圍、國籍、情緒和其他人口統(tǒng)計(jì)學(xué)特征。分類器126可以使用單詞的采集來或然地(probabilistically)給當(dāng)前討論指定主題。
[0036]數(shù)據(jù)分析器124可以從分類信息確定聲學(xué)語境信息(或其他語境信息),例如,考慮至少一個搜索詞。語境信息(聲學(xué)信息或其他信息)可以連同至少一個搜索詞提供給搜索引擎128。搜索引擎128可以使用語境信息執(zhí)行搜索詞的搜索,以根據(jù)用戶116的意圖(語境)集中搜索。搜索引擎128可以使用一個以上搜索提供者來執(zhí)行搜索。從搜索引擎128獲得的結(jié)果可以提供給設(shè)備102。設(shè)備102可以例如,在視覺顯示器上、在聽覺上或者經(jīng)由觸覺界面(諸如振動界面)呈現(xiàn)搜索結(jié)果。
[0037]例如,當(dāng)在設(shè)備102 (諸如移動電話)上發(fā)起文本搜索時,在預(yù)定時間內(nèi)由設(shè)備102(經(jīng)由分類器126)識別的、引起搜索請求的單詞可以經(jīng)由數(shù)據(jù)分析器124添加到搜索請求上作為語境信息。此外,可以經(jīng)由數(shù)據(jù)分析器124分析單詞以確定其是否表示主題、位置、或者其他更大的分類,并且可以將分類傳遞到搜索引擎128用于幫助定位搜索。
[0038]來自設(shè)備102的可用的語境的非窮盡性列表可以包括:例如,在先前事件段中記錄的音頻;來自最近采集的音頻流(例如,來自發(fā)言識別或者單詞發(fā)現(xiàn))的先前單詞;用于每段先前采集的音頻或者文本的發(fā)言者識別;先前討論的主題、外部談話、語音或者文本;以及在先前采集的音頻流中的分類聲音(例如咳嗽、噴嚏、車輛聲、機(jī)器聲、以及其分析、以及諸如馬路噪音的環(huán)境聲音)。聲音的這些示例是非窮盡列表。
[0039]根據(jù)示例性實(shí)施例,如果搜索查詢由設(shè)備102自動產(chǎn)生,則語境搜索系統(tǒng)112 (和/或系統(tǒng)114)還可以使用在產(chǎn)生搜索查詢的決定之后到來的信息。設(shè)備102可以包含音頻的循環(huán)緩沖區(qū)、單詞、發(fā)言者身份已經(jīng)其他信息。非時間敏感查詢可以使用任何此信息作為搜索查詢的語境。例如,系統(tǒng)100可以保持相對于搜索查詢的發(fā)起前兩分鐘的發(fā)言和文本以及后兩分鐘的發(fā)言和文本。查找用于搜索的言語觸發(fā)的系統(tǒng)100可以在循環(huán)緩沖區(qū)(或者存儲媒介)內(nèi)找到觸發(fā),并且可以延遲搜索至緩沖區(qū)的大小,以便既發(fā)出來自搜索之前的文本又發(fā)出來自搜索觸發(fā)之后的文本。
[0040]可用的音頻流的數(shù)量可以取決于設(shè)備102的類型或設(shè)備102上可用的換能器的數(shù)量。例如,如果設(shè)備102包括耳麥和移動電話(諸如如圖4A所示的耳麥402和外部設(shè)備404),則音頻流可以包括:來自耳麥的內(nèi)部音頻(諸如來自內(nèi)部麥克風(fēng)406 )、來自耳麥的外部音頻(諸如來自外部麥克風(fēng)410)、在耳麥處(諸如提供給接收器408的)或者在相關(guān)聯(lián)的移動電話處可用的電信號或者音頻、來自移動電話上的麥克風(fēng)的音頻、或者來自耳麥被耳麥的處理系統(tǒng)(諸如處理器402)修改的外部音頻。
[0041]每個音頻流可以單獨(dú)被分類器126 (諸如發(fā)言識別器或者事件分類器)分類或者作用,或者可以使用信號處理(例如,波束形成)組合以突出標(biāo)記特定的音頻源??梢詫碜愿鞣N音頻流的信息經(jīng)由數(shù)據(jù)分析器124選擇性地提供給搜索引擎128。例如,來自由內(nèi)部麥克風(fēng)406 (圖4A)提供的音頻信號的單詞可能具有清晰的音頻并且可能被準(zhǔn)確地轉(zhuǎn)錄,可以與從外部麥克風(fēng)410得到的主題相組合,并且二者可以被提供給搜索引擎128。來自系統(tǒng)100的信息的許多可能的組合可以被提供以幫助搜索。
[0042]可以由在設(shè)備102上的用戶界面(諸如如圖3所示的用戶界面304)或者由語言激活(諸如經(jīng)由如圖3所示的傳感器模塊302)發(fā)起搜索。例如,用戶界面可以包括鍵盤、眼球跟蹤器、或者其他觸覺界面(例如,吹吸設(shè)備)中的至少一個。然而,為了充分利用由設(shè)備102提供的信息,語境搜索系統(tǒng)112 (和/或系統(tǒng)114)可以擴(kuò)展其能力以搜索由音頻告知的單詞、由其他背景單詞告知的單詞、由單詞告知的音頻、由一個以上音頻流告知的音頻、或者搜索發(fā)起和語境信息的其他混合。
[0043]在搜索之后,可以由搜索組織(諸如設(shè)備語境搜索系統(tǒng)112、遠(yuǎn)程語境搜索系統(tǒng)114或者另一個組織)選擇性地查詢來自設(shè)備102的音頻流和分類數(shù)據(jù)。例如,搜索組織可以請求來自搜索結(jié)果的交付隨后兩分鐘的音頻流的所有單詞。這樣的單詞可以用于評價搜索的成功,或者提供跟隨的搜索結(jié)果,或者可能對搜索組織或者用戶116有用的其他分析。
[0044]還可能的是,搜索提供者可能不僅想要搜索隨后的信息而且想要搜索前的信息。搜索提供者可能向系統(tǒng)100查詢搜索前預(yù)定時間量的單詞或者音頻、以及搜索后的單詞和音頻。此信息可以用于改善搜索處理,以分析處理的結(jié)果,或者給出利用在用戶發(fā)起搜索之前和之后所采集信息的一個以上二次搜索結(jié)果。
[0045]來自設(shè)備102的數(shù)據(jù)可以本地記錄在設(shè)備102上或者記錄在遠(yuǎn)程位置??梢赃B續(xù)記錄數(shù)據(jù),或者可以響應(yīng)于用戶116的請求、地理位置、搜索提供者的請求或者其他服務(wù)提供者、一天中的某個時間、設(shè)備102的狀態(tài)或者其他信號而選擇性地記錄數(shù)據(jù)。
[0046]記錄可以緩存在設(shè)備102中,或者可以傳送到遠(yuǎn)程存儲設(shè)備110用于存儲。事件的記錄可以由語境搜索系統(tǒng)112 (和/或系統(tǒng)114)制作成可搜索的。例如,可以轉(zhuǎn)錄一個以上音頻流,標(biāo)出音頻流中的由分類器126感測的事件??梢越?jīng)由數(shù)據(jù)分析器128基于數(shù)據(jù)的統(tǒng)計(jì)或者數(shù)據(jù)的其他分析定期將主題或者其他識別符指定給記錄。緩存的數(shù)據(jù)可以包括:由設(shè)備102取得的地理信息、圖像或者視頻、來自設(shè)備102的生物感測信息或者其他被記錄或者感測的可用數(shù)據(jù)。
[0047]遠(yuǎn)程存儲設(shè)備110可以存儲音頻流(來自設(shè)備102)、來自設(shè)備102的其他信息(諸如來自其他傳感器、時間、和/或地理位置)、分類音頻信息、其他(即非聲學(xué))分類信息、聲學(xué)語境信息、其他(即非聲學(xué))語境信息、搜索詞或者搜索結(jié)果(來自設(shè)備語境搜索系統(tǒng)112和/或遠(yuǎn)程語境搜索系統(tǒng)114)中的至少一個。遠(yuǎn)程存儲設(shè)備110可以包括:例如,隨機(jī)存取存儲器(RAM)、磁盤、光盤、閃存或者硬盤。
[0048]通過此處的描述,本領(lǐng)域技術(shù)人員可以理解合適的數(shù)據(jù)分析器124、分類器126和搜索引擎128。
[0049]參照圖2,示出了基于語境搜索的示例性特設(shè)網(wǎng)絡(luò)系統(tǒng)的功能框圖,該示例性特設(shè)網(wǎng)絡(luò)系統(tǒng)大體上指定為系統(tǒng)200。系統(tǒng)200類似于系統(tǒng)100 (圖1),除了系統(tǒng)200可以包括多個設(shè)備,包括設(shè)備102(也稱為控制器102)、設(shè)備202-1和設(shè)備202-2。設(shè)備202_1、202_2還可以捕獲可能與設(shè)備102的累積聲學(xué)信號122不同的各自的累積聲學(xué)信號206-1、206_2。
[0050]設(shè)備202和設(shè)備102可以能夠經(jīng)由通信鏈路204互相直接通信。設(shè)備120和設(shè)備102還可以能夠經(jīng)由通信鏈路108與通信系統(tǒng)106通信。設(shè)備206和設(shè)備102可以是類似類型的設(shè)備或者可以是不同類型的設(shè)備。不同種類的設(shè)備202、設(shè)備102可以包括不同的傳感器和/或不同的軟件。一般而言,設(shè)備206可以包括上述針對設(shè)備102描述的任何設(shè)備。
[0051]在系統(tǒng)200中,一個以上設(shè)備202和設(shè)備102可以被配置為獲取鄰近各自的設(shè)備202和設(shè)備102的音頻信息(或其他信息)。設(shè)備102可以與設(shè)備202相同,除了設(shè)備102可以被配置為作用為用于從多個設(shè)備202中選擇性地獲取傳感器信息以及用于確定語境信息的控制器。雖然一個設(shè)備102被說明為作為控制器,但是應(yīng)理解的是,多個設(shè)備102、設(shè)備202可以作用為多個控制器。
[0052]雖然設(shè)備102被說明為作為用于收集傳感器信息的控制器,但是應(yīng)理解的是,通信系統(tǒng)106和/或服務(wù)器104也可以被配置為作用為控制器。
[0053]在圖2中,說明了少量代表性的設(shè)備102、202。設(shè)備102、202可以是大量設(shè)備的一部分(例如在都市區(qū)域中的一大片電話),并且系統(tǒng)200可以適應(yīng)性地激活設(shè)備102、202的特定子設(shè)備(subsets)和/或選擇性地配置被激活的設(shè)備102、202。例如,設(shè)備102 (或者服務(wù)器104)可以根據(jù)在一個以上設(shè)備102、202處監(jiān)測到的觸發(fā)事件來激活和/或配置設(shè)備 202。
[0054]參照圖3,示出了示例性設(shè)備102 (或者設(shè)備202)的功能框圖。設(shè)備120 (或者設(shè)備202)可以包括:一個以上傳感器模塊302、用戶界面304、顯示器306、揚(yáng)聲器(即擴(kuò)音器)308、警告指示器310、位置模塊312、通信模塊314、控制器316、存儲設(shè)備318、設(shè)備語境搜索系統(tǒng)114和隱私模塊336,這些可以經(jīng)由數(shù)據(jù)和控制總線330聯(lián)接在一起。
[0055]為簡潔起見,下面的描述是針對設(shè)備102。應(yīng)理解的是,設(shè)備202可以包括一個以上和設(shè)備102相同的部件。因此,設(shè)備102的描述也與設(shè)備202相關(guān)。于是可以不給出對設(shè)備202的進(jìn)一步描述。
[0056]典型的設(shè)備102可以包括通信模塊314,通信模塊314提供穿過通信系統(tǒng)106至服務(wù)器104的通信鏈路108 (圖2),和/或至其他設(shè)備202的通信鏈路204 (圖2)。通信模塊314還可以在獲取定位信號(例如GPS信號、W1-Fi信號強(qiáng)度等)中起作用,并且還可以提供直接與其他設(shè)備202通信的途徑。
[0057]設(shè)備102可以包括傳感器模塊302,用于獲取傳感器信息。傳感器模塊302可以包括一個以上麥克風(fēng),用于米集累積聲學(xué)信號122 (圖1)。傳感器模塊302還可以包括一個以上環(huán)境傳感器(諸如溫度傳感器、諸如加速計(jì)的動作傳感器),用于采集與設(shè)備102相關(guān)聯(lián)的環(huán)境信息。傳感器模塊302還可以包括一個以上生物測量傳感器(諸如心率),用于感測與設(shè)備102的用戶相關(guān)的生物測量信息。傳感器模塊302還可以包括攝像機(jī)(即圖像傳感器),用于捕獲設(shè)備102的周圍環(huán)境的靜止圖像和/或視頻。傳感器模塊302還可以包括指南針,用于提供定位信息。
[0058]一般而言,傳感器模塊302可以包括能夠測量物理量并且將其轉(zhuǎn)換成可以由系統(tǒng)100 (圖1)(或者如圖2所示的系統(tǒng)200)使用的信號的任何傳感器。例如,傳感器模塊302中的傳感器還可以包括而不限于:一個以上光檢測傳感器、接近傳感器、重力檢測傳感器、磁場檢測傳感器、電場檢測傳感器、振動傳感器、壓力傳感器、濕度傳感器、水分傳感器、毒素檢測傳感器、營養(yǎng)物質(zhì)檢測傳感器或者信息素檢測傳感器。
[0059]在不例性實(shí)施例中,設(shè)備102的傳感器模塊302可以具有一個以上換能器以捕獲近場和遠(yuǎn)場聲學(xué)信號。例如,設(shè)備102可以包括移動設(shè)備(例如,移動電話)或者計(jì)算機(jī)(包括筆記本計(jì)算機(jī)、平板電腦或者臺式計(jì)算機(jī))。換能器可以包括能夠?qū)碜杂脩舻男盘栟D(zhuǎn)換成音頻信號的任何換能器。例如,換能器可以包括機(jī)電、光學(xué)或者壓電換能器。換能器還可以包括喉式麥克風(fēng)、顎式麥克風(fēng)或者骨傳導(dǎo)麥克風(fēng)。換能器可以能夠檢測來自用戶臉部的振動并且將振動轉(zhuǎn)換成音頻信號。[0060]一個以上換能器可以用于從外部(遠(yuǎn)場)聲音場中檢測和/或區(qū)別出與設(shè)備102相關(guān)聯(lián)的用戶的發(fā)言。例如,懸掛式麥克風(fēng)可以用于從外部聲音場中定位用戶的發(fā)言。作為另一示例,可以組合多個麥克風(fēng),諸如通過波束形成,來從外部聲音場中定位用戶的語音。作為另一示例,移動設(shè)備102上的鄰近發(fā)言拾取位置的一個以上換能器可以用作近場換能器,而在該設(shè)備對側(cè)的另外的換能器可以用作遠(yuǎn)場換能器。作為另一示例,不同設(shè)備上的換能器的組合可以用于檢測和區(qū)分用戶發(fā)言(近場信號)與其他設(shè)備上的換能器(諸如鄰近的移動電話)。作為進(jìn)一步示例,在設(shè)備102附近的設(shè)備202可以用作采集外部聲音場。
[0061]用戶界面304可以包括能夠提供搜索請求和搜索詞的任何合適的用戶界面。用戶界面304還可以能夠?yàn)橐粋€以上設(shè)備語境搜索系統(tǒng)112、傳感器模塊302、顯示器306、揚(yáng)聲器308、警告指示器310、位置模塊312、通信模塊314、存儲設(shè)備318以及隱私模塊326提供參數(shù)。用戶界面304可以包括:例如,指點(diǎn)設(shè)備、鍵盤和/或顯示設(shè)備(包括觸摸敏感顯示器)。
[0062]設(shè)備102可以包括顯示器306、揚(yáng)聲器308和/或警告指示器310,用于向設(shè)備102的用戶116呈現(xiàn)信息。顯示器306可以包括能夠在設(shè)備102上呈現(xiàn)信息的任何合適的顯示設(shè)備。警告指示器可以包括用于在設(shè)備102上呈現(xiàn)警告的任何合適的視覺指示器。警告可以包括:例如正在記錄音頻信息的指示。應(yīng)理解的是,揚(yáng)聲器308還可以在聽覺上呈現(xiàn)警告指示。雖然將用戶界面304和顯示器306說明為分離的設(shè)備,但是應(yīng)理解的是,用戶界面304和顯示器306的功能可以組合在一個設(shè)備。
[0063]設(shè)備102可以包括位置模塊312,以便為設(shè)備102保持位置估計(jì)。例如,位置模塊312可以使用定位系統(tǒng)180 (圖1)來獲得該位置估計(jì)。
[0064]存儲設(shè)備316可以存儲未加工的傳感器信息(來自傳感器模塊302)、分類信息(聲學(xué)和/或非聲學(xué))(來自如圖1所示的設(shè)備語境搜索系統(tǒng)112和/或系統(tǒng)114)、語境信息(聲學(xué)和/或非聲學(xué))(來自設(shè)備語境搜索系統(tǒng)112和/或系統(tǒng)114)、搜索結(jié)果(來自如圖1所示的設(shè)備語境搜索系統(tǒng)112和/或系統(tǒng)114)、位置信息(來自位置模塊312)或者與所存儲的信息相關(guān)聯(lián)的時間戳(諸如來自系統(tǒng)時鐘(未示出))中的至少一個。存儲設(shè)備318可以包括:例如,RAM、磁盤、光盤、閃存或者硬盤。
[0065]控制器316可以例如經(jīng)由數(shù)據(jù)和控制總線330聯(lián)接到一個以上傳感器模塊302、用戶界面304、顯示器306、揚(yáng)聲器308、警告指示器310、位置模塊312、通信模塊314、控制器316、存儲設(shè)備318、設(shè)備語境搜索系統(tǒng)114和隱私模塊336??刂破?16可以被配置為控制傳感器信息的獲取、用于語境的傳感器信息的分析、傳感器信息的發(fā)送和/或接收、語境信息和/或搜索結(jié)果的發(fā)送和/或接收、或設(shè)備102對信息的任何呈現(xiàn)(諸如經(jīng)由顯示器306、揚(yáng)聲器308和/或警告指示器310)??刂破?16可以包括:例如,邏輯電路、數(shù)字信號處理器、微處理器或者多核處理器以便于多個數(shù)據(jù)流的并行處理。應(yīng)理解的是,設(shè)備語境搜索系統(tǒng)112的一個以上功能可以由控制器316執(zhí)行。
[0066]設(shè)備語境搜索系統(tǒng)112包括數(shù)據(jù)分析器320、分類器322和搜索引擎324。如上所述設(shè)備語境搜索系統(tǒng)112和遠(yuǎn)程語境搜索系統(tǒng)114相同,除了系統(tǒng)112可以被包括作為設(shè)備102的一部分。系統(tǒng)112可以被配置為基于由傳感器模塊302為設(shè)備102本地米集的信息來分析信息(聲學(xué)和/或非聲學(xué))、確定語境信息(聲學(xué)和/或非聲學(xué))和/或執(zhí)行搜索。系統(tǒng)112還可以經(jīng)由通信模塊314接收/分析來自其他設(shè)備202的信息。[0067]隱私模塊326可以包括:實(shí)現(xiàn)隱私和/或安全要求的機(jī)制;以及用于與通過與數(shù)個運(yùn)營商(carriers)相關(guān)聯(lián)的一個以上設(shè)備的包括音頻信息的各種信息的獲取和使用相關(guān)的應(yīng)用的策略。這些策略和機(jī)制可以控制設(shè)備102的使用,包括遠(yuǎn)程打開和關(guān)閉感測(例如收聽)的能力、由這些設(shè)備102獲得的任何音頻信息的所用權(quán)、用戶方便地控制感測和信息獲取的能力、應(yīng)用的選擇進(jìn)入和選擇退出的機(jī)制、運(yùn)營商范圍或者網(wǎng)絡(luò)范圍數(shù)據(jù)收集、所收集的任何音頻個人可識別信息(PU)的保護(hù),以及由數(shù)個設(shè)備102、202和網(wǎng)絡(luò)產(chǎn)生的任何匯總數(shù)據(jù)。還可以建立用于不是所有存在的用戶都具有數(shù)據(jù)獲取的選擇進(jìn)入權(quán)的私人和半私人情形的策略或者標(biāo)準(zhǔn)做法。
[0068]所記錄的數(shù)據(jù)可以被加密使得僅通過所有者的許可才可用。加密處理是公知的,并且可以由耳麥設(shè)備、由移動電話、或者事后由遠(yuǎn)程存儲位置的處理提供適當(dāng)?shù)募用?。移動電話通信?jīng)常被加密,所以在遠(yuǎn)程存儲之前可能不需要額外的加密。
[0069]參照圖4A和圖4B,根據(jù)本發(fā)明的另一實(shí)施例,示出示例性設(shè)備102'(和/或設(shè)備202')。設(shè)備102' (202')類似于如圖3所示的設(shè)備102 (202),除了設(shè)備102' (202')包括至少一個耳麥402和外部設(shè)備404。根據(jù)一個實(shí)施例,設(shè)備102' (202')可以包括供一個耳朵的單個耳麥402-1。根據(jù)另一實(shí)施例,設(shè)備102' (202')可以包括兩個耳麥402-1和402-2,一個耳麥供一個耳朵。
[0070]設(shè)備102'、202'可以包括如圖2所示的設(shè)備102 (202)的一個以上相同部件。例如,外部設(shè)備404可以包括如圖2所示的設(shè)備102、202的至少一個部件。此外,耳麥402可以包括換能器(諸如內(nèi)部麥克風(fēng)406和/或外部麥克風(fēng)410),用于采集一個以上音頻流。處理可以由在外部設(shè)備404內(nèi)的處理器和/或耳麥402中的處理器412執(zhí)行。在示例性實(shí)施例中,處理可以在處理器412和外部設(shè)備404內(nèi)的處理器之間劃分。
[0071]耳麥402可以包括一個以上內(nèi)部麥克風(fēng)406,內(nèi)部麥克風(fēng)406可以位于耳道內(nèi)但是可以由閉塞元件414 (圖4B)(例如,可擴(kuò)張球囊或者其它技術(shù))阻斷外部音頻場(即,鄰近耳麥的遠(yuǎn)場信號)以便在耳道內(nèi)取得阻斷(閉塞)。耳麥402還可以包括至少一個接收器408(即,內(nèi)部擴(kuò)音器),接收器408可以被配置為提供來自外部聲音場或者來自外部設(shè)備404(例如,無線電、移動電話等)的音頻。
[0072]耳麥402可以包括一個以上外部麥克風(fēng)410,用于對外部聲音場米樣。麥克風(fēng)410可以位于耳麥402中。耳麥402還可以聯(lián)接到一個以上其他外部麥克風(fēng),例如頭戴式耳麥或者移動電話中的一個以上麥克風(fēng)。
[0073]可以在耳麥402中包括計(jì)算機(jī)或者其他處理器412以提供例如音頻信號的數(shù)字化、與外部設(shè)備404的通信、以及用于管理用戶116 (圖1)的聲音環(huán)境的使用的本地存儲、以及用于與外部設(shè)備404的信息傳遞。處理器412可以執(zhí)行從外部麥克風(fēng)410和/或至少一個內(nèi)部麥克風(fēng)406接收的音頻信號的分析,例如以便檢測聲學(xué)事件(例如單詞、發(fā)言主題、音樂或者環(huán)境聲音)。處理器412還可以對音頻信號執(zhí)行任何合適的處理(諸如特征提取)以及發(fā)送聲學(xué)信息。處理器412可以包括:例如,邏輯電路、數(shù)字信號處理器或者微處理器。
[0074]如圖4B所不,一般而言,耳麥402包括閉塞兀件414和部件外殼416。閉塞兀件414可以被配置為將耳道和外部音頻場基本上隔離。部件外殼416可以容納耳麥402的電子部件(諸如內(nèi)部麥克風(fēng)406、接收器408、外部麥克風(fēng)410以及處理器412)。[0075]參照圖5,示出使用聲學(xué)語境搜索的示例性方法的流程圖。圖5所說明的步驟表示本發(fā)明的示例性實(shí)施例。應(yīng)理解的是,某些步驟可以以不同于所示出的順序執(zhí)行。還應(yīng)理解的是,可以去除某些步驟。
[0076]在步驟500,從一個以上設(shè)備中采集至少一個音頻流。例如,可以從設(shè)備102經(jīng)由傳感器模塊302(圖3)采集至少一個音頻流。根據(jù)另一示例,可以從設(shè)備102或設(shè)備206-1和206-2 (圖2)采集音頻流。在步驟502,例如由分類器126 (圖1)和/或分類器322 (圖3)對音頻流分類以形成聲學(xué)分類信息。
[0077]在可選的步驟504,可以例如由傳感器模塊302 (圖3)從一個以上設(shè)備中采集其他(非聲學(xué))信息。在可選的步驟506,可以例如由分類器126 (圖1)和/或分類器322 (圖3)對非聲學(xué)信息分類以形成其他(非聲學(xué))分類信息。
[0078]在步驟508,例如在遠(yuǎn)程存儲設(shè)備110 (圖1)或者存儲設(shè)備318 (圖3)處存儲音頻流、其他信息、分類(聲學(xué))信息或者分類其他(非聲學(xué))信息中的至少一個。
[0079]在步驟510,例如由數(shù)據(jù)分析器124 (圖1)或者數(shù)據(jù)分析器320 (圖3)從分類(聲學(xué))信息確定聲學(xué)語境信息。在可選的步驟512,例如由數(shù)據(jù)分析器124 (圖1)和/或數(shù)據(jù)分析器320 (圖3)從其他(非聲學(xué))信息和/或其他分類(非聲學(xué))信息確定另外的(非聲學(xué))語境信息。
[0080]在步驟514,例如由搜索引擎128和/或搜索引擎324使用在步驟510 (以及可選地,在步驟512)確定的語境信息來執(zhí)行至少一個搜索詞的搜索。在步驟516,可以例如由用戶界面304 (圖3)、顯示器306和/或揚(yáng)聲器308在設(shè)備102、202 (圖2)的至少一個上呈現(xiàn)搜素結(jié)果。
[0081]在可選的步驟518,響應(yīng)于搜索結(jié)果(在步驟514和步驟516),可以例如通過控制器316 (圖3)選擇性地激活傳感器模塊302,來從一個以上設(shè)備102、202 (圖2)中采集至少一個進(jìn)一步的音頻流。在可選的步驟520,可以例如由設(shè)備語境搜索系統(tǒng)112 (圖1)、遠(yuǎn)程語境搜索系統(tǒng)114、搜索組織和/或搜索提供者基于進(jìn)一步的至少一個音頻流,來分析搜索結(jié)果的有效性。
[0082]可以為經(jīng)由用戶界面304 (圖3)(即,搜索請求觸發(fā)器)提供的額外的搜索請求來重復(fù)步驟500至步驟520。根據(jù)另一實(shí)施例,可以連續(xù)監(jiān)視音頻流(以及其他非聲學(xué)信息)。響應(yīng)于預(yù)定關(guān)鍵詞、可能感興趣的主題或者事件的檢測,可以由系統(tǒng)100 (圖1)或者系統(tǒng)200 (圖2)自動產(chǎn)生搜索。下面進(jìn)一步提供連續(xù)監(jiān)視的示例。
[0083]應(yīng)理解的是,此處的描述集中于“智能”電話作為示例,而其他類型的固定或者移動設(shè)備可以與“智能”電話一同使用或者代替“智能”電話使用。而且,此處的描述集中于音頻信息的匯總或者組合作為示例,但是其他形式的信息的匯總和處理,包括視頻和生物測量信息可以與下面描述的音頻數(shù)據(jù)示例一同執(zhí)行或者替代執(zhí)行。
[0084]接下來將參照幾個示例說明本發(fā)明。加入示例以更加清楚地說明本發(fā)明的整體性質(zhì)。這些示例是示例性的,不限制本發(fā)明。
[0085]示例應(yīng)用
[0086]參照圖4A和圖4B,在示例性應(yīng)用中,耳麥402和外部設(shè)備404可以與其他設(shè)備連成網(wǎng)絡(luò)(諸如在如圖2所示的系統(tǒng)200中)以向網(wǎng)絡(luò)提供信息。例如,消防隊(duì)可以具有連續(xù)地從內(nèi)部麥克風(fēng)406采集清楚的音頻、從外部麥克風(fēng)410采集周邊音頻、以及從在耳麥402中或者在外部設(shè)備404中的傳感器采集地理、溫度、加速度以及其他信息的網(wǎng)絡(luò)設(shè)備。系統(tǒng)200可以基于外部音頻和傳感器信息在團(tuán)隊(duì)的成員之間提供連續(xù)的通信、關(guān)于危險狀況的警報(bào),并且提供對關(guān)于狀況、位置、協(xié)議、設(shè)備可用性、警察行動或者其他這種可能對團(tuán)隊(duì)有用的信息的語境敏感搜索的訪問接口。數(shù)據(jù)可以全部記錄在遠(yuǎn)程存儲設(shè)備110 (圖2)中,并且可以用于情況和團(tuán)隊(duì)行動的事后分析。此外,至此完整的記錄信息或?qū)崟r音頻和傳感器信息可被制作成對監(jiān)管處可用,以便用于監(jiān)視情況和用于指揮/控制目的。此數(shù)據(jù)可以用于連續(xù)更新狀態(tài)顯示,使得例如可以維持被裝備人員到訪的所有區(qū)域的溫度分布圖。
[0087]遠(yuǎn)程數(shù)據(jù)可能變成用于法醫(yī)分析的信息,這是因?yàn)槠淇赡馨谟脩舻沫h(huán)境中說出的信息的記錄、由用戶說出的數(shù)據(jù)、元數(shù)據(jù)以及搜索結(jié)果。在一個例子中,在記錄中可能還包含每個發(fā)言者的身份,或者至少來自相同發(fā)言者的幾個不同的音頻樣本的識別。同樣,公司能夠使用這些記錄來確認(rèn)口頭合同討論以及用于其他法律和商業(yè)關(guān)系。
[0088]外部搜索處理可以連續(xù)監(jiān)視來自滅火隊(duì)的對話和數(shù)據(jù),并且可以提供關(guān)于諸如天氣、附近滅火資源的狀態(tài)、交通、通信狀態(tài)或者其他信息的可能對回應(yīng)者有幫助的相關(guān)信息的搜索結(jié)果??梢赃B續(xù)跟蹤語境,并且可以幫助搜索引擎提供有針對性的相關(guān)的搜索信息給滅火者。對社會情形、軍隊(duì)行動或者許多其他集體行動可以考慮類似的情景。
[0089]參照圖2,根據(jù)另一示例性應(yīng)用,設(shè)備102、202可以包括可能在不同車輛中的移動電話。設(shè)備102、202的各種傳感器可以記錄交通堵塞和/或交通事故的各種指示。例如,設(shè)備102、202中的加速儀可以指示突然停車;由設(shè)備102、202記錄的音頻可以指示情緒狀態(tài)的改變;來自音頻的關(guān)鍵字可以指示交通堵塞或者事故;或者所記錄的音頻可以指示一個以上聲音的突然非常高的聲壓水平。有了任何這些指示,系統(tǒng)200可以向設(shè)備102、202提供交通或者事故狀況,或者提供為避免交通量或者事故的新的路線指令。如果指示了可能的事故,則系統(tǒng)200可以打開設(shè)備102 (或者設(shè)備202)的揚(yáng)聲器電話,并且可以呼叫救援人員,使得救援人員可以與一個以上車輛乘客通信。系統(tǒng)200還可以打開設(shè)備102(或者設(shè)備202)的視頻攝像頭以在視覺上監(jiān)視車輛中的活動。系統(tǒng)200還可以打開設(shè)備102 (或者設(shè)備202)的溫度計(jì),以便檢測任何熱量增加(其可能指示著火)并且將結(jié)果傳送給救援人員(諸如救援醫(yī)療服務(wù)和/或消防部門)。
[0090]根據(jù)另一示例性應(yīng)用,在商業(yè)情景中,示例性設(shè)備102 (圖1)(或者如圖4A所示的設(shè)備102')可以在整個營業(yè)日期間打開。音頻、單詞和感測到的事件可以用于當(dāng)天中的語境敏感搜索,在外部設(shè)備上(或者在耳麥設(shè)備上)運(yùn)行的處理可以基于在來自音頻和其他擊鍵事件的錄制副本或者關(guān)鍵字流中觀察到的語境,來自發(fā)地產(chǎn)生偶然的搜索。例如,如果商業(yè)人忙于為其商業(yè)尋找新的建筑,則設(shè)備102 (圖1)(或者圖4A所示的設(shè)備102')可以感測到有房地產(chǎn)交易正在談判,并且可以自發(fā)地產(chǎn)生關(guān)于在特定地理位置的房地產(chǎn)環(huán)境、關(guān)于與正在考察的位置相關(guān)聯(lián)的法律難題、關(guān)于與這些位置相關(guān)聯(lián)的待定規(guī)章、關(guān)于稅費(fèi)結(jié)構(gòu)或者處理那些結(jié)構(gòu)的特殊會計(jì)情況、關(guān)于在該位置可用的交通和通信能力等的搜索。這些自發(fā)產(chǎn)生的搜索可能以文本信息形式提請用戶注意,可能提供在設(shè)備102 (圖1)的顯示器上,在聽覺上提供給耳麥402 (圖4A),或者簡單地提供在當(dāng)天的歷史記錄中。
[0091]在當(dāng)天結(jié)束之后,應(yīng)用可能給用戶提供當(dāng)天活動的總結(jié),并且可能提供在當(dāng)天中產(chǎn)生的所有相關(guān)的搜索信息。此搜索信息能夠按相關(guān)性組織,并且處理能夠重新組織信息以最好地服務(wù)于商業(yè)人的利益。搜索引擎本身能夠采集之前的搜索結(jié)果,并且能夠?qū)ο惹爱a(chǎn)生的信息重新組織并且劃分優(yōu)先順序,以將事后目標(biāo)信息和可能對客戶和搜索組織都有商業(yè)利益的信息,諸如廣告、關(guān)于房地產(chǎn)信息源的推薦、待定的立法或者其他相關(guān)信息一同傳遞給客戶。來自當(dāng)天和過去星期或者月份的搜索結(jié)果能夠?qū)τ脩艨捎茫杂糜诜治龊统尸F(xiàn),并且來自此分析的數(shù)據(jù)結(jié)果能夠提供給搜索引擎作為將來搜索的語境。
[0092]用戶可以查看當(dāng)天的活動,可以不僅基于那時刻的本地音頻流而且基于來自正被查看的記錄的數(shù)據(jù)來產(chǎn)生額外的搜索查詢。提供給搜索引擎的語境對于正在被查看的特定事件既能是可回顧的又能是可前瞻的,這是因?yàn)槟軌蚱谕涗浖饶苎由斓奖徊榭词录坝帜苎由斓奖徊榭词录蟆?br>
[0093]在查看時,系統(tǒng)100 (圖1)能夠按發(fā)言者聚集(cluster)音頻信息。如果按發(fā)言者識別出任何單個音頻樣本,則該身份能夠附加到該發(fā)言者的所有音頻上。如果發(fā)言者的身份未知,則可以請求查看者識別發(fā)言者,并且從此時間起(甚至在回顧數(shù)據(jù)中),能夠在被記錄的數(shù)據(jù)中標(biāo)出該發(fā)言者。如下所述,如果該發(fā)言者包含在特定網(wǎng)絡(luò)中,并且在網(wǎng)絡(luò)工作時參與與用戶的對話,則可以幾乎完全肯定地確認(rèn)發(fā)言者身份。
[0094]在任何網(wǎng)絡(luò)情形中,諸如系統(tǒng)200 (圖2),給定的發(fā)言者的音頻既可能出現(xiàn)在來自網(wǎng)絡(luò)的一些成員的外部麥克風(fēng)信號中,或者也可能出現(xiàn)在一個網(wǎng)絡(luò)參與者的內(nèi)部麥克風(fēng)中。在這種情況下,對網(wǎng)絡(luò)可用的處理可以對該音頻信息指定身份。當(dāng)產(chǎn)生用于搜索的語境時,這意味著不僅來自外部音頻的單詞對搜索是可用的,而且這些單詞中與發(fā)言者身份相關(guān)聯(lián)的每組單詞對搜索也是可用的,能夠通過理解發(fā)出該單詞的特定人的歷史來進(jìn)一步改善搜索的語境。例如,如果被識別的發(fā)言者在輪椅中,則由該人的協(xié)助者產(chǎn)生的搜索能夠告知關(guān)于被協(xié)助的人的身體限制,能夠更加瞄準(zhǔn)有用的結(jié)果。
[0095]在網(wǎng)絡(luò)情形中,在網(wǎng)絡(luò)中參與者的身份能夠給搜索引擎128 (圖1)或者搜索引擎324 (圖3)提供信息。例如,在喜歡藍(lán)草音樂的一群人的集會處,包含在特定網(wǎng)絡(luò)中的人們的身份可能提示將要告知搜索引擎的特定群組的興趣、事件或者音樂錄制處理。用于經(jīng)常出現(xiàn)的說話者的分類器126 (圖1)或者分類器324 (圖3)能夠內(nèi)置在設(shè)備102 (或者如圖4A所示的設(shè)備102')中,由此為頻繁遇到的討論者提供即時(on-the-fly)身份。
[0096]盡管本發(fā)明被描述成使用聲學(xué)語境搜索的系統(tǒng)和方法,但是可以考慮在與微處理器/通用計(jì)算機(jī)(未示出)一起使用的軟件中實(shí)現(xiàn)一個以上步驟和/或部件。在此實(shí)施例中,可以在控制計(jì)算機(jī)的軟件中實(shí)現(xiàn)如上所述的各種部件和/或步驟的一個以上功能。軟件可以體現(xiàn)為非短暫性的有形計(jì)算機(jī)可讀介質(zhì)(諸如,以非限制性的示例來說,磁盤、光盤、閃存、硬盤等)以供計(jì)算機(jī)執(zhí)行。
[0097]例如,一些軟件可以包括用于在設(shè)備102和設(shè)備202上執(zhí)行的指令。此軟件可以存儲在中心位置處的非短暫性的有形計(jì)算機(jī)可讀介質(zhì)上,例如在服務(wù)器104處以便分布到設(shè)備102、1202,可以在數(shù)字通信介質(zhì)上傳輸,和/或存儲在設(shè)備102、202處的機(jī)器可讀介質(zhì)中(例如,作為下載的應(yīng)用/小應(yīng)用程序)。一些軟件可以駐留在服務(wù)器104處(例如,在分布的處理器“云”中)并且通過將其存儲在非短暫性的有形計(jì)算機(jī)可讀介質(zhì)而做成可存取的,以用于在服務(wù)器104的處理器上執(zhí)行。
[0098]盡管此處結(jié)合特定實(shí)施例說明和描述了本發(fā)明,但是無意將本發(fā)明限于所示出的細(xì)節(jié)。相反,可以在權(quán)利要求的等同方案的界限和范圍內(nèi)并且不偏離本發(fā)明地在細(xì)節(jié)上做各種修改。
【權(quán)利要求】
1.一種基于語境搜索的系統(tǒng),包括: 一個以上設(shè)備,被配置為采集至少一個音頻流;以及 語境搜索系統(tǒng),包括: 數(shù)據(jù)分析器,被配置為從所述一個以上設(shè)備中接收所述至少一個音頻流,從所接收到的至少一個音頻流確定語境信息;以及 搜索引擎,被配置為使用所述語境信息執(zhí)行至少一個搜索詞的搜索,以產(chǎn)生搜索結(jié)果。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述系統(tǒng)將所述搜索結(jié)果提供給所述一個以上設(shè)備中的至少一個設(shè)備。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述語境信息指示所述搜索詞的搜索意圖。
4.根據(jù)權(quán)利要求1所 述的系統(tǒng),其中所述語境搜索系統(tǒng)包括至少一個分類器以將所述音頻流分類成分類信息,所述數(shù)據(jù)分析器使用所述分類信息和所述至少一個搜索詞來確定所述語境信息。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中所述分類器將每個音頻流分類成以下中的至少一個:關(guān)鍵字、發(fā)言事件、非發(fā)言事件、主題、錄制副本、發(fā)言者身份、或者與所述音頻流相關(guān)聯(lián)的情緒狀態(tài)。
6.根據(jù)權(quán)利要求4所述的系統(tǒng),其中所述數(shù)據(jù)分析器被配置為接收與各自設(shè)備相關(guān)聯(lián)的非聲學(xué)信息,所述數(shù)據(jù)分析器使用所述非聲學(xué)信息或來自所述非聲學(xué)信息的進(jìn)一步分類信息兩者中的至少一個來確定所述語境信息。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中所述非聲學(xué)信息包括以下中的至少一個:地理位置、時間、發(fā)言者身份、圖像、文本信息、生物測量信息、或者環(huán)境信息。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),進(jìn)一步包括存儲設(shè)備,被配置為存儲以下中的至少一個:所述至少一個音頻流、所述分類信息、所述非聲學(xué)信息、所述進(jìn)一步的分類信息、所述語境信息、所述至少一個搜索詞、所述搜索結(jié)果、或者所述分類信息在一段時間內(nèi)的日志。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其中每個設(shè)備具有至少一個與其他所述設(shè)備或者服務(wù)器交換信息的通信能力。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述一個以上所述設(shè)備或者所述服務(wù)器中的至少一個包括所述語境搜索系統(tǒng)。
11.根據(jù)權(quán)利要求1所述的系統(tǒng),其中至少一些所述設(shè)備中的每個設(shè)備包括用戶界面,響應(yīng)于從所述用戶界面接收的指示來執(zhí)行所述搜索。
12.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述語境搜索系統(tǒng)連續(xù)監(jiān)視所述至少一個音頻流,響應(yīng)于在所監(jiān)視的音頻流中的指示來自動執(zhí)行進(jìn)一步搜索。
13.根據(jù)權(quán)利要求1所述的系統(tǒng),其中至少一些所述設(shè)備中的每個設(shè)備具有一個以上傳感器,用于獲取與鄰近所述設(shè)備的環(huán)境相關(guān)的傳感器數(shù)據(jù)。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中所述一個以上傳感器包括以下中的至少一個:麥克風(fēng)、運(yùn)動相關(guān)傳感器、溫度傳感器、生物測量傳感器、指南針、圖像傳感器、光檢測傳感器、接近傳感器、重力檢測傳感器、磁場檢測傳感器、電場檢測傳感器、振動傳感器、壓力傳感器、濕度傳感器、水分傳感器、毒素檢測傳感器、營養(yǎng)物質(zhì)檢測傳感器、或者信息素檢測傳感器。
15.根據(jù)權(quán)利要求1所述的系統(tǒng),其中至少一個所述設(shè)備中包括以下中的至少一個:用戶界面、顯示器、警告指示器、揚(yáng)聲器、位置模塊、或者隱私模塊。
16.根據(jù)權(quán)利要求1所述的系統(tǒng),其中至少一個所述設(shè)備中包括以下中的至少一個:移動電話設(shè)備、耳麥、助聽器、導(dǎo)航設(shè)備、計(jì)算機(jī)、或者具有至少一個傳感器的傳感器模塊。
17.根據(jù)權(quán)利要求1所述的系統(tǒng),其中至少一個所述設(shè)備中包括無線設(shè)備或者有線設(shè)備中的至少一個。
18.根據(jù)權(quán)利要求1所述的系統(tǒng),其中至少一個所述設(shè)備中包括固定設(shè)備或者移動設(shè)備中的至少一個。
19.一種基于語境搜索的控制器,所述控制器被配置為與多個設(shè)備交互,每個設(shè)備至少具有與至少一個其他所述設(shè)備、所述控制器或者通信系統(tǒng)交換信息的通信能力,一個以上所述設(shè)備或者所述控制器兩者中的至少一個被配置為采集至少一個音頻流,所述控制器包括: 語境搜索系統(tǒng),包括: 數(shù)據(jù)分析器,被配置為從所述一個以上設(shè)備或者所述控制器兩者中的至少一個中接收所述至少一個音頻流,從所接收到的至少一個音頻流確定語境信息;以及 搜索引擎,被配置為使用所述語境信息執(zhí)行至少一個搜索詞的搜索,以產(chǎn)生搜索結(jié)果。
20.根據(jù)權(quán)利要求19所述的控制器,進(jìn)一步包括通信模塊,被配置為從所述一個以上設(shè)備中接收所述至少一個音頻流。
21.根據(jù)權(quán)利要求19所述的控制器,進(jìn)一步包括傳感器模塊,用于采集所述至少一個音頻流。
22.根據(jù)權(quán)利要求21所述的控制器,其中所述傳感器模塊包括麥克風(fēng)和以下中的至少一個:運(yùn)動相關(guān)傳感器、溫度傳感器、生物測量傳感器、指南針、圖像傳感器、光檢測傳感器、接近傳感器、重力檢測傳感器、磁場檢測傳感器、電場檢測傳感器、振動傳感器、壓力傳感器、濕度傳感器、水分傳感器、毒素檢測傳感器、營養(yǎng)物質(zhì)檢測傳感器、或者信息素檢測傳感器。
23.根據(jù)權(quán)利要求19所述的控制器,其中所述控制器將所述搜索結(jié)果提供給所述一個以上設(shè)備中的至少一個設(shè)備。
24.根據(jù)權(quán)利要求19所述的控制器,其中所述語境搜索系統(tǒng)包括至少一個分類器以將所述音頻流分類成分類信息,所述數(shù)據(jù)分析器使用所述分類信息和所述至少一個搜索詞來確定所述語境信息。
25.根據(jù)權(quán)利要求24所述的控制器,其中所述數(shù)據(jù)分析器被配置為接收與各自設(shè)備相關(guān)聯(lián)的非聲學(xué)信息,所述數(shù)據(jù)分析器使用所述非聲學(xué)信息或來自所述非聲學(xué)信息的進(jìn)一步分類信息兩者中的至少一個來確定所述語境信息。
26.根據(jù)權(quán)利要求25所述的控制器,其中進(jìn)一步包括存儲設(shè)備,其被配置為存儲以下中的至少一個:所述至少一個音頻流、所述分類信息、所述非聲學(xué)信息、所述進(jìn)一步的分類信息、所述語境信息、所述至少一個搜索詞、所述搜索結(jié)果、或者所述分類信息在一段時間內(nèi)的日志。
27.根據(jù)權(quán)利要求19所述的控制器,其中所述語境搜索系統(tǒng)連續(xù)監(jiān)視所述至少一個音頻流,響應(yīng)于在所監(jiān)視的音頻流中的指示來自動執(zhí)行進(jìn)一步搜索。
28.根據(jù)權(quán)利要求19所述的控制器,進(jìn)一步包括用戶界面,響應(yīng)于從所述用戶界面接收的指示來執(zhí)行所述搜索。
29.—種基于語境搜索的方法,包括: 從一個以上設(shè)備中采集至少一個音頻流; 由數(shù)據(jù)分析器從所述一個以上設(shè)備中接收到的所述至少一個音頻流確定語境信息;以及 由搜索引擎使用所述語境信息執(zhí)行至少一個搜索詞的搜索,以產(chǎn)生搜索結(jié)果。
30.根據(jù)權(quán)利要求29所述的方法,所述方法進(jìn)一步包括:將所述搜索結(jié)果提供給所述一個以上設(shè)備中的至少一個設(shè)備,通過以下方式中的至少一個呈現(xiàn)所述搜索結(jié)果:視覺地、聽覺地或者通過觸覺界面。
31.根據(jù)權(quán)利要求30所述的方法,所述方法進(jìn)一步包括: 響應(yīng)于所呈現(xiàn)的搜索結(jié)果從所述一個以上設(shè)備中采集至少一個進(jìn)一步的音頻流; 從所述至少一個進(jìn)一 步的音頻流確定進(jìn)一步的語境信息;以及 由所述進(jìn)一步的語境信息確定所述搜索結(jié)果的有效性。
32.根據(jù)權(quán)利要求29所述的方法,其中所述語境信息用于對所述搜索詞的搜索意圖進(jìn)行消歧。
33.根據(jù)權(quán)利要求29所述的方法,所述方法進(jìn)一步包括: 連續(xù)監(jiān)視所述至少一個音頻流;以及 響應(yīng)于所述被監(jiān)視的音頻流中的指示來自動執(zhí)行進(jìn)一步的搜索。
34.根據(jù)權(quán)利要求29所述的方法,其中響應(yīng)于從所述一個以上設(shè)備中的至少一個中接收到的指示來執(zhí)行所述搜索。
35.根據(jù)權(quán)利要求34所述的方法,其中在所述指示之前的所述至少一個音頻流的第一部分和在所述指示之后的所述至少一個音頻流的第二部分用于確定所述語境信息。
36.根據(jù)權(quán)利要求29所述的方法,所述方法進(jìn)一步包括: 使用所述搜索結(jié)果執(zhí)行所述至少一個搜索詞的進(jìn)一步搜索,以產(chǎn)生進(jìn)一步的搜索結(jié)果O
37.根據(jù)權(quán)利要求29所述的方法,其中所述語境信息的所述確定包括:將所述音頻流分類成分類信息,所述分類信息和所述至少一個搜索詞用于確定所述語境信息。
38.根據(jù)權(quán)利要求37所述的方法,其中所述分類信息包括以下中的至少一個:關(guān)鍵字、發(fā)言事件、非發(fā)言事件、主題、錄制副本、發(fā)言者身份、或者與所述音頻流相關(guān)聯(lián)的情緒狀態(tài)。
39.根據(jù)權(quán)利要求37所述的方法,其中所述語境信息的所述確定進(jìn)一步包括使用非聲學(xué)信息或者來自所述非聲學(xué)信息的進(jìn)一步的分類信息兩者中的至少一個。
40.根據(jù)權(quán)利要求39所述的方法,其中所述非聲學(xué)信息包括以下中的至少一個:地理位置、時間、發(fā)言者身份、圖像、文本信息、生物測量信息、或者環(huán)境信息。
【文檔編號】G06F7/00GK104040480SQ201280015854
【公開日】2014年9月10日 申請日期:2012年3月28日 優(yōu)先權(quán)日:2011年3月28日
【發(fā)明者】史蒂文·W·戈?duì)柎奶? 喬丹·科亨 申請人:安比恩特茲公司