欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于語音的媒體搜索的制作方法

文檔序號:8269411閱讀:267來源:國知局
基于語音的媒體搜索的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明所公開的具體實施整體涉及數(shù)字助理系統(tǒng),并且更具體地涉及用于基于語音的媒體搜索的方法和系統(tǒng)。
【背景技術(shù)】
[0002]在相機技術(shù)、圖像處理和圖像存儲技術(shù)中的進步已使得人類能夠通過數(shù)字照片來與其周圍環(huán)境無縫地進行交互并“捕獲”其周圍環(huán)境。此外,圍繞手持式設(shè)備(例如,移動電話和數(shù)字助理系統(tǒng))的技術(shù)中的最近的進步已提高了手持式設(shè)備的圖像捕獲和圖像存儲能力。這已導(dǎo)致用于照片采集和數(shù)字照片存儲的手持式設(shè)備的使用顯著增加。
[0003]在電子設(shè)備上采集和存儲的數(shù)字照片的日益增加產(chǎn)生對照片的系統(tǒng)分類和有效組織的需求,從而能夠便于查看和搜索。照片的加標(biāo)簽例如通過與人或地點的照片名稱相關(guān)聯(lián)有助于易于組織和搜索照片。其他信息諸如時間、日期和GPS坐標(biāo)數(shù)據(jù)也被越來越多地與照片相關(guān)聯(lián),從而允許高效的分類和組織。
[0004]雖然照片捕獲和數(shù)字圖像存儲技術(shù)在過去十年里已顯著進步,但是用于照片搜索的傳統(tǒng)方法可能是不直觀的、費力的和耗時的。

【發(fā)明內(nèi)容】

[0005]因此,需要一種簡單、直觀、容易使用的方式來搜索照片。本發(fā)明提供了用于在電子設(shè)備處實施的基于語音的照片搜索的系統(tǒng)和方法。
[0006]下述具體實施提供了通過使用自然語言處理技術(shù)進行基于語音的照片搜索的方法和系統(tǒng)。自然語言處理技術(shù)被部署以使得用戶能夠以口頭或文本的形式來與手持式設(shè)備以及數(shù)字助理系統(tǒng)進行交互,由此數(shù)字助理系統(tǒng)可解釋用戶的輸入以推斷用戶的意圖,將所推斷出的意圖轉(zhuǎn)化成可執(zhí)行的任務(wù)和參數(shù),執(zhí)行操作或部署服務(wù)以執(zhí)行任務(wù),并且產(chǎn)生用戶可理解的輸出。
[0007]基于語音的照片搜索顯著地增加了照片搜索的速度和便利性。例如,通過將語音識別技術(shù)與智能自然語言處理組合,本發(fā)明所公開的具體實施使得用戶能夠簡單地說出對他們想要搜索的照片的描述,例如“把我的假期照片顯示給我”,并且自動地識別照片并將其返回給用戶以用于進行查看、編輯等。本發(fā)明所公開的技術(shù)能夠處理這種基于語音的輸入,以便查找和檢索相關(guān)的照片,甚至在照片先前尚未與用戶生成的文本標(biāo)簽諸如“假期”或“海灘”相關(guān)聯(lián)的情況下。相反,當(dāng)數(shù)字照片被捕獲或保存時,與數(shù)字照片存儲在一起的元數(shù)據(jù)與其他用戶信息交叉引用以促進搜索。例如,指示用戶的假期跨越某組天數(shù)的日歷條目可用于創(chuàng)建搜索查詢以查找在這些日期拍攝或保存的照片。又如,可查詢使地理代碼與位置相關(guān)聯(lián)的表以確定與在搜索查詢中所識別的位置對應(yīng)的地理代碼范圍。用戶的照片然后可被搜索以查找其地理代碼對應(yīng)于所識別的位置的那些照片。
[0008]因此,本文所公開的具體實施提供了實現(xiàn)基于語音的自然語言照片搜索的方法、系統(tǒng)和計算機可讀存儲介質(zhì)。
[0009]一些具體實施提供了一種用于使用基于語音的數(shù)字助理來搜索媒體項的方法。該方法在具有處理器和存儲用于由處理器執(zhí)行的指令的存儲器的電子設(shè)備處執(zhí)行。該方法包括提供多個媒體項。媒體項可包括照片、視頻和/或音頻。媒體項中的至少一些媒體項各自與相應(yīng)標(biāo)簽相關(guān)聯(lián),該相應(yīng)標(biāo)簽包括時間標(biāo)簽、日期標(biāo)簽或地理代碼標(biāo)簽中的至少一個。在一些具體實施中,將標(biāo)簽與媒體項存儲在一起作為元數(shù)據(jù)。
[0010]該方法還包括提供與針對一個或多個媒體項的搜索查詢對應(yīng)的自然語言文本串,其中搜索查詢包括一個或多個查詢詞。在一些具體實施中,文本串對應(yīng)于來自用戶的語音輸入。在一些具體實施中,語音輸入使用語音至文本處理被轉(zhuǎn)化為文本。
[0011]該方法還包括搜索至少一個信息源以識別與一個或多個查詢詞中的至少一個查詢詞相關(guān)聯(lián)的至少一個參數(shù)。在一些具體實施中,信息源為日歷、電子郵件/文本消息、社交網(wǎng)絡(luò)帖子、通信錄、和/或類似物。至少一個參數(shù)包括時間參數(shù)、日期參數(shù)或地理代碼參數(shù)中的至少一個。至少一個參數(shù)和與所述多個媒體項相關(guān)聯(lián)的標(biāo)簽是分開的,例如,該參數(shù)不是媒體項的元數(shù)據(jù)的一部分。
[0012]該方法還包括將相應(yīng)標(biāo)簽與至少一個參數(shù)進行比較以識別至少一個其標(biāo)簽與所識別的參數(shù)相匹配的媒體項;以及促進向用戶呈現(xiàn)所述至少一個媒體項。在一些具體實施中,促進呈現(xiàn)包括將所述至少一個媒體項顯示給用戶。
[0013]根據(jù)一些實施例,一種電子設(shè)備包括存儲器、一個或多個處理器以及一個或多個程序,所述一個或多個程序存儲在存儲器中并被配置為由該一個或多個處理器執(zhí)行,并且所述一個或多個程序包括用于執(zhí)行上述方法中的任一方法的操作的指令。根據(jù)一些實施例,非暫態(tài)計算機可讀存儲介質(zhì)在其中存儲有指令,該指令當(dāng)由電子設(shè)備執(zhí)行時,使得該設(shè)備執(zhí)行上述方法中的任一方法的操作。
[0014]根據(jù)一些實施例,一種電子設(shè)備包括被配置為提供多個媒體項的媒體項提供單元,其中媒體項中的至少一些媒體項各自與相應(yīng)標(biāo)簽相關(guān)聯(lián),該相應(yīng)標(biāo)簽包括時間標(biāo)簽、日期標(biāo)簽或地理代碼標(biāo)簽中的至少一個。電子設(shè)備還包括自然語言文本串提供單元,該自然語言文本串提供單元被配置為提供與針對一個或多個媒體項的搜索查詢對應(yīng)的自然語言文本串,其中搜索查詢包括一個或多個查詢詞。電子設(shè)備還包括耦接至媒體項提供單元和自然語言文本串提供單元的處理單元,該處理單元被配置為:搜索至少一個信息源以識別與所述一個或多個查詢詞中的至少一個查詢詞相關(guān)聯(lián)的至少一個參數(shù),其中所述至少一個參數(shù)包括時間參數(shù)、日期參數(shù)或地理代碼參數(shù)中的至少一個,并且其中所述至少一個參數(shù)和與所述多個媒體項相關(guān)聯(lián)的標(biāo)簽是分開的;將相應(yīng)標(biāo)簽與所述至少一個參數(shù)進行比較以識別至少一個其標(biāo)簽與所識別的參數(shù)相匹配的媒體項;以及促進向用戶呈現(xiàn)所述至少一個媒體項。
【附圖說明】
[0015]圖1為示出根據(jù)一些具體實施的數(shù)字助理在其中進行操作的環(huán)境的框圖。
[0016]圖2為示出根據(jù)一些具體實施的數(shù)字助理客戶端系統(tǒng)的框圖。
[0017]圖3A為示出根據(jù)一些具體實施的獨立式數(shù)字助理系統(tǒng)或數(shù)字助理服務(wù)器系統(tǒng)的框圖。
[0018]圖3B為示出根據(jù)一些具體實施的圖3A中所示出的數(shù)字助理的功能的框圖。
[0019]圖3C為示出根據(jù)一些具體實施的知識本體的一部分的網(wǎng)絡(luò)圖。
[0020]圖4A-4C為示出根據(jù)一些具體實施的用于使用基于語音的數(shù)字助理來搜索媒體項的方法的流程圖。
[0021]圖5示出根據(jù)一些實施例的電子設(shè)備的功能框圖。
[0022]在整個附圖中,類似的附圖標(biāo)號是指對應(yīng)的部件。
【具體實施方式】
[0023]圖1為根據(jù)一些具體實施的數(shù)字助理的操作環(huán)境100的框圖。術(shù)語“數(shù)字助理”、“虛擬助理”、“智能自動化助理”或“自動數(shù)字助理”是指解釋口頭和/或文本形式的自然語言輸入以推斷用戶意圖(例如,識別對應(yīng)于自然語言輸入的任務(wù)類型)并基于所推斷出的用戶意圖來執(zhí)行動作(例如,執(zhí)行對應(yīng)于所識別的任務(wù)類型的任務(wù))的任何信息處理系統(tǒng)。例如,為遵照所推斷出的用戶意圖來執(zhí)行動作,系統(tǒng)可執(zhí)行以下操作中的一個或多個操作:識別具有被設(shè)計來實現(xiàn)所推斷出的用戶意圖的步驟和參數(shù)的任務(wù)流(例如,識別任務(wù)類型),將來自所推斷出的用戶意圖的特定要求輸入到任務(wù)流中,通過調(diào)用程序、方法、月艮務(wù)、API等來執(zhí)行任務(wù)流(例如,向服務(wù)提供方發(fā)送請求);以及以可聽(例如,語音)和/或可視形式來生成對用戶的輸出響應(yīng)。
[0024]具體地,數(shù)字助理系統(tǒng)能夠接受至少部分地為自然語言命令、請求、聲明、講述和/或查詢的形式的用戶請求。通常,用戶請求或者尋求信息性回答,或者尋求由數(shù)字助理系統(tǒng)來執(zhí)行任務(wù)。對用戶請求的令人滿意的響應(yīng)通常是提供所請求的信息性回答、執(zhí)行所請求的任務(wù)、或這兩者的組合。例如,用戶可向數(shù)字助理系統(tǒng)提出一個問題,例如“我現(xiàn)在在哪里? ”。基于用戶的當(dāng)前位置,數(shù)字助理可回答“您在西門附近的中央公園”。用戶也可請求執(zhí)行任務(wù),例如通過陳述“請邀請我的朋友下周參加我女朋友的生日派對”。作為響應(yīng),數(shù)字助理可通過生成語音輸出“是的,馬上”來確認(rèn)該請求,然后從用戶的電子郵件地址向用戶的電子通訊錄或聯(lián)系人列表中所列出的用戶的朋友中的每個朋友發(fā)送合適的日歷邀請。存在與數(shù)字助理進行交互以請求信息或執(zhí)行各種任務(wù)的許多其他方法。除提供言語響應(yīng)并采取經(jīng)編程的動作之外,數(shù)字助理還可提供其他視頻或音頻形式(例如,作為文本、警報、音樂、視頻、動畫等)的響應(yīng)。
[0025]如圖1中所示,在一些具體實施中,根據(jù)客戶端-服務(wù)器模型來實施數(shù)字助理系統(tǒng)。數(shù)字助理系統(tǒng)包括在用戶設(shè)備(例如,104a和104b)上執(zhí)行的客戶端側(cè)部分(例如,102a和102b)(在下文中為“數(shù)字助理(DA)客戶端102”),以及在服務(wù)器系統(tǒng)108上執(zhí)行的服務(wù)器側(cè)部分106 (在下文中為“數(shù)字助理(DA)服務(wù)器106”)。DA客戶端102通過一個或多個網(wǎng)絡(luò)110來與DA服務(wù)器106通信。DA客戶端102提供客戶端側(cè)功能諸如面向用戶的輸入和輸出處理以及與DA服務(wù)器106的通信。DA服務(wù)器106為任意數(shù)量的DA客戶端102提供服務(wù)器側(cè)功能,所述任意數(shù)量的DA客戶端102各自駐留在相應(yīng)的用戶設(shè)備104(也稱作客戶端設(shè)備)上。
[0026]在一些具體實施中,DA服務(wù)器106包括面向客戶端的I/O接口 112、一個或多個處理模塊114、數(shù)據(jù)與模型116、至外部服務(wù)的I/O接口 118、照片和標(biāo)簽數(shù)據(jù)庫130、以及照片-標(biāo)簽?zāi)K132。面向客戶端的I/O接口促進數(shù)字助理服務(wù)器106的面向客戶端的輸入和輸出處理。所述一個或多個處理模塊114基于自然語言輸入利用數(shù)據(jù)和模型116來確定用戶的意圖,并基于所推斷出的用戶意圖來進行任務(wù)執(zhí)行。照片和標(biāo)簽數(shù)據(jù)庫130存儲數(shù)字照片的指紋和任選地數(shù)字照片本身,以及元數(shù)據(jù)和與該數(shù)字照片相關(guān)聯(lián)的用戶生成和/或自動生成的標(biāo)簽。照片-標(biāo)簽?zāi)K132創(chuàng)建標(biāo)簽、存儲與照片和/或指紋關(guān)聯(lián)的標(biāo)簽、對照片自動地加標(biāo)簽、并且將標(biāo)簽鏈接到照片內(nèi)的位置。
[0027]在一些具體實施中,DA服務(wù)器106通過一個或多個網(wǎng)絡(luò)110來與外部服務(wù)120 (例如,日歷服務(wù)122-4、電話服務(wù)122-5、一種或多種導(dǎo)航服務(wù)122-1、一種或多種消息型服務(wù)122-2、一種或多種信息服務(wù)122-3、一種或多種照片服務(wù)122-6、一種或多種社交網(wǎng)絡(luò)服務(wù)122-7等)進行通信以用于任務(wù)完成或信息采集。至外部服務(wù)的I/O接口 118促進此類通信。
[0028]用戶設(shè)備104的實例包括但不限于手持式計算機、個人數(shù)字助理(PDA)、平板電腦、膝上型計算機、臺式計算機、蜂窩電話、智能電話、增強型通用分組無線電服務(wù)(EGPRS)移動電話、媒體播放器、導(dǎo)航設(shè)備、游戲機、電視機、遙控器、或者這些數(shù)據(jù)處理設(shè)備中任意兩種或更多種的組合或任何其他合適的數(shù)據(jù)處理設(shè)備。有關(guān)用戶設(shè)備104的更多細(xì)節(jié)參照圖2中示出的示例性用戶設(shè)備104來提供。
[0029]一個或多個通信網(wǎng)絡(luò)110的實例包括局域網(wǎng)(“LAN”)和廣域網(wǎng)(“WAN”),例如互聯(lián)網(wǎng)。一個或多個通信網(wǎng)絡(luò)110可使用任何已知的網(wǎng)絡(luò)協(xié)議來實施,該任何已知的網(wǎng)絡(luò)協(xié)議包括各種有線或無線協(xié)議,諸如以太網(wǎng)、通用串行總線(USB)、火線、全球移動通信系統(tǒng)(GSM)、增強型數(shù)據(jù)GSM環(huán)境(EDGE)、碼分多址(CDMA)、時分多址(TDMA)、藍牙、Wi_F1、互聯(lián)網(wǎng)協(xié)議語音技術(shù)(VoIP)、W1-MAX、或任何其他合適的通信協(xié)議。
[0030]服務(wù)器系統(tǒng)108可在計算機的至少一個數(shù)據(jù)處理裝置和/或分布式網(wǎng)絡(luò)上實施。在一些具體實施中,服務(wù)器系統(tǒng)108還采用第三方服務(wù)提供方(例如,第三方云服務(wù)提供方)的各種虛擬設(shè)備和/或服務(wù)來提供服務(wù)器系統(tǒng)108的潛在計算資源和/或基礎(chǔ)結(jié)構(gòu)資源。
[0031]盡管圖1中示出的數(shù)字助理系統(tǒng)包括客戶端側(cè)部分(例如,DA客戶端102)和服務(wù)器側(cè)部分(例如,DA服務(wù)器106)兩者,但在一些具體實施中,數(shù)字助理系統(tǒng)僅指服務(wù)器側(cè)部分(例如,DA服務(wù)器106)。在一些具體實施中,數(shù)字助理的功能可被實現(xiàn)為安裝在用戶設(shè)備上的獨立式應(yīng)用程序。此外,數(shù)字助理的客戶端部分和服務(wù)器部分之間的功能劃分在不同的具體實施中可以是不同的。例如,在一些具體實施中,DA客戶端102為僅提供面向用戶的輸入和輸出處理功能并且將數(shù)字助理的所有其他功能委派給DA服務(wù)器106的瘦客戶端。在一些其他具體實施中,DA客戶端102被配置為執(zhí)行或協(xié)助DA服務(wù)器106的一種或多種功能。
[0032]圖2為根據(jù)一些具體實施的用戶設(shè)備104的框圖。用戶設(shè)備104包括存儲器接口202、外圍設(shè)備接口 206以及一個或多個處理器204。用戶設(shè)備104中的各種部件通過一根或多根通信總線或信號線進行耦接。用戶設(shè)備104包括各種傳感器、子系統(tǒng)、以及耦接至外圍設(shè)備接口 206的外圍設(shè)備。傳感器、子系統(tǒng)、以及外圍設(shè)備采集信息和/或促進用戶設(shè)備104的各種功能。
[0033]例如,在一些具體實施中,運動傳感器210 (例如,加速計)、光傳感器212、GPS接收器213、溫度傳感器215、以及羅盤217、接近傳感器214耦接至外圍設(shè)備接口 206以促進取向、光和接近感測功能。在一些具體實施中,其他傳感器216諸如生物識別傳感器、氣壓計等被連接到外圍設(shè)備接口 206以促進相關(guān)功能。
[0034]在一些具體實施中,用戶設(shè)備104包括耦接至外圍設(shè)備接口 206的相機子系統(tǒng)220。在一些具體實施中,相機子系統(tǒng)220的光學(xué)傳感器222促進相機功能,諸如拍攝照片和記錄視頻剪輯。在一些具體實施中,當(dāng)照片和視頻剪輯由相機子系統(tǒng)220拍攝時,它們與元數(shù)據(jù)相關(guān)聯(lián)。元數(shù)據(jù)包括例如日期標(biāo)簽、時間標(biāo)簽和位置標(biāo)簽(例如,地理代碼標(biāo)簽)。這些標(biāo)簽分別識別照片或視頻的日期、時間和位置。這些標(biāo)簽可由用戶設(shè)備104(和/或作為整體的數(shù)字助理系統(tǒng))用于搜索和分類功能,如下文所述。
[0035]在一些具體實施中,用戶設(shè)備104包括提供通信功能的一個或多個有線和/或無線通信子系統(tǒng)224。通信子系統(tǒng)224通常包括各種通信端口、射頻接收器和發(fā)射器、和/或光學(xué)(例如,紅外)接收器和發(fā)射器。在一些具體實施中,用戶設(shè)備104包括音頻子系統(tǒng)226,該音頻子系統(tǒng)耦接至一個或多個揚聲器228以及一個或多個麥克風(fēng)230以促進支持語音的功能,諸如語音識別、語音復(fù)制、數(shù)字記錄和電話功能。
[0036]在一些具體實施中,I/O子系統(tǒng)240還耦接至外圍設(shè)備接口 206。在一些具體實施中,用戶設(shè)備104包括觸摸屏246,并且I/O子系統(tǒng)240包括耦接至觸摸屏246的觸摸屏控制器242。當(dāng)用戶設(shè)備104包括觸摸屏246和觸摸屏控制器242時,觸摸屏246和觸摸屏控制器242通常被配置為例如使用多種觸敏技術(shù)中的任一種觸敏技術(shù)來檢測接觸和移動或它們的間斷,所述多種觸敏技術(shù)諸如電容技術(shù)、電阻技術(shù)、紅外技術(shù)、表面聲波技術(shù)、接近傳感器陣列等。在一些具體實施中,用戶設(shè)備104包括不具有觸敏表面的顯示器。在一些具體實施中,用戶設(shè)備104包括獨立的觸敏表面。在一些具體實施中,用戶設(shè)備104包括一個或多個其他輸入控制器244。當(dāng)用戶設(shè)備104包括一個或多個其他輸入控制器244時,所述一個或多個其他輸入控制器244通常被耦接至其他輸入/控制設(shè)備248,諸如一個或多個按鈕、搖臂開關(guān)、拇指滾輪、紅外線端口、USB端口、和/或指針設(shè)備諸如觸筆。
[0037]存儲器接口 202耦接至存儲器250。在一些具體實施中,存儲器250包括非暫態(tài)計算機可讀介質(zhì),諸如高速隨機存取存儲器和/或非易失性存儲器(例如,一個或多個磁盤存儲設(shè)備、一個或多個閃存存儲器設(shè)備、一個或多個光學(xué)存儲設(shè)備、和/或其他非易失性固態(tài)存儲器設(shè)備)。
[0038]在一些具體實施中,存儲器250存儲操作系統(tǒng)252、通信模塊254、圖形用戶界面模塊256、傳感器處理模塊258、電話模塊260和應(yīng)用程序262,以及它們的子集或超集。操作系統(tǒng)252包括用于處理基礎(chǔ)系統(tǒng)服務(wù)以及用于執(zhí)行硬件相關(guān)任務(wù)的指令。通信模塊254促進與一個或多個附加設(shè)備、一個或多個計算機和/或一個或多個服務(wù)器進行通信。圖形用戶界面模塊256促進圖形用戶界面處理。傳感器處理模塊258促進與傳感器相關(guān)的處理和功能(例如,處理利用一個或多個麥克風(fēng)228所接收的語音輸入)。電話模塊260促進與電話相關(guān)的過程和功能。應(yīng)用程序模塊262促進用戶應(yīng)用程序的各種功能,諸如電子消息傳送、網(wǎng)頁瀏覽、媒體處理、導(dǎo)航、成像和/或其他過程和功能。
當(dāng)前第1頁1 2 3 4 5 6 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
南华县| 万宁市| 合作市| 忻州市| 方山县| 河津市| 秀山| 滦南县| 哈尔滨市| 扎兰屯市| 阿克陶县| 临沧市| 广德县| 东阳市| 长治县| 右玉县| 奇台县| 台州市| 新邵县| 高台县| 中宁县| 确山县| 北辰区| 宝清县| 娄烦县| 沂水县| 北川| 昔阳县| 沙洋县| 屯门区| 宿州市| 太保市| 沙河市| 视频| 桂东县| 温宿县| 新化县| 乌拉特前旗| 内乡县| 河北省| 新巴尔虎右旗|