欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于在內(nèi)容檢索服務(wù)系統(tǒng)內(nèi)檢索媒體內(nèi)容的方法和子系統(tǒng)的制作方法

文檔序號:6593621閱讀:172來源:國知局
專利名稱:用于在內(nèi)容檢索服務(wù)系統(tǒng)內(nèi)檢索媒體內(nèi)容的方法和子系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及檢索媒體內(nèi)容(包括具有音軌的視頻文件、音軌,以及包括可以被全 部或部分轉(zhuǎn)錄以產(chǎn)生文本副本的數(shù)據(jù)的其他類型的媒體內(nèi)容)來識別與檢索查詢詞和短 語相關(guān)的媒體內(nèi)容部分,并且具體地涉及內(nèi)容檢索服務(wù)系統(tǒng)的概念服務(wù)組件,其采用本體 和文本副本以對內(nèi)容檢索服務(wù)的檢索服務(wù)組件用于向內(nèi)容檢索服務(wù)系統(tǒng)客戶端呈遞檢索 結(jié)果的副本進(jìn)行評分。
背景技術(shù)
在早期的計算中,信息一般被編碼為格式化的字母數(shù)字字符串,或者編碼為信息 儲存單元(通常是字節(jié))的未格式化有序序列。隨著計算硬件、操作系統(tǒng)和計算機(jī)應(yīng)用一齊 演進(jìn),開發(fā)了很多不同類型的信息編碼,并且現(xiàn)在大量不同類型的信息慣常以電子方式編 碼、儲存、交換和呈遞以供用戶訪問,包括文本文件、特殊格式的專用文件、音頻記錄、視頻 記錄以及多媒體呈現(xiàn)。盡管在早期的計算中數(shù)據(jù)曾主要是被呈遞為顯示于單色M行終端 上的字符串,但是當(dāng)前電子編碼并通過計算機(jī)系統(tǒng)發(fā)布的很多不同類型信息通過各種不同 的應(yīng)用程序被呈遞以向人類用戶呈現(xiàn),所述應(yīng)用程序包括文本和圖像編輯器、視頻播放器、 音頻播放器和網(wǎng)絡(luò)瀏覽器。一種重要類別的信息包括被編碼為依序被呈遞以向人類用戶顯示或呈現(xiàn)的有序 信息單元序列。MPEG編碼的視頻文件是順序信息編碼的一種例子。MPEG編碼采用多種著 實(shí)復(fù)雜的多層不同類型編碼方法來壓縮編碼視頻流和/或音頻流。一般來說,視頻幀是按 次序從MPEG編碼視頻文件逐幀重構(gòu)的。對MPEG編碼視頻文件的呈遞提供視頻幀流和音頻 流。呈遞應(yīng)用和設(shè)備一般允許用戶開始或繼續(xù)視頻文件的呈遞,停止視頻文件的呈遞,以及 快進(jìn)或快退到視頻流中的選定位置。在很多情況下,用戶可能僅對視頻呈現(xiàn)中的某部分感興趣。例如,特定用戶可能僅 對本地電視新聞廣播中包括的天氣預(yù)報感興趣,而所述本地電視新聞廣播除了天氣預(yù)報以 外還包括對當(dāng)前本地和全國事件的評論、對體育事件的評論以及對人們?nèi)の豆适碌某尸F(xiàn)。 在很多情況下,視頻呈現(xiàn)可能并未按段索引以便利對用戶感興趣的視頻呈現(xiàn)部分進(jìn)行直接 訪問,或者可能以非常粗略的話題粒度進(jìn)行索引,需要用戶采用通過相對粗糙的技術(shù)開始、 停止、前進(jìn)和后退視頻流的不定(hit-or-miss)策略來定位感興趣的部分。除了編碼的視 頻外,存在很多其他類型的順序信息編碼,它們被依序呈遞給人們的感官,包括純音頻記 錄、各種類型的多媒體呈現(xiàn)、書籍和文本文檔中頁的圖像以及其他這樣的信息編碼。在很多 情況下,當(dāng)前檢索人類用戶感興趣的編碼信息部分被限于視頻呈遞應(yīng)用和很多視頻信號呈 遞設(shè)備的用戶所熟悉的上述停止/開始/前進(jìn)/和后退操作。呈遞順序信息編碼來向人類用戶、設(shè)計師、實(shí)施者、供應(yīng)商以及信息呈遞應(yīng)用(包括媒體播放器、網(wǎng)絡(luò)瀏覽器和控制程序)用戶,以及很多其他涉足記錄、傳播和呈遞信息的 人進(jìn)行呈現(xiàn)的計算機(jī)和其他電子設(shè)備的設(shè)計師及制造商已經(jīng)認(rèn)識到對于更有效的檢索工 具的需求,以允許用戶識別和高效地訪問這些信息的受眾所感興趣的信息編碼部分。響應(yīng) 于這些需求,已經(jīng)開發(fā)了內(nèi)容檢索服務(wù)系統(tǒng)。本發(fā)明的各個實(shí)施例包括該內(nèi)容檢索服務(wù)系 統(tǒng)的組件和子系統(tǒng)。內(nèi)容檢索服務(wù)系統(tǒng)接收和/或定位并獲取內(nèi)容檢索服務(wù)系統(tǒng)客戶端電 子可獲得的各內(nèi)容項,并且準(zhǔn)備這些內(nèi)容項或這些內(nèi)容項的部分的內(nèi)部表示,以使得內(nèi)容 檢索服務(wù)能夠以圖形方式呈遞內(nèi)容檢索服務(wù)系統(tǒng)響應(yīng)于內(nèi)容檢索服務(wù)系統(tǒng)客戶端所作檢 索請求而生成的檢索結(jié)果。內(nèi)容檢索服務(wù)系統(tǒng)的設(shè)計師、開發(fā)者和制造商,以及內(nèi)容檢索服 務(wù)提供商和內(nèi)容檢索服務(wù)系統(tǒng)與內(nèi)容檢索服務(wù)所提供服務(wù)的用戶,均已經(jīng)認(rèn)識到對高效和 準(zhǔn)確的內(nèi)容檢索服務(wù)組件的需求,以便利快速而準(zhǔn)確地響應(yīng)從采用內(nèi)容檢索服務(wù)系統(tǒng)的內(nèi) 容檢索服務(wù)客戶端接收的指向內(nèi)容項的檢索請求。

發(fā)明內(nèi)容
本發(fā)明的各個實(shí)施例包括內(nèi)容檢索服務(wù)系統(tǒng)的概念服務(wù)組件,該概念服務(wù)組件采 用在特定時間為特定種類的內(nèi)容準(zhǔn)備的本體和詞匯表,以便對根據(jù)內(nèi)容項準(zhǔn)備的副本進(jìn)行 評分,從而使得內(nèi)容檢索服務(wù)系統(tǒng)的檢索服務(wù)組件能夠向檢索準(zhǔn)則指派內(nèi)容項的部分的相 關(guān)性估計,以向內(nèi)容檢索服務(wù)系統(tǒng)客戶端呈遞檢索結(jié)果。概念服務(wù)組件處理檢索請求以生 成相關(guān)詞語列表,并隨后采用所述相關(guān)詞語列表來處理副本,以便基于所述本體中包含的 信息對副本進(jìn)行評分。


圖1說明內(nèi)容檢索服務(wù)系統(tǒng)向客戶端提供檢索服務(wù)。圖2說明內(nèi)容呈遞應(yīng)用界面。圖3根據(jù)本發(fā)明的實(shí)施例說明添加到圖2所示內(nèi)容呈遞應(yīng)用界面的熱圖 (heat-map)檢索結(jié)果顯示。圖4提供代表本發(fā)明一個實(shí)施例的內(nèi)容檢索服務(wù)系統(tǒng)的框圖表示。圖5根據(jù)本發(fā)明一個實(shí)施例說明本體。圖6根據(jù)本發(fā)明一個實(shí)施例示出“動物”種類的示例性詞匯表的一部分。圖7根據(jù)本發(fā)明一個實(shí)施例說明本體的mXm表示。圖8根據(jù)本發(fā)明一個實(shí)施例示出本體的列表表示。圖9示出本發(fā)明一個實(shí)施例中使用的本體表示的一部分。圖10根據(jù)本發(fā)明一個實(shí)施例說明副本的一種實(shí)現(xiàn)。圖11根據(jù)本發(fā)明一個實(shí)施例說明副本的替換性表示。圖12說明代表本發(fā)明一個實(shí)施例的內(nèi)容檢索服務(wù)系統(tǒng)的概念服務(wù)組件(圖4中 的408)的操作。圖13根據(jù)本發(fā)明一個實(shí)施例說明被評分的副本的一個實(shí)施例。圖14提供根據(jù)本發(fā)明一個實(shí)施例的CSS系統(tǒng)的概念服務(wù)組件的控制流程圖。圖15是根據(jù)本發(fā)明一個實(shí)施例、在圖14的步驟1408中調(diào)用的例程“處理檢索短 語”的控制流程圖。
圖16提供根據(jù)本發(fā)明一個實(shí)施例、在圖14的步驟1412中調(diào)用的例程“處理副本” 的控制流程圖。
具體實(shí)施例方式在用于向客戶端提供內(nèi)容檢索服務(wù)的內(nèi)容檢索服務(wù)系統(tǒng)內(nèi)采用本發(fā)明的實(shí)施例。 圖1說明內(nèi)容檢索服務(wù)系統(tǒng)向客戶端提供檢索服務(wù)??蛻舳?02 —般是用戶用來通過內(nèi)容 呈遞應(yīng)用(例如網(wǎng)絡(luò)瀏覽器所調(diào)用的視頻呈遞程序)查看內(nèi)容提供商系統(tǒng)106所提供的內(nèi) 容104的個人計算機(jī)或工作站。為了便于高效地查看內(nèi)容,用戶向顯示于客戶端計算機(jī)上 的文本鍵入特征108鍵入包括檢索詞或檢索短語的檢索查詢,并且調(diào)用針對內(nèi)容相關(guān)部分 所呈遞的內(nèi)容檢索。在本發(fā)明的某些實(shí)施例中,檢索查詢可以可替換地由用戶預(yù)定義或者 針對用戶預(yù)定義以便利用戶檢索。檢索詞或者短語被傳輸110到內(nèi)容檢索服務(wù)系統(tǒng)112并 且被內(nèi)容檢索服務(wù)系統(tǒng)處理,以便返回114內(nèi)容116特定部分與檢索詞或檢索短語相關(guān)性 的圖形呈遞。客戶端計算機(jī)的用戶可以通過額外的檢索事務(wù)118-119針對額外的檢索詞或 者短語進(jìn)行額外的檢索。一般來說,呈遞給用戶的內(nèi)容是這樣一種內(nèi)容,其不像文本文件,不能使用普遍可 用的檢索工具(例如文本編輯器中提供的檢索設(shè)施)被容易地檢索以便于找到用戶尤其感 興趣的內(nèi)容部分。在下面的討論中,假設(shè)內(nèi)容是具有伴音軌道的視頻文件,例如新聞服務(wù)或 體育服務(wù)通過因特網(wǎng)提供給訪問用戶的新聞廣播或體育廣播。然而,其中可以實(shí)現(xiàn)和采用 本發(fā)明實(shí)施例的內(nèi)容檢索服務(wù)系統(tǒng)可以為各種不同類型的內(nèi)容提供檢索服務(wù),服務(wù)范圍從 多媒體呈現(xiàn)到各種類型的圖像、圖形和音樂選擇?!銇碚f,內(nèi)容提供商106向內(nèi)容檢索服務(wù)系統(tǒng)112提供內(nèi)容項進(jìn)行預(yù)處理,以便 于對指向該內(nèi)容項的后續(xù)客戶端檢索請求進(jìn)行快速響應(yīng)。然而,在可替換的實(shí)現(xiàn)中,內(nèi)容檢 索服務(wù)系統(tǒng)可以并發(fā)地接收內(nèi)容項和從客戶端接收檢索短語或檢索詞,處理內(nèi)容項以準(zhǔn)備 檢索內(nèi)容,進(jìn)行檢索請求,以及實(shí)時地向用戶呈遞結(jié)果。一般來說,客戶端系統(tǒng)不同于內(nèi)容 提供商系統(tǒng)和內(nèi)容檢索服務(wù)系統(tǒng)二者,但是內(nèi)容提供商、客戶端和內(nèi)容檢索服務(wù)有可能可 以全部并發(fā)或同時在單個計算機(jī)系統(tǒng)或分布式計算機(jī)系統(tǒng)內(nèi)進(jìn)行執(zhí)行。圖2說明內(nèi)容呈遞應(yīng)用界面。視頻顯示在基于網(wǎng)頁的視頻剪輯查看界面或便攜式 設(shè)備圖形用戶界面(“GUI”)212所提供的視頻屏幕210內(nèi)。該設(shè)備界面或網(wǎng)頁提供文本 鍵入窗214,該文本鍵入窗214允許用戶輸入充當(dāng)檢索準(zhǔn)則的文本,以找到期望的視頻來觀 看、將每個檢索的結(jié)果顯示在結(jié)果窗216中,所述結(jié)果窗216可以通過向上滾動按鈕218和 向下滾動按鈕220滾動,并且可以從該結(jié)果窗216選擇視頻進(jìn)行顯示。此外,進(jìn)度顯示222 在呈遞視頻剪輯期間向用戶顯示對正被顯示的視頻剪輯中當(dāng)前位置的指示,其中視頻剪輯 的整個長度由水平條2M表示而視頻剪輯內(nèi)的當(dāng)前位置由位置指示器2 相對于水平條的 位置來指示。在圖2中,位置指示器2 指示當(dāng)前顯示的視頻幀在整個該視頻剪輯的25% 位置處。用戶界面提供用于開始和停止視頻剪輯顯示的開始/停止按鈕228,以及允許用戶 查找視頻剪輯內(nèi)不同位置而無需觀看中間幀的快退按鈕230和快進(jìn)按鈕232。圖3根據(jù)本發(fā)明的實(shí)施例說明添加到圖2中所示內(nèi)容呈遞應(yīng)用界面的熱圖檢索結(jié) 果顯示。該熱圖檢索結(jié)果顯示可以由從內(nèi)容檢索服務(wù)系統(tǒng)下載的客戶端側(cè)檢索結(jié)果呈遞應(yīng) 用提供。圖3示出圖2所示視頻剪輯查看界面的導(dǎo)航按鈕和進(jìn)度顯示,以及額外的檢索結(jié)
7果顯示特征??焱税粹o130、快進(jìn)按鈕132和開始/停止按鈕1 在該可視界面中具有與 針對圖2所示視頻剪輯查看界面的這些界面特征所描述功能等同的功能。進(jìn)度顯示IM和 126也具有與圖2所示視頻剪輯查看界面的進(jìn)度顯示等同的功能,只是其不是如圖2中那 樣示出簡單的純色水平條來表示視頻剪輯的長度,而是在進(jìn)度顯示的水平條124內(nèi)疊加相 關(guān)性功能的熱圖類表示。在該熱圖類表示中,較深的陰影表示較大量的相關(guān)性度量或者評 分。該可視界面還包括兩個參數(shù)指明特征302和304,它們允許用戶通過分別沿柱310和 312滑動指示器按鈕306和308來指明在相對于用戶在檢索準(zhǔn)則鍵入窗316中指明的檢索 準(zhǔn)則314為信息編碼內(nèi)的位置計算相關(guān)性度量或評分時要采用的閾值和平滑程度。在圖3 所示的實(shí)例中,進(jìn)度顯示組件的水平條1 表示視頻剪輯的長度,并且人們可以通過對疊 加于水平條124的熱圖的可視檢視容易地確定與當(dāng)前指明檢索準(zhǔn)則相關(guān)的內(nèi)容最可能在 位置320、322和3M找到。更簡單的可視界面可以僅包括相關(guān)性功能的熱圖類表示,并且 可以依賴于現(xiàn)有GUI的選擇特征來輸入檢索準(zhǔn)則。更復(fù)雜的可視界面可以包括額外的選擇 特征來允許用戶指明額外的參數(shù),所述參數(shù)控制可視界面的顯示以及相關(guān)性功能的計算, 包括例如主題域。當(dāng)然,對于所有可視界面,存在可以用來提供對參數(shù)、檢索準(zhǔn)則和其他輸 入數(shù)據(jù)的用戶輸入的很多不同方式和類型的選擇與輸入特征。另外,可視界面可以支持多 種方法來輸入任何特定輸入數(shù)據(jù)。例如,在圖3所示的可視界面中,用戶能夠通過使用快退 和快進(jìn)按鈕、通過移動位置指示器或者通過在將指針移動到進(jìn)度顯示組件水平條內(nèi)一位置 所表示的位置后輸入鼠標(biāo)點(diǎn)擊,來選擇開始或繼續(xù)信息編碼呈遞的位置。
圖4提供代表本發(fā)明一個實(shí)施例的內(nèi)容檢索服務(wù)系統(tǒng)的框圖表示。內(nèi)容檢索服 務(wù)系統(tǒng)(“CSS系統(tǒng)”)402包括檢索服務(wù)組件404,其從客戶端接收檢索請求,并且以運(yùn)行 于客戶端計算機(jī)上的檢索結(jié)果呈遞應(yīng)用所呈遞的檢索結(jié)果進(jìn)行響應(yīng)。在本發(fā)明的一個實(shí) 施例中,檢索請求和對檢索請求的響應(yīng)是根據(jù)網(wǎng)絡(luò)服務(wù)協(xié)議通過因特網(wǎng)在可擴(kuò)展標(biāo)記語言 (“XML”)消息中被接收406和發(fā)送407的。檢索請求包括內(nèi)容標(biāo)識符(“內(nèi)容ID”)以 及包括檢索詞或檢索短語的檢索查詢。這些項均被檢索服務(wù)組件404傳給概念服務(wù)組件 ("CS組件”)408進(jìn)行處理。CS組件408向檢索服務(wù)組件404返回評分的副本412或副本 的評分部分,該檢索服務(wù)組件404使用所述評分的副本以及可選地使用概念服務(wù)組件返回 的詞匯表產(chǎn)生在客戶端計算機(jī)上呈遞給用戶的檢索結(jié)果信息。在所描述的本發(fā)明的實(shí)施例 中,評分的副本或部分評分的副本是元組的時間排序列表,每個元組包含詞語或短語的指 示、呈遞媒體內(nèi)容項期間出現(xiàn)該詞語或短語所經(jīng)過的時間,以及指示該詞語或短語與CS組 件所接收的檢索查詢相關(guān)度的評分。CS組件訪問本體儲存器414、提取內(nèi)容數(shù)據(jù)組件416 和媒體數(shù)據(jù)服務(wù)418,以便于獲得本體、副本,以及CS組件對返回給檢索服務(wù)組件404的副 本進(jìn)行評分所需的其他信息。在所描述的本發(fā)明的實(shí)施例中,本體是詞語和短語的全連通 圖。該圖的每個節(jié)點(diǎn)代表詞語或短語,并且該圖的每條邊代表在收集的信息中觀察到的由 該邊連接的節(jié)點(diǎn)所代表詞語或短語的同現(xiàn)(co-occurrence)關(guān)系,所述收集的信息被分析 來產(chǎn)生所述本體。為每條邊指派一權(quán)重,該權(quán)重反映該邊所代表的同現(xiàn)關(guān)系的強(qiáng)度,并且權(quán) 重是從被分析來產(chǎn)生本體的所述收集信息得出的。本體儲存器414包括例如本體422的多 個本體,其描述各個主題種類的詞之間的同現(xiàn)關(guān)系。本體還是加有日期戳或者日期/時間 戳的,因為本體隨著時間針對任何特定主題而改變,并且對于準(zhǔn)備檢索結(jié)果來說,日期/時 間戳指示自內(nèi)容項數(shù)據(jù)被檢索起合理時間偏離量內(nèi)日期的本體是最有用的。提取內(nèi)容數(shù)據(jù)組件416為CSS系統(tǒng)已經(jīng)預(yù)處理過的每個內(nèi)容項儲存一個或多個副本426。媒體數(shù)據(jù)服務(wù) 418儲存與每個預(yù)處理的內(nèi)容項相關(guān)的信息,包括該內(nèi)容項所屬主題的種類,以及該內(nèi)容創(chuàng) 建或接收的日期或者日期和時間。 CSS服務(wù)還包括內(nèi)容服務(wù)組件430,該內(nèi)容服務(wù)組件430從遠(yuǎn)程內(nèi)容提供商接收內(nèi) 容項,或者檢索、找到并且獲取內(nèi)容提供商提供的內(nèi)容項,并且將所述內(nèi)容項供應(yīng)給內(nèi)容處 理器組件432,該內(nèi)容處理器組件432準(zhǔn)備每個已處理內(nèi)容項的一個或多個副本似6并在 提取內(nèi)容數(shù)據(jù)組件416中儲存每個已處理內(nèi)容項的一個或多個副本426。內(nèi)容處理器432 訪問儲存于語言模型儲存器436中的語言模型(例如語言模型434),以便于處理給定內(nèi)容 項。內(nèi)容處理器組件432還將關(guān)于內(nèi)容項的另外的信息存放在媒體內(nèi)容服務(wù)組件418中。 在所描述的本發(fā)明的實(shí)施例中,副本是音軌或者音頻文件的基于文本的副本,這是由內(nèi)容 處理器組件的自動語音識別子組件進(jìn)行的。在本發(fā)明的可替換實(shí)施例中,文本副本可以從 其他類型的媒體內(nèi)容來準(zhǔn)備,包括內(nèi)容處理器組件的計算機(jī)視覺子組件準(zhǔn)備的靜止或運(yùn)動 圖像的描述性副本。信息匯聚器和分類器組件440連續(xù)或者間隔地抓取因特網(wǎng)和文檔、文本文件的其 他信息源上可獲得的信息,以及與內(nèi)容項可以被指派的各種不同種類相關(guān)的其他信息項。 信息匯聚器和分類器組件440將認(rèn)為對CSS系統(tǒng)有用的那些信息項按種類分類,并且將每 個種類和特定日期與時間范圍的信息項儲存到歸類信息儲存組件442中。這些信息項被信 息匯聚器和分類器組件處理,以移除不必要信息,在語言上對詞語和短語進(jìn)行標(biāo)準(zhǔn)化,并且 計算與信息項相關(guān)聯(lián)的各個參數(shù)和值,所述各個參數(shù)和值既被信息匯聚器和分類器組件用 來分類所述項又被語言模型構(gòu)建器組件444和本體構(gòu)建器組件446使用,所述語言模型構(gòu) 建器組件444和本體構(gòu)建器組件446使用儲存于歸類信息儲存組件442中的信息項來分別 建立語言模型和本體。圖5根據(jù)本發(fā)明一個實(shí)施例說明本體。圖5是僅包含很少項的簡化本體。實(shí)際針 對有用信息種類準(zhǔn)備的本體可以包含數(shù)百、數(shù)千或者數(shù)百萬個詞語和短語。在圖5中,六個 項中的每一個由橢圓節(jié)點(diǎn)表示,例如橢圓節(jié)點(diǎn)502表示詞語“蛇”。每個可能的詞語對,例如 詞語對“蛇” 502和“皮膚” 504,通過兩道弧線互連,例如弧線506和508將詞語502和504 互連。這兩道弧線形成雙向?qū)?,該對的一道弧線從第一詞語或短語(該道弧線的源詞語或 源短語)指向第二詞語或短語(該道弧線的目標(biāo)詞語或目標(biāo)短語),而該對的第二道弧線 從第二詞語或短語指向第一詞語或短語。每道弧線被標(biāo)以范圍W.0,1.0]內(nèi)的數(shù)值。該數(shù) 值是歸一化的同現(xiàn)度量,指示該弧線的目標(biāo)詞語或短語與該弧線的源詞語或短語同現(xiàn)的頻 率。因此,在圖5中,弧線506指示詞語“蛇”以相對低的頻率與詞語“皮膚”同現(xiàn),而詞語 “皮膚”以稍高的頻率與詞語“蛇”同現(xiàn)。互連兩個詞語或短語的雙向弧線對中兩道弧線的同 現(xiàn)度量并不相等的事實(shí),反映出所述詞語或短語的不同分布以及所述詞語或短語在從其準(zhǔn) 備本體的很多信息項中不同的出現(xiàn)次數(shù),以及這兩個詞語或短語的不同標(biāo)準(zhǔn)化?;仡^參照 圖4,本體(例如圖5中所示的簡單本體)是由CSS系統(tǒng)的本體構(gòu)建器組件446通過分析大 量與特定種類相關(guān)并且在特定時間間隔上收集的信息項來準(zhǔn)備的。因此,每個本體,例如圖 5說明的本體,是與特定信息種類相關(guān)聯(lián)的,并且?guī)в信c被本體構(gòu)建器組件用來建立本體的 信息項被CSS系統(tǒng)402的信息匯聚器和分類器組件440收集時的日期或日期時間分別對應(yīng) 的日期戳和/或日期/時間戳。
每個本體在物理或者概念上與一詞匯表相關(guān)聯(lián)。該詞匯表也是從CSS系統(tǒng)的信息 匯聚器和分類器組件(圖4中的440)收集的信息項準(zhǔn)備的。在某些實(shí)施例中,一個信息種 類的詞匯表是由CSS系統(tǒng)的語言模型構(gòu)建器組件(圖4中的444)準(zhǔn)備的,并且被儲存在語 言模型儲存器(圖4中的436)中。在本發(fā)明的其他實(shí)施例中,詞匯表可以由本體構(gòu)建器組 件(圖4中的446)構(gòu)造并且儲存在本體儲存器(圖4中的414)中,而在可替換的實(shí)施例 中,詞匯表可以由CSS另外的組件構(gòu)造。在本發(fā)明的一個實(shí)施例中,詞匯表包括在與特定信息種類相關(guān)的信息項中常出現(xiàn) 的名詞或名詞性短語的列表。例如,可以預(yù)期體育種類的內(nèi)容項包括諸如“球棒”、“壘”、“投 手”、“四分衛(wèi)” “門柱”、“橄欖球”、“標(biāo)槍”、“輪滑”的名詞以及其他這樣的名詞和名詞性短 語。由于程序方式處理諸如字符串的符號串是效率低下的,因此在實(shí)現(xiàn)CSS系統(tǒng)的組件時, 詞匯表中的每個詞語或短語以整數(shù)值來表示。圖6根據(jù)本發(fā)明一個實(shí)施例示出種類“動物” 的示例性詞匯表的部分。如從圖6中可以看到的,每種動物名稱的字符串表示(例如字符串 “食蟻獸”602)與構(gòu)成信息種類“動物”的詞匯表的表606中一小整數(shù)值(例如值“96”604) 相關(guān)聯(lián)。使用該表,字符串“短吻鱷” 608通過表查找操作被容易地翻譯為整數(shù)“462” 610。 對于任何計算處理并電子儲存的數(shù)據(jù),可以以字母表順序和/或數(shù)字順序?qū)υ~匯表排序, 并且可以額外地與索引或其他額外信息相關(guān)聯(lián),以允許在表中快速地定位和訪問詞語和短 語。盡管將本體表示為如圖5所示包括由弧線互連的詞語和短語節(jié)點(diǎn)的圖是方便的, 但是當(dāng)將本體表示為mXm的陣列時,可以更容易地計算處理本體,其中m是特定詞匯表中 詞語和短語的數(shù)量。圖7根據(jù)本發(fā)明一個實(shí)施例說明本體的mXm表示。mXm陣列702包 括m2個單元,每個單元(例如單元704)包含標(biāo)示弧線的一個或多個同現(xiàn)度量,所述弧線例 如圖5中從第一本體節(jié)點(diǎn)(例如圖5中的節(jié)點(diǎn)502)始發(fā)并指向第二本體節(jié)點(diǎn)(例如圖5 中的節(jié)點(diǎn)504)的弧線508。單元的行索引指示與弧線始發(fā)的第一節(jié)點(diǎn)對應(yīng)的整數(shù)值,而單 元的列索引指示該弧線指向的第二節(jié)點(diǎn)。單元704具有陣列索引(5,m-1),指示該單元中 包括的同現(xiàn)度量(例如圖7中的度量“0,20” 706),標(biāo)示從整數(shù)“5”指明的詞匯表詞或短語 指向整數(shù)m-1指明的詞匯表詞或短語的弧線。圖7中所示本體的mXm表示是一種有用的抽象,但是一般來說還是計算上效率低 下的。該表示效率低下的一個原因是,對于實(shí)際本體來說,低于閾值的同現(xiàn)度量被視為是無 意義的,并且均被指派以諸如值“0. 0”的最小值。因此,圖7中所示mXm陣列一般是非常 稀疏的。為此,并且為了便于快速訪問詞匯表特定詞和短語的特定同現(xiàn)度量,通常將本體表 示為列表。圖8根據(jù)本發(fā)明一個實(shí)施例示出本體的列表表示。在圖8中,列表802的每個 元素(例如元素804)被表示為包含三個單元的行。行804的第一單元806是本體圖形表 示中弧線的目標(biāo)的數(shù)字表示,而第二單元808是本體圖形表示中弧線的源,而第三單元810 包含對該弧線所標(biāo)示的同現(xiàn)度量。列表802中僅包括具有非零度量的條目,解決了與本體 mXm陣列表示相關(guān)聯(lián)的稀疏問題。列表中的每個條目表示本體的單個弧線。如通過圖8中 條目第一單元中的值容易看出的,在圖8中,條目以相對于儲存于每個條目第一單元中值 的升序而儲存。這種組織便利了對與本體圖形表示中弧線指向的特定詞語或短語相關(guān)聯(lián)條 目的訪問。在某些實(shí)施例中,可以另外相對于儲存于每個條目第二單元中的值而儲存,并且 在再另外的實(shí)施例中,本體的列表表示可以伴隨有一個或多個參考表或索引表,以便利對本體特定條目的快速訪問。在實(shí)踐中,即使是圖8中所示的本體列表表示也可能是稍抽象的。在本發(fā)明的一 個實(shí)施例中,本體包括針對每個條目的用于計算同現(xiàn)度量的原始數(shù)據(jù),而非計算出的同現(xiàn) 度量。圖9示出在本發(fā)明一個實(shí)施例中使用的本體表示的部分。該本體被表示為列表902, 類似于圖8中說明的列表表示。然而,取代于如圖8中包括單個計算出的同現(xiàn)度量,在本發(fā) 明一個實(shí)施例中,圖9中列表的每個條目包括三個數(shù)值904-906,所述數(shù)值對儲存于條目第 一元素908中值所表示的詞或短語在與該條目第二單元910中所儲存值表示的詞或短語所 在大量收集并處理的信息項的相同信息項內(nèi)或這些信息項的子單元或子段內(nèi)出現(xiàn)的次數(shù) 進(jìn)行編碼,所述大量收集并處理的信息項對應(yīng)于準(zhǔn)備該本體所針對的信息種類。在當(dāng)前的討論中,內(nèi)容項是包括音軌的視頻文件。在本發(fā)明的一個實(shí)施例中,檢 索是由CSS系統(tǒng)在視頻文件音軌上使用用戶輸入的詞語和短語排他地進(jìn)行的,以找到在音 軌的時間點(diǎn)上出現(xiàn)的這些詞語或短語或者相關(guān)的詞語或短語。因此,音軌的部分可以被識 別為與檢索詞相關(guān)并且是用戶特別感興趣的。音軌的這些部分又可以與這樣的視頻圖像 相關(guān),在通過視頻文件呈遞應(yīng)用向用戶呈現(xiàn)視頻文件時,所述視頻圖像在音軌的所述部分 被呈遞的時間間隔內(nèi)顯示。在這些實(shí)施例中,副本(圖4中的426)實(shí)質(zhì)上是與詞語或詞語 短語在向用戶呈遞音軌期間在所述音軌中出現(xiàn)的時間或時間間隔相關(guān)聯(lián)的詞語或短語出 現(xiàn)的列表。圖10根據(jù)本發(fā)明一個實(shí)施例說明副本的一種實(shí)現(xiàn)。在圖10中,一維陣列1002 中的每個單元(例如單元1004)要么是空白的,指示在該時間間隔期間未識別出詞或短語, 要么包含從與內(nèi)容項種類相關(guān)聯(lián)的詞匯表選擇的詞或短語的數(shù)字表示,所述副本是根據(jù)所 述內(nèi)容項而準(zhǔn)備的。在副本的該實(shí)施例中,每個單元代表固定的短時間間隔,從而一維陣列 1002代表呈遞視頻文件音軌的時間線(time line)。圖11根據(jù)本發(fā)明一個實(shí)施例說明副 本的替換性表示。在圖11中,副本被表示為列表或二維陣列,其每個條目或者行包含指示 來自詞匯表的詞或短語的數(shù)值(例如數(shù)值1102),以及所述詞或短語在音軌中出現(xiàn)的相關(guān) 聯(lián)時間(例如時間1104),這兩者均在條目1106中。很多替換性的副本表示是可能的。圖12說明代表本發(fā)明一個實(shí)施例的CSS的CS組件(圖4中的408)的操作。CS 組件從代表本發(fā)明一個實(shí)施例的CSS的檢索服務(wù)組件(圖4中的404)接收內(nèi)容ID 1202 和檢索查詢1203。該內(nèi)容ID—般是數(shù)字標(biāo)識符,或者字母數(shù)字串,其唯一地標(biāo)識特定的內(nèi) 容項。CS組件使用內(nèi)容ID1202來訪問媒體數(shù)據(jù)服務(wù)組件(圖4中的418),以獲得該內(nèi)容 項的種類ID 1204以及該內(nèi)容項的日期/時間1206。CS組件另外訪問本體儲存器(圖4 中的414),并且在某些實(shí)施例中,訪問語言模型儲存器(圖4中的436),以便于獲得該內(nèi)容 項適當(dāng)?shù)谋倔w1208和詞匯表1210。使用該本體和詞匯表1208和1210,并且使用各種語言 處理規(guī)則和例程,CS組件隨后處理所接收的檢索查詢1203,以生成一個或多個詞語或短語 列表1212和1214。首先,針對拼寫錯誤糾正檢索查詢,并且部分標(biāo)準(zhǔn)化該檢索查詢,以產(chǎn) 生修改的檢索詞語或短語1216。隨后處理修改的檢索查詢1216,以提取在內(nèi)容ID 1202所 標(biāo)識內(nèi)容項所屬種類的詞匯表中出現(xiàn)的那些詞。該種類由從媒體數(shù)據(jù)服務(wù)組件獲得的種類 ID 1204標(biāo)識。每個列表1212和1214包括檢索詞語或短語,以及另外如從本體1208獲得 的相關(guān)檢索詞語或短語。該列表中的每個詞語或短語與從本體提取的同現(xiàn)度量值相關(guān)聯(lián)。 在圖12所示的實(shí)例中,在本體中找到詞語“汽油”、“汽車”、“蛇”和“皮膚”與檢索詞語“油” 相關(guān),并且因此把它們包括在針對檢索詞語“油”的列表1212中。類似地,列表1214包含檢索詞語“汽車”,并且另外包含相關(guān)詞語“汽油”和“油”。所述相關(guān)詞語或短語是從本體從 其中檢索查詢詞語或短語作為本體條目中第一值出現(xiàn)的那些條目(參見圖8和9)獲得的。 一旦已經(jīng)準(zhǔn)備了列表,CS組件隨后訪問提取內(nèi)容數(shù)據(jù)組件(圖4中的416)以獲得內(nèi)容項 的副本1218。CS組件隨后使用列表1212和1214向副本1218的在該內(nèi)容項所屬種類的詞 匯表中出現(xiàn)的那些詞語和短語指派同現(xiàn)度量,以產(chǎn)生評分的副本1220。在本發(fā)明一個實(shí)施 例中,CS服務(wù)隨后將評分的副本和內(nèi)容ID,以及可選地將修改的檢索短語1216和對詞匯表 的參考返回給CSS系統(tǒng)的檢索服務(wù)組件(圖4中的404)。檢索服務(wù)組件隨后進(jìn)一步處理該 評分的副本,以將檢索結(jié)果呈遞給用戶。圖13根據(jù)本發(fā)明一個實(shí)施例說明評分的副本的一個實(shí)施例。該評分的副本為元 組的列表,在圖13中其每個元組以行表示,例如行1304。每個元組,例如元組1304,包括詞 或短語的數(shù)字表示、所述詞或短語在音頻副本中出現(xiàn)時所經(jīng)過時間指示,以及針對所述詞 或短語計算的評分。一般來說,所述評分是從用于對該副本進(jìn)行評分的本體獲得的一個或 多個同現(xiàn)度量的函數(shù)。在本發(fā)明一個實(shí)施例中,所述評分例如簡單地是從本體獲得的同現(xiàn) 度量,除非針對其計算評分的詞語或短語在多個列表(例如在圖12的實(shí)例中的列表1212 和1214兩者)中出現(xiàn),在這種情況下,評分可以被計算為與該詞語或短語出現(xiàn)在的任何列 表中的該詞語相關(guān)聯(lián)的同現(xiàn)度量的均值或加權(quán)均值。圖14提供了根據(jù)本發(fā)明一個實(shí)施例的CSS系統(tǒng)的CS組件的控制流程圖。在步 驟1402,CS組件接收內(nèi)容ID,所述內(nèi)容ID唯一地標(biāo)識內(nèi)容項和檢索詞語或短語。在步驟 1404,CS組件使用內(nèi)容ID來獲得針對該內(nèi)容ID的種類ID和日期/時間。種類ID標(biāo)識內(nèi) 容項所屬的信息種類,而日期/時間標(biāo)識內(nèi)容項相關(guān)聯(lián)的日期或日期和時間,以使得CS組 件能夠找到針對所述內(nèi)容項的合適本體和詞匯表。在步驟1406,CS組件使用在步驟1404 獲得的種類和日期/時間來獲得針對內(nèi)容項的合適本體和詞匯表。在步驟1408,CS組件 通過調(diào)用例程“處理檢索短語”、使用所獲得的本體和詞匯表來處理所接收的檢索詞語或檢 索短語。在步驟1410,CS組件又使用在步驟1404中獲得的內(nèi)容ID來獲得該內(nèi)容ID所標(biāo) 識的內(nèi)容項的副本。然后,在步驟1412,CS組件通過調(diào)用例程“處理副本”來處理副本。最 后,在步驟1414,CS組件向CSS的檢索服務(wù)組件(所述CS組件在步驟1402從所述檢索服 務(wù)組件接收內(nèi)容ID和檢索短語)返回在步驟1412中由例程“處理副本”返回的評分的副 本、內(nèi)容ID、可選地由步驟1408中調(diào)用的例程“處理檢索短語”產(chǎn)生的修改的檢索短語,以 及在步驟1406中獲得的詞匯表的參考。圖15是根據(jù)本發(fā)明一個實(shí)施例、在圖14的步驟1408中調(diào)用的例程“處理檢索短 語”的控制流程圖。在步驟1502,例程“處理檢索短語”接收檢索短語。在步驟1504,糾正 檢索短語中詞語的拼寫,并且根據(jù)語言規(guī)則和語言例程來標(biāo)準(zhǔn)化檢索短語中的詞。例如,可 以用單數(shù)詞語替代復(fù)數(shù)詞語,并且可以用根詞語和短語替代從所述根詞語和短語衍生的詞 語和短語。然后,在步驟1506,移除不能在圖14的步驟1406中獲得的詞匯表內(nèi)找到的任何 詞語和短語,留下從該詞匯表中選擇的與內(nèi)容項所屬信息種類相關(guān)聯(lián)的一個或多個詞語和 短語。然后,在步驟1508-1513的條件循環(huán)中,針對在步驟1506之后剩余的詞語和短語中 的每個詞語和短語創(chuàng)建相關(guān)詞語列表。同樣,如上文所討論的,與每個列表中的每個詞語和 短語相關(guān)聯(lián)的同現(xiàn)評分通常是從圖14的步驟1406中獲得的本體所獲得的同現(xiàn)度量。圖16提供了根據(jù)本發(fā)明一個實(shí)施例、在圖14的步驟1412中調(diào)用的例程“處理副本”的控制流程圖。在步驟1602,創(chuàng)建例如如圖13中所示的新的詞語/時間/評分列表。然 后,在步驟1604-1607的條件循環(huán)中,在該條件循環(huán)的每次迭代期間考慮圖14的步驟1410 中獲得的副本中的每個詞語,并且針對當(dāng)前考慮的詞語或短語將詞語/時間/評分元組輸 入新的詞語/時間/評分列表中。如上文所討論的,針對詞語或短語輸入的評分通常是從本 體獲得的一個或多個同現(xiàn)度量的函數(shù),或者當(dāng)詞語或短語在圖15的步驟1508-1513的條件 循環(huán)中準(zhǔn)備的多個列表內(nèi)出現(xiàn)時,評分可以被計算為詞語或短語的多次出現(xiàn)的均值、加權(quán) 均值或一些其他函數(shù)并針對該詞語或短語被儲存。在本發(fā)明的某些實(shí)施例中,可以在步驟 1604-1607的條件循環(huán)產(chǎn)生詞語/時間/評分元組的列表后,執(zhí)行可選的另外計算。例如, 在本發(fā)明的一個實(shí)施例中,可以執(zhí)行步驟1610-1613的條件循環(huán)以再次考慮新創(chuàng)建的詞語 /時間/評分列表中的每個詞語/時間/評分元組,以根據(jù)與該詞語/時間/評分列表中的 給定詞語或短語在時間上相鄰的詞語和短語來修改每個評分。例如,副本中的特定時間間 隔包含來自圖15的步驟1508-1513中準(zhǔn)備的全部或大部分列表的短語或詞語的出現(xiàn)的事 實(shí)可以指示與該間隔中的詞語和短語相關(guān)聯(lián)的評分應(yīng)該增加,以反映這些詞語和短語與 檢索短語實(shí)際相關(guān)的更高概率??梢栽诹硗饨?jīng)歷詞語/時間/評分列表時作出許多另外的 考慮。最后,在步驟1614,例程“處理副本”準(zhǔn)備的詞語/時間/評分列表被返回為評分的 副本。盡管已經(jīng)關(guān)于特定實(shí)施例描述了本發(fā)明,但是本發(fā)明并不打算被限于這些實(shí)施 例。在本發(fā)明精神內(nèi)的修改對于本領(lǐng)域技術(shù)人員將是顯而易見的。例如,可以以任何多種不 同的編程語言實(shí)現(xiàn)CSS系統(tǒng)的CS組件以在運(yùn)行于很多不同類型CSS系統(tǒng)內(nèi)不同硬件平臺 上的任何多種不同操作系統(tǒng)上執(zhí)行。CS組件的實(shí)現(xiàn)可以根據(jù)熟悉的編程參數(shù)和特性的改變 而不同,所述參數(shù)和特性包括控制結(jié)構(gòu)、數(shù)據(jù)結(jié)構(gòu)、模塊組織和其他熟悉的參數(shù)和特性。如 上文所討論的,許多不同類型的本體和本體表示以及許多不同類型的副本和副本表示可以 被CS組件的各種實(shí)施例用來準(zhǔn)備評分的副本。在替換性實(shí)施例中,同現(xiàn)度量和其他數(shù)值可 以具有不同的范圍和表示。出于解釋的目的,前面的描述使用了特定術(shù)語來提供對本發(fā)明的全面理解。然而, 將對本領(lǐng)域技術(shù)人員顯而易見的是,實(shí)踐本發(fā)明并不需要這些特定的細(xì)節(jié)。出于說明和描 述的目的,給出了對本發(fā)明特定實(shí)施例的以上描述。它們不打算是窮盡的,也不打算將本發(fā) 明限制到所公開的精確形式。根據(jù)以上教導(dǎo),很多修改和變型是可能的。示出和描述所述 實(shí)施例是為了最佳地解釋本發(fā)明的原理及其實(shí)踐應(yīng)用,由此使得本領(lǐng)域技術(shù)人員能夠以適 于所設(shè)想的具體使用的各種修改來最佳地利用本發(fā)明和各種實(shí)施例。本發(fā)明的范圍打算通 過所附權(quán)利要求及其等同物來限定。
權(quán)利要求
1.一種內(nèi)容檢索服務(wù)系統(tǒng)的概念服務(wù)組件,所述概念服務(wù)組件包括資源取得組件,所述資源取得組件接收作為輸入的內(nèi)容ID和檢索查詢,并且使用所述 內(nèi)容ID來獲取種類ID、本體、詞匯表以及副本;檢索查詢處理器,所述檢索查詢處理器接收檢索查詢,并對所述檢索查詢內(nèi)的詞語和/ 或短語進(jìn)行糾正和語言標(biāo)準(zhǔn)化;以及副本評分器,所述副本評分器使用經(jīng)語言標(biāo)準(zhǔn)化的詞語和短語來處理所述副本,以向 所述副本中的詞語和/或短語指派基于本體的評分。
2.如權(quán)利要求1所述的概念服務(wù)組件,其中所述資源取得組件從所述內(nèi)容檢索服務(wù)系 統(tǒng)的媒體數(shù)據(jù)儲存組件請求與所接收的內(nèi)容ID對應(yīng)的種類ID和日期或日期/時間指示。
3.如權(quán)利要求2所述的概念服務(wù)組件,其中所述資源取得組件使用所述種類ID和日期 或日期/時間指示從所述內(nèi)容檢索服務(wù)系統(tǒng)的本體儲存組件請求本體和詞匯表,并使用所 接收的內(nèi)容ID從提取內(nèi)容儲存組件請求副本。
4.如權(quán)利要求1所述的概念服務(wù)組件,其中所述檢索查詢處理器向所接收的檢索查詢內(nèi)的所述詞語和/或短語應(yīng)用語言規(guī)則和基于詞典的例程,以糾 正所述檢索查詢中任何誤拼寫詞語的拼寫;應(yīng)用語言例程,以通過將復(fù)數(shù)形式改變?yōu)閷?yīng)單數(shù)形式以及用衍生詞語的詞根形式替 代所述衍生詞語來標(biāo)準(zhǔn)化所接收的檢索查詢內(nèi)的所述詞語和/或短語;以及 從所述檢索查詢的詞語中過濾未出現(xiàn)在所接收的詞匯表中的詞語。
5.如權(quán)利要求1所述的概念服務(wù)組件,其中所述副本評分器為所述檢索查詢的經(jīng)語言標(biāo)準(zhǔn)化的詞語和/或短語中的每個詞語和/或短語準(zhǔn)備詞語 /本體度量對的列表;以及針對所述副本中的每個詞語和/或短語,基于所準(zhǔn)備的詞語/本體度量對的列表中的 同現(xiàn)度量將評分與所述詞語和/或短語進(jìn)行關(guān)聯(lián)。
6.如權(quán)利要求5所述的概念服務(wù)組件,其中所述副本評分器通過以下操作來為所述檢 索查詢的經(jīng)語言標(biāo)準(zhǔn)化的詞語和/或短語中的每個詞語和/或短語準(zhǔn)備詞語/本體度量對 的列表識別所述本體中包括配對有第二詞語的所述詞語和/或短語的每個條目;以及 對于每個所識別的條目,計算作為所識別的條目中同現(xiàn)值的組合的同現(xiàn)度量,以及將包括所述第二詞語和所計算出的同現(xiàn)度量的條目添加到所述列表中;以及將包括所述詞語和等同詞語同現(xiàn)度量的條目添加到所述列表中。
7.如權(quán)利要求5所述的概念服務(wù)組件,其中所述副本評分器通過以下操作來針對所述 副本中的每個當(dāng)前考慮的詞語和/或短語,基于所準(zhǔn)備的詞語/本體度量對的列表中的同 現(xiàn)度量將評分與所述詞語和/或短語進(jìn)行關(guān)聯(lián)識別詞語/本體度量對的每個列表中所述本體包括所述當(dāng)前考慮的詞語和/或短語的 每個條目;當(dāng)兩個或更多條目被識別時,將所識別的條目的同現(xiàn)度量相加在一起,并根據(jù)總和來 計算評分;當(dāng)一個條目被識別時,將所識別的條目中的同現(xiàn)度量用作所述評分;以及將所述評分與所述當(dāng)前考慮的詞語和/或短語進(jìn)行關(guān)聯(lián)。
8.一種用于檢索和識別轉(zhuǎn)錄的媒體內(nèi)容項中與檢索查詢相關(guān)的點(diǎn)的方法,所述方法包括接收作為輸入的內(nèi)容ID和檢索查詢,并且使用所述內(nèi)容ID來獲取種類ID、本體、詞匯 表以及副本;對所述檢索查詢內(nèi)的詞語和/或短語進(jìn)行糾正和語言標(biāo)準(zhǔn)化;以及 使用經(jīng)語言標(biāo)準(zhǔn)化的詞語和短語來處理所述副本,以向所述副本中的詞語和/或短語 指派基于本體的評分。
9.如權(quán)利要求8所述的方法,還包括從內(nèi)容檢索服務(wù)系統(tǒng)的媒體數(shù)據(jù)儲存組件請求 與所接收的內(nèi)容ID對應(yīng)的種類ID和日期或日期/時間指示。
10.如權(quán)利要求9所述的方法,還包括使用所述種類ID和日期或日期/時間指示從 所述內(nèi)容檢索服務(wù)系統(tǒng)的本體儲存組件請求本體和詞匯表,并使用所接收的內(nèi)容ID從所 述內(nèi)容檢索服務(wù)系統(tǒng)的提取內(nèi)容儲存組件請求副本。
11.如權(quán)利要求8所述的方法,其中,對所述檢索查詢內(nèi)的詞語和/或短語進(jìn)行糾正和 語言標(biāo)準(zhǔn)化還包括向所述檢索查詢內(nèi)的所述詞語和/或短語應(yīng)用語言規(guī)則和基于詞典的例程,以糾正所 述檢索查詢中任何誤拼寫詞語的拼寫;應(yīng)用語言例程,以通過將復(fù)數(shù)形式改變?yōu)閷?yīng)單數(shù)形式以及用衍生詞語的詞根形式替 代所述衍生詞語來標(biāo)準(zhǔn)化所接收的檢索查詢內(nèi)的所述詞語和/或短語;以及 從所述檢索查詢的詞語中過濾未出現(xiàn)在所接收的詞匯表中的詞語。
12.如權(quán)利要求8所述的方法,其中,處理所述副本以向詞語和/或短語指派基于本體 的評分還包括為所述檢索查詢的經(jīng)語言標(biāo)準(zhǔn)化的詞語和/或短語中的每個詞語和/或短語準(zhǔn)備詞語 /本體度量對的列表;以及針對所述副本中的每個詞語和/或短語,基于所準(zhǔn)備的詞語/本體度量對的列表中的 同現(xiàn)度量將評分與所述詞語和/或短語進(jìn)行關(guān)聯(lián)。
13.如權(quán)利要求12所述的方法,其中,為所述檢索查詢的經(jīng)語言標(biāo)準(zhǔn)化的詞語和/或短 語中的每個詞語和/或短語準(zhǔn)備詞語/本體度量對的列表還包括識別所述本體中包括配對有第二詞語的所述詞語和/或短語的每個條目;以及 對于每個所識別的條目,計算作為所識別的條目中同現(xiàn)值的組合的同現(xiàn)度量,以及將包括所述第二詞語和所計算出的同現(xiàn)度量的條目添加到所述列表中;以及將包括所述詞語和等同詞語同現(xiàn)度量的條目添加到所述列表中。
14.如權(quán)利要求12所述的方法,還包括通過以下操作來針對所述副本中的每個當(dāng)前 考慮的詞語和/或短語,基于所準(zhǔn)備的詞語/本體度量對的列表中的同現(xiàn)度量將評分與所 述詞語和/或短語進(jìn)行關(guān)聯(lián)識別詞語/本體度量對的每個列表中所述本體包括所述當(dāng)前考慮的詞語和/或短語的 每個條目;當(dāng)兩個或更多條目被識別時,將所識別的條目的同現(xiàn)度量相加在一起,并根據(jù)總和來計算評分;當(dāng)一個條目被識別時,將所識別的條目中的同現(xiàn)度量用作所述評分;以及 將所述評分與所述當(dāng)前考慮的詞語和/或短語進(jìn)行關(guān)聯(lián)。
全文摘要
本發(fā)明的各個實(shí)施例包括內(nèi)容檢索服務(wù)系統(tǒng)的概念服務(wù)組件,該概念服務(wù)組件采用在特定時間為特定種類的內(nèi)容準(zhǔn)備的本體和詞匯表,以便對根據(jù)內(nèi)容項準(zhǔn)備的副本進(jìn)行評分,從而使得內(nèi)容檢索服務(wù)系統(tǒng)的檢索服務(wù)組件能夠向檢索準(zhǔn)則指派內(nèi)容項的部分的相關(guān)性估計,以向內(nèi)容檢索服務(wù)系統(tǒng)客戶端呈遞檢索結(jié)果。概念服務(wù)組件處理檢索請求以生成相關(guān)詞語列表,并隨后采用所述相關(guān)詞語列表來處理副本,以便基于所述本體中包含的信息對副本進(jìn)行評分。
文檔編號G06F17/27GK102119385SQ200980118240
公開日2011年7月6日 申請日期2009年3月19日 優(yōu)先權(quán)日2008年3月19日
發(fā)明者D·巴杰倫, J·湯普森, V·舍梅布爾卡爾 申請人:德爾夫網(wǎng)絡(luò)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
林甸县| 昭觉县| 宣恩县| 山东| 东台市| 蒙城县| 道真| 威远县| 察隅县| 即墨市| 章丘市| 呈贡县| 武清区| 南城县| 济宁市| 柳河县| 大名县| 普宁市| 贡嘎县| 铁岭市| 岱山县| 泰宁县| 建宁县| 嘉峪关市| 喀什市| 弋阳县| 吐鲁番市| 微山县| 玛曲县| 清水河县| 汾阳市| 白玉县| 绥宁县| 宜兰县| 东丰县| 嘉义市| 武宁县| 怀安县| 竹北市| 泗洪县| 博白县|