專利名稱:信息存儲和檢索的制作方法
技術(shù)領域:
本發(fā)明涉及信息存儲和檢索。
技術(shù)背景有許多已建立的系統(tǒng)feffl于通過按照關(guān)鍵字進行搜索來定位信息(比如文 件、圖像、電子郵件、專利、因特網(wǎng)內(nèi)容或者象音激視頻內(nèi)容這樣的媒體內(nèi)容)。 實例包括例如由"Google" tm或者"Yahoo" tm等這樣的公司提供的因特網(wǎng)搜 索"引擎",其中通過關(guān)鍵字執(zhí)行的搜索導致- 個結(jié)果列表,該結(jié)果列表被搜 索弓摩按照所察覺的關(guān)晚性而進行排序。然而,在經(jīng)常被稱作大量內(nèi)容收集的、包括大量內(nèi)容的系統(tǒng)中,可能很難 帝啶有效的檢索查詢來給出相對短的搜索"命中"列表。例如,在準備當前申 請時,關(guān)于關(guān)鍵字"大量文件收集(massive document collection)"的Google 搜索就提取了 243000傾中。如果以后再重復這個搜索,貝滪期此命中的數(shù) £將增長,因為通過因特網(wǎng)所存儲的內(nèi)容的數(shù)Sil常會隨著時間而增加。檢 查這樣的命中列表需要耗費高得驚人的時間??偟膩碚f,大量內(nèi)容M沒有被很好禾擁的—些原因是 用戶不知道存在相關(guān)內(nèi)容 用戶知道相關(guān)內(nèi)##在但不知道它可能位于哪里 用戶知道該內(nèi) 在但不知道它是相關(guān)的 用戶知道相關(guān)內(nèi)容存在并知道如何找到它,但找到該內(nèi)容花費很長時間在2000年5月有關(guān)神經(jīng)網(wǎng)絡的正EE對艮的第11巻第3期的574—585頁, Kohonen等人寫的論文'Self Organisation of a Massive Document Collection"("大量文件收集的自組織")公開了一種利用所謂的"自組織映射"(SOM)的技 術(shù)。這些利用了所謂的無人管理的自學習神經(jīng)網(wǎng)絡算法,其中表示每個文件的 屬性的"特征向量"被日顛寸到SOM的節(jié)點上。在Kohonen等人的論文中,第一步是預處理文件文本,然后每個被預處理的文件中得到特征向量。在一種格式中,這可以是 大字典的每個字的發(fā)生頻率的直方圖。si:方圖中的^hw值他就魏應字典字的發(fā)生頻率)變成一個n值向量中的值,其中n是在字典中候選字的總數(shù)量(在這個文章所 述的例子中是43222)?;蛟S可以將加TO用到該n個向量值,以強調(diào)鵬字的 增加的相關(guān)性或者改進的分化。然后該n值向量鵬寸到更小維數(shù)的向量上(也就是具有實際上小于n的m 個值(在文章的實例中是500)的向量)。這可以ilii使該向量乘以一個由隨機 數(shù)的數(shù)組所組成的(nXm)"投z徵巨陣"來實現(xiàn)。這個技術(shù)已經(jīng)表明可生, 小維數(shù)的向量,其中任意兩個縮小維數(shù)的向量具有與兩個對應的輸入向量幾乎 相同的向量點積。在1998年UCNN會刊第413—418頁中Kaski所寫的論文 "Dimensionality Reduction by Random Mapping: Fast Similarity Computation for Clustering"("通過隨機鵬縮小維數(shù)用于麟的快速相似性計算")中描述 了這個向量鵬t過程。然后該縮小維數(shù)的向Ml用"模型"(另一個向量)乘以齡向量的過程 而被映射到SOM上的節(jié)點上(^t被稱為神經(jīng)元)。該漠型由學習過程生成, 該學習過程按照相互的相似性將該模型自動排序到SOM上,該SOM通常被 表示為節(jié)點的二維網(wǎng)格。這并不是一個平凡的過程,為了一個只有不到七百萬 個文件的文件m^庫,它使Kohonen等人在具有800MB內(nèi)存的六處理器i慣 機上花費了六個星期。最終顯示了一個由SOM組成的節(jié)點的網(wǎng)格,用戶旨辦 移近映J寸圖的區(qū)域并選擇一個節(jié)點,這使得用戶界面提供一個到因特網(wǎng)頁面的 M,該頁面包含了被鏈接至娜個節(jié)點的文件。發(fā)明內(nèi)容本發(fā)明提供了一種信息檢索系統(tǒng),其中一組不同的信息項ffiil該信息項的 相互的相似性而映射到一個節(jié)點陣列中的對應節(jié)點,使^^似的信息項^f到 該節(jié)點陣歹忡在類似ffl處的節(jié)點;該系統(tǒng)包括用于在用戶顯示器上的顯示區(qū)中,把至少一些節(jié)點的表示顯示為顯示點的 二維顯示排列的圖形用戶界面;用于定義i述示區(qū)的二維區(qū)域的用戶控帝螺; 用于檢測位于鄉(xiāng)示區(qū)的二維區(qū)域中的那些顯示點的檢測器; 該圖形用戶界面還顯示代表信息項的數(shù)據(jù)的列表,那些信息項柳劃寸到和該顯示區(qū)的二維區(qū)域中所顯示的顯示點相對應的節(jié)點上。那些本領域技術(shù)人員將會明白在詞"列表"的正常使用中,"代表信息項 的數(shù)據(jù)"可以是該項自身,如果它具有適于全部顯示的大小和屬性的話,棘 它可以是指示該項的鵬。本發(fā)明還提供了信息存儲系統(tǒng),在其中處理一組不同的信息項以便于M3! 該信息項的相互相似 映射到節(jié)點陣列中的對應節(jié)點,使得相似的信息項映 射到該節(jié)點陣列中相似位置處的節(jié)點;該系統(tǒng)包括用于生成從每個信息項所得出的特征向量的裝置,該用于信息項的特征向 量表示婦卩個信息項中一組信息特征中每個信息特征的一組出現(xiàn)頻率;和用于將每個特征向量鵬錢lj該節(jié)點陣列中的節(jié)點的裝置,在信息項和陣列中的節(jié)點之間的鵬t包括一個抖動部分,以使得基本上相同的信息項傾向于映 射到陣列中非??拷珔s不同的節(jié)點。通過^^用戶界面以允許用戶方便地將 屏幕上的顯示點與信息項列表中的信息項聯(lián)系在鬼,并且同時允許用戶方便 地區(qū)分相似的信息項,由此而在Kohonen等人論文中所述的過程上^1本發(fā) 明。本發(fā)明另夕卜的於方面禾囀征在隨后的權(quán)利要求中定義。
現(xiàn)在只是作為實例而參考附圖來描述
具體實施例方式
圖1示意性地圖解說明了信息#1諸和檢索系統(tǒng); 圖2是顯示自組織B,圖(SOM)的生J^的示意性流程圖; 圖3a和3b示意性地圖解說明術(shù)語頻率直方圖; 圖4a示意性地圖解說明未加工的特征向量;圖4b示意性地圖解說明減少的特征向量; 圖5示意性地圖解說明SOM; 圖6示意性地圖解說明抖動過程;圖7到9示意性地圖解說明Jif共用戶界面來訪問由SOM J9f^的信息的 顯示屏幕;圖10示意性地圖解說明作為視頻捕獲和/或處理設備實例的攝像機;和 圖11示意性地圖解說明作為便攜式,處理設備實例的個人數(shù)字助手。 具體實施誠圖i是基于通用計^m 10的信息存儲和紀案'系統(tǒng)的示意圖,通用計 110 具有一個處理器單元20,后者包括了用于f酵和數(shù)據(jù)的磁盤存儲器30、連接 到例如以太網(wǎng)或者因特網(wǎng)這樣的網(wǎng)絡50上的網(wǎng)絡接口卡40,通用iff抓還具 有例如陰極射線管設備這樣的顯示設備60、鍵盤70禾,如鼠^ 的用戶輸入設備80。該系統(tǒng)在sm空制下操作,^m皮存儲在纖存儲器30上并腿過例如網(wǎng)絡50、可移動磁盤(未顯示)或:tf頁先安裝在M:存儲器30上來提 供。該存儲系統(tǒng)運行在兩個普通的操作模式中。在第一個模式中, 一系列信息 項(例如文本信息項)!碟合在磁盤存儲器30上離IS^合fflil網(wǎng)絡50連 接的網(wǎng)絡磁盤驅(qū)動器上,并且被分類和索引,準備用于搜索操作。操作的第二 個模式是針對己被索弓l和分類的數(shù)據(jù)的實際搜索。該實施例可應用于許多類型的信息項。合適的信息類型的非窮盡列表包括 專利、視頻材料、電子郵件、報告、因特網(wǎng)內(nèi)容、廣播內(nèi)容、商業(yè)報告、音頻 桐料、圖形和圖片(cHpart)、照片等等,或者是這些類型的任意的組合或者混 合。在本說明書中,將文本信息項或者至少具有文本內(nèi)容或關(guān)聯(lián)的信息項作為 參考。因此,例如,像音頻和/或視頻材料這樣的一條廣播內(nèi)容可能具有以文本 項定義那個材料的關(guān)聯(lián)的"元數(shù)據(jù)"。信息項以傳統(tǒng)的方式被裝載到磁盤存儲器30上。t^i也,它們可以被存儲 作為允許更容易地進行項的檢索和索弓I的數(shù)據(jù)庫結(jié)構(gòu)的一部分,但這不是必需 的。一旦已經(jīng)如此存儲了信息禾頓,貝贓圖2中示意性表示l細于排列它們以 便進行贖的過程。將會理解,被索弓1的信息 不必被存儲在本地磁盤驅(qū)動器30上。 可 存儲在經(jīng)因特網(wǎng)50與系統(tǒng)10相連的遠端驅(qū)動器上??商娲?,可以以分布的 方式存儲信息,例如存儲在因特網(wǎng)的各種位置上。如果信息被存儲在不同的因 特網(wǎng)或者網(wǎng)謝立置處,貝幅息存儲器的第二級別將被用來在本地存fi^條到該 遠程信息的"鏈接"(例如,URL),或許具有相關(guān)的概要、摘要或者與這條 接相關(guān)聯(lián)的元數(shù)據(jù)。因此,遠程持有的信息將不被訪問,除非用戶選擇了相關(guān) 鏈接(例如從將在下面描述的結(jié)果歹撥260中選擇),盡管為了隨后的技術(shù)描 述的目的,該遠程持有的信息或者該摘要/概要/元i^或:t^&妾/URL可以被認 為是"信息項"。換句話說,"信息項"的正式定義題中可以獲得特征向量并且被鵬(見下面)以便衝共到SOM的日劃f的項。在結(jié)果列表260.(見下面)中 的數(shù) 據(jù)可以是信息項自身(如果被保持在本地并皿于方便的顯示足夠短),或者 是表示和/赫指向信息項的 ,例如一個體多個元M、 URL、摘要、一 組關(guān)鍵詞、表示性的關(guān)鍵標己的圖象等。在操作"歹據(jù)"中這是固有的,操作 "列表"雖然不總對旦卻經(jīng)常包括列出表示一組項的l^i。在另一個實例中,肖g夠跨越例如一個研究組或者合法公司這樣的連網(wǎng)的工 作組來存儲信息項。 一種混合方案可以包括一些本地存儲的信息項和/或者一些 通過局域網(wǎng)而被存儲的信息項和/或者一些通過廣域網(wǎng)而被存儲的信息項。
樣的情況下,該系統(tǒng)對于例如在大型多國研究與開發(fā)組織中定位由其它Aift行 的相似工作非常有用,相似的研究工作將傾向于被映射到SOM中的相似輸出 節(jié)點上(見下文)?;蛘呷绻谟媱澮粋€新的電視節(jié)目,貝體技術(shù)能夠被用 于通過檢測以前具有相似內(nèi)容的節(jié)目來檢查其原創(chuàng)性。還應該;鵬,圖l的系統(tǒng)10僅僅只是微對頓被索引的信息項的可能系統(tǒng)的—個實例。盡管可以想象,可以通過相當 駄的計tm,很可能JH3i非便攜式計算機,來執(zhí)行初期(編制索引)階段,但是訪問信息的后期階段可以在 例如"個人數(shù)字助理"(用于具有顯示器和用戶輸入設備的數(shù)字處理設備的術(shù) 語,通常適合放在一只手中)這樣的便攜式t幾器、例如膝上型電腦這樣的便攜 式計算機或者甚至例如移動電話、視頻編輯設備或者攝像機這樣的設備上執(zhí) 行。通常地,具有顯示器的ftf可設備實際上都能夠用于操作的信息訪問階段。 該過程不受信息項的具體數(shù)目的限制?,F(xiàn)在將參考圖2到6來描述^^及信息項的自組織鵬才(SOM)表示的過程。 圖2是圖解說明后隨SOM鵬寸過程的、被稱作"特征提取"過程的示意性流 程圖。特征提取是將未加工的數(shù)據(jù)轉(zhuǎn)換成抽象表示的過程。這些抽 示然后能 iOT于例如模式分類、聚集和識別這樣的過程。在這Wf呈中,生^ffi胃的"特 征向量",它是在文件中所用的檢索詞的頻率的抽,示。通過創(chuàng)建特征向量凍形成顯現(xiàn)的過程包括 生,索詞的"文件 庫字典" 根據(jù)"文件數(shù)據(jù)庫字典"為旨對蟲的文件生成"檢索詞頻率直方圖" 禾擁隨機鵬寸來^> "檢索詞頻率直方圖"的維數(shù) 創(chuàng)建信息空間的2維顯現(xiàn)。更詳細±也考慮這些步驟,依次打Jf^文件(信息項)100。鄉(xiāng)驟110處, 從文件中去除全部的"無用詞(stop word)"。無用詞是在予艦準備的列褒上.的 那些非常普通的詞,例如"一個"、"這"、"然而"、"關(guān)于"、"和"以及"該" 等。因為這些詞非常普通,所以它們平均起來可能艦夠長度的全部文件中表 現(xiàn)出相似的頻率。因為這個原因,它們在嘗試表征特定文件的內(nèi)容時幾乎不起 作用,因此應該Mi滁。在刪除湖詞以后,在步驟120艦剩余詞提取詞干(stem),這包括找到 詞的變體的共同詞干。例如詞"投擲器"(thrower)、"投擲"(thraws)和"投 擲運動"(throwing)具有共同的詞干"投擲"(throw)。維護由出現(xiàn)在文件(除去無用詞)中的作為詞干的詞纟M;的"字典"。當重新遇到一個詞的時候,它被增加到該字典中,并且還記錄這個詞已經(jīng)在齡文 件收集(信息項組)中出現(xiàn)的次數(shù)的游動(running)計數(shù)。所得的結(jié)果是在文件組中用于全部文件的檢索詞列表,以朋陛檢索詞出 現(xiàn)的頻率。出現(xiàn)頻率太高或者太低的詞被忽視,也就是說從字典中除去它們并 且它們不參與隨后的分析。具有太低頻率的詞可能是拼錯的、虛構(gòu)的或者與文 件組所表示的領域不相關(guān)的。出現(xiàn)頻率太高的詞不適合在該組中區(qū)分文件。例 如,在與廣播有關(guān)的文件的測試文件組中大約全部文件的三分之一都使用了檢 索詞"新聞",而其中在測試文件組中只有大約2%的文州吏用了詞"足球"。 因此能夠設想湘"新聞"相比,"足球"翻于表征文件內(nèi)容的更好的檢索詞。 相反的,詞"fottbaU"("足球"(football)的錯誤拼寫)只在旨文件組中出 現(xiàn)過一次,因此由于具有太低的出現(xiàn)機率而被刪除。此類詞可以被定義為那些 具有比出現(xiàn)的平均頻率低兩個標準偏差或者比出現(xiàn)的平均頻率高兩個標準偏差 的出現(xiàn)頻率的詞。然后在步驟130中生^#征向量。為了這樣做,而為文件組中的每個文件生成一個檢索詞頻率直方圖。ma對存在于字典(與該文件組相關(guān))中的詞在單個文件中出現(xiàn)的次數(shù)計數(shù)來構(gòu)建 檢索詞頻率直方圖。在單個文件中,字典中的大部分檢索詞都不會出現(xiàn),因此這些檢索詞將具有零頻率。在圖3a和3b中,出用于兩個不同文件的檢索詞頻率直方圖的示意性實例。從這個實例中育,看出直方圖是如何表征文件內(nèi)容的。通am察實例,能夠看出文件1比文件2中出現(xiàn)更多的檢索詞"MPEG"和"視頻",而文件2 自身出現(xiàn)了更多的檢索詞"元數(shù)據(jù)"。在該直方圖中許多條目是零,因為相應 的詞沒有出現(xiàn)在文件中。在真實的例子中,實際的檢索詞頻率直方圖中具有比在實例中大得多的檢 索詞數(shù)目。典型地,直方圖可以繪制超過50000個不同檢索詞的頻率,定出維 50000的直方圖。如果姜豐細在SOM信息空間的粒中,貝喧方圖的 維數(shù)需要被相當大的縮減。檢索詞頻率直方圖中的每個條目被用作為表示那個文件的特征向量中的對 應值。這^Hi程的結(jié)果是一個(50000X1)向量,它包含對于文件收集中的每 個文件該字典所規(guī)定的全部檢索詞的頻率。該向量被稱為稀疏向量,因為典型 地大多數(shù)值都是零,而其他大多數(shù)腿例如1這樣糊瞎低的數(shù)目。在步驟140處M^特征向量的大小,從而減少檢索詞頻率直方圖的維數(shù)。 建議了兩種方法用于^b直方圖的維數(shù)。0隨機映射一一種借助其而使隨機數(shù)矩陣乘以直方圖的技術(shù)。這是計算花 費比較ftt的過程。ii)潛在語義索弓i 一aa尋找在文件中具有很高的同時出現(xiàn)概率的檢索詞的組來減少直方圖維數(shù)的技術(shù)。然后肖鏃艦些詞的組縮鵬單一的參數(shù)。這是 計算花費較高的過程。在本實施例中被選擇用于減少檢索詞頻率直方圖的維數(shù)的方法是"隨機映 射",如在上面提及的Kaski論文中所詳細說明的。隨機B劃寸皿用隨機數(shù)的 矩陣乘以直方圖而成功地M^直方圖的維數(shù)。組.t戶腿,"未加工的"特征向量(在圖4a中示意性所表示的)是典型的 稀疏向量,其大小在具有50000個值的區(qū)域中。它能夠被減少到大約200 (見 示意圖4b)并且 保持該特征向量的相關(guān)特性,艮P,例如與其他被類似處理 的特征向量的相關(guān)角(向量點積)這樣的相互關(guān)系。這樣之所以行得通是因為 盡管限制了特嫩隹數(shù)的正交向量數(shù),但是接近正交的向量的數(shù)目非常大。實P示上隨著向量維數(shù)的增加,招可給定的隨機生成的向量組彼此幾乎正交。這個特性意味著與這個隨inji:矩陣相乘的向量的相關(guān)方向?qū)⒈槐3?。能夠通過査看它們的點積而示出在隨機映射之前和之后向量的相似性,由此證實這個性 質(zhì)。育嫩用逸驗方式棘明將稀疏向*/人50000個值M^、到200個值還可保 持它們的相關(guān)的相似性。然而,這個B勉t并不完美,但JW于以簡單緊湊的方式 征文件內(nèi)容的目的而言已經(jīng)足夠了。 一旦已經(jīng)對于文件收集生成了特征向量,且因而也定義了該收集的信息空間,在步驟150他就將它們糊寸到二維SOM來生成語義鵬。隨后的部分說 明了通過利用Kohonen自組織日鄉(xiāng)*1¥集該特征向量而日勉寸到2維的過程。還 要參考圖5。Kohonen自組織映射被用于群集和組織那些已經(jīng)被生成用于每個文件的特 征向量。自組織鵬抽在節(jié)點的二維陣列或者網(wǎng)格(如二維平面185所圖解說明的) 中的輸入節(jié)點170和輸出節(jié)點180纟賊。輸入節(jié)點的數(shù)目與,細于訓練該日贈寸 的特征向量中的值的數(shù)目一樣多。眇Jtt的每個輸出節(jié)點通過^ta權(quán)的連接190 (每個連接一個權(quán)重)連接到輸入節(jié)點。最初這些權(quán)重的每一個被設置成隨機值,然后,通艦代過程而"訓練" 權(quán)重。M將每1it征向量呈現(xiàn)給0媽t的輸入節(jié)點來訓練鵬t i!31計銷俞入 向量和每個輸出節(jié)點的權(quán)重之間的歐幾里德距離來計算最近的輸出節(jié)點。m^的節(jié)點被指定為"獲應者"并且通過輕微改變l^值來訓練這個節(jié)點 的權(quán)重以使g們移動得更誕該輸入向量。除了獲應節(jié)點以外,還訓練該《鵬 節(jié)點鄰近的節(jié)點,并且使,微移動得更M該輸入向量。這個訓練過程,不只是訓練單個節(jié)點的權(quán)重,而是訓練映射上的節(jié)點區(qū)域 的權(quán)重,這使得日,一旦被訓練,就可以保存節(jié)點的2維映射中的輸入空間的 大部分拓撲結(jié)構(gòu)。一旦映射被訓練,每個文件就能夠被呈現(xiàn)在映射中以便觀察哪個輸出節(jié)點 最靠近該文件的輸入特征向量。權(quán)重與特征向量的等同是不大可能的,并且特 征向量和它在映射上皿的節(jié)點之間的歐幾里德距離被稱為"量化誤差"。通過將用于每個文件的特征向量呈現(xiàn)在映射上以便觀察它位于哪里,產(chǎn)生 用于每個文件的x, y映射位置。當這些x, y ^S隨同文件ID —起Mil入査 找表中的時候,這些x, y位置齢說ra于顯Ut件之間的關(guān)系。最后,在歩驟160處增加抖動部分,將在下面參考圖6來描述它。上述過程的潛在問題是兩個相同或者基本上相同的信息項可以被映射到SOM的節(jié)點陣列中的相同節(jié)點上。這不會帶來數(shù)據(jù)的操縱處理的困難,但是 不利于在顯示屏上數(shù)據(jù)的顯現(xiàn)(將在下面描述)。尤其是,當在顯示屏上顯現(xiàn) 數(shù)據(jù)的時候,已經(jīng)認i煙U:多個非常棚以的項在特定節(jié)點處的單個項上是可識別的將會非常有用。因此,在每個信息項鵬倒的節(jié)點體處增加一個"抖動"部分。謝4動部分歸大可以到節(jié)點分隔的士l/2的隨機加法。因此,參考圖6, 卩勉寸過程為:t^糊出節(jié)點200的信息項具有被增加的科動部分,以便于實際 上它可以被鵬倒在圖6中由虛線所限制的區(qū)域210中的ftf可節(jié)點位置上。因此,信息項可以被認為是在不同于SOM過程的"輸出節(jié)點"的節(jié)點位 置處^l寸到圖6的平面上的位置??商娲姆椒梢允亲?匕述的SOM IM過程中使用更高密度的"輸出節(jié) 點"。這將不能在絕對相同的信息項之間提供任何區(qū)別,但是可以允許差不多 相同、但不是完全相同的信息項映射到不同的但是十分接近地分開的輸出節(jié)點 上。圖7示意性圖解說明了顯示屏60上的顯示,其中用圖表來說明被分MtA SOM的 以便在搜索操作中使用。顯示器示出了搜索查洵250、結(jié)果列表260 和SOM顯示區(qū)域270。在操作中,用戶將關(guān)鍵字搜索查詢輸入到查詢區(qū)域250中。然后用戶開始 搜索,例如通過按下體70上的回車或者鵬4頓鼠標80選擇屏幕"鄉(xiāng)" 來開始搜索。然后,禾傭標準的關(guān)鍵對叟索技術(shù)來比較,體查詢框250中的關(guān) 鍵字和 庫中的信息項。這樣生成結(jié)果列表,在列表窗口 260將每一個結(jié)果 都作為相應條目280顯示。同樣地,每個結(jié)果在節(jié)點顯示區(qū)域270上都具有對 應的顯示點。因為用于生成SOM表示的分,程傾向于在SOM中將互相類似的信息項 集合到一起,所以搜索查詢的結(jié)果一般傾向于落入像君操290這樣的群集中。 這里,注意到區(qū)域270上的每個點對應于SOM中與結(jié)果列表260中的一^ 果相關(guān)的對應條目;并且在區(qū)域270中顯就點的&fi對應于在節(jié)點陣列中那 些節(jié)點的陣列^S。圖8示意性圖解說明用于減少"命中"(結(jié)果列表中的結(jié)果)數(shù)目的技術(shù)。用戶利用鼠標80圍繞著對應于感興趣的節(jié)點的一組顯示點畫出方框300。在結(jié) 果列表區(qū)域260中,只顯示與方框300中的點相對應的那些結(jié)果。如果對這些 結(jié)果不再感興趣,貝U用戶可以圍繞著不同組的顯示點畫出另一個方框。注意到,對于在方框300中為之顯示了顯示點并且滿足字搜索區(qū)域250中 的搜索標準的那些結(jié)果,結(jié)果區(qū)域260為它們顯7,撥條目。方框300可以包 含與位于該節(jié)點陣列中的節(jié)點相對應的其他顯示位置,但是如果這些結(jié)果不滿 足搜索標準,則它們將^MM示并且不會形皿方框260中顯示的結(jié)果的m 的一部分。圖9示意性圖解說明用于在列表窗口 260中撿測條目的節(jié)點位置的技術(shù)。 在使用圖形用戶界面領域中的標準技術(shù),尤其在利用所謂的"Windows" IM 操作系統(tǒng)的計算機中,用戶可以在結(jié)果列表窗口中選擇一個或者多個條目。在 所示的實例中,通過用鼠標點擊與相關(guān)結(jié)果相對應的"檢查框"310來完成。 然而,這同樣可以通過點擊以高亮顯示整個結(jié)果,或者MM擊相關(guān)結(jié)果等來 完成。因為選擇了一個結(jié)果,所以那些表示節(jié)點陣列中的對應節(jié)點的相應顯示 點被用不同的方式顯示。^ilW應于在結(jié)果區(qū)域260中戶,結(jié)果330的兩個 顯示點320來示意性地示出。夕卜觀的改變可能是以更大尺寸顯示該點,或者是以相同顯示顏色的更強烈 的版本顯示該點,或者是以不同的顯示顏色顯示該點,或者是以這,化屬性 的組合來顯示該點。在任何時候,3ta^盾上述的步驟(也就是步驟110到140),獸辦將新的 信息項增加到SOM,然后將產(chǎn)生的^!>的特征向量應用到"預訓練"SOM模 型,即由日勉;t的自組織準備所產(chǎn)生的一組SOM模型。因此,對于新增加的信 息項,通常不"重新訓練"該日劃才;而^X寸沒有修改的全部SOM t!M使用步 驟150到160。每次增加新的信息項的時候來重新訓練SOM需要昂貴的計算 代價,并且有時候?qū)τ脩暨€有一些不友善,用戶可能要逐漸習慣于該鵬忡通 常被訪問的信息項的相對位置。然而,可能會有一種情況,其中適合重新訓練過程。例如,如果自首次生 成SOM以來己經(jīng)將新的檢索詞(可能是新的新聞項或者新的技術(shù)領域)輸入 到字典中,則它們可能不會非常好地映射到現(xiàn)有的輸出節(jié)點組。在新接收的信 息項被日劃寸到現(xiàn)有的SOM期間,這玎以被檢測為在檢觀倒的所謂"量化體"中的增長。在本實施例中,該量化誤差與閾值誤差量相比較。如果它比該閾值量大,貝蜮者(a)禾擁所有的原始信息項和自其生成以后被添加的任荷項來自動重新訓練SQM;或者(b)用戶被^^便的時間啟動重新川練過程。 重新訓練過程使用全部相關(guān)信息項的特征向量并且完全重新應用步驟150和 160。圖10示意性圖解說明作為視頻捕獲和/或處理設備實例的衝斜幾500,攝像 機包括具有相鄉(xiāng)竟520的圖象捕獲設備510;數(shù)字/信號鵬器530;磁帶存 儲器540;磁盤赫其他隨機存取存儲器550;用戶控制器560和具有目鏡580 的顯示設備570。對于那些本領域技術(shù)人員來說傳纟,像機的其他特征或者其 他備選實施方式(例如不同的存儲介質(zhì)或者不同的顯示屏幕設備)將是寸艮顯而 易見的。在使用中,與捕獲的視頻桐料相關(guān)的元im可以被存儲在存儲器550, 在顯示設備570上觀察與被存儲數(shù)據(jù)相關(guān)的SOM,并且如上戶尸戰(zhàn)利用用戶控 制器560來控制它。圖11示意性圖解說明個人數(shù)字助理(PDA) 600,作為便攜式數(shù)據(jù)處理設 備的一個實例,它具有包括顯示區(qū)域620和掛共用戶控律啲觸敏區(qū)域630的顯 示屏幕610;以及翻處理和存儲(沒有顯示)。再次地,本領域的技術(shù)人員將 很清楚替換的實施方式。該PDA可以如上所述地結(jié)合圖1的系統(tǒng)來使用。
權(quán)利要求
1.一種信息存儲系統(tǒng),其中處理一組不同的信息項以便于通過該信息項的相互相似性來映射到節(jié)點陣列中的對應節(jié)點,以使得相似的信息項映射到在該節(jié)點陣列中相似位置處的節(jié)點;系統(tǒng)包括用于生成從每個信息項中所得出的特征向量的裝置,該用于信息項的特征向量表示在該信息項中一組信息特征中的每個信息特征的一組出現(xiàn)頻率;以及用于將每個特征向量映射到該節(jié)點陣列中的節(jié)點的裝置,在信息項和該陣列中的節(jié)點之間的映射包括抖動部分,以使得基本上相同的信息項易于映射到在該陣列中的距離靠近但卻不同的節(jié)點上。
2. 依據(jù)權(quán)利要求l的系統(tǒng),包括用于將新接收的信息項鵬到該節(jié)點陣列中的節(jié)點的裝置; 用于在該新接收的信息項被如此艦時檢測鵬誤差的裝置;禾口 響應于該鵬寸誤差^31閾值誤差量的檢測而啟動該組信息項和該新接收的 信息項的重新映射過程的裝置。
3. —種便攜式 處理設備,包括一個依據(jù)權(quán)利要求1或2的系統(tǒng)。
4. 一種視頻廉集和/或處理設備,包括一個依據(jù)權(quán)利要求1或2的系統(tǒng)。
5. —種信息存儲方法,其中處理一組不同的信息項以便于M:該信息項的相互相似性來映射至U節(jié)點陣列中的對應節(jié)點,以使得相似的信息項映射到該節(jié) 點陣列中相似位置處的節(jié)點;該方法包括步驟生成從每^S言息中所得出的特征向量,該用于信息項的特征向量表示在該 信息項中一組信息特征中的每個信息特征的一組出現(xiàn)頻率;禾口將每個特征向量鵬寸到該節(jié)點陣列中的節(jié)點,在信息項和該陣列中的節(jié)點 之間的映射包括抖動部分,以使得基本上相同的信息項易于映射到在該陣列中 的距離靠近但卻不同的節(jié)點上。
全文摘要
一種信息檢索系統(tǒng),其中一組不同的信息項通過該信息項的相互相似性而映射到節(jié)點陣列中的對應節(jié)點,使得相似的信息項映射到該節(jié)點陣列中相似位置處的節(jié)點;該系統(tǒng)包括用于在用戶顯示器上的顯示區(qū)中,把至少一些節(jié)點的表示顯示為顯示點的二維顯示陣列的圖形用戶界面;用于定義該顯示區(qū)的二維區(qū)域的用戶控制器;和用于檢測位于該顯示區(qū)的二維區(qū)域中的那些顯示點的檢測器;該圖形用戶界面還顯示表示信息項的數(shù)據(jù)列表,那些信息項被映射到與該顯示區(qū)的二維區(qū)域中所顯示的顯示點相對應的節(jié)點。
文檔編號G06F12/00GK101251857SQ20081008176
公開日2008年8月27日 申請日期2003年9月19日 優(yōu)先權(quán)日2002年9月19日
發(fā)明者D·W·特雷佩斯, J·R·托爾佩 申請人:索尼英國有限公司