專利名稱:利用紋理分析的影像數(shù)據(jù)庫瀏覽與查詢的制作方法
技術領域:
本發(fā)明涉及影像數(shù)據(jù)庫的瀏覽方法與設備,更具體地說,涉及根據(jù)欲查文獻的已知紋理瀏覽影像數(shù)據(jù)庫的方法和設備。
隨著低價永久電子儲存裝置和以電子學方法獲取文獻影象的掃描器的廣泛普及,建立和儲存大型文獻影象數(shù)據(jù)庫成為可能。這種影象數(shù)據(jù)庫的應用包括電子圖書館、醫(yī)學文獻、行政管理記錄、新聞剪報、地圖、政府報表、手冊等。一般說來,現(xiàn)在將文獻掃描并將其儲存在電子儲存器上,往往比以物理方法儲存文獻更加便宜。
這樣的大型文獻影象數(shù)據(jù)庫存在著從數(shù)據(jù)庫識別和取出欲查文獻的問題。查詢文獻數(shù)據(jù)庫的一種已知的技術,是查找可能會在欲查的文獻中找到的正文字符串或幾個正文字符串的組合。對于掃描出來的文獻,這種技術有賴于正確的光學字符識別,而這并不總是可行的。另外,產生既能在查詢文獻中找到,又足以將欲查文獻與其他文獻區(qū)分的正文字符串或幾個字符串,往往是很困難的。
用戶往往多少知道一點欲查的文獻是什麼樣子。在文獻影象數(shù)據(jù)庫的查找中利用這種信息是有利的。
本發(fā)明提供根據(jù)數(shù)據(jù)庫文獻影象中的紋理、在分析上可以識別的圖案查詢文獻影象數(shù)據(jù)庫的方法和設備。按照本發(fā)明,可以用各種各樣的方法去瀏覽文獻影象數(shù)據(jù)庫,以找出具有特定紋理的文獻。例如,用戶可以輸入一個其版面與欲查的文獻相近的實例文獻影象?;蛘?,用戶可以使用一種簡單的界面,根據(jù)對幾個類別的選擇定義一個合成文獻。再用這個合成的文獻作為搜索的實例?;蛘撸脩艨梢岳靡环N圖形界面,比較精確地定義一個搜索實例。這樣,用戶對于一個或多個欲查文獻整體版面的知識就提供了查找的依據(jù)。
一旦用戶開始了查找過程,就根據(jù)與實例紋理的相似性選出一個或多個文獻影象。這些影象可以以圖標的形式顯示或打印在紙上。用戶可以選擇所顯示的文獻作為新一輪查找的查詢線索,開始下一輪瀏覽。在一個實施例中,在數(shù)據(jù)庫中文獻影象是群集在一起的,而當進行查詢時,把包括在紋理上與查找線索相近的影象的各群的代表顯示出來。
在一個實施例中,當用戶請求顯示多頁的文獻時,將版面相似的各頁識別出來。對于被識別出來作為具有相似版面的各頁,將這些頁的影象彼此重疊又略為錯開地顯示出來。
按照本發(fā)明的一個方面,文獻影象查詢的依據(jù)是對每個影象紋理的分析。為每個影象抽取特征矢量。作為用在特征矢量上的影象之間的相似性,是以距離度量為依據(jù)的。在最佳的實施例中,特征矢量有80個元素,并建立在四種不同的影象處理方法的基礎上。第一組20個元素是以整個影象的連接成分尺寸的柱狀圖(histogram)為基礎的。第二組20個元素是通過對整個文獻興趣點的測量而獲得的。第三組20個元素是從連接成分的垂直投影柱狀圖獲得的。最后一組20個元素是通過將文獻分割成20個網格,并對每個網格中的連接成分求和而獲得的。
在一個實施例中,為了對已經對數(shù)據(jù)庫的影象進行了光學字符識別(OCR)的影象數(shù)據(jù)庫 進行查詢,采用根據(jù)影象紋理和正文的結合為基礎的搜索。將兩種類型的數(shù)據(jù)結合起來,可以用正文來查找與影象有關的OCR數(shù)據(jù),而用紋理數(shù)據(jù)來進行以影象整體版面為依據(jù)的搜索。參考本說明書剩余部分和附圖,將會進一步理解本發(fā)明的性質和優(yōu)點。
圖1描述適用來實施本發(fā)明的計算機系統(tǒng);圖2描述說明本發(fā)明文獻影象數(shù)據(jù)庫查詢系統(tǒng)的操作的頂層流程圖;圖3描述按本發(fā)明一個實施例、用來根據(jù)類別選擇形成一個合成文獻影象作為開始查詢的實例的用戶界面屏幕;
圖4描述按本發(fā)明實施例的一種用戶界面屏幕,其中,用戶可以使用圖形工具來形成實例文獻影象以開始查詢;圖5描述按本發(fā)明實施例如何針對一個群集的影象數(shù)據(jù)庫顯示查詢結果;圖6描述按本發(fā)明一個實施例可以如何顯示一個報告的多頁影象;圖7A描述按本發(fā)明一個實施例從文獻影象抽取的特征矢量的元素;圖7B描述按本發(fā)明一個實施例作為加入特征矢量的連接成分尺寸的柱狀圖;圖7C描述按本發(fā)明一個實施例作為加入特征矢量的興趣算子信息如何操作,以區(qū)分具有不同字體尺寸的文獻;圖7D描述按本發(fā)明一個實施例作為加入特征矢量的連接成分的垂直投影柱狀圖;圖7E描述按本發(fā)明一個實施例作為加入特征矢量的連接成分在網格中的分布如何操作,來區(qū)分具有不同的成分安排的文獻;圖8描述按本發(fā)明用于搜索的具有代表性的實例文獻影象及搜索結果。
圖1表示適用于本發(fā)明的計算機系統(tǒng)的基本子系統(tǒng)。在圖1中,計算機系統(tǒng)10包括總線12,它把諸如中央處理器14、系統(tǒng)存儲器16、輸入/輸出(I/O)控制器18等主要子系統(tǒng)連接起來;通過并行口連接的打印機20等外部設備;通過顯示適配器26連接的顯示屏24;串行口28;鍵盤30;硬盤驅動器32及可接受軟磁盤33A的軟盤驅動器33??梢赃B接諸如通過外部接口36連接的掃描裝置34、通過串行口28連接的鼠標器38以及直接連接的觸摸屏40等許多其他設備。許多其他設備和子系統(tǒng)(未示出)也可以用類似的方法連接。另外,正如下面將要討論的,為了實現(xiàn)本發(fā)明并非圖1所示的所有設備都是必要的。裝置和子系統(tǒng)可以用與圖1所示的不同的方法連接。諸如圖1所示的計算機系統(tǒng)的操作就現(xiàn)有技術而言也很容易理解,因而不準備在本申請書中進行詳細討論??梢园褜嵤┍景l(fā)明的源代碼可操作地存放在系統(tǒng)存儲器16內或儲存在諸如硬盤32或軟盤33A等存儲介質中。影象數(shù)據(jù)庫也可以儲存在硬盤32上。
顯示屏24類似于諸如個人計算機或工作站等標準計算機上用的CRT屏幕或監(jiān)視器。本發(fā)明可以使用各種各樣的用戶輸入裝置。例如,可以允許用戶按照用戶手的動作移動顯示在顯示屏上的一個指針的鼠標輸入裝置就是一種標準的用戶輸入裝置。鼠標器通常在其表面上包括一個或多個按鈕,以便用戶可以通過移動鼠標來指向屏幕上顯示的一個對象,并選擇該對象,或者通過按動鼠標器上的一個或多個按鈕來激活對象。作為另一方案,觸摸屏允許用戶指向屏幕上的對象來選擇該對象,或者通過指向屏幕上的第二個位置來移動所選定的對象。在屏幕上可以顯示不同的按鈕或控制,用鼠標或觸摸屏來激活。硬盤驅動器32可以是硬盤驅動器或光盤驅動器,或者適宜于儲存文獻影象數(shù)據(jù)庫的任何一種介質。
搜索過程綜述本發(fā)明提供一種建立在用實例文獻作為查找線索的基礎上的文獻影象數(shù)據(jù)庫搜索系統(tǒng)。用戶用多種途徑中的一種,與本發(fā)明的系統(tǒng)進行交互反應,形成一個實例影象。最好根據(jù)該實例影象的紋理,系統(tǒng)找出一個或多個匹配的影象,并將其作為搜索結果顯示出來。然后,用戶可以選擇一個匹配的影象作為進一步搜索數(shù)據(jù)庫的線索。
圖2描述說明本發(fā)明文獻影象數(shù)據(jù)庫查詢系統(tǒng)的操作的頂層流程圖;步驟202處,形成實例影象。例如,用戶可以從磁盤驅動器32取出已知實例影象。或者用戶可以用掃描裝置34掃描影象?,F(xiàn)參照圖3和4解釋形成實例影象的其他技術。
步驟202形成的實例影象用作查找的依據(jù)。查找依賴于在文獻整個區(qū)域評價而得出的影象特征的比較。結果是找出其整體版面與該文獻影象相似的文獻影象。相應地,在步驟204,獲取關于實例文獻影象的影象特征信息。這個影象特征信息最好采取影象特征矢量的形式,現(xiàn)參照圖7A-7E討論影象特征矢量的組成。
數(shù)據(jù)庫最好包括用類似的方法得到的數(shù)據(jù)庫影象的影象特征信息。在步驟206處,從實例文獻影象獲得的影象特征信息用作數(shù)據(jù)庫查詢的線索。在影象特征信息是特征矢量的最佳實施例中,最好用歐幾里得距離量度來求出與實例相近的文獻影象。另外,可以用Mahalanobis距離、Hausdorff距離或加權匹配法來查找相近的文獻影象。在一個實施例中,搜索過程利用了影象數(shù)據(jù)庫中的群集,以便在影象特征矢量空間中找出代表與實例影象相近的點的群節(jié)點。
在步驟208處,顯示相似的文獻影象。在一個實施例中,顯示數(shù)據(jù)庫中的三個最相似的影象?;蛘?,顯示代表包含具有相似特性的影象的群集的圖標。
在步驟210處,用戶可以從所顯示的文獻影象中或群集圖標中選擇一個作為進一步查找的線索。然后,系統(tǒng)利用所選的影象或群集圖標作為新的實例文獻影象,并返回到步驟206。
在一個實施例中,影象數(shù)據(jù)庫包括加密形式的文獻影象。但搜索用的特征信息是不加密的。識別出欲查的文獻影象時,將它們解密顯示。在先有技術中,加密的文獻數(shù)據(jù)庫是利用解了密的關鍵字信息進行查詢的。本發(fā)明所提供的途徑,其優(yōu)點在于未加密的影象信息不易理解,因而仍舊提供一種安全措施。相反,在先有技術中,維持未加密狀態(tài)的關鍵字很容易理解,有損安全。
在一個相關的實施例中,影象數(shù)據(jù)庫包括壓縮形式的文獻影象,而查詢用的特征信息是不壓縮的。識別出欲查的文獻影象時,將它們解壓顯示。
形成實例影象用的用戶界面圖3描述一種按本發(fā)明一個實施例根據(jù)類別選擇形成合成文獻影象作為開始查詢用的實例的用戶界面屏幕300。用戶界面屏幕300可以在觸摸屏40上實現(xiàn),用戶觸摸所顯示的不同按鈕而作出選擇,指定類別的選擇。另一個方案是,可以使用鼠標器或其他類似的輸入裝置來選擇不同的類別。
標有“紋理”字樣的第一列按鈕302使用戶可以選擇文獻類型。提供的按鈕有“報紙”304、“商業(yè)信函”306、“月刊/雜志”308、“產品目錄/小冊子”310以及“手稿”312。用戶選擇他/她要找的文獻的文獻類型。
標有“頁面布局”字樣的第二列按鈕314使用戶可以選擇他/她要找的文獻中可能找到的正文欄數(shù)。提供的按鈕有單欄316、雙欄318和三欄320。
標有“圖形”字樣的第三列按鈕322使用戶可以選擇可能會在欲查結果文獻中找到的文獻標題、正文和圖形圖象的相對位置。每個按鈕描述一種可能的布置。按鈕324表示標題326位于圖形328和正文330的上方。按鈕332表示標題334位于正文336的上方。按鈕338表示標題340位于圖形342的上方。按鈕344表示圖形346挨著正文348。
從該三列中各作一選擇,用戶即能迅速地傳達欲查的一個或多個文獻的總體版面。用戶作出他/她的選擇后,激活“查找”鍵350,根據(jù)與用戶的選擇相應的影象特征信息開始查找。用戶的選擇可以理解為指定實例文獻影象,用作線索,用與掃描影象相同的方法進行查找。當然,圖4所示的各種不同類型和選擇只是一個代表而已。
圖4描述按本發(fā)明一個實施例的用戶界面屏幕400的一個簡化的表示,用戶可以在其中使用圖形工具,形成實例文獻影象,來開始查找。用戶界面屏幕400與參照圖3所描述的系統(tǒng)相比,在指定實例影象方面提供了較大的靈活性。
用戶遵循使用一般的計算機輔助制圖軟件包時所遵循的路線逐步進行。用戶利用工具條(palette)402選擇諸如頁眉、作者、標題、正文部分、腳注、圖等的文獻成分類型。工具條404用來為正文成分指定字體大小,并對影象成分區(qū)分線條圖和網目銅版(half toneimage)。選擇正文成分的操作可以包括利用鼠標器38將指針放在工具條的有關區(qū)域上,按一下鼠標器38上的按鈕,將指針移到文獻影象406內的欲指的點上,再按一下該按鈕。利用計算機輔助制圖軟件包的典型技術,即可調整該文獻成分的大小和位置。
這個用戶界面可以有許許多多的方案。為了向用戶提供反饋信息,系統(tǒng)可以在文獻影象406內的指定位置上顯示實際的正文或圖形。另外,用戶還可以通過指定文獻影象正文區(qū)域的字形大小或字體,更具體地指定文獻的紋理。
經過與用戶界面屏幕400一系列的交互作用之后,便得出如同文獻影象406這樣的影象,可以用作查找的實例影象。有代表性的顯示408表示根據(jù)實例影象406獲得的查找結果。
按照本發(fā)明的一個實施例,正文查詢與紋理查詢相結合。紋理查詢可以利用包括上述技術在內的任何一種技術,形成一個實例影象來進行。正文查詢可以包括可能在欲查的文獻中找到的一個或多個正文字符串。查找結果可以僅限于既滿足紋理查詢的判據(jù),又滿足正文查詢的判據(jù)的影象。當然,這種特定的查詢技術僅限于有光學字符識別結果可用的影象數(shù)據(jù)庫。首先,檢索出包括欲查正文字符串的文獻影象。再從檢索出的影象中查找其紋理與指定的紋理相近的影象。
作為另一方案,影象紋理用來組織正文查詢的返回結果。首先,檢索出包括欲查正文字符串式樣的文獻影象。然后,將具有相似紋理的文獻群集分組在一起。例如,利用前述的重疊技術,將這些文獻組顯示給用戶。這一技術提供了區(qū)分不同來源的文獻的便捷方法。例如,考慮包括報紙和科學雜志文章的數(shù)據(jù)庫。使用正文查詢,這兩種來源的文獻都能返回。但是,用戶只對它們之中的一種感興趣。影象紋理的群集提供了一種讓用戶迅速區(qū)分新聞文章和科學雜志文章的方法。
搜索結果的顯示圖5描述按照本發(fā)明的一個實施例可以如何顯示查詢結果。群集的影象數(shù)據(jù)庫是一種影象按照它們在由影象特征矢量定義的空間中的位置,按層次結構分群的數(shù)據(jù)庫。該種數(shù)據(jù)庫分成一群或幾群。每群又依次分成一個或幾個子群。關于群集的描述見于Duda&Hart的“Pattern Clasification&Sciene Analysis”(John Wiley&Sins 1973)一書,其內容列述于此為作參考。
若只有一個層次,進行查詢時,返回影象特征矢量空間中離實例文獻影象最近的群中的全部影象。圖5描述在群的多層次結構的背景下呈現(xiàn)的瀏覽查詢結果。層次500表示代表群節(jié)點的圖標。用戶選擇一個圖標作為進一步搜索的線索,沿著該層次結構下行。最后,用戶會達到一個群葉,就是說,一個實際的影象群,而不是群節(jié)點。然后,將這些影象顯示出來。
實現(xiàn)基于群的搜索的一個途徑,是每次提交查詢要求時,都從新計算群的結構。實現(xiàn)基于群的搜索的另一個途徑,是在搜索前,最好利用紋理信息計算群的結構。于是,上述搜索過程便基本上與遍歷樹的過程相當。
圖6描述按本發(fā)明的一個實施例的改進了的多頁文獻顯示方法。欲查文獻影象往往是多頁報告中的一頁。例如,在有名的Berkeley影象數(shù)據(jù)庫中,50頁的報告是很常見的。這些報告的許多頁全是正文,往往表現(xiàn)出相似的紋理特點,給搜索造成困難。為用戶進行瀏覽提供最令人感興趣的特點的頁,包括標題頁、目錄頁、圖表、圖形等。這些頁也是為由此對數(shù)據(jù)庫作進一步查詢提供最佳特點的頁。
顯示搜索結果時,最好先將多頁文獻顯示成單一影象。但是,通過選擇這些影象,用戶可以使整個文獻都顯露出來。顯示602表示具有相似版面的同一報告許多頁606。人們可以看到,對于有幾百頁的報告,顯示很快就由于重復的影象而顯得雜亂無章。一種改善了的顯示方法604將同一報告的影象各頁略為錯開地重疊起來,從而顯示它眾多的頁606。改善了的顯示方法604顯得遠不那么雜亂無章了。
為了改善顯示,要顯示多頁報告時,通過比較它們的影象特征信息,識別出版面大體相似的各頁。這些頁的影象各頁略為錯開地重疊起來顯示。
特征矢量的抽取圖7A描述按本發(fā)明的一個實施例的從文獻影象提取的特征矢量700的元素。特征矢量700最好包括80個元素,包括4組,每組20個元素。第一組702的20個元素代表連接成分尺寸的柱狀圖,將參照圖7B作進一步的討論。第二組704的20個元素代表文獻影象整個網格中興趣點的分布,將參照圖7C作進一步的討論。第三組706的20個元素代表連接成分密度的垂直投影柱狀圖,將參照圖7C作進一步的討論。第四組708的20個元素代表在文獻整個網格中連接成分的分布,將參照圖7D作進一步的討論。
圖7B描述按本發(fā)明的一個實施例的可能會被并入特征矢量702的連接成分尺寸柱狀圖710。柱狀圖710是以從影象獲得的連接成分尺寸的信息為基礎的。單個的連接成分是圖形中一組連續(xù)的黑色圖素。為了確定連接成分的尺寸,最佳實施例求出包圍它的尺寸最小的矩形方框的面積。確定連接成分尺寸的所有其他途徑也都在本發(fā)明的范圍之內。例如,包圍的矩形方框的對角線尺寸可以是連接成分的尺寸。也可以在計算連接成分的尺寸之前進行濾波,盡管這并非最佳實施例的特點。
柱狀圖的水平軸712和垂直軸714最好歸一化為對數(shù)刻度。也可以對柱狀圖屜進行加權,盡管這并不是最佳實施例的特點。曲線716表示雜志的代表性頁面的柱狀圖。曲線718表示技術雜志代表性頁面的柱狀圖。正如可以看到的,從這個柱狀圖得出的信息對于區(qū)分不同的文獻類型是有用的。
第二組704的20個特征矢量元素是以興趣點信息為依據(jù)的。興趣點是影象中具有明顯特征的區(qū)域內的象素。每個興趣點都有一個識別出的興趣級。如先有技術中眾所周知的,興趣點及其相關的興趣級是對一個影象中的象素應用所謂興趣算子而得出的。最佳實施例利用一種與美國專利申請書系列號08/527,286“多頁片斷的同時登錄”描述的算子相近的經過修改的Moravec算子。該專利轉讓給本申請的受讓人,其內容列述于此作為參考。
對于每一個象素,經過修改的Moravec方差算子是從該象素的6個半徑中的每一個計算出來的。對于一個給定的象素和半徑,興趣級的值是位于給定半徑以外、其上、其下、其左及其右4個象素的象素值的方差。一般說來,文獻影象是二值的,象素值不是0就是滿刻度。興趣級的值分選入3個屜內,低興趣值、中興趣值和高興趣值。在本發(fā)明的范圍內,也可以使用其他興趣算子。對于興趣算子的概述見于Yan的“興趣算子及其快速實現(xiàn)”,International Archives ofPhotogrammetry and Remote Sensing,Vol 27-II,Japan,pp.491-500一文。其內容列述于此作為一般參考。
半徑和興趣級屜的每一個組合都賦給第二組704的一個元素。元素的值是具有與該元素有關的興趣級的值和半徑的象素數(shù)目的歸一化表達。既然有6個半徑和三個興趣級值屜,這便得出了第二組中20個元素的18個。
第二組704剩下的兩個元素保存特殊的數(shù)值。一個元素保存影象中黑色象素的數(shù)目與總的象素數(shù)目的比值。另一個元素保存對應于通過影象的一次水平掃描中發(fā)現(xiàn)的由黑到白轉變的總次數(shù)值。
圖7C舉例說明興趣點信息對于區(qū)分文獻影象是有用的。圖7C表示字符”t”720,顯示該字符不同部位的興趣級。轉角處的象素722具有高的興趣級。內部的象素724具有低的興趣級。沿著邊沿的象素726具有中等的興趣級。
圖7D描述按本發(fā)明一個實施例的要加入特征矢量的連接成分的垂直投影柱狀圖728。為了獲得特征矢量的第三組706,將影象分成20個垂直條。第三組的每一個元素對應于一個特定的垂直條中尺寸超過最小閾值的連接成分的個數(shù)。在該最佳實施例中,這個最小閾值大于一個象素的高度和寬度。這個第三組706對于區(qū)分欄數(shù)不同的正文特別有用。具有單欄正文的第一個文獻730給出投影柱狀圖曲線732。具有雙欄正文的第二個文獻734給出投影柱狀圖736。正如可以看到的,投影柱狀圖732具有一個峰,對應于單欄,而投影柱狀圖736有兩個峰,對應于兩欄。
圖7E描述按本發(fā)明的一個實施例的準備包括在特征雙欄內的連接成分在網格中的分布在區(qū)分具有成分分布不同的文獻方面如何起作用。第四組708的元素通過將影象分成5×4的網格矩陣738,并求出每個網格中超過閾值尺寸的連接成分的個數(shù)而求出的。在最佳實施例中,這種成分尺寸都超過一個象素的高度和寬度。然后,將每個網格連接成分的個數(shù)與該影象作為整體的連接成分的總個數(shù)相比,進行歸一化。這第四組708對區(qū)分象文獻740和742這種文獻成分布置不同的文獻特別有用。
從參照圖3描述的通過類型選擇而形成的實例文獻影象,以及參照圖4描述的通過圖形用戶界面形成的實例文獻影象中抽取影象特征信息,都遵循一個修改過的過程。采用圖3的類型選擇法可能產生的實例文獻影象數(shù)目有限。一個過程是對每一種類型選擇的組合,提供一個相應的具有所選特性的實際的文獻影象。然后,可以用這個影象作為上述參照圖7A-7E的影象特征抽取的基礎。
對于用參照圖4所討論的方法形成的實例影象,一個過程是將與每一個所選成分對應的樣本影象材料結合起來,構造一個實際的文獻影象。對于正文成分,則包括實際的正文。對于圖形,則包括一個樣本圖形影象。然后把用這樣構造出來的實際文獻影象作為影象特征抽取的基礎。
搜索結果圖8表示按本發(fā)明的用作搜索實例的有代表性的實例文獻影象802和搜索結果。利用實例影象804作為搜索的線索,從包括月刊、信函、雜志、小冊子、新聞、產品目錄和手稿的971個影象的數(shù)據(jù)庫(搜索出???)影象806,808和810。實例影象804是一份商業(yè)信函,而所有搜索結果也都是商業(yè)信函。正如可以見到的,本發(fā)明的搜索系統(tǒng)提供了與實例影象明顯相似的影象。
在上述詳細說明中,本發(fā)明是參照舉例的特定的實施例來描述的。但是,顯然在不離開如同后附權利要求書所提出的本發(fā)明的廣義的精神和范圍的情況下,對它可以作出種種修改和變化。
例如,盡管上面的描述是參照二值影象進行的,但是本發(fā)明的技術也適用于灰度影象。在先有技術中,興趣點技術在灰度影象上的應用是眾所周知的。先用閾值函數(shù)處理灰度值,再求出其值超過選定閾值的象素的連續(xù)的組,即可從灰度影象獲得連接成分信息。
對影象特征實例作適當?shù)男薷闹?,上述搜索技術也可以應用于彩色影象。例如,可以將影象特征矢量加以擴充,把對應于影象不同網格上的中值CMYK值的元素包括進去。
此外,為了提高影象視覺外觀的比較準確度,可以采用元素數(shù)目多得多的影象特征矢量。例如,文獻影象可以分成20個網格。然后,可以對每個網格計算相當于前三組特征元素矢量700的60個元素的矢量。所有這些60元素矢量的集合,就是1200個元素特征矢量,可以用來作為搜索和瀏覽影象數(shù)據(jù)庫的依據(jù)。
對于本專業(yè)的普通技術人員來說,顯然很容易作出許多這樣的修改和變化。因而,詳細說明和附圖應被視為示例說明性的,而不是限制性的。本發(fā)明僅受所提供的權利要求書的限制。
權利要求
1.一種搜索文獻影象數(shù)據(jù)庫的方法,其特征在于包括下列步驟形成一個實例文獻影象;荻取關于所述實例文獻影象的影象特征信息;利用所述影象特征信息搜索該文獻影象數(shù)據(jù)庫;顯示所述搜索步驟的搜索結果;以及接收該用戶選擇給定的搜索結果的輸入,作為進一步搜索的依據(jù)。
2.權利要求1的方法,其特征在于所述形成步驟包括在所述的實例文獻影象中進行的掃描。
3.權利要求1的方法,其特征在于所述形成步驟包括接收用戶指定所述實例文獻影象特征的輸入。
4.權利要求1的方法,其特征在于所述形成步驟包括操作圖形系統(tǒng),用戶在其中指定和安排所述實例文獻影象的成分。
5.權利要求1的方法,其特征在于所述影象特征信息包括關于所述實例文獻影象中的興趣點的信息。
6.權利要求1的方法,其特征在于所述影象特征信息包括關于所述實例文獻影象中連接成分的信息。
7.權利要求1的方法,其特征在于所述影象特征信息包括關于所述實例文獻影象中連接成分分布的信息。
8.權利要求1的方法,其特征在于所述獲取步驟包括對所述實例文獻影象求出影象特征矢量。
9.權利要求8的方法,其特征在于所述搜索步驟包括將所述實例文獻影象的影象特征矢量與所述數(shù)據(jù)庫中文獻影象的影象特征矢量加以比較。
10.權利要求9的方法,其特征在于它還包括接收用戶指定搜索正文字符串的輸入,而所述搜索步驟還包括將所述搜索正文字符串和與所述數(shù)據(jù)庫中所述文獻影象有關的光學字符識別數(shù)據(jù)加以比較。
11.權利要求1的方法,其特征在于顯示步驟包括顯示一個或多個在紋理上與所述實例文獻影象相近的文獻影象。
12.權利要求1的方法,其特征在于顯示步驟包括顯示代表在紋理上與所實例文獻影象相近的影象群的圖標作為搜索結果。
13.權利要求1的方法,其特征在于所述文獻影象數(shù)據(jù)庫包括加密形式的文獻影象和所述加密文獻影象的影象特征信息。
14.權利要求13的方法,其特征在于搜索步驟包括搜索儲存在所述文獻影象數(shù)據(jù)庫中的所述影象特征信息,以及顯示步驟包括將所述搜索步驟的搜索結果解密。
15.權利要求1的方法,其特征在于所述文獻影象數(shù)據(jù)庫包括壓縮形式的文獻影象和所述壓縮文獻影象的影象特征信息。
16.權利要求15的方法,其特征在于搜索步驟包括搜索儲存在所述文獻影象數(shù)據(jù)庫中的影象特征信息,以及顯示步驟包括將所述搜索步驟的搜索結果解壓。
17.從以電子學方法儲存的影象抽取特征矢量的方法,其特征在于它包括下列步驟測量整個所述影象中連接成分的尺寸;識別整個所述影象的象素的興趣級;識別整個所述影象的連接成分及其尺寸;將連接成分尺寸的柱狀圖作為所述特征矢量的第一組元素儲存起來;以及將象素興趣級的柱狀圖作為所述特征矢量的第二組元素儲存起來。
18.權利要求17的方法,其特征在于它還包括將所述影象的垂直區(qū)段中連接成分個數(shù)的柱狀圖作為所述特征矢量的第三組元素儲存起來。
19.權利要求17的方法,其特征在于它還包括將所述影象的多個區(qū)域中連接成分的個數(shù)作為所述特征矢量的第四組元素儲存起來。
20.在文獻影象數(shù)據(jù)庫中搜索文獻的方法,其特征在于它包括下列步驟接收用戶指定所述文獻類別的輸入;接收用戶指定所述文獻正文欄數(shù)的輸入;接收用戶指定所述文獻組織的輸入;形成所述類別的并具有所述欄數(shù)和組織的合成文獻;以及搜索所述文獻影象數(shù)據(jù)庫,以找出與所述合成文獻相近的文獻。
21.權利要求20的方法,其特征在于所述搜索步驟包括搜索其紋理與所述合成文獻相近的文獻。
22.一種文獻瀏覽系統(tǒng),其特征在于它包括儲存文獻影象數(shù)據(jù)庫的電子儲存裝置;顯示文獻影象的顯示器;與所述電子儲存裝置和所述顯示器耦合的處理單元,所述處理單元起以下作用形成一個實例文獻影象;獲取關于所述實例文獻影象的影象特征信息;以及利用所述影象特征信息,搜索文獻影象數(shù)據(jù)庫,以便找出與所述實例文獻影象相近的文獻影象。
23.儲存介質上的軟件,其特征在于包括用來形成實例文獻影象的軟件;用來獲取關于所述實例文獻影象的影象特征信息的軟件;利用所述影象特征信息搜索該文獻影象數(shù)據(jù)庫的軟件;顯示所述搜索軟件搜索結果的軟件;以及接收用戶選擇所顯示的搜索結果的輸入作為進一步搜索的依據(jù)的軟件。
24.權利要求23的軟件,其特征在于,所述形成軟件包括接收用戶指定所述實例文獻影象的特征的輸入用的軟件。
25.權利要求23的軟件,其特征在于,所述形成軟件包括用來操作圖形系統(tǒng),用戶在其中指定和安排所述實例文獻影象成分的軟件。
26.權利要求23的軟件,其特征在于,所述獲取軟件包括用來抽取所述實例文獻影象的影象特征矢量的軟件。
27.權利要求26的軟件,其特征在于,所述搜索軟件包括用來將所述實例文獻影象的所述影象特征矢量與所述數(shù)據(jù)庫中文獻影象的影象特征矢量加以比較的軟件。
28.權利要求27的軟件,其特征在于它還包括用來接收用戶指定搜索正文字符串的輸入的軟件,以及所述搜索軟件還包括用來將所述搜索正文字符串與所述數(shù)據(jù)庫中所述文獻影象的光學字符識別數(shù)據(jù)加以比較的軟件。
29.顯示多頁文獻影象的方法,其特征在于它包括下列步驟將所述文獻的各頁影象特征信息加以比較;根據(jù)所述影象特征信息,識別外觀相似的各頁;彼此重疊并錯開地顯示外觀相似的各頁。
全文摘要
根據(jù)數(shù)據(jù)庫文獻影象的紋理,亦即在分析上可辨別的式樣,查詢文獻影象數(shù)據(jù)庫的方法和設備。按照本發(fā)明,可用各種方法瀏覽文獻影象數(shù)據(jù)庫,找出具有特定紋理的文獻。例如,用戶可輸入與欲查文獻外觀相似的實例文獻影象。另外,用戶可以使用簡單的界面,根據(jù)選擇的幾個類別,定義合成文獻。然后,用該合成文獻作為搜索的實例?;蛘?用戶可以使用圖形界面,比較精確地定義搜索實例。這樣,用戶對一個或多個文獻整體外觀的知識,就提供了搜索的依據(jù)。
文檔編號G06T7/00GK1170168SQ9710295
公開日1998年1月14日 申請日期1997年2月28日 優(yōu)先權日1996年3月1日
發(fā)明者J·卡倫, J·赫爾, P·哈特 申請人:株式會社理光