專利名稱:組織多個(gè)文檔的方法以及顯示多個(gè)文檔的設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及大型文檔集合的處理,尤其涉及組織多個(gè)文檔的方法以及顯示多個(gè)文檔的設(shè)備。
背景技術(shù):
隨著因特網(wǎng)的發(fā)展,因特網(wǎng)上的內(nèi)容正在迅速膨脹。搜索引擎是幫助人們?cè)谝蛱鼐W(wǎng)上尋找想要的信息的最為有力的工具。但是,獲取有用的信息看來越來越困難,因?yàn)樾畔⒘繉?shí)在太大。用大多數(shù)關(guān)鍵詞都會(huì)檢索出成堆的相關(guān)項(xiàng)目,而事實(shí)上人們甚至都沒有耐心將它們都瞥上一眼。
同樣,瀏覽大型文檔集合,例如瀏覽文件系統(tǒng)中的文檔,或者瀏覽調(diào)閱或者檢索數(shù)據(jù)庫得到的文檔,對(duì)于用戶來說也是困難而費(fèi)時(shí)的任務(wù)。
這就提出了一個(gè)問題如何以最有效的方式組織大量文檔,進(jìn)而以最佳的瀏覽效率顯示海量的項(xiàng)目。這個(gè)問題常常存在于搜索引擎網(wǎng)址、電子商務(wù)網(wǎng)址和其它大規(guī)模網(wǎng)址中,也會(huì)存在于單機(jī)中,例如硬盤上的文件系統(tǒng),或者瀏覽光盤數(shù)據(jù)庫時(shí)。
搜索引擎可以容易地找到成百上千的相關(guān)項(xiàng)目。但是,在一個(gè)HTML頁面上只能顯示有限的項(xiàng)目。傳統(tǒng)的搜索引擎使用的顯示方法包括增加一個(gè)HTML頁面上的內(nèi)容;增加超鏈接;增加頁面數(shù)量。
但是上述方法無一能夠真正提高用戶的瀏覽效率。瀏覽器上超長的HTML頁面需要用戶按翻頁鍵或者用鼠標(biāo)拖動(dòng)滾動(dòng)條來察看該頁面的其余部分。同樣,點(diǎn)擊超鏈接也會(huì)增加頁面數(shù)量。盡管搜索引擎已經(jīng)對(duì)搜索結(jié)果項(xiàng)目進(jìn)行了排序,但是用戶仍然常常不能從前幾頁中找到想要的項(xiàng)目。研究發(fā)現(xiàn),大多數(shù)人在第6頁之前就失去了耐心。因此,實(shí)際上,第6頁之后的結(jié)果項(xiàng)目基本上毫無意義。某些網(wǎng)址(例如Google)使用頁號(hào),以便用戶能夠跳轉(zhuǎn)到特定頁而不用一頁一頁地看。但是,如果不知道項(xiàng)目的分布情況,用戶只能隨機(jī)地選取頁面,這基本上不能提高顯示效率。
在單機(jī)上瀏覽大量文件時(shí)存在同樣的問題用戶必須不斷地翻頁。
無論是在單機(jī)上,還是在搜索引擎中,在現(xiàn)有技術(shù)中都存在用目錄(或者文件夾,或者超鏈接)來管理對(duì)象的方法。但是這種目錄是預(yù)定的,無法預(yù)計(jì)目錄中可能出現(xiàn)的文檔會(huì)有多大的數(shù)量,因而也是常常包括海量的文檔,無法有效地瀏覽。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明的一個(gè)目的是提出一種組織多個(gè)文檔的方法,該方法可以作為更有效率地顯示文檔的基礎(chǔ)。
進(jìn)一步,本發(fā)明的目的是提出一種有效率地顯示文檔的方法和設(shè)備。
為了達(dá)到上述第一個(gè)目的,本發(fā)明提出了一種組織多個(gè)文檔的方法,包括對(duì)所述的多個(gè)文檔進(jìn)行聚類分析;按照聚類分析的結(jié)果,將具有共同特征的文檔分別組織為一個(gè)類;對(duì)所產(chǎn)生的類中所包括的文檔進(jìn)行聚類分析,將具有共同特征的文檔分別組織為更小的類。
為了達(dá)到上述第二個(gè)目的,本發(fā)明提出了基于上述文檔組織方法的文檔顯示方法,在用戶界面上將各級(jí)類顯示為虛擬文件夾或者目錄,它包括下一級(jí)的類的虛擬文件夾或者目錄,最低級(jí)的類的虛擬文件夾或者目錄包括文檔標(biāo)題。
其中,可以由用戶指定,或者可以由用戶設(shè)備根據(jù)顯示設(shè)備的顯示設(shè)置和顯示的內(nèi)容自動(dòng)確定,各級(jí)別的類的數(shù)量的上限以及最低級(jí)別的類中的文檔的數(shù)量的上限,其中,如果某一最低級(jí)別的類中的文檔數(shù)量大于其上限,則對(duì)該類中的文檔繼續(xù)進(jìn)行聚類分析以生成更低級(jí)別的類,直到最低級(jí)別的每一個(gè)類所包含的文檔數(shù)量小于所述上限;如果全部文檔數(shù)量少于所述上限,則直接顯示文檔標(biāo)題。根據(jù)本發(fā)明,最好每一個(gè)顯示頁面僅顯示直接從屬于同一上層類的類或者文檔標(biāo)題,并且在需要進(jìn)行該頁面的顯示之前不進(jìn)行該頁面的內(nèi)容的聚類分析。
根據(jù)一種優(yōu)選實(shí)施方式,在接收到顯示命令時(shí),首先顯示最高層次的類或者文檔標(biāo)題的顯示頁面;當(dāng)某一個(gè)類被選擇時(shí),則對(duì)該類所包含的文檔進(jìn)行聚類分析,并按照聚類分析結(jié)果顯示該類所包含的類或者文檔標(biāo)題;當(dāng)某一個(gè)文檔標(biāo)題被選擇時(shí),則顯示該文檔的內(nèi)容。
根據(jù)一種優(yōu)選實(shí)施方式,所述各上限值被確定為使得顯示類或者文檔標(biāo)題的每一個(gè)顯示頁面的內(nèi)容能夠被完全容納在顯示屏幕中。
此外,可以在相應(yīng)的位置同時(shí)顯示各類的或者文檔的主題,其中,主題由相應(yīng)的類或者文檔的基于聚類分析得到的特征向量中具有最大權(quán)重的預(yù)定個(gè)數(shù)的特征構(gòu)成??梢愿鶕?jù)上一級(jí)的類的主題,修正所述類或者文檔的主題。
還可以在相應(yīng)的位置同時(shí)顯示各類或者文檔的摘要,其中,根據(jù)句子中各關(guān)鍵詞的基于聚類分析得到的權(quán)重來計(jì)算句子的權(quán)重,由文檔或者類中權(quán)重最大的預(yù)定個(gè)數(shù)的句子組成摘要??梢愿鶕?jù)上一級(jí)的類的主題和/或摘要,修正所述類或者文檔的摘要。
根據(jù)一種優(yōu)選實(shí)施方式,可以使用主題分析所得到的主題詞來計(jì)算句子的權(quán)重,由文檔或者類中權(quán)重最大的預(yù)定個(gè)數(shù)的句子組成摘要。
為了實(shí)現(xiàn)上述第二個(gè)目的,本發(fā)明還提供了一種顯示多個(gè)文檔的設(shè)備,包括聚類分析裝置,用于對(duì)所述的多個(gè)文檔進(jìn)行聚類分析,按照聚類分析的結(jié)果,將具有共同特征的文檔分別組織為一個(gè)類;并對(duì)所產(chǎn)生的類中所包括的文檔進(jìn)行聚類分析,將具有共同特征的文檔分別組織為更小的類;顯示設(shè)備,用于在用戶界面上動(dòng)態(tài)顯示所述多個(gè)文檔、文檔標(biāo)題或者類;以及控制裝置,用于控制所述顯示設(shè)備將各級(jí)類顯示為虛擬文件夾或者目錄,虛擬文件夾或者目錄包括下一級(jí)的類的虛擬文件夾或者目錄,最低級(jí)的類的虛擬文件夾或者目錄包括文檔標(biāo)題。
根據(jù)本發(fā)明,可以更有效率地組織文檔,以利于更有效率地顯示和瀏覽。
下面將結(jié)合附圖描述本發(fā)明的優(yōu)選實(shí)施例。在附圖中圖1是本發(fā)明的文檔組織方法形成的舉例的樹結(jié)構(gòu);圖2到圖5是舉例的屏幕顯示內(nèi)容,用于說明本發(fā)明的文檔顯示方法的一種優(yōu)選實(shí)施例;圖6是用于說明根據(jù)本發(fā)明的文檔顯示方法的一種優(yōu)選實(shí)施例的操作步驟的流程圖;圖7是用于說明根據(jù)本發(fā)明的文檔顯示設(shè)備的一種優(yōu)選實(shí)施例的結(jié)構(gòu)示意圖;圖8是用于說明圖7中的文檔特征庫的管理的示意圖。
具體實(shí)施例方式
本發(fā)明的基本思想,是在下述意義上最大化瀏覽效率用最少的操作找到一個(gè)文檔項(xiàng)目。為此,文檔項(xiàng)目的組織不再是扁平的,而是使用聚類分析方法組織為有向圖。在此基礎(chǔ)上,文檔項(xiàng)目的顯示也可以不再是扁平的。
圖1是本發(fā)明的文檔組織方法形成的舉例的樹結(jié)構(gòu)。在該方法中,對(duì)大量文檔的集合(文檔集合)進(jìn)行聚類分析。作為例子,圖1中圖示為將文檔集合聚集為3類A聚類,B聚類和C聚類。也就是,文檔集合中所有的文檔都屬于這三個(gè)聚類,每一個(gè)聚類中的文檔具有共同的特征。對(duì)于所述每一聚類所包括的文檔,還可以進(jìn)一步進(jìn)行聚類分析,將具有共同特征的文檔分別組織為更小的類。例如,作為舉例,A聚類可以再次通過聚類分析劃分為Aa聚類、Ab聚類和Ac聚類,B聚類可以再次通過聚類分析劃分為Ba聚類、Bb聚類、Bc聚類,依此類推。最低層次的聚類,在本例中,例如Aa聚類,所包含的對(duì)象就是最終的文檔,或者說是文檔標(biāo)題(例如文檔Aa1、文檔Aa2和文檔Aa3的標(biāo)題),文檔標(biāo)題指向文檔的內(nèi)容。顯然,很容易理解,上述每一層次的聚類數(shù)量可以是任意的,聚類層次的數(shù)量也可以是任意的。另外,為了簡明起見,圖中沒有圖示每一個(gè)最低層次聚類的所有文檔標(biāo)題。
另外,圖1所示為將文檔集合進(jìn)行聚類分析,形成一個(gè)邏輯樹結(jié)構(gòu)。但是,聚類分析結(jié)構(gòu)不僅僅包括樹,而可以是任何有向無環(huán)圖(nocircle direct graph)(每一個(gè)聚類是無環(huán)有向圖的節(jié)點(diǎn))。例如,同一個(gè)文檔可以被聚到不同的聚類中。類似的,同一個(gè)低層次的聚類也可以被聚到不同的高層次的類中。無環(huán)有向圖可以自動(dòng)生成或者預(yù)先手工設(shè)計(jì)。
聚類分析(Clustering)是數(shù)據(jù)挖掘領(lǐng)域中的一種無監(jiān)督的學(xué)習(xí)方法。假設(shè)目標(biāo)聚類數(shù)量為N,聚類分析算法能夠?qū)⑤斎氲臄?shù)據(jù)集,比如一組文檔特征,分到N類中。每一個(gè)聚類具有代表性特征向量(Represented feature vector)。通過比較文檔特征與代表性特征向量,可以判斷該文檔屬于哪一個(gè)聚類。聚類分析方法可以是利用計(jì)算機(jī)實(shí)現(xiàn)的自動(dòng)聚類分析技術(shù)或者手工實(shí)現(xiàn)的聚類分析方法。用計(jì)算機(jī)實(shí)現(xiàn)的自動(dòng)聚類分析技術(shù)包括自動(dòng)生成聚類結(jié)構(gòu)的聚類分析技術(shù),以及具有預(yù)先設(shè)計(jì)的聚類結(jié)構(gòu)的自動(dòng)分類技術(shù)。聚類分析技術(shù)可以包括分級(jí)聚類技術(shù)比如單鏈路(single-link)聚類分析、全鏈路(complete-link)聚類分析以及組平均(group-average)聚類分析等。自動(dòng)分類技術(shù)可以包括自然貝葉斯分類(naive Bayes categorization)、SVM(支持向量機(jī)器,support vector machine)分類、KNN(最近K個(gè)鄰元素,K-Nearest Neighbour)分類,等等。
本發(fā)明可以使用多種現(xiàn)有技術(shù)的聚類分析方法。下面說明一種最基本、最簡單的聚類分析方法。
用D表示文檔集合,它由一組文檔構(gòu)成。提取D的每一個(gè)文檔di(i為自然數(shù),表示文檔序號(hào))的特征向量fi。那么,每一個(gè)文檔di可以用特征空間中的向量表示。
特征提取方法也是現(xiàn)有技術(shù)中成熟的方法,可以有多種形式。在自然語言處理領(lǐng)域,特征就是文檔中的關(guān)鍵詞。所有從文檔集合中提取出來的特征構(gòu)成特征空間。每一個(gè)關(guān)鍵詞代表一個(gè)維度。特征提取是為了將普通文本轉(zhuǎn)換為向量空間中的一個(gè)數(shù)據(jù)點(diǎn)。一般而言,首先將普通文本分割為標(biāo)記(標(biāo)記可以是單詞或者短語),然后從標(biāo)記列表中刪除無用詞(比如″am″″is″″are″)。用剩下的標(biāo)記表示文檔向量。最簡單的方法是使用二值向量,也就是,對(duì)于每一個(gè)維度,如果該單詞在文檔中出現(xiàn),則該維的值為1,否則為0。也有許多更為復(fù)雜的方法來進(jìn)行轉(zhuǎn)換,比如用浮點(diǎn)值來表示一個(gè)詞條對(duì)文檔的重要性,這樣的特征值可以表示為tf*idf,其中tf為該詞條在該文檔中的頻率,idf則表示包含該詞條的文檔在整個(gè)文檔集合中的頻率的倒數(shù)。
在本說明書及權(quán)利要求書中,作為聚類算法的基礎(chǔ),特征提取是作為聚類分析的一部分。但是,在具體實(shí)現(xiàn)時(shí),可以預(yù)先作為對(duì)文檔集合的預(yù)處理進(jìn)行特征提取,將文檔的特征(特征向量)存儲(chǔ)在專門的文檔特征庫(見圖7)中。顯然,文檔集合在很多情況下是動(dòng)態(tài)變化的,比如增加文檔、某些文檔的內(nèi)容被修改、刪除文檔等。此時(shí),就需要對(duì)文檔特征庫進(jìn)行相應(yīng)的維護(hù)提取新增加的文檔文本的特征并將特征添加到文檔特征庫中(圖8A),提取修改的文檔文本的特征,并相應(yīng)修改文檔特征庫中的相應(yīng)特征(圖8B),或者刪除文檔庫中的特征(圖8C)。
但是,在具體實(shí)現(xiàn)時(shí),在很多情況下仍需要將特征提取完全集成在聚類分析中。這樣,當(dāng)處理沒有進(jìn)行所述預(yù)處理的文檔集合時(shí),就可以從特征提取開始進(jìn)行聚類分析。
如上所述,現(xiàn)有技術(shù)中有很多聚類算法。下面給出一種簡單的聚類算法K平均(K-means)算法的實(shí)現(xiàn)。該算法由用戶給定最終的聚類個(gè)數(shù)k,將數(shù)據(jù)集合分割為k個(gè)類。每一類由其重心或與重心最近的點(diǎn)(特征向量)表示。每個(gè)點(diǎn)都被分配給離它最近的重心點(diǎn)所表示的那一類。通常,算法開始于一種初始分割,通過控制策略優(yōu)化聚類質(zhì)量,迭代地對(duì)數(shù)據(jù)進(jìn)行分割,直到某一狀態(tài)滿足條件為止。下面是該算法的簡單流程1.假設(shè)要聚成K個(gè)類。由人為決定K個(gè)類重心Z1(1),Z2(1),...,Zk(1)。
2.在第k次疊代中,樣本集{Z}用如下方法分類對(duì)所有i=1,2,..,K,i≠j若‖Z-Zj(k)‖<‖Z-Zi(k)‖,則Z∈Sj(k)3.令由上述第2步得到的Sj(k)的新的類重心為Zj(k+1),使Jj=ΣZ∈Sj(k)||Z-Zj(k+1)||2]]>(j=1,2,...,K)最小,得到Zj(k+1)=1NjΣZ∈Sj(k)Z,]]>Nj為Sj(k)中的樣本數(shù)。
4.對(duì)于所有的j=1,2,...,K,若Zj(k+1)-Zj(k)足夠小,則該聚類分析結(jié)束,否則返回上述第2步。
需要注意的是,類數(shù)也可以不由人來確定,而由聚類分析算法根據(jù)預(yù)定的策略或者條件來確定。這方面也有現(xiàn)成的現(xiàn)有技術(shù)可用。
上面描述了一種新的文檔組織方法,使得項(xiàng)目的組織不再是扁平的,而是使用聚類分析方法組織為有向圖。這種組織方法可以更有效地管理文檔,尤其可以作為本發(fā)明提出的更為有效地實(shí)現(xiàn)瀏覽的文檔瀏覽方法的基礎(chǔ)。
下面描述該文檔瀏覽方法。
根據(jù)本發(fā)明,基于上述處理的結(jié)果,在用戶界面上將各級(jí)類顯示為虛擬文件夾或者目錄,它包括下一級(jí)的類的虛擬文件夾或者目錄,最低級(jí)的類的虛擬文件夾或者目錄包括文檔標(biāo)題。如圖1所示,可以將其中的最高層聚類(A-C聚類)到最低層聚類(Aa,Ab,...Cb,Cc聚類)作為虛擬文件夾或者目錄顯示在用戶界面上,并/或者可以將文檔標(biāo)題和/或文檔內(nèi)容顯示在屏幕上。顯然,與普通的目錄(文件夾)管理一樣,例如可以在屏幕的左半部分顯示各層虛擬目錄,在屏幕的右半部分顯示當(dāng)前最低層次目錄的內(nèi)容;或者,左邊可以一直顯示到文檔標(biāo)題,而右邊直接顯示文檔內(nèi)容。同樣,與普通的目錄管理一樣,各層虛擬目錄構(gòu)成的樹可以被展開或者折疊。
如本發(fā)明的背景技術(shù)部分所述,現(xiàn)有技術(shù)中的翻頁問題讓人不勝其煩。為了解決這個(gè)問題,根據(jù)本發(fā)明的優(yōu)選實(shí)施例,可以由用戶指定各級(jí)別的類的數(shù)量的上限以及最低級(jí)別的類中的文檔的數(shù)量的上限,其中,如果某一最低級(jí)別的類中的文檔數(shù)量大于其上限,則對(duì)該類中的文檔繼續(xù)進(jìn)行聚類分析以生成更低級(jí)別的類,直到最低級(jí)別的每一個(gè)類所包含的文檔數(shù)量小于所述上限;如果全部文檔數(shù)量少于所述上限,則直接顯示文檔標(biāo)題。這樣做的目的是確保每一層次的項(xiàng)目(聚類(虛擬文件夾)或者文檔標(biāo)題)的數(shù)量不至于很大,例如可以顯示在用戶界面的一個(gè)屏幕當(dāng)中而不必翻頁。仍然見圖1,例如可以將所述上限設(shè)置為3(當(dāng)然也可以設(shè)置為例如10),這樣,當(dāng)所有低層次的虛擬目錄都被折疊時(shí),例如當(dāng)用戶首次瀏覽該文檔集合時(shí),所有最高層虛擬目錄就能確保顯示在一個(gè)屏幕中。進(jìn)而,當(dāng)用戶希望查看某個(gè)虛擬目錄(例如A聚類)而展開其子虛擬目錄(Aa到Ac聚類),也能確保它們能夠顯示在一屏中。依此類推。
根據(jù)本發(fā)明,上述上限的設(shè)置也可以由用戶設(shè)備根據(jù)顯示設(shè)備的顯示設(shè)置和顯示的內(nèi)容自動(dòng)進(jìn)行。這種方式顯然是有益的,因?yàn)槌怯泻茇S富的經(jīng)驗(yàn),用戶通常無法正確地估計(jì)一屏能夠顯示多少內(nèi)容,因而不能實(shí)現(xiàn)最佳的瀏覽效率。具體來說,該自動(dòng)設(shè)置操作需要考慮以下因素屏幕(或者說顯示區(qū))的大小,顯示分辨率,顯示字體大小,以及即將顯示的內(nèi)容。顯然,在知道這些因素的前提下,計(jì)算每一屏能夠容納的類數(shù)或者文檔標(biāo)題數(shù)是本領(lǐng)域普通技術(shù)人員容易進(jìn)行的工作。
但是,如果由于某些因素,例如,如果不是對(duì)每一個(gè)類或者文檔標(biāo)題固定顯示內(nèi)容的大小,而是完全顯示相關(guān)的文檔標(biāo)題或者下面即將描述的主題或者摘要,則有可能造成某一個(gè)顯示項(xiàng)目占據(jù)的顯示區(qū)超出預(yù)期,此時(shí)則需要對(duì)所述上限作出調(diào)整。例如,如果用戶顯示設(shè)備按照默認(rèn)情況設(shè)置了一個(gè)上限,例如每屏10個(gè)項(xiàng)目,但是在某一屏顯示時(shí)發(fā)現(xiàn)10個(gè)項(xiàng)目超出了一屏,則用戶顯示設(shè)備將上限修正為9,依此類推,直到一屏能夠顯示所有內(nèi)容。
進(jìn)一步,為了進(jìn)一步提高瀏覽效率和屏幕的利用效率,或者在具有不同使用習(xí)慣的情況下(例如,在因特網(wǎng)瀏覽中,更習(xí)慣將項(xiàng)目組織為超鏈接,而不是象在單機(jī)的資源管理器中那樣組織為目錄樹),可以使每一個(gè)顯示頁面僅顯示直接從屬于同一上層類的類或者文檔標(biāo)題。圖2到圖5圖示了在這種情況下用戶界面上的顯示區(qū)的情況的例子(這個(gè)例子系基于圖1的例子)。當(dāng)接收到顯示命令時(shí),也就是當(dāng)用戶開始瀏覽文檔集合時(shí),例如瀏覽搜索引擎的搜索結(jié)果(搜索結(jié)果是搜索引擎臨時(shí)組織起來的一個(gè)文檔集合)時(shí),首先呈現(xiàn)給用戶的是圖2的顯示屏幕,其中列出了指定數(shù)量(用戶指定或者用戶設(shè)備自動(dòng)確定的數(shù)量,例如3個(gè))的最高層次的聚類(A-C聚類)及其主題(關(guān)于主題將在下文予以說明)。
當(dāng)用戶選擇某一個(gè)聚類例如A聚類時(shí),則顯示該A聚類所包括的Aa-Ac聚類的屏幕(及其主題)(圖3)。類似地,如果繼續(xù)選擇Aa聚類,則顯示其包括的文檔標(biāo)題Aa1到Aa4(以及主題)(圖4)。最后,如果用戶選擇某一文檔,例如Aa2文檔,則顯示其正文(圖5)。
顯然,取決于文檔集合中的文檔數(shù)量、文檔的特征以及上面所設(shè)定的上限,最終的聚類層數(shù)是不一定的。這里所圖示的例子是2層聚類,但是也可以有更多或者更少的層數(shù)。當(dāng)文檔數(shù)量少到可以在一屏顯示其標(biāo)題(以及主題)時(shí),則一開始顯示的屏幕就直接顯示所述文檔標(biāo)題(以及主題)。
為了節(jié)約計(jì)算資源和時(shí)間,在上面的顯示過程中,在需要進(jìn)行某頁面的顯示之前不進(jìn)行該頁面的內(nèi)容的聚類分析。僅當(dāng)需要顯示該頁面時(shí)才對(duì)其進(jìn)行聚類分析。具體來說,例如在圖1中,一開始僅顯示最高層次的聚類A-C聚類,僅當(dāng)用戶要展開A聚類時(shí),才對(duì)A聚類所包括的文檔進(jìn)行進(jìn)一步的聚類分析,并將聚類分析結(jié)果Aa-Ac聚類顯示出來,而不對(duì)B聚類和C聚類所包括的文檔進(jìn)行進(jìn)一步的聚類分析。在圖2到圖5中是類似的情況,在圖示的例子中,也是僅對(duì)A聚類進(jìn)行了進(jìn)一步的聚類分析,而沒有對(duì)B聚類和C聚類所包括的文檔進(jìn)行進(jìn)一步的聚類分析。
如上文已經(jīng)提到的,可以在相應(yīng)的位置同時(shí)顯示各類的或者文檔的主題,這樣用戶可以根據(jù)其主題詞條瀏覽感興趣的聚類。
主題探測(cè)方法也是現(xiàn)有技術(shù)中已有的方法,存在多種形式。例如,JP2000259666(“Topic Extraction Device”,Ichiro等人)就公開了一種主題提取系統(tǒng)。其中,特定聚類的主題由該聚類的文檔中出現(xiàn)頻率高的名詞短語表達(dá),根據(jù)這些名詞短語對(duì)文檔進(jìn)行排序以提供給用戶。
在本發(fā)明中,主題的生成也可以基于在聚類分析中所得到的特征向量。也就是,對(duì)于要生成主題的某個(gè)類或者文檔,將聚類分析所得到的特征向量中的每一維的值進(jìn)行快速排序,用特征向量中預(yù)定個(gè)數(shù)具有最大權(quán)重的詞條作為該類或者文檔的主題。
可以根據(jù)上一級(jí)的類的主題,修正所述類或者文檔的主題。例如,由于用戶已經(jīng)知道上一級(jí)的類的主題,在下一級(jí)的類或者文檔中重復(fù)該主題沒有意義,相反卻導(dǎo)致用戶時(shí)間的浪費(fèi)。因此,在生成下一級(jí)類后者文檔的主題是,可以首先剔除上一級(jí)的類的主題詞的部分或者全部。
進(jìn)一步,可以用摘要替代上述主題,或者在主題之外同時(shí)顯示摘要?,F(xiàn)有技術(shù)中也有很多生成單個(gè)文檔或者多個(gè)文檔的摘要的技術(shù)可供本發(fā)明使用。
在本發(fā)明中,可以用上述主題的主題詞來配置摘要生成裝置。也就是,根據(jù)上述主題包含的主題詞的權(quán)重來計(jì)算聚類中或者文檔中每一個(gè)句子的權(quán)重,然后選取具有最大權(quán)重的預(yù)定個(gè)數(shù)的句子組成摘要。在計(jì)算句子的權(quán)重時(shí),還可以考慮句子的長短,以及句子的頻率,等等。
在本發(fā)明中,摘要的生成也可以與主題的生成無關(guān),而是根據(jù)聚類分析的結(jié)果在聚類或者文檔的特征向量中另外選取預(yù)定個(gè)數(shù)的具有最大權(quán)重的特征作為用于生成摘要的關(guān)鍵詞,基于這些關(guān)鍵詞計(jì)算句子的權(quán)重,進(jìn)而生成摘要。
類似于主題的生成,可以根據(jù)上一級(jí)的類的主題和/或摘要,修正所述類或者文檔的摘要。例如,降低上一級(jí)聚類的主題或者摘要的內(nèi)容在當(dāng)前要生成的摘要中的重要性,比如全部或者部分剔除已經(jīng)在上一級(jí)摘要出現(xiàn)的句子,或者在配置摘要生成裝置時(shí)部分或者全部不考慮上一級(jí)聚類的主題詞,等等。
上面說明了本發(fā)明的文檔組織方法和文檔顯示方法的各種實(shí)施方式。圖6中圖示了本發(fā)明的方法的一個(gè)最優(yōu)的實(shí)施方式(包括上面所說明的絕大多數(shù)技術(shù)特征)的具體工作步驟的一個(gè)例子。
如圖6所示,在步驟S1,用戶通過一個(gè)操作(一個(gè)“操作”可以是一次鼠標(biāo)點(diǎn)擊、鼠標(biāo)拖動(dòng)、鍵盤擊鍵、語音命令等)發(fā)出瀏覽某一目錄的命令。該命令可以是用戶為了瀏覽某個(gè)真實(shí)目錄的命令,也可以是瀏覽某一虛擬目錄(例如圖1到圖5中的A聚類、Aa聚類,等等)的命令。該命令還可以是其它類似命令,例如使搜索引擎執(zhí)行某個(gè)搜索的命令。
在步驟S2,基于顯示設(shè)備的顯示設(shè)置(以及要顯示的內(nèi)容),或者基于用戶的選擇,確定每一屏要顯示的類數(shù)或者文檔數(shù)N。
在步驟S3,將N與該目錄所包含的文檔數(shù)進(jìn)行比較,如果N大于文檔數(shù),則在步驟S4,對(duì)每一篇文檔生成摘要(和/或主題)。如果文檔所在的目錄是根據(jù)本發(fā)明的虛擬目錄,則根據(jù)該虛擬目錄的特征(比如特征向量、主題、摘要等)修正每一篇文檔的摘要(和/或主題)內(nèi)容,并在步驟S5予以顯示。
如果步驟S3的比較結(jié)果是N小于文檔數(shù),則在步驟S6對(duì)該目錄中的所有文檔進(jìn)行聚類分析,聚為N類,然后在步驟S7在用戶界面上創(chuàng)建N個(gè)虛擬目錄,將相應(yīng)的文檔放入相應(yīng)的虛擬目錄中(步驟S8)。然后,可以根據(jù)每一類的特征向量來選取關(guān)鍵詞,形成標(biāo)識(shí)相應(yīng)虛擬目錄的主題(步驟S9),還可以對(duì)每一個(gè)虛擬目錄生成更為詳細(xì)的摘要(步驟S10),然后在用戶界面上顯示有關(guān)內(nèi)容(步驟S11)。
當(dāng)用戶根據(jù)用戶界面上顯示的內(nèi)容選擇某一個(gè)虛擬目錄時(shí),則從步驟S1開始迭代執(zhí)行。
請(qǐng)注意,如前文結(jié)合圖1到圖5所述,上面的步驟并不都是必不可少的,順序也可以加以調(diào)整。例如,可以沒有步驟S2、S3、S4和S5而進(jìn)行自動(dòng)的聚類分析?;蛘?,可以在步驟S1之前已經(jīng)確定了固定的N,因此沒有步驟S2。另外,生成主題或者摘要的步驟S4和S9、S10都不是必須的。再者,作為文檔組織方法,則只需要將步驟S6和S8迭代執(zhí)行,視情況,也可以有步驟S2,還可以有步驟S3。
相應(yīng)于上述方法,本發(fā)明還提供了一種顯示多個(gè)文檔的設(shè)備。圖7所示為該設(shè)備的最優(yōu)實(shí)施例,用于實(shí)現(xiàn)上述文檔顯示方法的最優(yōu)實(shí)施例。它包括如下部件1.聚類分析裝置4,用于對(duì)文檔庫1中的多個(gè)文檔進(jìn)行聚類分析,按照聚類分析的結(jié)果,將具有共同特征的文檔分別組織為一個(gè)類;并對(duì)所產(chǎn)生的類中所包括的文檔進(jìn)行聚類分析,將具有共同特征的文檔分別組織為更小的類。作為聚類分析結(jié)果的各類的特征向量可以被保存在類特征庫5中。作為聚類分析裝置4的一部分,或者作為獨(dú)立于聚類分析裝置4的預(yù)處理裝置,可以由特征提取裝置2對(duì)文檔庫1中的文檔進(jìn)行預(yù)處理,得到的文檔的特征向量被保存于文檔特征庫3中。
2.顯示設(shè)備8,用于在下述控制裝置7的控制之下,在用戶界面上動(dòng)態(tài)顯示所述多個(gè)文檔、文檔標(biāo)題或者類?;谒隹刂蒲b置7的控制,顯示設(shè)備8還可以在相應(yīng)的位置顯示各類的或者文檔的主題和/或摘要。主題和摘要分別由如下所述的主題生成裝置6和摘要生成裝置9生成。
3.用戶輸入設(shè)備10,用于由用戶指定各級(jí)別的類的數(shù)量的上限以及最低級(jí)別的類中的文檔的數(shù)量的上限。
4.顯示參數(shù)配置裝置11,用于根據(jù)顯示設(shè)備8的顯示設(shè)置和要顯示的內(nèi)容確定各級(jí)別的類的數(shù)量的上限以及最低級(jí)別的類中的文檔的數(shù)量的上限。所述上限值可以被確定為使得顯示設(shè)備8顯示類或者文檔標(biāo)題的每一個(gè)顯示頁面的內(nèi)容能夠被完全容納在顯示設(shè)備8的顯示屏幕中。
5.主題生成裝置6,用于基于聚類分析的結(jié)果,根據(jù)各類或者文檔的特征向量中具有最大權(quán)重的預(yù)定個(gè)數(shù)的特征生成各類或者文檔的主題。該主題生成裝置6在生成類或者文檔的主題時(shí),可以被配置為根據(jù)上一級(jí)的類的主題修正所述類或者文檔的主題。
6.摘要生成裝置9,用于根據(jù)所述主題生成裝置6生成的主題包含的主題詞的權(quán)重來計(jì)算句子的權(quán)重,由文檔或者類中權(quán)重最大的預(yù)定個(gè)數(shù)的句子組成摘要。該摘要生成裝置9或者用于基于聚類分析的結(jié)果,根據(jù)句子中各關(guān)鍵詞的權(quán)重來計(jì)算句子的權(quán)重,由文檔或者類中權(quán)重最大的預(yù)定個(gè)數(shù)的句子組成摘要。該摘要生成裝置9還可以被配置為根據(jù)上一級(jí)的類的主題和/或摘要修正所述類或者文檔的摘要。
7.控制裝置7,用于控制所述顯示設(shè)備8、聚類分析裝置4。
其中,所述控制裝置7控制所述顯示設(shè)備8將各級(jí)類顯示為虛擬文件夾或者目錄,虛擬文件夾或者目錄包括下一級(jí)的類的虛擬文件夾或者目錄,最低級(jí)的類的虛擬文件夾或者目錄包括文檔標(biāo)題。
所述控制裝置7還可以控制所述聚類分析裝置4,使得,如果某一最低級(jí)別的類中的文檔數(shù)量大于所述用戶輸入設(shè)備10輸入的上限或者所述顯示參數(shù)配置裝置11設(shè)置的上限,則對(duì)該類中的文檔繼續(xù)進(jìn)行聚類分析以生成更低級(jí)別的類,直到最低級(jí)別的每一個(gè)類所包含的文檔數(shù)量小于所述上限。如果全部文檔數(shù)量少于所述上限,則控制裝置7控制所述顯示設(shè)備8直接顯示文檔標(biāo)題。
另外,所述控制裝置7可以控制所述顯示設(shè)備8,使之在每一個(gè)顯示頁面僅顯示直接從屬于同一上層類的類或者文檔標(biāo)題,并且可以控制所述聚類分析裝置4,使得在需要進(jìn)行該頁面的顯示之前不進(jìn)行該頁面的內(nèi)容的聚類分析。進(jìn)一步,在接收到顯示命令時(shí),控制裝置7控制所述顯示設(shè)備8首先顯示最高層次的類或者文檔標(biāo)題的顯示頁面;當(dāng)某一個(gè)類通過所述用戶輸入設(shè)備10被選擇時(shí),則控制所述聚類分析裝置4對(duì)該類所包含的文檔進(jìn)行聚類分析,并按照聚類分析結(jié)果控制所述顯示設(shè)備8顯示該類所包含的類或者文檔標(biāo)題;當(dāng)某一個(gè)文檔標(biāo)題通過所述用戶輸入設(shè)備10被選擇時(shí),則控制所述顯示設(shè)備8顯示該文檔的內(nèi)容。
需要注意的是,文檔庫1是本發(fā)明的方法和設(shè)備處理的對(duì)象,不是本發(fā)明的設(shè)備的組成部分。類特征庫5是聚類分析裝置4的一部分。另外,盡管特征提取裝置2和文檔特征庫3可以作為預(yù)處理裝置獨(dú)立存在,但是它們?nèi)匀粚儆诰垲惙治鲅b置4的一部分。
上面的結(jié)構(gòu)是本發(fā)明的設(shè)備的優(yōu)選實(shí)施方式。顯然,對(duì)應(yīng)于前文所述的方法,上述各組成部分并非全部是必不可少的。嚴(yán)格地說,只有聚類分析裝置4、顯示設(shè)備8和控制裝置7對(duì)于本發(fā)明的目的來說是必不可少的。用戶輸入設(shè)備10、顯示參數(shù)配置裝置11、主題生成裝置6和摘要生成裝置9中的任一個(gè)或者任意組合可以與聚類分析裝置4、顯示設(shè)備8和控制裝置7一起構(gòu)成各種實(shí)施方案,分別對(duì)應(yīng)于前述方法的各種實(shí)施方式。
如本領(lǐng)域的普通技術(shù)人員所能理解的,本發(fā)明的方法和設(shè)備的全部或者任何步驟或者部件,可以在任何計(jì)算設(shè)備(包括處理器、存儲(chǔ)介質(zhì)等)或者計(jì)算設(shè)備的網(wǎng)絡(luò)中,以硬件、固件、軟件或者它們的組合加以實(shí)現(xiàn),這是本領(lǐng)域普通技術(shù)人員在了解本發(fā)明的內(nèi)容的情況下運(yùn)用他們的基本編程技能就能實(shí)現(xiàn)的,因此不需在此具體說明。
這樣,根據(jù)本發(fā)明的優(yōu)選實(shí)施例,當(dāng)用戶瀏覽大量文檔時(shí),例如當(dāng)用戶搜索特定項(xiàng)目而產(chǎn)生作為搜索結(jié)果的大量文檔時(shí),他首先看到頂級(jí)聚類頁面,然后由該聚類頁面借助于主題和摘要導(dǎo)航到內(nèi)容頁面。這樣,他不需要瀏覽其它無關(guān)的內(nèi)容頁面(甚至無需瀏覽其它無關(guān)聚類頁面)。同時(shí),本發(fā)明的優(yōu)選實(shí)施例總是使用一個(gè)屏幕頁面來顯示信息,用戶不需要反復(fù)按翻頁鍵,而只需要專注于當(dāng)前的屏幕。
從而,用戶能在少量的頁數(shù)和操作之內(nèi),從海量的顯示項(xiàng)目中輕易地找到任何特定項(xiàng)目。如果每一個(gè)屏幕頁面顯示20個(gè)聚類項(xiàng)目,假設(shè)網(wǎng)頁上顯示了300萬個(gè)項(xiàng)目,則大多數(shù)情況下用戶可以在不到4次操作和5個(gè)屏幕頁面(205=3200000)之內(nèi)找到一個(gè)特定項(xiàng)目,而不用看其它無關(guān)項(xiàng)目。
因此,使用本發(fā)明,用戶能夠在瀏覽大量文檔例如瀏覽因特網(wǎng)頁面時(shí)感覺更為友好,更有效率。
權(quán)利要求
1.一種組織多個(gè)文檔的方法,包括對(duì)所述的多個(gè)文檔進(jìn)行聚類分析;按照聚類分析的結(jié)果,將具有共同特征的文檔分別組織為一個(gè)類;對(duì)所產(chǎn)生的類中所包括的文檔進(jìn)行聚類分析,將具有共同特征的文檔分別組織為更小的類。
2.如權(quán)利要求1所述的方法,其特征在于,在用戶界面上將各級(jí)類顯示為虛擬文件夾或者目錄,它包括下一級(jí)的類的虛擬文件夾或者目錄,其中,最低級(jí)的類的虛擬文件夾或者目錄包括文檔標(biāo)題。
3.如權(quán)利要求2所述的方法,其特征在于,由用戶指定各級(jí)別的類的數(shù)量的上限以及最低級(jí)別的類中的文檔的數(shù)量的上限,其中,如果某一最低級(jí)別的類中的文檔數(shù)量大于其上限,則對(duì)該類中的文檔繼續(xù)進(jìn)行聚類分析以生成更低級(jí)別的類,直到最低級(jí)別的每一個(gè)類所包含的文檔數(shù)量小于所述上限;如果全部文檔數(shù)量少于所述上限,則直接顯示文檔標(biāo)題。
4.如權(quán)利要求2所述的方法,其特征在于,由用戶設(shè)備根據(jù)顯示設(shè)備的顯示設(shè)置和顯示的內(nèi)容自動(dòng)確定各級(jí)別的類的數(shù)量的上限以及最低級(jí)別的類中的文檔的數(shù)量的上限,其中,如果某一最低級(jí)別的類中的文檔數(shù)量大于其上限,則對(duì)該類中的文檔繼續(xù)進(jìn)行聚類分析以生成更低級(jí)別的類,直到最低級(jí)別的每一個(gè)類所包含的文檔數(shù)量小于所述上限;如果全部文檔數(shù)量少于所述上限,則直接顯示文檔標(biāo)題。
5.如權(quán)利要求3或4所述的方法,其特征在于,每一個(gè)顯示頁面僅顯示直接從屬于同一上層類的類或者文檔標(biāo)題,并且在需要進(jìn)行該頁面的顯示之前不進(jìn)行該頁面的內(nèi)容的聚類分析。
6.如權(quán)利要求5所述的方法,其特征在于,在接收到顯示命令時(shí),首先顯示最高層次的類或者文檔標(biāo)題的顯示頁面;當(dāng)某一個(gè)類被選擇時(shí),則對(duì)該類所包含的文檔進(jìn)行聚類分析,并按照聚類分析結(jié)果顯示該類所包含的類或者文檔標(biāo)題;當(dāng)某一個(gè)文檔標(biāo)題被選擇時(shí),則顯示該文檔的內(nèi)容。
7.如權(quán)利要求6所述的方法,其特征在于,所述各上限值被確定為使得顯示類或者文檔標(biāo)題的每一個(gè)顯示頁面的內(nèi)容能夠被完全容納在顯示屏幕中。
8.如權(quán)利要求6所述的方法,其特征在于,在相應(yīng)的位置同時(shí)顯示各類的或者文檔的主題,其中,主題由相應(yīng)的類或者文檔的基于聚類分析得到的特征向量中具有最大權(quán)重的預(yù)定個(gè)數(shù)的特征構(gòu)成。
9.如權(quán)利要求8所述的方法,其特征在于,根據(jù)上一級(jí)的類的主題,修正所述類或者文檔的主題。
10.如權(quán)利要求8所述的方法,其特征在于,在相應(yīng)的位置同時(shí)顯示各類或者文檔的摘要,其中,根據(jù)所述主題包含的主題詞的權(quán)重來計(jì)算句子的權(quán)重,由文檔或者類中權(quán)重最大的預(yù)定個(gè)數(shù)的句子組成摘要。
11.如權(quán)利要求10所述的方法,其特征在于,根據(jù)上一級(jí)的類的主題和/或摘要,修正所述類或者文檔的摘要。
12.如權(quán)利要求6所述的方法,其特征在于,在相應(yīng)的位置同時(shí)顯示各類或者文檔的摘要,其中,根據(jù)句子中各關(guān)鍵詞的基于聚類分析得到的權(quán)重來計(jì)算句子的權(quán)重,由文檔或者類中權(quán)重最大的預(yù)定個(gè)數(shù)的句子組成摘要。
13.如權(quán)利要求12所述的方法,其特征在于,根據(jù)上一級(jí)的類的主題和/或摘要,修正所述類或者文檔的摘要。
14.一種顯示多個(gè)文檔的設(shè)備,包括聚類分析裝置,用于對(duì)所述的多個(gè)文檔進(jìn)行聚類分析,按照聚類分析的結(jié)果,將具有共同特征的文檔分別組織為一個(gè)類;并對(duì)所產(chǎn)生的類中所包括的文檔進(jìn)行聚類分析,將具有共同特征的文檔分別組織為更小的類;顯示設(shè)備,用于在用戶界面上動(dòng)態(tài)顯示所述多個(gè)文檔、文檔標(biāo)題或者類;以及控制裝置,用于控制所述顯示設(shè)備將各級(jí)類顯示為虛擬文件夾或者目錄,虛擬文件夾或者目錄包括下一級(jí)的類的虛擬文件夾或者目錄,最低級(jí)的類的虛擬文件夾或者目錄包括文檔標(biāo)題。
15.如權(quán)利要求14所述的設(shè)備,其特征在于還包括用戶輸入設(shè)備,用于由用戶指定各級(jí)別的類的數(shù)量的上限以及最低級(jí)別的類中的文檔的數(shù)量的上限,其中,所述控制裝置被配置為如果某一最低級(jí)別的類中的文檔數(shù)量大于其上限,則控制所述聚類分析裝置對(duì)該類中的文檔繼續(xù)進(jìn)行聚類分析以生成更低級(jí)別的類,直到最低級(jí)別的每一個(gè)類所包含的文檔數(shù)量小于所述上限;如果全部文檔數(shù)量少于所述上限,則控制所述顯示設(shè)備直接顯示文檔標(biāo)題。
16.如權(quán)利要求14所述的設(shè)備,其特征在于還包括顯示參數(shù)配置裝置,用于根據(jù)顯示設(shè)備的顯示設(shè)置和顯示的內(nèi)容確定各級(jí)別的類的數(shù)量的上限以及最低級(jí)別的類中的文檔的數(shù)量的上限,其中,所述控制裝置被配置為如果某一最低級(jí)別的類中的文檔數(shù)量大于其上限,則控制所述聚類分析裝置對(duì)該類中的文檔繼續(xù)進(jìn)行聚類分析以生成更低級(jí)別的類,直到最低級(jí)別的每一個(gè)類所包含的文檔數(shù)量小于所述上限;如果全部文檔數(shù)量少于所述上限,則控制所述顯示設(shè)備直接顯示文檔標(biāo)題。
17.如權(quán)利要求15或16所述的設(shè)備,其特征在于,所述控制裝置被配置為控制所述顯示設(shè)備在每一個(gè)顯示頁面僅顯示直接從屬于同一上層類的類或者文檔標(biāo)題,并且控制所述聚類分析裝置,使得在需要進(jìn)行該頁面的顯示之前不進(jìn)行該頁面的內(nèi)容的聚類分析。
18.如權(quán)利要求17所述的設(shè)備,其特征在于,所述控制裝置被配置為在接收到顯示命令時(shí),控制所述顯示設(shè)備首先顯示最高層次的類或者文檔標(biāo)題的顯示頁面;當(dāng)某一個(gè)類通過所述用戶輸入設(shè)備被選擇時(shí),則控制所述聚類分析裝置對(duì)該類所包含的文檔進(jìn)行聚類分析,并按照聚類分析結(jié)果控制所述顯示設(shè)備顯示該類所包含的類或者文檔標(biāo)題;當(dāng)某一個(gè)文檔標(biāo)題通過所述用戶輸入設(shè)備被選擇時(shí),則控制所述顯示設(shè)備顯示該文檔的內(nèi)容。
19.如權(quán)利要求16所述的設(shè)備,其特征在于,所述顯示參數(shù)配置裝置被進(jìn)一步配置為將各上限值被確定為使得顯示設(shè)備顯示類或者文檔標(biāo)題的每一個(gè)顯示頁面的內(nèi)容能夠被完全容納在顯示設(shè)備的顯示屏幕中。
20.如權(quán)利要求16所述的設(shè)備,其特征在于還包括主題生成裝置,用于基于聚類分析的結(jié)果,根據(jù)各類或者文檔的特征向量中具有最大權(quán)重的預(yù)定個(gè)數(shù)的特征生成各類或者文檔的主題;其中,所述控制裝置被進(jìn)一步配置為使得所述顯示設(shè)備在相應(yīng)的位置同時(shí)顯示各類的或者文檔的主題。
21.如權(quán)利要求20所述的設(shè)備,其特征在于所述主題生成裝置被配置為根據(jù)上一級(jí)的類的主題修正所述類或者文檔的主題。
22.如權(quán)利要求20所述的設(shè)備,其特征在于還包括摘要生成裝置,用于根據(jù)所述主題生成裝置生成的主題包含的主題詞的權(quán)重來計(jì)算句子的權(quán)重,由文檔或者類中權(quán)重最大的預(yù)定個(gè)數(shù)的句子組成摘要;其中,所述控制裝置被進(jìn)一步配置為使得所述顯示設(shè)備在相應(yīng)的位置同時(shí)顯示各類或者文檔的摘要。
23.如權(quán)利要求22所述的設(shè)備,其特征在于所述摘要生成裝置被配置為根據(jù)上一級(jí)的類的主題和/或摘要修正所述類或者文檔的摘要。
24.如權(quán)利要求18所述的設(shè)備,其特征在于還包括摘要生成裝置,用于基于聚類分析的結(jié)果,根據(jù)句子中各關(guān)鍵詞的權(quán)重來計(jì)算句子的權(quán)重,由文檔或者類中權(quán)重最大的預(yù)定個(gè)數(shù)的句子組成摘要;其中,所述控制裝置被進(jìn)一步配置為使得所述顯示設(shè)備在相應(yīng)的位置同時(shí)顯示各類或者文檔的摘要。
25.如權(quán)利要求24所述的設(shè)備,其特征在于所述摘要生成裝置被配置為根據(jù)上一級(jí)的類的主題和/或摘要修正所述類或者文檔的摘要。
全文摘要
本發(fā)明涉及組織多個(gè)文檔的方法以及顯示多個(gè)文檔的設(shè)備。通過對(duì)大量文檔進(jìn)行聚類分析,依據(jù)聚類分析結(jié)果將各層次的類顯示為虛擬目錄,從而幫助用戶快速導(dǎo)航到所要找的文檔。可以借助于主題和摘要進(jìn)行導(dǎo)航。還可以通過將顯示內(nèi)容控制在屏幕大小之內(nèi)以減少用戶的操作次數(shù)。
文檔編號(hào)G06F17/30GK1773492SQ200410092369
公開日2006年5月17日 申請(qǐng)日期2004年11月9日 優(yōu)先權(quán)日2004年11月9日
發(fā)明者蘇中, 張俐, 潘越, 白莉, 楊力平 申請(qǐng)人:國際商業(yè)機(jī)器公司