專利名稱:使用公眾網(wǎng)站獲取元數(shù)據(jù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及多媒體,尤其是涉及使用公眾(community-generated)數(shù)據(jù)源來產(chǎn)生多媒體元數(shù)據(jù)。
背景技術(shù):
聚類(cluster)和分類(classification)趨于成為某些數(shù)據(jù)挖掘應(yīng)用中重要的操作。例如,就幫助用戶搜索和自動組織內(nèi)容的目的,在數(shù)據(jù)系統(tǒng)中,數(shù)據(jù)集(dataset)中的數(shù)據(jù)可能需要進行聚類和/或分類。搜索和自動組織的內(nèi)容例如記錄的電視節(jié)目、電子節(jié)目指南條目以及其它類型的多媒體內(nèi)容。
一般來說,當(dāng)數(shù)據(jù)集是數(shù)值的時(即,當(dāng)數(shù)據(jù)集中的數(shù)據(jù)都通過某個固有相似性度量(similarity metric)或自然的順序相關(guān)時),很多聚類和分類算法都能很好的工作。數(shù)值的數(shù)據(jù)集經(jīng)常描述單一屬性或類別。另一方面,類別數(shù)據(jù)集描述經(jīng)常是離散的多屬性或類別,因此,在這些多屬性或類別之間缺乏自然的距離或近似度。
發(fā)明內(nèi)容
類別數(shù)據(jù)集包括類別的名稱和關(guān)系數(shù)據(jù),其中,關(guān)系數(shù)據(jù)定義類別和內(nèi)容之間的關(guān)系。內(nèi)容的類別通過從與某條具體內(nèi)容有關(guān)的、例如WIKIPEDIA網(wǎng)站的在線公眾網(wǎng)站檢索網(wǎng)頁并分析該網(wǎng)頁以獲得內(nèi)容元數(shù)據(jù)來產(chǎn)生。從內(nèi)容元數(shù)據(jù)提取該條內(nèi)容的類別數(shù)據(jù)。另外,基于類別和關(guān)系數(shù)據(jù)減少類別數(shù)據(jù)集的語言項(term)。
根據(jù)本發(fā)明的第一方面,提供一種計算機化方法,其包括從公眾網(wǎng)站接收網(wǎng)頁,所述網(wǎng)頁與特定內(nèi)容有關(guān);從所述網(wǎng)頁提取多個語言項;將所述多個語言項添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
根據(jù)本發(fā)明的第二方面,提供一種機器可讀介質(zhì),其包括從公眾網(wǎng)站接收網(wǎng)頁,所述網(wǎng)頁與特定內(nèi)容有關(guān);從所述網(wǎng)頁提取多個語言項;將所述多個語言項添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
根據(jù)本發(fā)明的第三方面,提供一種設(shè)備,其包括用于從公眾網(wǎng)站接收網(wǎng)頁的裝置,所述網(wǎng)頁與特定內(nèi)容有關(guān);用于從所述網(wǎng)頁提取多個語言項的裝置;用于將所述多個語言項添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù)的裝置;用于從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù)的裝置;用于將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集中的裝置;以及用于基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度的裝置,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
根據(jù)本發(fā)明的第四方面,提供一種系統(tǒng),其包括處理器;通過總線連接到所述處理器的存儲器;以及由所述處理器從所述存儲器執(zhí)行的處理,所述處理使得處理器從公眾網(wǎng)站接收網(wǎng)頁,所述網(wǎng)頁與特定內(nèi)容有關(guān);從所述網(wǎng)頁提取多個語言項;將所述多個語言項添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集中;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
使用不同范圍的系統(tǒng)、客戶端、服務(wù)器、方法和機器可讀介質(zhì)一起說明了本發(fā)明。除了該發(fā)明內(nèi)容中說明的本發(fā)明的方面,通過參考附圖并閱讀下面的詳細(xì)說明,本發(fā)明的其它方面將變得明顯。
附圖中的各圖以例子的方式說明本發(fā)明,而不限制本發(fā)明,其中,相似的附圖標(biāo)記表示相似的元件。
圖1A示出多媒體數(shù)據(jù)庫系統(tǒng)的一個實施例。
圖1B示出內(nèi)容元數(shù)據(jù)(metadata)的一個實施例。
圖2是用于生成來自公眾網(wǎng)站的內(nèi)容的元數(shù)據(jù)的方法的一個實施例的流程圖。
圖3是圖2的方法中使用的檢索內(nèi)容網(wǎng)頁的方法的一個實施例的流程圖。
圖4是圖3的方法中使用的解析內(nèi)容網(wǎng)頁的方法的一個實施例的流程圖。
圖5是示出從公眾網(wǎng)站生成內(nèi)容元數(shù)據(jù)的裝置的一個實施例的框圖。
圖6是適于實現(xiàn)本發(fā)明的操作環(huán)境的一個實施例的圖。
圖7是適于在圖2~4的操作環(huán)境中使用的計算機系統(tǒng)的一個實施例的圖。
具體實施例方式
在下面對本發(fā)明的實施例的詳細(xì)說明中,參考了附圖,在附圖中,相似的附圖標(biāo)記表示相似的元件,附圖示出了可以實現(xiàn)本發(fā)明的具體實施例。充分詳細(xì)地說明了這些實施例,從而使得本領(lǐng)域的技術(shù)人員可以實現(xiàn)本發(fā)明,應(yīng)該理解可以使用其它實施例,可以進行邏輯、機構(gòu)、電氣、功能和其它改變而不離開本發(fā)明的范圍。因此,下面的詳細(xì)說明不視作限制,本發(fā)明的范圍只由所附權(quán)利要求書限定。
圖1A是使例如內(nèi)容的、可以由類別數(shù)據(jù)11表征的信息可以被自動推薦或選擇的數(shù)據(jù)系統(tǒng)10的圖。類別數(shù)據(jù)也稱為類別數(shù)據(jù)集,其描述多個屬性或類別。每個類別包括類別名稱和關(guān)系數(shù)據(jù),其中,關(guān)系數(shù)據(jù)定義類別和一條或多條具體內(nèi)容之間的關(guān)系。詞“語言項(term)”這里指類別名稱。在一個實施例中,類別數(shù)據(jù)具有基于語言項和語言項關(guān)系的數(shù)量的維。類別數(shù)據(jù)中的語言項和/或語言項關(guān)系越多,類別數(shù)據(jù)的維度越大。相反地,減少語言項和/或語言項關(guān)系的數(shù)量,類別數(shù)據(jù)的維度則更小。
此外,類別數(shù)據(jù)可以是稀疏的,這意味著類別數(shù)據(jù)具有大的維度。在一個實施例中,因為類別是離散的且在類別間缺乏自然的相似度,所以類別數(shù)據(jù)稀疏。類別數(shù)據(jù)的例子包括電子節(jié)目指南(EPG,electronic program guide)數(shù)據(jù)以及內(nèi)容元數(shù)據(jù)。數(shù)據(jù)系統(tǒng)10包括預(yù)處理并加載來自數(shù)據(jù)庫輸入8A~N的類別數(shù)據(jù)11的輸入處理模塊9。在一個實施例中,數(shù)據(jù)庫輸入8A~N可以是例如WIKIPEDIA等的一些公眾源中的一個。
將類別數(shù)據(jù)11聚成簇,并/或通過聚類/分類模塊12分類為文件夾。下面詳細(xì)說明由模塊12執(zhí)行的聚類和分類。聚類/分類模塊12的輸出是例如簇樹或系統(tǒng)樹的組織數(shù)據(jù)結(jié)構(gòu)13。簇樹可以用作類別數(shù)據(jù)的索引組織或用來選擇數(shù)據(jù)的合適簇。
很多聚類應(yīng)用需要識別最佳描述類別數(shù)據(jù)中的模式的潛在分布(underlying distribution)的簇樹中的特定層。在一個實施例中,組織數(shù)據(jù)結(jié)構(gòu)13包括包含含有最優(yōu)數(shù)量的簇的唯一簇組的最優(yōu)層。
數(shù)據(jù)分析模塊14可以使用基于文件夾的分類器和/或由聚類操作產(chǎn)生的分類器來自動推薦或選擇內(nèi)容。數(shù)據(jù)分析模塊14可以自動推薦或提供用戶可能感興趣的或可能相似于用戶選擇的相關(guān)內(nèi)容的內(nèi)容。在一個實施例中,用戶識別對特定內(nèi)容語言項進行分類的類別數(shù)據(jù)記錄的多個文件夾,且數(shù)據(jù)分析模塊14基于相似性用適當(dāng)文件夾對新內(nèi)容語言項分配類別數(shù)據(jù)記錄。
同樣在圖1A中示出的用戶接口15用于輔助用戶使用數(shù)據(jù)系統(tǒng)10搜索并自動組織內(nèi)容。該內(nèi)容可能是例如所記錄的電視節(jié)目、電子節(jié)目指南(EGP)條目以及多媒體內(nèi)容。
聚類是根據(jù)類別數(shù)據(jù)間的某些相似度將類別數(shù)據(jù)組織為多個簇的處理。模塊12通過使用一個或多個聚類處理將類別數(shù)據(jù)聚類,該聚類處理包括基于種子的分層聚類、常階(order-invariant)聚類以及子空間限制遞歸聚類。在一個實施例中,聚類/分類模塊12以與接收到類別數(shù)據(jù)的順序獨立的方式合并各簇。
在第一實施例中,由用戶生成的文件夾組可以作為分類器,使得將新的類別數(shù)據(jù)記錄與用戶生成的文件夾組相比并將新的類別數(shù)據(jù)記錄自動分揀到最合適的文件夾。在另一個實施例中,聚簇/分類模塊12基于用戶反饋實現(xiàn)基于文件夾的分類器。基于文件夾的分類器自動生成文件夾集,自動向集添加或從集刪除文件夾?;谖募A的分類器還可以自動修改不在該集中的其它文件夾的內(nèi)容。
在一個實施例中,聚類/分類模塊12可以在聚類或分類之前或期間增加類別數(shù)據(jù)。用于增加的一個方法是通過輸入類別數(shù)據(jù)的屬性。該增加可以在提高類別數(shù)據(jù)的整體質(zhì)量的同時減少類別數(shù)據(jù)的任何稀少以幫助聚類和分類處理。
盡管如圖1A中所示為特定單獨的模塊,但是聚類/分類模塊12、組織數(shù)據(jù)結(jié)構(gòu)13和數(shù)據(jù)分析模塊14可以作為不同的單獨的模塊實現(xiàn),或可以結(jié)合為一個或多個模塊。
如圖1A所示,數(shù)據(jù)庫輸入模塊9處理來自數(shù)據(jù)庫8~N的信息并將其加載到類別數(shù)據(jù)集11中。數(shù)據(jù)庫輸入模塊9還包括處理可以從上述公眾源得到的數(shù)據(jù)的公共源處理器17。在另一個實施例中,公共源處理器17請求某條具體內(nèi)容的信息并將結(jié)果信息處理成可以輸入到內(nèi)容元數(shù)據(jù)的形式。
數(shù)據(jù)庫輸入模塊9還包括數(shù)據(jù)庫維數(shù)減少模塊15。如上所述,類別數(shù)據(jù)集可能是稀疏的。因為數(shù)據(jù)集越密集則越易于搜索和/或處理,所以減少數(shù)據(jù)集的維度可改進使用數(shù)據(jù)集的模塊的效率和質(zhì)量。在一個實施例中,數(shù)據(jù)庫維數(shù)減少模塊15通過修改類別數(shù)據(jù)集11中的語言項和內(nèi)容之間的語言項關(guān)系來減少類別數(shù)據(jù)集11的維度。語言項關(guān)系是定義類別數(shù)據(jù)11中的語言項和與該語言項相關(guān)聯(lián)的一條或多條具體內(nèi)容之間的關(guān)系的數(shù)據(jù)。在另一個實施例中,數(shù)據(jù)庫維數(shù)減少模塊15通過減少類別數(shù)據(jù)集11中的語言項的數(shù)量來減少類別數(shù)據(jù)集11的維度。用于減少類別數(shù)據(jù)維度的具體方法在名稱為“內(nèi)容類別數(shù)據(jù)的維度減少”、申請?zhí)枮?1/435,494、代理人申請案編號為80398.P655的待決美國專利申請中說明。如在該申請中所述,基于類別數(shù)據(jù)集中的類別名稱和關(guān)系數(shù)據(jù)減少類別數(shù)據(jù)維度,其中,關(guān)系數(shù)據(jù)定義類別數(shù)據(jù)集和與該類別數(shù)據(jù)集相關(guān)的內(nèi)容之間的關(guān)系。
在一個實施例中,輸入處理模塊9從內(nèi)容元數(shù)據(jù)提取某條具體內(nèi)容的類別數(shù)據(jù)。內(nèi)容元數(shù)據(jù)是描述由數(shù)據(jù)系統(tǒng)10使用的內(nèi)容的信息。圖1B示出由輸入處理模塊9處理的具體內(nèi)容的內(nèi)容元數(shù)據(jù)150的一個實施例。在圖1B中,內(nèi)容元數(shù)據(jù)150包括節(jié)目標(biāo)識符152、廣播臺154、廣播區(qū)域156、類別數(shù)據(jù)158、種類160、日期162、開始時間164、結(jié)束時間166和持續(xù)時間168。此外,內(nèi)容元數(shù)據(jù)150可以包括附加字段(未示出)。節(jié)目標(biāo)識符152標(biāo)識數(shù)據(jù)系統(tǒng)10使用的內(nèi)容。廣播臺154和廣播區(qū)域156標(biāo)識廣播公司和內(nèi)容播放的區(qū)域。另外,內(nèi)容元數(shù)據(jù)150用日期162、開始時間164、結(jié)束時間166來標(biāo)識內(nèi)容播放的日期和時間。持續(xù)時間168是內(nèi)容的持續(xù)時間。此外,種類描述與內(nèi)容相關(guān)的種類。
某條具體內(nèi)容的類別數(shù)據(jù)是一個或多個描述與該條內(nèi)容相關(guān)的不同類別的語言項。如圖1B中所示,類別數(shù)據(jù)158包括語言項最好、進行中、運動、高爾夫類別、高爾夫、藝術(shù)、0子文化、活潑、家庭、家庭代際、兒童、孩子、家庭、家庭代際以及兒童。因此,類別數(shù)據(jù)158包括描述節(jié)目的15個語言項。其中一些語言項是相關(guān)的,例如“運動、高爾夫類別、高爾夫”涉及運動,“家庭、家庭代際、兒童、孩子”涉及家庭。此外,類別數(shù)據(jù)158包括重復(fù)語言項和可能未定義的語言項(0子文化)。因為定義是不知道的,所以未定義的語言項與一個節(jié)目相關(guān)。
產(chǎn)生精確且最新內(nèi)容150的一個問題是保持大量內(nèi)容。例如,一周的電視節(jié)目可能具有上千個節(jié)目,而這些節(jié)目具有上千條描述該節(jié)目的單獨的語言項。一個減少維護大量內(nèi)容數(shù)據(jù)的成本和時間的可能的方法是從例如基于wiki的網(wǎng)站的公眾網(wǎng)站提取內(nèi)容元數(shù)據(jù)?;趙iki的網(wǎng)站是允許用戶容易地增加和編輯內(nèi)容的基于web的自由內(nèi)容百科全書。一個例子是公眾可用的WIKIPEDIA服務(wù)。因此,wiki百科全書由很多用戶協(xié)作編寫,允許任何人用web瀏覽器編輯大多數(shù)文章。這可以考慮到生成內(nèi)容的元數(shù)據(jù)的相對便宜的方式。
圖2是用于從公眾網(wǎng)站創(chuàng)建內(nèi)容元數(shù)據(jù)的方法200的一個實施例的流程圖。在一個實施例中,方法200從wiki型網(wǎng)站中檢索內(nèi)容信息。在可選實施例中,方法200從其它公共或商業(yè)網(wǎng)站如WIKIPEDIA、GRACENOTE、IMDB、MOODLOGIC、ROTTEN TOMATOES、AMG、AMAZON等中檢索內(nèi)容信息。
方法200可通過萬維網(wǎng)(web)檢索收集信息來利用包含在wiki中的信息。在塊202處,方法200檢索與感興趣的內(nèi)容有關(guān)的信息。例如,在一個實施例中,方法200檢索標(biāo)題、種類以及與男演員、女演員、制片人、導(dǎo)演等有關(guān)的信息。在塊204處,方法200基于檢索到的內(nèi)容信息來檢索與內(nèi)容相關(guān)聯(lián)的網(wǎng)頁。下面在圖3中進一步說明web檢索的一個實施例。
在塊206處,方法200從檢索到的網(wǎng)頁中提取文本。文本提取提取描述感興趣的內(nèi)容的語言項或與感興趣的內(nèi)容有關(guān)的語言項。下面在圖4中進一步說明一個實施例的文本提取。
任選地,在塊208處,方法200從所提取的文本中除去停止語言項(stop term)。在一個實施例中,停止語言項是描繪句子、從句等的標(biāo)點符號。可選地,停止語言項可包括其它標(biāo)記,如a、the、an、of、in、but、or等。通過除去停止語言項,所提取的文本剩下有與內(nèi)容相關(guān)的語言項和其它非停止語言項。
任選地,在塊210處,方法200使用本領(lǐng)域公知的詞干化算法(stemming algorithms)例如但不限于Paice/Husk、Porter、Lovins、Dawson、Krovetz等中的一個從所提取的文本中除去詞干語言項。詞干化將語言項縮減到其詞干或詞根形式。例如,單詞“computing”和“computation”具有詞干“compute”。對語言項進行詞干化進一步縮減所提取的文本中語言項的變體,從而詞干化可縮減所提取的文本中語言項的數(shù)量。
在塊212處,方法200將來自修改后的所提取的文本中的語言項添加到該內(nèi)容的元數(shù)據(jù)中。例如,方法200提取與內(nèi)容的種類、男演員、女演員、獲獎、制片人、導(dǎo)演、評論、與其它信息的鏈接等有關(guān)的語言項。在一個實施例中,方法200將所提取的語言項添加到類別數(shù)據(jù)。在本實施例中,方法200將所提取的語言項添加到類別數(shù)據(jù)11中,類別數(shù)據(jù)11用于對內(nèi)容進行分類,例如但不限于種類、男演員、女演員、獲獎、制片人、導(dǎo)演等。可選地,方法200可對數(shù)據(jù)進行分類。在可選實施例中,方法200將語言項添加到用于存儲內(nèi)容元數(shù)據(jù)的單獨的元數(shù)據(jù)數(shù)據(jù)庫中。
圖3是用于檢索內(nèi)容網(wǎng)頁的方法300的一個實施例的流程圖。在塊302處,方法300檢索與感興趣的內(nèi)容有關(guān)的信息。例如,在一個實施例中,方法300檢索內(nèi)容標(biāo)題、種類、內(nèi)容長度、制作年以及與男演員、女演員、制片人、導(dǎo)演等有關(guān)的信息。方法300基于檢索到的信息形成內(nèi)容的統(tǒng)一資源定位符(uniform resource locator,URL)。例如,如果方法300從公共WIKIPEDIA中檢索與“Star Wars IVA New Hope”有關(guān)的信息,則方法300基于源(“en.wikipe dia.org/wiki/”)和標(biāo)題(“Star_Wars_Episode_IV_A_New_Hope”)來創(chuàng)建URL。每個公眾源可具有其自己的用于訪問的格式。
在塊306,方法300打開在塊304中形成的URL。盡管在一個實施例中方法300通過進行超文本傳輸協(xié)議(hypertexttransfer protocol,HTTP)請求來打開URL,但是在可選實施例中,方法300使用不同的協(xié)議(安全HTTP(HTTPS)等)來打開URL。在塊308處,方法300返回URL內(nèi)容。
圖4是用于解析內(nèi)容網(wǎng)頁的方法400的一個實施例的流程圖。在塊404處,方法400檢索網(wǎng)頁。在一個實施例中,網(wǎng)頁是超文本置標(biāo)語言(hypertext markup language,HTML)頁??蛇x地,網(wǎng)頁可以是本領(lǐng)域公知的其它類型文本格式(Extended HTML(XHTML)、extended markup language(XML)、standard generalized markup language(SGML)等)。
在塊404處,方法400指定HTML解析程序動作。解析程序動作限定HTML解析程序如何從檢索到的網(wǎng)頁中提取單詞。例如,方法400可以指定去除HTML標(biāo)簽中的所有文本,去除除了HTML“META”標(biāo)簽以外的所有HTML標(biāo)簽,忽略以數(shù)字開頭的單詞等。此外,在另一實施例中,方法400可基于其它類型的格式(XHTML、XML、SGML等)來指定解析程序動作。在塊406處,方法400使用本領(lǐng)域公知的算法如本領(lǐng)域公知的解析程序動作、如以空白分離語言項(除了“Mr.X”、“Joe Public”等情況以外),基于所指定的解析程序動作將HTML頁解析為單獨的單詞。在塊408處,方法400從解析后的HTML頁中提取第一個N個單詞。在第一實施例中,N是對單詞的粗略限制??蛇x地,N可以是對處理后的段落數(shù)量的限制,如從文本的第一個N個段落中選擇單詞。由于所提取的元數(shù)據(jù)被用于輸入到類別數(shù)據(jù)11,所以限制所提取的單詞的數(shù)量有助于保持較小大小的類別數(shù)據(jù)??蛇x地,方法400從解析后的HTML頁中提取全部單詞。
圖5是示出用于從公眾網(wǎng)站創(chuàng)建內(nèi)容元數(shù)據(jù)的裝置的一個實施例的框圖。在一個實施例中,輸入處理器11包含公共源處理器17。可選地,輸入處理器11不包含公共源處理器17,而是耦合到公共源處理器17。公共源處理器17包括信息檢索模塊502、文本提取器模塊504、停止語言項處理器模塊506、詞干語言項處理器模塊508以及源數(shù)據(jù)輸出模塊510。信息檢索模塊502從公眾源中檢索與圖2中的塊204處描述的特定內(nèi)容有關(guān)的信息。文本提取器模塊504從圖2中的塊206處描述的所請求的信息中提取語言項。停止語言項處理器模塊506從圖2中的塊208處描述的所提取的語言項中去除停止語言項。詞干語言項處理器模塊506將所提取的語言項處理成在圖2中的塊210處描述的相關(guān)的詞干語言項。元數(shù)據(jù)輸出模塊510將所提取的語言項添加到圖2中的塊212處描述的特定內(nèi)容的元數(shù)據(jù)中。
以下對圖6和圖7的說明意圖提供適用于執(zhí)行上述本發(fā)明的方法的計算機硬件和其它工作組件的概況,但是這不意味著限制可應(yīng)用的環(huán)境。本領(lǐng)域的技術(shù)人員很容易明白,可利用其它計算機系統(tǒng)配置,包括手持裝置、多處理器系統(tǒng)、基于微處理器的或可編程的用戶電子產(chǎn)品、網(wǎng)絡(luò)PC、小型機、大型計算機等來實現(xiàn)本發(fā)明的實施例。本發(fā)明的實施例還可以在分布式計算環(huán)境中來實現(xiàn),分布式計算環(huán)境由通過對等(peer to peer)網(wǎng)絡(luò)基礎(chǔ)設(shè)施等通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理裝置來執(zhí)行任務(wù)。
在實際中,本文中所描述的方法可構(gòu)成由機器可執(zhí)行的指令組成的一個或多個程序。參照圖2至圖4中的流程圖描述的本方法使本領(lǐng)域的技術(shù)人員能夠開發(fā)出這種程序,這種程序包括用于在適當(dāng)配置的機器(執(zhí)行來自機器可讀介質(zhì)的指令的機器的處理器)上執(zhí)行由邏輯塊所代表的操作(動作)的指令??梢杂糜嬎銠C編程語言編寫該機器可讀指令,也可以用固件邏輯或者用硬件電路來實現(xiàn)該機器可讀指令。如果用符合公認(rèn)標(biāo)準(zhǔn)的編程語言來編寫,則可以在各種硬件平臺上執(zhí)行這種指令并適用于各種操作系統(tǒng)。另外,沒有參照任何特定的編程語言來說明本發(fā)明。應(yīng)該理解,可以使用各種編程語言來實現(xiàn)本文中所描述的本發(fā)明的教導(dǎo)。此外,在采取動作或產(chǎn)生結(jié)果時,在本領(lǐng)域中常常以一種或另一種形式(例如,程序、序列、處理、應(yīng)用、模塊、邏輯…)提到軟件。這些表述僅是由機器執(zhí)行軟件使機器的處理器執(zhí)行動作或產(chǎn)生結(jié)果的簡稱。還應(yīng)該理解,可以將或多或少的處理包含在流程圖中所示的方法中而不違背本發(fā)明的范圍,并且在本文中所示和所述的塊的配置不意味著特定的順序。
圖6示出通過網(wǎng)絡(luò)602如因特網(wǎng)耦合在一起的多個計算機系統(tǒng)600。本文中所用的術(shù)語“因特網(wǎng)”是指使用某種協(xié)議如TCP/IP協(xié)議以及可能的其它協(xié)議如用于組成web(World WideWeb,萬維網(wǎng))的超文本置標(biāo)語言(HTML)文檔的超文本傳輸協(xié)議(HTTP)的多個網(wǎng)絡(luò)的網(wǎng)絡(luò)。因特網(wǎng)的物理連接以及因特網(wǎng)的協(xié)議和通信程序?qū)Ρ绢I(lǐng)域的技術(shù)人員來說是公知的。典型地,由因特網(wǎng)服務(wù)提供商(Internet service providers,ISP)如ISP604和606來提供對因特網(wǎng)602的訪問。客戶計算機系統(tǒng)612、616、624和626等客戶機系統(tǒng)上的用戶通過ISP 604和606等因特網(wǎng)服務(wù)提供商來獲得對因特網(wǎng)的訪問。對因特網(wǎng)的訪問允許客戶計算機系統(tǒng)的用戶交換信息,接收和發(fā)送電子郵件以及觀看文檔如用HTML格式制備的文檔。通常由被認(rèn)為是在因特網(wǎng)“上”的web服務(wù)器608等web服務(wù)器來提供這些文檔。這些web服務(wù)器通常由ISP 604等ISP來提供,但可以不使用本領(lǐng)域所公知的ISP將計算機系統(tǒng)安裝并鏈接到因特網(wǎng)。
典型地,web服務(wù)器608是作為服務(wù)器計算機系統(tǒng)工作的、配置成利用World Wide Web的協(xié)議工作并耦合到因特網(wǎng)的至少一個計算機系統(tǒng)。任選地,web服務(wù)器608可以是向客戶機系統(tǒng)提供對因特網(wǎng)的訪問的ISP的一部分。web服務(wù)器608示出為耦合到服務(wù)器計算機系統(tǒng)610,服務(wù)器計算機系統(tǒng)610本身耦合到可視為媒體數(shù)據(jù)庫形式的web內(nèi)容640。應(yīng)該理解,盡管圖6中示出了兩個計算機系統(tǒng)608和610,但是web服務(wù)器系統(tǒng)608和服務(wù)器計算機系統(tǒng)610可以是具有不同軟件組件的一個計算機系統(tǒng),這些計算機組件提供web服務(wù)器功能和服務(wù)器計算機系統(tǒng)610提供的服務(wù)器功能,下面將進一步說明。
客戶計算機系統(tǒng)612、616、624和626可各自利用適當(dāng)?shù)膚eb瀏覽軟件來觀看web服務(wù)器608提供的HTML頁。ISP 604通過可視為客戶計算機系統(tǒng)612的一部分的調(diào)制解調(diào)器接口614向客戶計算機系統(tǒng)612提供因特網(wǎng)連接。該客戶計算機系統(tǒng)可以是個人計算機系統(tǒng)、網(wǎng)絡(luò)計算機、Web TV系統(tǒng)、手持式裝置或其它計算機系統(tǒng)。類似地,ISP 606提供客戶機系統(tǒng)616、624和626的因特網(wǎng)連接,盡管如圖6中所示,這三個計算機系統(tǒng)的連接并不相同。通過調(diào)制解調(diào)器接口618耦合客戶計算機系統(tǒng)616,而客戶計算機系統(tǒng)624和626是LAN的一部分。盡管圖6將接口614和618一般地示出為“調(diào)制解調(diào)器”,但是應(yīng)該理解,這些接口中的每一個可以是模擬調(diào)制解調(diào)器、ISDN調(diào)制解調(diào)器、線纜調(diào)制解調(diào)器、衛(wèi)星傳輸接口或用于將計算機系統(tǒng)耦合到其它計算機系統(tǒng)的其它接口??蛻粲嬎銠C系統(tǒng)624和616通過網(wǎng)絡(luò)接口630和632耦合到LAN 622,網(wǎng)絡(luò)接口630和632可以是Ethernet網(wǎng)絡(luò)或其它網(wǎng)絡(luò)接口。LAN 622還耦合到網(wǎng)關(guān)計算機系統(tǒng)620,網(wǎng)關(guān)計算機系統(tǒng)620為局域網(wǎng)提供防火墻和其它因特網(wǎng)相關(guān)服務(wù)。該網(wǎng)關(guān)計算機系統(tǒng)620耦合到ISP 606以向客戶計算機系統(tǒng)624和626提供因特網(wǎng)連接。網(wǎng)關(guān)計算機系統(tǒng)620可以是傳統(tǒng)的服務(wù)器計算機系統(tǒng)。此外,web服務(wù)器系統(tǒng)608可以是傳統(tǒng)的服務(wù)器計算機系統(tǒng)。
可選地,如公知的那樣,服務(wù)器計算機系統(tǒng)628可以通過網(wǎng)絡(luò)接口634直接耦合到LAN 622以向客戶機624、626提供文件636和其它服務(wù),而不需要通過網(wǎng)關(guān)服務(wù)器620連接到因特網(wǎng)。此外,可以使用LAN 622、因特網(wǎng)602或作為通信介質(zhì)的組合在對等網(wǎng)絡(luò)中將客戶機系統(tǒng)612、616、624、626的任何組合連接在一起。通常,對等網(wǎng)絡(luò)將數(shù)據(jù)分布在用于存儲和檢索的多個機器的網(wǎng)絡(luò)上而不使用一個或多個中央服務(wù)器。因此,每個對等網(wǎng)絡(luò)節(jié)點可以包含上述客戶機和服務(wù)器二者的功能。
圖7示出可用作編碼器或解碼器的傳統(tǒng)計算機系統(tǒng)的一個例子。計算機系統(tǒng)700通過調(diào)制解調(diào)器或網(wǎng)絡(luò)接口702連接到外部系統(tǒng)。應(yīng)該理解,調(diào)制解調(diào)器或網(wǎng)絡(luò)接口702可視為計算機系統(tǒng)700的一部分。接口702可以是模擬調(diào)制解調(diào)器、ISDN調(diào)制解調(diào)器、線纜調(diào)制解調(diào)器、令牌環(huán)(token ring)接口、衛(wèi)星傳輸接口或用于將計算機系統(tǒng)耦合到其它計算機系統(tǒng)的其它接口。計算機系統(tǒng)700包括處理單元704,處理單元704可以是傳統(tǒng)的微處理器,如Intel Pentium微處理器或Motorola PowerPC微處理器。存儲器708通過總線706耦合到處理器704。存儲器708可以是動態(tài)隨機存取存儲器(DRAM),也可以包括靜態(tài)RAM(SRAM)??偩€706將處理器704耦合到存儲器708、非易失性存儲器714、顯示控制器710以及輸入/輸出(I/O)控制器716。顯示控制器710以傳統(tǒng)方式控制在顯示裝置712上的顯示,顯示裝置712可以是陰極射線管(CRT)或液晶顯示器(LCD)。輸入/輸出裝置718可以包括鍵盤、盤驅(qū)動器、打印機、掃描儀以及其它輸入和輸出裝置,包括鼠標(biāo)或其它指示裝置。可以利用傳統(tǒng)的公知技術(shù)來實現(xiàn)顯示控制器710和I/O控制器716。數(shù)字圖像輸入裝置720可以是耦合到I/O控制器716的數(shù)字照相機,以使來自數(shù)字照相機的圖像被輸入到計算機系統(tǒng)700。非易失性存儲器714通常是磁硬盤、光盤或其它形式的用于大量數(shù)據(jù)的存儲器。在計算機系統(tǒng)700中執(zhí)行軟件期間,通常通過直接存儲器訪問處理將該數(shù)據(jù)中的一些寫入存儲器708。本領(lǐng)域的技術(shù)人員很容易認(rèn)識到,術(shù)語“計算機可讀介質(zhì)”和“機器可讀介質(zhì)”包括可被處理器704訪問的任何類型存儲裝置,并且還包含對數(shù)據(jù)信號進行編碼的載波。
網(wǎng)絡(luò)計算機是可應(yīng)用本發(fā)明的實施例的另一類型計算機系統(tǒng)。網(wǎng)絡(luò)計算機通常不包括硬盤或其它大容量存儲器,由處理器704執(zhí)行的可執(zhí)行程序從網(wǎng)絡(luò)連接加載到存儲器708中。本領(lǐng)域已知的Web TV系統(tǒng)也被視為根據(jù)本發(fā)明的實施例的計算機系統(tǒng),但是它可能缺少圖7中所示的某些特征,如某輸入或輸出裝置。典型的計算機系統(tǒng)通常至少包括處理器、存儲器以及將存儲器耦合到處理器的總線。
應(yīng)該理解,計算機系統(tǒng)700是具有不同結(jié)構(gòu)的眾多可能的計算機系統(tǒng)的一個例子。例如,基于Intel微處理器的個人計算機通常具有多總線,其中的一個可以是用于外圍設(shè)備的輸入/輸出(I/O)總線,一個是直接連接處理器704和存儲器708的總線(通常稱為存儲器總線)。通過橋組件將這些總線連接在一起,橋組件因總線協(xié)議不同而進行任何必要的轉(zhuǎn)換。
還應(yīng)該理解,計算機系統(tǒng)700由操作系統(tǒng)軟件來控制,操作系統(tǒng)軟件包括文件管理系統(tǒng),如盤操作系統(tǒng),其為操作系統(tǒng)軟件的一部分。帶有文件管理系統(tǒng)軟件的的操作系統(tǒng)軟件的一個例子是Washington的Redmond的Microsoft Corporation的稱為Windows的操作系統(tǒng)家族及其文件管理系統(tǒng)。典型地,該文件管理系統(tǒng)被存儲在非易失性存儲器714中,使處理器704執(zhí)行操作系統(tǒng)輸入和輸出數(shù)據(jù)以及將數(shù)據(jù)存儲在存儲器中所需的各種動作,包括將文件存儲在非易失性存儲器714中。
在以上說明書中,已關(guān)于本發(fā)明的特定典型實施例描述了本發(fā)明。顯而易見的是,在不違背所附權(quán)利要求書中所述的本發(fā)明的更寬的本質(zhì)和范圍的情況下可以對其進行各種修改。因此,應(yīng)當(dāng)將本說明書和附圖看作是說明性的而不是限制性的。
相關(guān)申請本專利申請涉及名稱為“類別數(shù)據(jù)的聚類和分類”、申請?zhí)枮?1/436,142、代理人申請案編號為80398.P649的待決美國專利申請,以及名稱為“內(nèi)容類別數(shù)據(jù)的維度減少”、申請?zhí)枮?1/435,494、代理人申請案編號為080398.P655的待決美國專利申請。該相關(guān)待決申請被轉(zhuǎn)讓給與本申請相同的受讓人。
版權(quán)通告/許可本專利文件公開的部分包含受版權(quán)保護的材料。版權(quán)所有者不反對在專利商標(biāo)局專利文件或記錄中復(fù)制任何專利文件或?qū)@_,但是保留其它全部版權(quán)權(quán)利。下面的通告應(yīng)用于下面以及附圖中說明的軟件和數(shù)據(jù)Copyright2005,SonyElectronics,Incorporated,All Rights Reserved。
權(quán)利要求
1.一種計算機化方法,其包括從公眾網(wǎng)站接收網(wǎng)頁,所述網(wǎng)頁與特定內(nèi)容有關(guān);從所述網(wǎng)頁提取多個語言項;將所述多個語言項添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
2.根據(jù)權(quán)利要求1所述的計算機化方法,其特征在于,所述提取多個語言項還包括如下處理至少之一將所述網(wǎng)頁中的語言項詞干化、從所述網(wǎng)頁去除停止語言項、以及從所述網(wǎng)頁提取有限數(shù)量的語言項。
3.根據(jù)權(quán)利要求1所述的計算機化方法,其特征在于,所述提取多個語言項還包括關(guān)于網(wǎng)頁格式定義解析程序動作。
4.根據(jù)權(quán)利要求1所述的計算機化方法,其特征在于,所述元數(shù)據(jù)是類別數(shù)據(jù)。
5.一種機器可讀介質(zhì),其包括從公眾網(wǎng)站接收網(wǎng)頁,所述網(wǎng)頁與特定內(nèi)容有關(guān);從所述網(wǎng)頁提取多個語言項;將所述多個語言項添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
6.根據(jù)權(quán)利要求5所述的機器可讀介質(zhì),其特征在于,所述提取多個語言項還包括如下處理至少之一將所述網(wǎng)頁中的語言項詞干化、從所述網(wǎng)頁去除停止語言項、以及從所述網(wǎng)頁提取有限數(shù)量的語言項。
7.根據(jù)權(quán)利要求5所述的機器可讀介質(zhì),其特征在于,所述提取多個語言項還包括關(guān)于網(wǎng)頁格式定義解析程序動作。
8.根據(jù)權(quán)利要求5所述的機器可讀介質(zhì),其特征在于,所述元數(shù)據(jù)是類別數(shù)據(jù)。
9.一種設(shè)備,其包括用于從公眾網(wǎng)站接收網(wǎng)頁的裝置,所述網(wǎng)頁與特定內(nèi)容有關(guān);用于從所述網(wǎng)頁提取多個語言項的裝置;用于將所述多個語言項添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù)的裝置;用于從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù)的裝置;用于將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集中的裝置;以及用于基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度的裝置,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述用于提取多個語言項的裝置還用于如下處理至少之一將所述網(wǎng)頁中的語言項詞干化、從所述網(wǎng)頁去除停止語言項、以及從所述網(wǎng)頁提取有限數(shù)量的語言項。
11.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述用于提取多個語言項的裝置還用于關(guān)于網(wǎng)頁格式定義解析程序動作。
12.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述元數(shù)據(jù)是類別數(shù)據(jù)。
13.一種系統(tǒng),其包括處理器;通過總線連接到所述處理器的存儲器;以及由所述處理器從所述存儲器執(zhí)行的處理,所述處理使得處理器從公眾網(wǎng)站接收網(wǎng)頁,所述網(wǎng)頁與特定內(nèi)容有關(guān);從所述網(wǎng)頁提取多個語言項;將所述多個語言項添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集中;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述提取多個語言項還包括如下處理至少之一將所述網(wǎng)頁中的語言項詞干化、從所述網(wǎng)頁去除停止語言項、以及從所述網(wǎng)頁提取有限數(shù)量的語言項。
15.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述提取多個語言項還包括關(guān)于網(wǎng)頁格式定義解析程序動作。
16.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述元數(shù)據(jù)是類別數(shù)據(jù)。
全文摘要
本發(fā)明涉及使用公眾網(wǎng)站獲取元數(shù)據(jù)。類別數(shù)據(jù)集包括類別的名稱和關(guān)系數(shù)據(jù),其中,關(guān)系數(shù)據(jù)定義類別和內(nèi)容之間的關(guān)系。內(nèi)容的類別通過從與特定內(nèi)容有關(guān)的例如WIKIPEDIA網(wǎng)站的在線公眾網(wǎng)站檢索網(wǎng)頁并分析該網(wǎng)頁以獲得內(nèi)容元數(shù)據(jù)來產(chǎn)生。從內(nèi)容元數(shù)據(jù)提取該內(nèi)容的類別數(shù)據(jù)。另外,基于類別和關(guān)系數(shù)據(jù)減少類別數(shù)據(jù)集的語言項。
文檔編號G06F17/30GK101075259SQ20071010371
公開日2007年11月21日 申請日期2007年5月16日 優(yōu)先權(quán)日2006年5月16日
發(fā)明者赫姆達(dá)特·波昂, M·E·普盧托夫斯基 申請人:索尼株式會社, 索尼電子有限公司