專利名稱:電視節(jié)目標(biāo)簽自動生成系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種計算機應(yīng)用技術(shù)領(lǐng)域的系統(tǒng),具體是一種電視節(jié)目標(biāo)簽自動生成系統(tǒng)。
背景技術(shù):
長久以來,如何幫助人們更好的做出選擇,總是一個意義重大而又充滿趣味的問題。人們做出選擇是以一定的信息為基礎(chǔ)的,將搜集到的信息與個人觀念、愛好相結(jié)合,即產(chǎn)生了選擇行為。然而,信息的獲取并不簡單。在網(wǎng)絡(luò)尚不發(fā)達,信息交流并不便利的過去,信息的匱乏、比較的困難成為人們做出選擇的障礙。而步入信息時代,信息的獲取只需輕點鼠標(biāo)即可完成,但是這卻帶來了另外的一個問題,信息泛濫。面對著海量的信息,單是對信息作辨別和篩選就將花費人們很多時間,這也造成了選擇的障礙。為了解決這一問題,標(biāo)簽自動生成系統(tǒng)應(yīng)運而生。通過對信息進行主體提取,內(nèi)容總結(jié),關(guān)鍵詞分析,生成與信息對應(yīng)的標(biāo)簽集。利用標(biāo)簽集,人們可以快速掌握信息大意,同時為信息分類提供依據(jù),這都能幫助人們做出選擇。目前,對標(biāo)簽自動生成系統(tǒng)的研究很多,但主要著重于文本的處理,即針對一篇文檔,自動生成與之相關(guān)的標(biāo)簽。Jialie Shen[l]研究了音樂標(biāo)簽的自動生成,采用的方法主要是提取音頻的特征,再以手動標(biāo)注的音樂作為訓(xùn)練素材,通過機器學(xué)習(xí)的方法生成分類器,用這個分類器為音樂添加標(biāo)簽。Stefan Siersdorfer [2]提出了視頻標(biāo)簽的補充方案,利用已有的視頻比較技術(shù),將相似視頻已有的標(biāo)簽進行合并,不過這不是真正意義上的標(biāo)簽自動生成。因此,現(xiàn)階段對視頻添加標(biāo)簽還主要依賴于人工處理,對電視節(jié)目標(biāo)簽自動生成系統(tǒng)的研究還是一個空缺。[I]Jialie Shen, Meng Wang, Shuicheng Yan, HweeHwa Pang, Xiansheng HuaEffective Music Tagging through Advanced Statistical Modeling SIGIR 2010 ;[2]Stefan Siersdorfer, Jose San Pedro, Mark Sanderson Automatic VideoTagging using Content Redundancy SIGIR 2009。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)中存在的上述不足,提供了一種電視節(jié)目標(biāo)簽自動生成系統(tǒng),僅需要為系統(tǒng)提供電視節(jié)目的名稱,系統(tǒng)就可以自動從網(wǎng)上獲取與該節(jié)目相關(guān)的信息,通過進一步對獲取的信息進行歸納和擴展,系統(tǒng)將返回與該節(jié)目相關(guān)的一個標(biāo)簽集。本發(fā)明是通過以下技術(shù)方案實現(xiàn)的。一種電視節(jié)目標(biāo)簽自動生成系統(tǒng),包括依次連接的節(jié)目信息獲取模塊、信息關(guān)鍵詞提取模塊、關(guān)鍵詞擴展模塊及標(biāo)簽生成模塊,還包括與關(guān)鍵詞擴展模塊相連接的知識庫模塊,其中-節(jié)目信息獲取模塊,用于從網(wǎng)上抓取與節(jié)目相關(guān)的頁面,通過對頁面的修剪和過濾,得到描述節(jié)目信息的主體內(nèi)容;
-信息關(guān)鍵詞提取模塊,用于匯總節(jié)目信息獲取模塊得到的主體內(nèi)容,并從主體內(nèi)容中抽取出關(guān)鍵詞;-知識庫模塊,用于建立詞條間的網(wǎng)絡(luò)關(guān)系,以便用于對獲取的關(guān)鍵詞進行擴展;-關(guān)鍵詞擴展模塊,用于利用知識庫模塊提供的網(wǎng)絡(luò),將信息關(guān)鍵詞提取模塊得到的關(guān)鍵詞進行擴展,得到一個更大的詞條集;-標(biāo)簽生成模塊,用于將得到的所有關(guān)鍵詞的關(guān)聯(lián)詞條集進行處理,濾除噪聲,計算分?jǐn)?shù),并最終生成節(jié)目的標(biāo)簽集。所述節(jié)目信息獲取模塊包括HTML解析器,接收需要生成標(biāo)簽的目標(biāo)電視節(jié)目集合,在搜索引擎的輔助下,為每個節(jié)目獲取網(wǎng)絡(luò)頁面,所述頁面通過HTML解析器的處理,得 到主體內(nèi)容,所述主體內(nèi)容傳遞給信息關(guān)鍵詞提取模塊作進一步處理。所述信息關(guān)鍵詞提取模塊包括分詞與詞性標(biāo)注器,得到描述每個節(jié)目信息的主體內(nèi)容后,通過分詞與詞性標(biāo)注器對內(nèi)容進行劃分,并僅保留名詞詞性的詞語。所述名詞詞性的詞語通過統(tǒng)計方法識別關(guān)鍵詞。所述統(tǒng)計方法包括以下步驟第一步,對于特定的某個節(jié)目,將詞語劃分為兩組,一組來源于與該節(jié)目相關(guān)的網(wǎng)絡(luò)頁面,一組來源于節(jié)目集合中的其他網(wǎng)絡(luò)頁面;第二步,對這兩組詞語計算詞頻,并統(tǒng)計出均值和標(biāo)準(zhǔn)差,這樣,每個詞語都用4個統(tǒng)計量描述其特征,所述4個統(tǒng)計量分別為這個詞語在與節(jié)目相關(guān)頁面的詞頻均值、標(biāo)準(zhǔn)差以及這個詞語在與節(jié)目不相關(guān)頁面的詞頻均值和標(biāo)準(zhǔn)差;第三步,根據(jù)4個統(tǒng)計量間的關(guān)系,將最能表現(xiàn)節(jié)目特征的關(guān)鍵詞識別出來。所述知識庫模塊以百度百科作為數(shù)據(jù)源,以圖的形式進行存儲。所述百度百科的組織方式包括以下步驟第一步,對于每個詞條,均有一個頁面對該詞條進行描述,頁面中除了純文本外,還會將百度百科中已有的其他詞條作引用;第二步,在知識庫的圖中,每個這樣的被描述的詞條和引用的詞條間都會有一條有向邊,對這個圖應(yīng)用PageRank算法,得到每個詞條的重要性;第三步,詞條的權(quán)重和詞條間的相互引用關(guān)系,構(gòu)成了整個知識庫。所述關(guān)鍵詞擴展模塊對每個信息關(guān)鍵詞提取模塊得到的關(guān)鍵詞,在知識庫模塊的圖中找到與之存在一條路徑的其他詞條,根據(jù)詞條本身的重要性和詞條與關(guān)鍵詞的距離,計算出詞條的權(quán)重。所述標(biāo)簽生成模塊將所有得到的關(guān)鍵詞的關(guān)聯(lián)詞條合并在一起,當(dāng)一個詞條同時關(guān)聯(lián)多個關(guān)鍵詞時,將這個詞條在各種關(guān)鍵詞中的權(quán)重相加。將所有詞條根據(jù)權(quán)重的總和進行排序,并根據(jù)需要返回前面的若干個,從而得到了描述節(jié)目特征的標(biāo)簽集。本發(fā)明工作時,先為系統(tǒng)提供需要生成標(biāo)簽的目標(biāo)電視節(jié)目集合。節(jié)目信息獲取模塊在搜索引擎的輔助下,為每個節(jié)目都獲取一定量的網(wǎng)絡(luò)頁面,這些頁面通過模塊中HTML解析器的處理,得到主體內(nèi)容,這些主體內(nèi)容將傳遞給信息關(guān)鍵詞提取模塊作進一步處理。信息關(guān)鍵詞提取模塊得到描述每個節(jié)目信息的主體內(nèi)容后,通過模塊中的分詞與詞性標(biāo)注器對內(nèi)容進行劃分,并僅保留名詞詞性的詞語。這些詞語將以統(tǒng)計的方法識別出關(guān)鍵詞。統(tǒng)計方法如下對于特定的某個節(jié)目,將詞語劃分為兩組。一組來源于與該節(jié)目相關(guān)的網(wǎng)絡(luò)頁面,一組來源于節(jié)目集合中的其他網(wǎng)絡(luò)頁面。對這兩組詞語都計算詞頻,并統(tǒng)計出均值和標(biāo)準(zhǔn)差。這樣,每個詞語都用4個統(tǒng)計量描述其特征。分別是這個詞語在與節(jié)目相關(guān)頁面的詞頻均值,標(biāo)準(zhǔn)差以及這個詞語在與節(jié)目不相關(guān)頁面的詞頻均值和標(biāo)準(zhǔn)差。根據(jù)4個統(tǒng)計量間的關(guān)系,就可以將最能表現(xiàn)節(jié)目特征的關(guān)鍵詞識別出來。通過網(wǎng)絡(luò)頁面提取出來的關(guān)鍵詞已經(jīng)能在一定程度上反映節(jié)目的特征,但缺陷在于得到的關(guān)鍵詞的范圍有限,即它們必須出現(xiàn)在網(wǎng)絡(luò)頁面上。針對這一限制,本發(fā)明很重要的一點就是引入了知識庫模塊。知識庫模塊以百度百科作為數(shù)據(jù)源,以圖的形式進行存儲。百度百科的組織方式為,對于每個詞條,都有一個頁面對該詞條進行描述,頁面中除了純文本外,還會對百度百科中已有的其他詞條作引用。在知識庫的圖中,每個這樣的被描述的詞條和引用的詞條間都會有一條有向邊。對這個圖應(yīng)用PageRank算法,我們就得到了每個詞條的重要性。詞條的權(quán)重和詞條間的相互引用關(guān)系,構(gòu)成了整個知識庫。這樣,關(guān)鍵詞擴展模塊的任務(wù)很簡單,對于每個信息關(guān)鍵詞提取模塊得到的關(guān)鍵詞,都可以在知識庫的圖中找到與之存在一條路徑的其他詞條,根據(jù)詞條本身的重要性和詞條與關(guān)鍵詞的距離,計算出詞條的權(quán)重。標(biāo)簽生成模塊是系統(tǒng)的最后一個環(huán)節(jié),在信息關(guān)鍵詞提取模塊,我們得到了能夠反映節(jié)目特征的關(guān)鍵詞集,在關(guān)鍵詞擴展模塊,我們得到了每個關(guān)鍵詞關(guān)聯(lián)的詞條集,而且每個詞條都有權(quán)重。標(biāo)簽生成模塊負(fù)責(zé)將兩部分結(jié)果整合起來,即將所有得到的關(guān)鍵詞的關(guān)聯(lián)詞條合并在一起。當(dāng)一個詞條同時關(guān)聯(lián)多個關(guān)鍵詞時,將這個詞條在各種關(guān)鍵詞中的權(quán)重相加。將所有詞條根據(jù)權(quán)重的總和進行排序,并根據(jù)需要返回前面的若干個,我們就得到了描述節(jié)目特征的標(biāo)簽集了。與現(xiàn)有技術(shù)相比,本發(fā)明填補了自動生成電視節(jié)目標(biāo)簽系統(tǒng)的空白,知識庫的引入,也使得系統(tǒng)不會受制于網(wǎng)絡(luò)頁面,有更好的擴展性,對標(biāo)簽也有更好的發(fā)現(xiàn)力。知識庫可以離線建立,標(biāo)簽生成算法簡潔,故系統(tǒng)效率也很高。
圖I示出本發(fā)明的系統(tǒng)模塊框圖;圖2示出本發(fā)明節(jié)目信息獲取模塊的實施細節(jié);圖3示出本發(fā)明信息關(guān)鍵詞提取模塊中詞條列表的生成細節(jié);圖4示出本發(fā)明信息關(guān)鍵詞提取模塊中關(guān)鍵詞的生成細節(jié)。
具體實施例方式下面結(jié)合附圖對本發(fā)明的實施例作詳細說明,本實施例在以發(fā)明技術(shù)方案為前提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施例。本實施例的任務(wù)是為一組電視節(jié)目自動生成標(biāo)簽,分別是節(jié)目I、節(jié)目2、節(jié)目3、節(jié)目4、節(jié)目5、節(jié)目6、節(jié)目7、節(jié)目8、節(jié)目9、節(jié)目10。如圖I所示,本實施例包括5個模塊節(jié)目信息獲取模塊、信息關(guān)鍵詞提取模塊、知識庫模塊、關(guān)鍵詞擴展模塊、標(biāo)簽生成模塊,其中,節(jié)目信息獲取模塊、信息關(guān)鍵詞提取模塊、關(guān)鍵詞擴展模塊及標(biāo)簽生成模塊依次連接,知識庫模塊與關(guān)鍵詞擴展模塊相連接。所述節(jié)目信息獲取模塊,負(fù)責(zé)從網(wǎng)上抓取與這10個節(jié)目相關(guān)的頁面,通過對頁面的修剪和過濾,得到描述節(jié)目信息的主體內(nèi)容。所述信息關(guān)鍵詞提取模塊,負(fù)責(zé)匯總節(jié)目信息獲取模塊得到的主體內(nèi)容,并從主體內(nèi)容中抽取出關(guān)鍵詞。所述知識庫模塊,負(fù)責(zé)建立詞條間的網(wǎng)絡(luò)關(guān)系,以便用于對獲取的關(guān)鍵詞進行擴展。所述關(guān)鍵詞擴展模塊,負(fù)責(zé)利用知識庫模塊提供的網(wǎng)絡(luò),將信息關(guān)鍵詞提取模塊得到的關(guān)鍵詞進行擴展,得到一個更大的詞條集。所述標(biāo)簽生成模塊,負(fù)責(zé)詞條集進行處理,濾除噪聲,計算分?jǐn)?shù),并最終生成節(jié)目的標(biāo)簽集如圖2所示,節(jié)目信息獲取模塊包括HTML解析器,接收需要生成標(biāo)簽的目標(biāo)電視節(jié)目集合,在搜索引擎的輔助下,為每個節(jié)目獲取網(wǎng)絡(luò)頁面,所述頁面通過HTML解析器的處理,得到主體內(nèi)容,所述主體內(nèi)容傳遞給信息關(guān)鍵詞提取模塊作進一步處理。具體為,節(jié)目信息獲取模塊利用搜索引擎,得到與目標(biāo)節(jié)目相關(guān)的10個頁面,即HTML文件。通過去除得到的HTML文件中如廣告、圖片、標(biāo)題、腳本等的無用標(biāo)記,我們就得到了描述節(jié)目信息的10個文檔。如圖3所示,信息關(guān)鍵詞提取模塊包括分詞與詞性標(biāo)注器,得到描述每個節(jié)目信息的主體內(nèi)容后,通過分詞與詞性標(biāo)注器對內(nèi)容進行劃分,并僅保留名詞詞性的詞語。具體為,節(jié)目信息獲取模塊返回的文檔會先通過信息關(guān)鍵詞提取模塊進行分詞和詞性標(biāo)注的處理,并僅保留名詞詞性的詞語,這樣每個文檔都被轉(zhuǎn)換成一個詞集。一個節(jié)目對應(yīng)的10個文檔會有重復(fù)的詞語,所以10個文檔的詞語將進行哈希處理,統(tǒng)計出每個詞語的在每個文檔中的詞頻。最后我們針對每個節(jié)目都會得到一個詞條列表,列表中的每一項是一個數(shù)據(jù)結(jié)構(gòu),包含詞條的文本內(nèi)容和該詞條在10個文檔中的詞頻。需要說明的是,名詞詞性的詞語通過統(tǒng)計方法識別關(guān)鍵詞。統(tǒng)計方法包括以下步驟第一步,對于特定的某個節(jié)目,將詞語劃分為兩組,一組來源于與該節(jié)目相關(guān)的網(wǎng)絡(luò)頁面,一組來源于節(jié)目集合中的其他網(wǎng)絡(luò)頁面;第二步,對這兩組詞語計算詞頻,并統(tǒng)計出均值和標(biāo)準(zhǔn)差,這樣,每個詞語都用4個統(tǒng)計量描述其特征,所述4個統(tǒng)計量分別為這個詞語在與節(jié)目相關(guān)頁面的詞頻均值、標(biāo)準(zhǔn)差以及這個詞語在與節(jié)目不相關(guān)頁面的詞頻均值和標(biāo)準(zhǔn)差;第三步,根據(jù)4個統(tǒng)計量間的關(guān)系,將最能表現(xiàn)節(jié)目特征的關(guān)鍵詞識別出來。如圖4所示,得到的詞條列表經(jīng)過進一步處理得到最終的關(guān)鍵詞列表。這里,對于目標(biāo)節(jié)目詞條列表中的每一個詞語,都計算出4個統(tǒng)計量,分別是該詞語在目標(biāo)節(jié)目中的詞頻均值和標(biāo)準(zhǔn)差,該詞語在其他節(jié)目中的詞頻均值和標(biāo)準(zhǔn)差。得到4個統(tǒng)計量后,先以這樣的規(guī)則對詞語進行歸類第一類在其他節(jié)目中詞頻均值和標(biāo)準(zhǔn)差都是O ;第二類在其他節(jié)目中詞頻均值和標(biāo)準(zhǔn)差都不為0,而且目標(biāo)節(jié)目中的均值比其他節(jié)目的均值大以及標(biāo)準(zhǔn)差比其他節(jié)目的?。坏谌惖谝活惡偷诙愔獾那闆r。每一類再以這樣的規(guī)則計算分?jǐn)?shù)第一類目標(biāo)節(jié)目中的均值除以標(biāo)準(zhǔn)差;第二類目標(biāo)節(jié)目中的均值乘以其他節(jié)目的標(biāo)準(zhǔn)差除以目標(biāo)節(jié)目中的標(biāo)準(zhǔn)差再除以其他節(jié)目的均值。第三類直接設(shè)為O。
接下來對 詞語進行排序,第一類優(yōu)于第二類,第二類優(yōu)于第三類,同類別中按分?jǐn)?shù)再排序,最后輸出前20個詞語構(gòu)成關(guān)鍵詞列表。知識庫模塊以百度百科作為數(shù)據(jù)源,以圖的形式進行存儲。需要說明的是百度百科的組織方式包括以下步驟第一步,對于每個詞條,均有一個頁面對該詞條進行描述,頁面中除了純文本外,還會將百度百科中已有的其他詞條作引用;第二步,在知識庫的圖中,每個這樣的被描述的詞條和引用的詞條間都會有一條有向邊,對這個圖應(yīng)用PageRank算法,得到每個詞條的重要性;第三步,詞條的權(quán)重和詞條間的相互引用關(guān)系,構(gòu)成了整個知識庫。關(guān)鍵詞列表中的每個關(guān)鍵詞通過關(guān)鍵詞擴展模塊會得到關(guān)聯(lián)的詞條集,而且每個詞條都有權(quán)重。標(biāo)簽生成模塊會將兩部分結(jié)果整合起來,即將所有得到的關(guān)鍵詞的關(guān)聯(lián)詞條合并在一起。當(dāng)一個詞條同時關(guān)聯(lián)多個關(guān)鍵詞時,將這個詞條在各種關(guān)鍵詞中的權(quán)重相力口。將所有詞條根據(jù)權(quán)重的總和進行排序,并返回前20個詞條,我們就得到了描述節(jié)目特征的標(biāo)簽集了。對實驗例中的10節(jié)目重復(fù)以上過程,我們就完成了為這些節(jié)目自動生成標(biāo)簽的任務(wù)。以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實質(zhì)內(nèi)容。
權(quán)利要求
1.一種電視節(jié)目標(biāo)簽自動生成系統(tǒng),其特征在于,包括依次連接的節(jié)目信息獲取模塊、信息關(guān)鍵詞提取模塊、關(guān)鍵詞擴展模塊及標(biāo)簽生成模塊,還包括與關(guān)鍵詞擴展模塊相連接的知識庫模塊,其中 -節(jié)目信息獲取模塊,用于從網(wǎng)上抓取與節(jié)目相關(guān)的頁面,通過對頁面的修剪和過濾,得到描述節(jié)目信息的主體內(nèi)容; -信息關(guān)鍵詞提取模塊,用于匯總節(jié)目信息獲取模塊得到的主體內(nèi)容,并從主體內(nèi)容中抽取出關(guān)鍵詞; -知識庫模塊,用于建立詞條間的網(wǎng)絡(luò)關(guān)系,以便用于對獲取的關(guān)鍵詞進行擴展; -關(guān)鍵詞擴展模塊,用于利用知識庫模塊提供的網(wǎng)絡(luò),將信息關(guān)鍵詞提取模塊得到的關(guān)鍵詞進行擴展,得到一個更大的詞條集; -標(biāo)簽生成模塊,用于將得到的所有關(guān)鍵詞的關(guān)聯(lián)詞條集進行處理,濾除噪聲,計算分?jǐn)?shù),并最終生成節(jié)目的標(biāo)簽集。
2.根據(jù)權(quán)利要求I所述的電視節(jié)目標(biāo)簽自動生成系統(tǒng),其特征在于,所述節(jié)目信息獲取模塊包括HTML解析器,接收需要生成標(biāo)簽的目標(biāo)電視節(jié)目集合,在搜索引擎的輔助下,為每個節(jié)目獲取網(wǎng)絡(luò)頁面,所述頁面通過HTML解析器的處理,得到主體內(nèi)容,所述主體內(nèi)容傳遞給信息關(guān)鍵詞提取模塊作進一步處理。
3.根據(jù)權(quán)利要求I所述的電視節(jié)目標(biāo)簽自動生成系統(tǒng),其特征在于,所述信息關(guān)鍵詞提取模塊包括分詞與詞性標(biāo)注器,得到描述每個節(jié)目信息的主體內(nèi)容后,通過分詞與詞性標(biāo)注器對內(nèi)容進行劃分,并僅保留名詞詞性的詞語。
4.根據(jù)權(quán)利要求I所述的電視節(jié)目標(biāo)簽自動生成系統(tǒng),其特征在于,所述名詞詞性的詞語通過統(tǒng)計方法識別關(guān)鍵詞。
5.根據(jù)權(quán)利要求4電視節(jié)目標(biāo)簽自動生成系統(tǒng),其特征在于,所述統(tǒng)計方法包括以下步驟 第一步,對于特定的某個節(jié)目,將詞語劃分為兩組,一組來源于與該節(jié)目相關(guān)的網(wǎng)絡(luò)頁面,一組來源于節(jié)目集合中的其他網(wǎng)絡(luò)頁面; 第二步,對這兩組詞語計算詞頻,并統(tǒng)計出均值和標(biāo)準(zhǔn)差,這樣,每個詞語都用4個統(tǒng)計量描述其特征,所述4個統(tǒng)計量分別為這個詞語在與節(jié)目相關(guān)頁面的詞頻均值、標(biāo)準(zhǔn)差以及這個詞語在與節(jié)目不相關(guān)頁面的詞頻均值和標(biāo)準(zhǔn)差; 第三步,根據(jù)4個統(tǒng)計量間的關(guān)系,將最能表現(xiàn)節(jié)目特征的關(guān)鍵詞識別出來。
6.根據(jù)權(quán)利要求I所述的電視節(jié)目標(biāo)簽自動生成系統(tǒng),其特征在于,所述知識庫模塊以百度百科作為數(shù)據(jù)源,以圖的形式進行存儲。
7.根據(jù)權(quán)利要求6所述的電視節(jié)目標(biāo)簽自動生成系統(tǒng),其特征在于,所述百度百科的組織方式包括以下步驟 第一步,對于每個詞條,均有一個頁面對該詞條進行描述,頁面中除了純文本外,還會將百度百科中已有的其他詞條作引用; 第二步,在知識庫的圖中,每個這樣的被描述的詞條和引用的詞條間都會有一條有向邊,對這個圖應(yīng)用PageRank算法,得到每個詞條的重要性; 第三步,詞條的權(quán)重和詞條間的相互引用關(guān)系,構(gòu)成了整個知識庫。
8.根據(jù)權(quán)利要求I所述的電視節(jié)目標(biāo)簽自動生成系統(tǒng),其特征在于,所述關(guān)鍵詞擴展模塊對每個信息關(guān)鍵詞提取模塊得到的關(guān)鍵詞,在知識庫模塊的圖中找到與之存在一條路徑的其他詞條,根據(jù)詞條本身的重要性和詞條與關(guān)鍵詞的距離,計算出詞條的權(quán)重。
9.根據(jù)權(quán)利要求I所述的電視節(jié)目標(biāo)簽自動生成系統(tǒng),其特征在于,所述標(biāo)簽生成模塊將得到的所有關(guān)鍵詞的關(guān)聯(lián)詞條合并在一起,當(dāng)一個詞條同時關(guān)聯(lián)多個關(guān)鍵詞時,將這個詞條在各種關(guān)鍵詞中的權(quán)重相加,將所有詞條根據(jù)權(quán)重的總和進行排序,并根據(jù)需要返回前面的若干個,從而得到了描述節(jié)目特征的標(biāo)簽集。
全文摘要
本發(fā)明提供一種電視節(jié)目標(biāo)簽自動生成系統(tǒng),包括抓取與節(jié)目相關(guān)頁面,對頁面修剪過濾,得到描述節(jié)目信息主體內(nèi)容的節(jié)目信息獲取模塊;匯總主體內(nèi)容,并從中抽取關(guān)鍵詞的信息關(guān)鍵詞提取模塊;建立詞條間的網(wǎng)絡(luò)關(guān)系,對獲取的關(guān)鍵詞進行擴展的知識庫模塊;利用知識庫模塊提供的網(wǎng)絡(luò),將關(guān)鍵詞進行擴展得到更大詞條集的關(guān)鍵詞擴展模塊;將得到的關(guān)鍵詞的關(guān)聯(lián)詞條集進行處理、濾除噪聲、計算分?jǐn)?shù),并生成節(jié)目標(biāo)簽集的標(biāo)簽生成模塊。本發(fā)明填補了自動生成電視節(jié)目標(biāo)簽系統(tǒng)的空白,知識庫的引入,也使得系統(tǒng)不會受制于網(wǎng)絡(luò)頁面,有更好的擴展性,對標(biāo)簽也有更好的發(fā)現(xiàn)力。知識庫可以離線建立,標(biāo)簽生成算法簡潔,故系統(tǒng)效率也很高。
文檔編號G06F17/27GK102622451SQ20121011003
公開日2012年8月1日 申請日期2012年4月16日 優(yōu)先權(quán)日2012年4月16日
發(fā)明者朱其立, 王拯, 蔡智源 申請人:上海交通大學(xué)