識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法和系統(tǒng),方法包括:從抓取到的新聞網(wǎng)頁(yè)中分別提取標(biāo)題信息和正文信息;分別對(duì)標(biāo)題信息和正文信息進(jìn)行分析,根據(jù)標(biāo)題信息分析數(shù)據(jù)與正文信息分析數(shù)據(jù)計(jì)算標(biāo)題信息和正文信息的匹配度;根據(jù)標(biāo)題信息和正文信息的匹配度,判斷新聞網(wǎng)頁(yè)的屬性特征。本發(fā)明的優(yōu)點(diǎn)在于,可以識(shí)別新聞網(wǎng)頁(yè)的屬性特征,該屬性特征反映網(wǎng)頁(yè)標(biāo)題信息和正文信息的相關(guān)性,可以識(shí)別出其是否為“垃圾新聞”網(wǎng)頁(yè)。
【專利說明】識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法和系統(tǒng)。
【背景技術(shù)】
[0002]目前,網(wǎng)絡(luò)上存在大量的新聞網(wǎng)頁(yè),新聞網(wǎng)頁(yè)上具有豐富的新聞,供用戶進(jìn)行瀏覽,以獲取最新的新聞消息。而現(xiàn)在不少的新聞網(wǎng)頁(yè)上,被植入了一些和新聞無關(guān)的信息,這些通常對(duì)用戶毫無價(jià)值可言,對(duì)用戶來說成為“垃圾新聞”,只會(huì)干擾用戶的瀏覽。
[0003]例如,某新聞網(wǎng)頁(yè)的標(biāo)題信息為“來XXX玩游戲看電影”,正文信息為:“在奴隸社會(huì)下,沒有財(cái)產(chǎn)權(quán)的商人是軟弱的,在合法勞動(dòng)所得都不能得到保障的奴隸社會(huì),發(fā)展商業(yè)文明,是絕對(duì)不可行的……”。很明顯地,該新聞網(wǎng)頁(yè)提供的標(biāo)題信息和正文信息完全無關(guān),并非正常的新聞,而是“垃圾新聞”,其只會(huì)對(duì)用戶造成干擾,影響用戶正常的新聞閱讀?!袄侣劇睉?yīng)及時(shí)識(shí)別出來并進(jìn)行處理,以免對(duì)用戶造成干擾,但目前尚無有效的識(shí)別方案。
[0004]所以,本發(fā)明需要解決的技術(shù)問題在于,需要有一種技術(shù)方案來對(duì)新聞網(wǎng)頁(yè)的屬性特征進(jìn)行判斷。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法和系統(tǒng)。
[0006]依據(jù)本發(fā)明的一個(gè)方面,提供了一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,其包括:從抓取到的新聞網(wǎng)頁(yè)中分別提取標(biāo)題信息和正文信息;分別對(duì)標(biāo)題信息和正文信息進(jìn)行分析,根據(jù)標(biāo)題信息分析數(shù)據(jù)與正文信息分析數(shù)據(jù)計(jì)算標(biāo)題信息和正文信息的匹配度;根據(jù)標(biāo)題信息和正文信息的匹配度,判斷新聞網(wǎng)頁(yè)的屬性特征。
[0007]可選地,分別對(duì)標(biāo)題信息和正文信息進(jìn)行分析的步驟包括:從標(biāo)題信息中提取一個(gè)或多個(gè)詞作為關(guān)鍵詞;根據(jù)關(guān)鍵詞在正文信息中出現(xiàn)的頻率和/或位置,計(jì)算匹配度。
[0008]可選地,從標(biāo)題信息中提取一個(gè)或多個(gè)詞作為關(guān)鍵詞的步驟包括:提取標(biāo)題信息中包含的動(dòng)詞和/或名詞作為關(guān)鍵詞。
[0009]可選地,從標(biāo)題信息中提取一個(gè)或多個(gè)詞作為關(guān)鍵詞的步驟還包括:如關(guān)鍵詞的數(shù)量為多個(gè)且超過預(yù)定個(gè)數(shù),則保留其中預(yù)定個(gè)數(shù)的關(guān)鍵詞。
[0010]可選地,根據(jù)關(guān)鍵詞在正文信息中出現(xiàn)的頻率和/或位置,計(jì)算匹配度的步驟進(jìn)一步包括:根據(jù)關(guān)鍵詞在正文信息中出現(xiàn)的頻率和/或位置,得到關(guān)鍵詞的詞權(quán)重;按預(yù)定方式,計(jì)算正文信息的離散度;根據(jù)關(guān)鍵詞的詞權(quán)重和正文信息的離散度,計(jì)算匹配度。
[0011]可選地,根據(jù)關(guān)鍵詞在正文信息中出現(xiàn)的頻率和/或位置,得到關(guān)鍵詞的詞權(quán)重的步驟進(jìn)一步包括:根據(jù)每個(gè)關(guān)鍵詞在正文信息中首次出現(xiàn)的位置,計(jì)算每個(gè)關(guān)鍵詞的位置權(quán)重;根據(jù)每個(gè)關(guān)鍵詞在正文信息中出現(xiàn)的頻率,計(jì)算每個(gè)關(guān)鍵詞的頻率權(quán)重;根據(jù)每個(gè)關(guān)鍵詞的位置權(quán)重和/或頻率權(quán)重,得到每個(gè)關(guān)鍵詞的詞權(quán)重。
[0012]可選地,每個(gè)關(guān)鍵 詞的位置權(quán)重=a/log(b+first_position), a的值為第一常數(shù),b的值為第二常數(shù),first_position的值用于表示每個(gè)關(guān)鍵詞在正文信息中首次出現(xiàn)時(shí)的位置;每個(gè)關(guān)鍵詞的頻率權(quán)重=m/l0g(C+e~ ((n-freq) ~o)),e為自然常數(shù),m的值為第三常數(shù),η的值為第四常數(shù),ο的值為第五常數(shù),c為第六常數(shù),freq的值用于表示每個(gè)關(guān)鍵詞在正文信息中出現(xiàn)的次數(shù),符號(hào)~表示乘方。
[0013]可選地,按預(yù)定方式,計(jì)算正文信息的離散度的步驟進(jìn)一步包括:根據(jù)正文信息中出現(xiàn)的所有詞的數(shù)量,以及正文信息中出現(xiàn)的獨(dú)立詞的數(shù)量,計(jì)算正文信息的離散度,所有詞中排除重復(fù)出現(xiàn)的詞后得到獨(dú)立詞。
[0014]可選地,正文信息的離散度=所有詞的數(shù)量/獨(dú)立詞的數(shù)量;匹配度=所有關(guān)鍵詞的詞權(quán)重之和/ CnX正文信息的離散度),η為所有關(guān)鍵詞的數(shù)量。
[0015]可選地,在從抓取到的新聞網(wǎng)頁(yè)中分別提取標(biāo)題信息和正文信息的步驟還包括:響應(yīng)搜索請(qǐng)求獲取新聞網(wǎng)頁(yè);在根據(jù)標(biāo)題信息和正文信息的匹配度,判斷新聞網(wǎng)頁(yè)的屬性特征的步驟后,還包括:根據(jù)新聞網(wǎng)頁(yè)的屬性特征,判斷是否將新聞網(wǎng)頁(yè)的地址作為對(duì)應(yīng)搜索請(qǐng)求的搜索結(jié)果。
[0016]依據(jù)本發(fā)明的另一個(gè)方面,提供了一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),其包括:網(wǎng)頁(yè)數(shù)據(jù)庫(kù),適于存儲(chǔ)抓取到的網(wǎng)頁(yè);提取模塊,適于從抓取到的新聞網(wǎng)頁(yè)中分別提取標(biāo)題信息和正文信息;匹配度計(jì)算模塊,適于分別對(duì)標(biāo)題信息和正文信息進(jìn)行分析,根據(jù)標(biāo)題信息分析數(shù)據(jù)與正文信息分析數(shù)據(jù)計(jì)算標(biāo)題信息和正文信息的匹配度;屬性特征判斷模塊,適于根據(jù)標(biāo)題信息和正文信息的匹配度,判斷新聞網(wǎng)頁(yè)的屬性特征。
[0017]可選地,還包括:關(guān)鍵詞提取模塊,適于從標(biāo)題信息中提取一個(gè)或多個(gè)詞作為關(guān)鍵詞;匹配度計(jì)算模塊根據(jù)關(guān)鍵詞在正文信息中出現(xiàn)的頻率和/或位置,計(jì)算匹配度。
[0018]可選地,關(guān)鍵詞提取模塊提取標(biāo)題信息中包含的動(dòng)詞和/或名詞作為關(guān)鍵詞。
[0019]可選地,還包括:關(guān)鍵詞保留模塊,如關(guān)鍵詞的數(shù)量為多個(gè)且超過預(yù)定個(gè)數(shù),則保留其中預(yù)定個(gè)數(shù)的關(guān)鍵詞。
[0020]可選地,還包括:詞權(quán)重計(jì)算模塊,適于根據(jù)關(guān)鍵詞在正文信息中出現(xiàn)的頻率和/或位置,得到關(guān)鍵詞的詞權(quán)重;離散度計(jì)算模塊,適于按預(yù)定方式,計(jì)算正文信息的離散度;匹配度計(jì)算模塊根據(jù)關(guān)鍵詞的詞權(quán)重和正文信息的離散度,計(jì)算匹配度。
[0021]可選地,還包括:位置權(quán)重計(jì)算模塊,適于根據(jù)每個(gè)關(guān)鍵詞在正文信息中首次出現(xiàn)的位置,計(jì)算每個(gè)關(guān)鍵詞的位置權(quán)重;頻率權(quán)重計(jì)算模塊,適于根據(jù)每個(gè)關(guān)鍵詞在正文信息中出現(xiàn)的頻率,計(jì)算每個(gè)關(guān)鍵詞的頻率權(quán)重;詞權(quán)重計(jì)算模塊根據(jù)每個(gè)關(guān)鍵詞的位置權(quán)重和/或頻率權(quán)重,得到每個(gè)關(guān)鍵詞的詞權(quán)重。
[0022]可選地,每個(gè)關(guān)鍵詞的位置權(quán)重=a/log(b+first_position), a的值為第一常數(shù),b的值為第二常數(shù),first_position的值用于表示每個(gè)關(guān)鍵詞在正文信息中首次出現(xiàn)時(shí)的位置;每個(gè)關(guān)鍵詞的頻率權(quán)重=m/l0g(C+e~ ((n-freq) ~o)),e為自然常數(shù),m的值為第三常數(shù),η的值為第四常數(shù),ο的值為第五常數(shù),c為第六常數(shù),freq的值用于表示每個(gè)關(guān)鍵詞在正文信息中出現(xiàn)的次數(shù),符號(hào)~表示乘方。
[0023]可選地,離散度計(jì)算模塊根據(jù)正文信息中出現(xiàn)的所有詞的數(shù)量,以及正文信息中出現(xiàn)的獨(dú)立詞的數(shù)量,計(jì)算正文信息的離散度,所有詞中排除重復(fù)出現(xiàn)的詞后得到獨(dú)立詞。
[0024]可選地,正文信息的離散度=所有詞的數(shù)量/獨(dú)立詞的數(shù)量;匹配度=所有關(guān)鍵詞的詞權(quán)重之和/ CnX正文信息的離散度),η為所有關(guān)鍵詞的數(shù)量。[0025]可選地,還包括:搜索請(qǐng)求響應(yīng)模塊,適于響應(yīng)搜索請(qǐng)求從網(wǎng)頁(yè)數(shù)據(jù)庫(kù)獲取新聞網(wǎng)頁(yè);搜索結(jié)果判斷模塊,適于根據(jù)新聞網(wǎng)頁(yè)的屬性特征,判斷是否將新聞網(wǎng)頁(yè)的地址作為對(duì)應(yīng)搜索請(qǐng)求的搜索結(jié)果。
[0026]根據(jù)本發(fā)明的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法和系統(tǒng),計(jì)算新聞網(wǎng)頁(yè)的標(biāo)題信息和正文信息的匹配度,而通過匹配度判斷得到的屬性特征實(shí)際上反映了新聞網(wǎng)頁(yè)的標(biāo)題信息和正文信息的相關(guān)性,如標(biāo)題信息和正文信息毫不相關(guān),則可以將新聞網(wǎng)頁(yè)的內(nèi)容判斷為“垃圾新聞”,以便于及時(shí)對(duì)其進(jìn)行過濾等處理,避免對(duì)用戶的新聞瀏覽造成干擾。
[0027]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說明】
[0028]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0029]圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法的流程圖;
[0030]圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法的部分流程圖;
[0031]圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法的部分流程圖;
[0032]圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法的部分流程圖;
[0033]圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng)的框圖;
[0034]圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng)的框圖;
[0035]圖7示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng)的框圖;
[0036]圖8示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng)的框圖;
[0037]圖9示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng)的框圖;
[0038]圖10示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng)的框圖。
【具體實(shí)施方式】
[0039]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0040]如圖1所示,本發(fā)明的一個(gè)實(shí)施例提供了一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,其包括:步驟110,從抓取到的新聞網(wǎng)頁(yè)中分別提取標(biāo)題信息和正文信息,例如前述的新聞網(wǎng)頁(yè)中“來XXX玩游戲看電影”為標(biāo)題信息,“在奴隸社會(huì)下……”為正文信息;步驟120,分別對(duì)標(biāo)題信息和正文信息進(jìn)行分析,根據(jù)標(biāo)題信息分析數(shù)據(jù)與正文信息分析數(shù)據(jù)計(jì)算標(biāo)題信息和正文信息的匹配度;步驟130,根據(jù)標(biāo)題信息和正文信息的匹配度,判斷新聞網(wǎng)頁(yè)的屬性特征,則該屬性特征反映了標(biāo)題信息和正文信息的相關(guān)性,例如,如“來XXX玩游戲看電影”與“在奴隸社會(huì)下……”之間的相關(guān)性較差,則說明該新聞網(wǎng)頁(yè)提供的新聞非正常,即為“垃圾新聞”,識(shí)別出“垃圾新聞”有利于及時(shí)對(duì)其進(jìn)行過濾等處理,避免對(duì)用戶的新聞瀏覽造成干擾。
[0041]如圖2所示,本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,與上述實(shí)施例相比,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,步驟120可以包括:步驟121,從標(biāo)題信息中提取一個(gè)或多個(gè)詞作為關(guān)鍵詞,例如從“來XXX玩游戲看電影”中提取“XXX”、“游戲”等作為關(guān)鍵詞;步驟122,根據(jù)關(guān)鍵詞在正文信息中出現(xiàn)的頻率和/或位置,例如某關(guān)鍵詞在正文信息中頻率為出現(xiàn)5次,位置為第2個(gè)字符開始、第20個(gè)字符開始……等,計(jì)算匹配度,本實(shí)施例中利用關(guān)鍵詞完成匹配度的計(jì)算,得到的結(jié)果可以很好地反映標(biāo)題信息和正文信息之間的相關(guān)性。匹配度的計(jì)算方式包括但不限于前述的方式,在本發(fā)明的另一實(shí)施例中,還可以直接利用標(biāo)題信息和正文信息中相同的字?jǐn)?shù)或詞數(shù),來計(jì)算匹配度。
[0042]本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,與上述實(shí)施例相t匕,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,步驟121包括:提取標(biāo)題信息中包含的動(dòng)詞和/或名詞作為關(guān)鍵詞,動(dòng)詞和名詞作為關(guān)鍵詞可以表示標(biāo)題信息的實(shí)質(zhì)內(nèi)容,則計(jì)算得到的匹配度可以很好地反映標(biāo)題信息與正文信息在實(shí)質(zhì)內(nèi)容上的關(guān)聯(lián)。關(guān)鍵詞的提取方式包括但不限于前述的方式,在本發(fā)明的另一實(shí)施例中,還隨機(jī)從標(biāo)題信息中提取詞語作為關(guān)鍵詞。
[0043]本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,與上述實(shí)施例相t匕,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,步驟121還包括:如關(guān)鍵詞的數(shù)量為多個(gè)且超過預(yù)定個(gè)數(shù),則保留其中預(yù)定個(gè)數(shù)的關(guān)鍵詞,例如關(guān)鍵詞的數(shù)量超過5個(gè),則僅保留其中的5個(gè),保留有限的關(guān)鍵詞有利于提高匹配度計(jì)算的效率。
[0044]如圖3所示,本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,與上述實(shí)施例相比,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)`屬性特征的方法,步驟122進(jìn)一步包括:步驟1221,根據(jù)關(guān)鍵詞在正文信息中出現(xiàn)的頻率和/或位置,得到關(guān)鍵詞的詞權(quán)重;步驟1222,按預(yù)定方式,計(jì)算正文信息的離散度;步驟1223,根據(jù)關(guān)鍵詞的詞權(quán)重和正文信息的離散度,計(jì)算匹配度,本實(shí)施例中結(jié)合正文信息的離散度,得到的匹配度可以更準(zhǔn)確地反映標(biāo)題信息和正文信息的相關(guān)性。
[0045]如圖4所示,本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,與上述實(shí)施例相比,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,步驟1221進(jìn)一步包括:步驟12211,根據(jù)每個(gè)關(guān)鍵詞在正文信息中首次出現(xiàn)的位置,計(jì)算每個(gè)關(guān)鍵詞的位置權(quán)重,僅利用首次出現(xiàn)位置有利于提高計(jì)算效率;步驟12212,根據(jù)每個(gè)關(guān)鍵詞在正文信息中出現(xiàn)的頻率,計(jì)算每個(gè)關(guān)鍵詞的頻率權(quán)重;步驟12213,根據(jù)每個(gè)關(guān)鍵詞的位置權(quán)重和/或頻率權(quán)重,得到每個(gè)關(guān)鍵詞的詞權(quán)重,本實(shí)施例技術(shù)方案中,提供了一種易于實(shí)現(xiàn)的計(jì)算關(guān)鍵詞的詞權(quán)重的方案。關(guān)鍵詞詞權(quán)重的計(jì)算方式包括但不限于前述方式,在本發(fā)明的另一個(gè)實(shí)施例中,還利用關(guān)鍵詞的多次出現(xiàn)位置來計(jì)算關(guān)鍵位置權(quán)重,并進(jìn)一步計(jì)算詞權(quán)重。
[0046]本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,與上述實(shí)施例相t匕,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,每個(gè)關(guān)鍵詞的位置權(quán)重=a/log(b+firSt_position), a的值為第一常數(shù),b的值為第二常數(shù),first_position的值用于表示每個(gè)關(guān)鍵詞在正文信息中首次出現(xiàn)時(shí)的位置,例如首次出現(xiàn)在第2個(gè)字符則取2,在本實(shí)施例的一個(gè)可選方式中,每個(gè)關(guān)鍵詞的詞權(quán)重=l/log (10+first_position),本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,a、b的取值不限于1、10,還可以是其他常數(shù);每個(gè)關(guān)鍵詞的頻率權(quán)重=m/log(c+e^ ((n-freq) ^o)), e為自然常數(shù),m的值為第三常數(shù),n的值為第四常數(shù),ο的值為第五常數(shù),c為第六常數(shù),freq的值用于表示每個(gè)關(guān)鍵詞在正文信息中出現(xiàn)的次數(shù),例如,關(guān)鍵詞出現(xiàn)5次則取5,符號(hào)^表不乘方,在本實(shí)施例的一個(gè)可選方式中,具體參數(shù)取值可以為m=l,c=l,n=9,o=2,每個(gè)關(guān)鍵詞的頻率權(quán)重=l/log(l+e…^ ((9-freq) ^2)),本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,m、C、n、ο的取值不限于1、1、9、2,還可以根據(jù)具體情況分別調(diào)整為其他常數(shù)。
[0047]本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,與上述實(shí)施例相t匕,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,步驟1222進(jìn)一步包括:根據(jù)正文信息中出現(xiàn)的所有詞的數(shù)量,以及正文信息中出現(xiàn)的獨(dú)立詞的數(shù)量,計(jì)算正文信息的離散度,所有詞中排除重復(fù)出現(xiàn)的詞后得到獨(dú)立詞,例如所有詞為50個(gè),排除重復(fù)出現(xiàn)的詞后得到獨(dú)立詞為42個(gè),本實(shí)施例中提供了一種計(jì)算正文信息的離散度的方式,可以反映正文信息的離散性。離散度的計(jì)算方式包括但不限于前述方式,在本發(fā)明的另一實(shí)施例中,還將獨(dú)立詞的字?jǐn)?shù)與正文信息總字?jǐn)?shù)進(jìn)行比較,得到離散度,也可以反映正文信息的離散性。
[0048]本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,與上述實(shí)施例相t匕,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,正文信息的離散度=所有詞的數(shù)量/獨(dú)立詞的數(shù)量;匹配度=所有關(guān)鍵詞的詞權(quán)重之和/ CnX正文信息的離散度),n為所有關(guān)鍵詞的數(shù)量,本實(shí)施例中提供了一種易于實(shí)現(xiàn)的計(jì)算匹配度的方式,結(jié)合前述實(shí)施例中提供的公式,可以計(jì)算出“來XXX玩游戲看電影”的標(biāo)題信息和“在奴隸社會(huì)下……”的正文信息之間匹配度為0,則說明標(biāo)題信息和正文信息完全無關(guān),可將其內(nèi)容識(shí)別為“垃圾新聞”。匹配度的取值也不僅限于只有等于“O”時(shí),才會(huì)判定新聞網(wǎng)頁(yè)屬性為欺騙類或垃圾類,可以根據(jù)具體適用情況設(shè)置和調(diào)整不同的匹配度閾值,從而可以更有效的過濾新聞網(wǎng)頁(yè)屬性。同時(shí),匹配度的計(jì)算方式包括但不限于前述方式,在本發(fā)明的另一實(shí)施例中,可以取消上述公式中的η。
[0049]本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,與上述實(shí)施例相t匕,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,步驟110還包括:響應(yīng)搜索請(qǐng)求獲取新聞網(wǎng)頁(yè);在步驟130后,還包括:根據(jù)新聞網(wǎng)頁(yè)的屬性特征,判斷是否將新聞網(wǎng)頁(yè)的地址作為對(duì)應(yīng)搜索請(qǐng)求的搜索結(jié)果,本實(shí)施例的技術(shù)方案中,搜索引擎為用戶搜索到新聞網(wǎng)頁(yè)后,可識(shí)別其是否為“垃圾新聞”網(wǎng)頁(yè),如其為“垃圾新聞”網(wǎng)頁(yè)則過濾掉,僅將剩余新聞網(wǎng)頁(yè)作為搜索結(jié)果提供給用戶,保證了用戶的正常瀏覽。
[0050]如圖5所示,本發(fā)明的一個(gè)實(shí)施例提供了一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),其包括:網(wǎng)頁(yè)數(shù)據(jù)庫(kù)201,適于存儲(chǔ)抓取到的網(wǎng)頁(yè);提取模塊202,適于從抓取到的新聞網(wǎng)頁(yè)中分別提取標(biāo)題信息和正文信息,例如前述的新聞網(wǎng)頁(yè)中“來XXX玩游戲看電影”為標(biāo)題信息,“在奴隸社會(huì)下……”為正文信息;匹配度計(jì)算模塊203,適于分別對(duì)標(biāo)題信息和正文信息進(jìn)行分析,根據(jù)標(biāo)題信息分析數(shù)據(jù)與正文信息分析數(shù)據(jù)計(jì)算標(biāo)題信息和正文信息的匹配度;屬性特征判斷模塊204,適于根據(jù)標(biāo)題信息和正文信息的匹配度,判斷新聞網(wǎng)頁(yè)的屬性特征,則該屬性特征反映了標(biāo)題信息和正文信息的相關(guān)性,例如,如“來XXX玩游戲看電影”與“在奴隸社會(huì)下……”之間的相關(guān)性較差,則說明該新聞網(wǎng)頁(yè)提供的新聞非正常,即為“垃圾新聞”,識(shí)別出“垃圾新聞”有利于及時(shí)對(duì)其進(jìn)行過濾等處理,避免對(duì)用戶的新聞瀏覽造成干擾。
[0051]如圖6所示,本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),與上述實(shí)施例相比,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),還包括:關(guān)鍵詞提取模塊205,適于從標(biāo)題信息中提取一個(gè)或多個(gè)詞作為關(guān)鍵詞,例如從“來XXX玩游戲看電影”中提取“XXX”、“游戲”等作為關(guān)鍵詞;匹配度計(jì)算模塊203根據(jù)關(guān)鍵詞在正文信息中出現(xiàn)的頻率和/或位置,例如某關(guān)鍵詞在正文信息中頻率為出現(xiàn)5次,位置為第2個(gè)字符開始、第20個(gè)字符開始……等計(jì)算匹配度,本實(shí)施例中利用關(guān)鍵詞完成匹配度的計(jì)算,得到的結(jié)果可以很好地反映標(biāo)題信息和正文信息之間的相關(guān)性。匹配度的計(jì)算方式包括但不限于前述的方式,在本發(fā)明的另一實(shí)施例中,還可以直接利用標(biāo)題信息和正文信息中相同的字?jǐn)?shù)或詞數(shù),來計(jì)算匹配度。
[0052]本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),與上述實(shí)施例相t匕,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),關(guān)鍵詞提取模塊205提取標(biāo)題信息中包含的動(dòng)詞和/或名詞作為關(guān)鍵詞,動(dòng)詞和名詞作為關(guān)鍵詞可以表示標(biāo)題信息的實(shí)質(zhì)內(nèi)容,則計(jì)算得到的匹配度可以很好地反映標(biāo)題信息與正文信息在實(shí)質(zhì)內(nèi)容上的關(guān)聯(lián)。關(guān)鍵詞的提取方式包括但不限于前述的方式,在本發(fā)明的另一實(shí)施例中,還隨機(jī)從標(biāo)題信息中提取詞語作為關(guān)鍵詞。
[0053]如圖7所示,本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),與上述實(shí)施例相比,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),還包括:關(guān)鍵詞保留模塊206,如關(guān)鍵詞的數(shù)量為多個(gè)且超過預(yù)定個(gè)數(shù),則保留其中預(yù)定個(gè)數(shù)的關(guān)鍵詞,例如關(guān)鍵詞的數(shù)量超過5個(gè),則僅保留其中的5個(gè),保留有限的關(guān)鍵詞有利于提高匹配度計(jì)算的效率。
[0054]如圖8所示,本發(fā) 明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),與上述實(shí)施例相比,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),還包括:詞權(quán)重計(jì)算模塊207,適于根據(jù)關(guān)鍵詞在正文信息中出現(xiàn)的頻率和/或位置,得到關(guān)鍵詞的詞權(quán)重;離散度計(jì)算模塊208,適于按預(yù)定方式,計(jì)算正文信息的離散度;匹配度計(jì)算模塊203根據(jù)關(guān)鍵詞的詞權(quán)重和正文信息的離散度,計(jì)算匹配度,本實(shí)施例中結(jié)合正文信息的離散度,得到的匹配度可以更準(zhǔn)確地反映標(biāo)題信息和正文信息的相關(guān)性。
[0055]如圖9所示,本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),與上述實(shí)施例相比,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),還包括:位置權(quán)重計(jì)算模塊209,適于根據(jù)每個(gè)關(guān)鍵詞在正文信息中首次出現(xiàn)的位置,計(jì)算每個(gè)關(guān)鍵詞的位置權(quán)重,僅利用首次出現(xiàn)位置有利于提高計(jì)算效率;頻率權(quán)重計(jì)算模塊210,適于根據(jù)每個(gè)關(guān)鍵詞在正文信息中出現(xiàn)的頻率,計(jì)算每個(gè)關(guān)鍵詞的頻率權(quán)重;詞權(quán)重計(jì)算模塊207根據(jù)每個(gè)關(guān)鍵詞的位置權(quán)重和/或頻率權(quán)重,得到每個(gè)關(guān)鍵詞的詞權(quán)重,本實(shí)施例技術(shù)方案中,提供了一種易于實(shí)現(xiàn)的計(jì)算關(guān)鍵詞的詞權(quán)重的方案。關(guān)鍵詞詞權(quán)重的計(jì)算方式包括但不限于前述方式,在本發(fā)明的另一個(gè)實(shí)施例中,還利用關(guān)鍵詞的多次出現(xiàn)位置來計(jì)算關(guān)鍵位置權(quán)重,并進(jìn)一步計(jì)算詞權(quán)重。
[0056]本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),與上述實(shí)施例相t匕,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),每個(gè)關(guān)鍵詞的位置權(quán)重=a/log(b+firSt_position), a的值為第一常數(shù),b的值為第二常數(shù),first_position的值用于表示每個(gè)關(guān)鍵詞在正文信息中首次出現(xiàn)時(shí)的位置,例如首次出現(xiàn)在第2個(gè)字符則取2,在本實(shí)施例的一個(gè)可選方式中,每個(gè)關(guān)鍵詞的詞權(quán)重=l/log (10+first_position),本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,a、b的取值不限于1、10,還可以是其他常數(shù);每個(gè)關(guān)鍵詞的頻率權(quán)重=m/log(c+e~ ((n-freq) ~o)), e為自然常數(shù),m的值為第三常數(shù),n的值為第四常數(shù),ο的值為第五常數(shù),c為第六常數(shù),freq的值用于表示每個(gè)關(guān)鍵詞在正文信息中出現(xiàn)的次數(shù),例如,關(guān)鍵詞出現(xiàn)5次則取5,符號(hào)~表不乘方,在本實(shí)施例的一個(gè)可選方式中,具體參數(shù)取值可以為m=l,c=l,n=9,o=2,每個(gè)關(guān)鍵詞的頻率權(quán)重=l/log(l+e~ ((9-freq) "2)),本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,m、C、η、ο的取值不限于1、1、9、2,還可以根據(jù)具體情況分別調(diào)整為其他常數(shù)。
[0057]本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),與上述實(shí)施例相t匕,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),離散度計(jì)算模塊208根據(jù)正文信息中出現(xiàn)的所有詞的數(shù)量,以及正文信息中出現(xiàn)的獨(dú)立詞的數(shù)量,計(jì)算正文信息的離散度,所有詞中排除重復(fù)出現(xiàn)的詞后得到獨(dú)立詞,例如所有詞為50個(gè),排除重復(fù)出現(xiàn)的詞后得到獨(dú)立詞為42個(gè),本實(shí)施例中提供了一種計(jì)算正文信息的離散度的方式,可以反映正文信息的離散性。離散度的計(jì)算方式包括但不限于前述方式,在本發(fā)明的另一實(shí)施例中,還將獨(dú)立詞的字?jǐn)?shù)與正文信息總字?jǐn)?shù)進(jìn)行比較,得到離散度,也可以反映正文信息的離散性。
[0058]本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),與上述實(shí)施例相t匕,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),正文信息的離散度=所有詞的數(shù)量/獨(dú)立詞的數(shù)量;匹配度=所有關(guān)鍵詞的詞權(quán)重之和/ CnX正文信息的離散度),n為所有關(guān)鍵詞的數(shù)量,本實(shí)施例中提供了一種易于實(shí)現(xiàn)的計(jì)算匹配度的方式,結(jié)合前述實(shí)施例中提供的公式,可以計(jì)算出“來XXX玩游戲看電影”的標(biāo)題信息和“在奴隸社會(huì)下……”的正文信息之間匹配度為0,則說明標(biāo)題信息和正文信息完全無關(guān),可將其內(nèi)容識(shí)別為“垃圾新聞”。匹配度的取值也不僅限于只有等于“O”時(shí),才會(huì)判定新聞網(wǎng)頁(yè)屬性為欺騙類或垃圾類,可以根據(jù)具體適用情況設(shè)置和調(diào)整不同的匹配度閾值,從而可以更有效的過濾新聞網(wǎng)頁(yè)屬性。同時(shí),匹配度的計(jì)算方式包括但不限于前述方式,在本發(fā)明的另一實(shí)施例中,可以取消上述公式中的η。
[0059]如圖10所示,本發(fā)明的另一實(shí)施例提出一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),與上述實(shí)施例相比,本實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),還包括:搜索請(qǐng)求響應(yīng)模塊211,適于響應(yīng)搜索請(qǐng)求從網(wǎng)頁(yè)數(shù)據(jù)庫(kù)201獲取新聞網(wǎng)頁(yè);搜索結(jié)果判斷模塊212,適于根據(jù)新聞網(wǎng)頁(yè)的屬性特征,判斷是否將新聞網(wǎng)頁(yè)的地址作為對(duì)應(yīng)搜索請(qǐng)求的搜索結(jié)果,本實(shí)施例的技術(shù)方案中,搜索引擎為用戶搜索到新聞網(wǎng)頁(yè)后,可識(shí)別其是否為“垃圾新聞”網(wǎng)頁(yè),如其為“垃圾新聞”網(wǎng)頁(yè)則過濾掉,僅將剩余新聞網(wǎng)頁(yè)作為搜索結(jié)果提供給用戶,保證了用戶的正常瀏覽。
[0060]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0061]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0062]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0063]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0064]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0065]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0066]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
【權(quán)利要求】
1.一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,其包括: 從抓取到的新聞網(wǎng)頁(yè)中分別提取標(biāo)題信息和正文信息; 分別對(duì)所述標(biāo)題信息和所述正文信息進(jìn)行分析,根據(jù)標(biāo)題信息分析數(shù)據(jù)與正文信息分析數(shù)據(jù)計(jì)算所述標(biāo)題信息和所述正文信息的匹配度; 根據(jù)所述標(biāo)題信息和所述正文信息的匹配度,判斷所述新聞網(wǎng)頁(yè)的屬性特征。
2.根據(jù)權(quán)利要求1所述的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,其中,所述分別對(duì)所述標(biāo)題信息和所述正文信息進(jìn)行分析的步驟包括: 從所述標(biāo)題信息中提取一個(gè)或多個(gè)詞作為關(guān)鍵詞; 根據(jù)所述關(guān)鍵詞在所述正文信息中出現(xiàn)的頻率和/或位置,計(jì)算所述匹配度。
3.根據(jù)權(quán)利要求1或2所述的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,其中,所述從所述標(biāo)題信息中提取一個(gè)或多個(gè)詞作為關(guān)鍵詞的步驟包括: 提取所述標(biāo)題信息中包含的動(dòng)詞和/或名詞作為關(guān)鍵詞。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,其中,所述從所述標(biāo)題信息中提取一個(gè)或多個(gè)詞作為關(guān)鍵詞的步驟還包括: 如所述關(guān)鍵詞的數(shù)量為多個(gè)且超過預(yù)定個(gè)數(shù),則保留其中預(yù)定個(gè)數(shù)的關(guān)鍵詞。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的識(shí)別新聞網(wǎng)頁(yè)屬性特征的方法,其中,所述根據(jù)所述關(guān)鍵詞在所述正文信息中 出現(xiàn)的頻率和/或位置,計(jì)算所述匹配度的步驟進(jìn)一步包括: 根據(jù)所述關(guān)鍵詞在所述正文信息中出現(xiàn)的頻率和/或位置,得到所述關(guān)鍵詞的詞權(quán)重; 按預(yù)定方式,計(jì)算所述正文信息的離散度; 根據(jù)所述關(guān)鍵詞的詞權(quán)重和所述正文信息的離散度,計(jì)算所述匹配度。
6.一種識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),其包括: 網(wǎng)頁(yè)數(shù)據(jù)庫(kù),適于存儲(chǔ)抓取到的網(wǎng)頁(yè); 提取模塊,適于從抓取到的新聞網(wǎng)頁(yè)中分別提取標(biāo)題信息和正文信息; 匹配度計(jì)算模塊,適于分別對(duì)所述標(biāo)題信息和所述正文信息進(jìn)行分析,根據(jù)標(biāo)題信息分析數(shù)據(jù)與正文信息分析數(shù)據(jù)計(jì)算所述標(biāo)題信息和所述正文信息的匹配度; 屬性特征判斷模塊,適于根據(jù)所述標(biāo)題信息和所述正文信息的匹配度,判斷所述新聞網(wǎng)頁(yè)的屬性特征。
7.根據(jù)權(quán)利要求6所述的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),其中,還包括: 關(guān)鍵詞提取模塊,適于從所述標(biāo)題信息中提取一個(gè)或多個(gè)詞作為關(guān)鍵詞; 所述匹配度計(jì)算模塊根據(jù)所述關(guān)鍵詞在所述正文信息中出現(xiàn)的頻率和/或位置,計(jì)算所述匹配度。
8.根據(jù)權(quán)利要求6或7所述的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),其中,所述關(guān)鍵詞提取模塊提取所述標(biāo)題信息中包含的動(dòng)詞和/或名詞作為關(guān)鍵詞。
9.根據(jù)權(quán)利要求6-8任一項(xiàng)所述的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),其中,還包括: 關(guān)鍵詞保留模塊,如所述關(guān)鍵詞的數(shù)量為多個(gè)且超過預(yù)定個(gè)數(shù),則保留其中預(yù)定個(gè)數(shù)的關(guān)鍵詞。
10.根據(jù)權(quán)利要求6-9任一項(xiàng)所述的識(shí)別新聞網(wǎng)頁(yè)屬性特征的系統(tǒng),其中,還包括: 詞權(quán)重計(jì)算模塊,適于根據(jù)所述關(guān)鍵詞在所述正文信息中出現(xiàn)的頻率和/或位置,得到所述關(guān)鍵詞的詞權(quán)重; 離散度計(jì)算模塊,適于按預(yù)定方式,計(jì)算所述正文信息的離散度; 所述匹配度計(jì)算模塊根據(jù)所述關(guān)鍵詞的詞權(quán)重和所述正文信息的離散度,計(jì)算所述匹 配度。
【文檔編號(hào)】G06F17/30GK103617213SQ201310585455
【公開日】2014年3月5日 申請(qǐng)日期:2013年11月19日 優(yōu)先權(quán)日:2013年11月19日
【發(fā)明者】韓孟崗 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司