欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)頁分類字典生成方法及裝置與流程

文檔序號(hào):11950611閱讀:569來源:國知局
網(wǎng)頁分類字典生成方法及裝置與流程

本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù)領(lǐng)域,特別涉及一種網(wǎng)頁分類字典生成方法及裝置。



背景技術(shù):

互聯(lián)網(wǎng)中的網(wǎng)站數(shù)目異常龐大,并且網(wǎng)站種類繁多,如新聞?lì)惖?、體育類的和購物類的等等。面對(duì)各種各樣的網(wǎng)站,企業(yè)或者各組織會(huì)希望內(nèi)部工作人員只訪問與工作相關(guān)的網(wǎng)站,如何對(duì)內(nèi)部工作人員可訪問的網(wǎng)站進(jìn)行過濾是非常迫切和重要的一個(gè)需求。那么此時(shí)就需要對(duì)各網(wǎng)站進(jìn)行分類,根據(jù)網(wǎng)站所屬類別,對(duì)網(wǎng)站進(jìn)行過濾,從而濾除不允許訪問的網(wǎng)站。

面對(duì)互聯(lián)網(wǎng)中海量的網(wǎng)站,可以針對(duì)網(wǎng)站對(duì)應(yīng)的URL(Uniform Resource Locator,統(tǒng)一資源定位符)進(jìn)行分類,在對(duì)URL設(shè)置合理的分類時(shí),一般采用自動(dòng)化分類的方式,自動(dòng)化分類的過程一般為:首先學(xué)習(xí)樣本,根據(jù)學(xué)習(xí)結(jié)果(樣本文件中樣本詞語的重要程度)生成網(wǎng)頁分類字典,然后依靠網(wǎng)頁分類字典對(duì)未知類型的URL(網(wǎng)頁)進(jìn)行分類識(shí)別。可見,自動(dòng)化分類結(jié)果是否準(zhǔn)確,很大程度上依賴于網(wǎng)頁分類字典的準(zhǔn)確性。

現(xiàn)有技術(shù)中,評(píng)估樣本文件中樣本詞語的重要程度時(shí),僅考慮樣本詞語所在樣本文件的文件數(shù)量,所確定的樣本文件中樣本詞語的重要程度(即所對(duì)應(yīng)的權(quán)重值)準(zhǔn)確度不高,進(jìn)而導(dǎo)致生成的網(wǎng)頁分類字典準(zhǔn)確度不高。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例公開了一種網(wǎng)頁分類字典生成方法及裝置,以生成準(zhǔn)確度更高的網(wǎng)頁分類字典。具體方案如下:

一方面,本發(fā)明實(shí)施例提供了一種網(wǎng)頁分類字典生成方法,所述方法包括:

根據(jù)預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn),確定各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本統(tǒng)一資源定位符URL,其中,所述網(wǎng)頁分類標(biāo)準(zhǔn)中包含網(wǎng)頁分類類別;

根據(jù)各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本URL,獲取所對(duì)應(yīng)的樣本網(wǎng)頁內(nèi)容;

從所獲取的樣本網(wǎng)頁內(nèi)容中,分別提取出所述樣本網(wǎng)頁內(nèi)容中的樣本文本信息,并對(duì)所述樣本文本信息進(jìn)行分詞處理,得到每一所提取出的樣本文本信息對(duì)應(yīng)的樣本詞語;

從預(yù)先存儲(chǔ)的多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系中,篩選出與所述樣本詞語對(duì)應(yīng)的逆向詞語頻率值,其中,所述逆向詞語頻率值為:根據(jù)每一學(xué)習(xí)詞語在所對(duì)應(yīng)學(xué)習(xí)文本信息中的出現(xiàn)次數(shù)所確定的值;

將所述樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中。

另一方面,本發(fā)明實(shí)施例提供了一種網(wǎng)頁分類字典生成裝置,所述裝置包括:第一確定模塊、獲取模塊、提取模塊、分詞模塊、第二確定模塊和存儲(chǔ)模塊;

所述第一確定模塊:用于根據(jù)預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn),確定各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本統(tǒng)一資源定位符URL,其中,所述網(wǎng)頁分類標(biāo)準(zhǔn)中包含網(wǎng)頁分類類別;

所述獲取模塊:用于根據(jù)各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本URL,獲取所對(duì)應(yīng)的樣本網(wǎng)頁內(nèi)容;

所述提取模塊:用于從所獲取的樣本網(wǎng)頁內(nèi)容中,分別提取出所述樣本網(wǎng)頁內(nèi)容中的樣本文本信息;

所述分詞模塊:用于對(duì)所述樣本文本信息進(jìn)行分詞處理,得到每一所提取出的樣本文本信息對(duì)應(yīng)的樣本詞語;

所述第二確定模塊:用于從預(yù)先存儲(chǔ)的多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系中,篩選出與所述樣本詞語對(duì)應(yīng)的逆向詞語頻率值,其中,所述逆向詞語頻率值為:根據(jù)每一學(xué)習(xí)詞語在所對(duì)應(yīng)學(xué)習(xí)文本信息中的出現(xiàn)次數(shù)所確定的值;

所述存儲(chǔ)模塊:用于將所述樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中。

在本方案中,根據(jù)預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn),確定各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本統(tǒng)一資源定位符URL,并獲取各個(gè)樣本URL所對(duì)應(yīng)的樣本網(wǎng)頁內(nèi)容;提取各個(gè)樣本網(wǎng)頁內(nèi)容中的樣本文本信息,并對(duì)該文本信息進(jìn)行分詞處理,從樣本文本信息中得到對(duì)應(yīng)的樣本詞語;從預(yù)先存儲(chǔ)的多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系中,篩選出與該樣本詞語對(duì)應(yīng)的逆向詞語頻率值,其中,逆向詞語頻率值為:根據(jù)每一學(xué)習(xí)詞語在所對(duì)應(yīng)學(xué)習(xí)文本信息中的出現(xiàn)次數(shù)所確定的值,可見,本方法中,確定每一樣本詞語的逆向詞語頻率值時(shí),充分考慮了每一詞語在所有文本信息中出現(xiàn)的次數(shù),即充分考慮了詞語與文本信息之間存在的關(guān)系,更好體現(xiàn)了詞語的重要程度;將樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中。以生成準(zhǔn)確度更高的網(wǎng)頁分類字典,進(jìn)而在使用該網(wǎng)頁分類字典時(shí)可以提高網(wǎng)頁分類的準(zhǔn)確度。

當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例提供的一種網(wǎng)頁分類字典生成方法的流程示意圖;

圖2為本發(fā)明實(shí)施例提供的一種逆向詞語頻率值確定的流程示意圖;

圖3為本發(fā)明實(shí)施例提供的一種網(wǎng)頁分類字典生成裝置的結(jié)構(gòu)示意圖;

圖4為本發(fā)明實(shí)施例提供的一種網(wǎng)頁分類字典生成裝置的另一結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明實(shí)施例提供了一種網(wǎng)頁分類字典生成方法及裝置,以生成準(zhǔn)確度更高的網(wǎng)頁分類字典。

下面首先對(duì)本發(fā)明實(shí)施例所提供了一種網(wǎng)頁分類字典生成方法進(jìn)行介紹。

如圖1所示,本發(fā)明實(shí)施例所提供的一種網(wǎng)頁分類字典生成方法,可以包括如下步驟:

S101:根據(jù)預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn),確定各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本統(tǒng)一資源定位符URL,其中,該網(wǎng)頁分類標(biāo)準(zhǔn)中包含網(wǎng)頁分類類別;

可以理解的是,根據(jù)預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn),確定各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本URL,其中,該預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn)可以通過管理人員自主設(shè)置,該網(wǎng)頁分類標(biāo)準(zhǔn)中包含網(wǎng)頁分類類別,如:體育、購物、旅游和金融等等。同時(shí),該預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn)所包含的網(wǎng)頁分類類別可以是一級(jí)分類(如上),也可以在一級(jí)分類中繼續(xù)細(xì)分二級(jí)分類(如:一級(jí)分類中的金融可以繼續(xù)細(xì)分為銀行和證券等二級(jí)分類),繼而細(xì)分三級(jí)分類(如一級(jí)分類中旅游可以繼續(xù)細(xì)分為國內(nèi)旅游和國外旅游等二級(jí)分類,其中,二級(jí)分類國內(nèi)旅游可以繼續(xù)細(xì)分為江浙旅游地區(qū)和東三省旅游地區(qū)等三級(jí)分類)。

S102:根據(jù)各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本URL,獲取所對(duì)應(yīng)的樣本網(wǎng)頁內(nèi)容;

需要說明的是,訪問所確定的各個(gè)樣本URL所對(duì)應(yīng)的網(wǎng)頁,并且通過爬蟲工具等獲取各個(gè)樣本URL所對(duì)應(yīng)的樣本網(wǎng)頁內(nèi)容,并針對(duì)所獲得的各個(gè)樣本網(wǎng)頁內(nèi)容,進(jìn)行后續(xù)的網(wǎng)頁分類字典生成流程。

S103:從所獲取的樣本網(wǎng)頁內(nèi)容中,分別提取出該樣本網(wǎng)頁內(nèi)容中的樣本文本信息,并對(duì)該樣本文本信息進(jìn)行分詞處理,得到每一所提取出的樣本文本信息對(duì)應(yīng)的樣本詞語;

可以理解的是,所獲取的樣本網(wǎng)頁內(nèi)容中既包含針對(duì)本發(fā)明實(shí)施例所提供的網(wǎng)頁分類字典生成方法的有效信息,即樣本文本信息,又包含固有的腳本信息以及代碼等無用字符集,從所獲取的樣本網(wǎng)頁內(nèi)容中,分別提取出該樣本網(wǎng)頁內(nèi)容中的樣本文本信息,去除該固有的腳本信息以及代碼等無用字符集。其中,可以采用現(xiàn)有的任一分詞工具對(duì)所提取出的各個(gè)樣本文本信息進(jìn)行分詞處理,得到每一所提取出的樣本文本信息對(duì)應(yīng)的樣本詞語。

需要強(qiáng)調(diào)的是,在實(shí)際應(yīng)用中,在獲取各個(gè)樣本URL所對(duì)應(yīng)的樣本網(wǎng)頁內(nèi)容時(shí),不可避免的會(huì)出現(xiàn)時(shí)間差,對(duì)于提取各個(gè)樣本網(wǎng)頁內(nèi)容中的樣本文本信息時(shí),可以是每獲取到一個(gè)樣本URL對(duì)應(yīng)的樣本網(wǎng)頁內(nèi)容,則提取該樣本網(wǎng)頁內(nèi)容中的樣本文本信息,直到將所確定的各個(gè)樣本URL所對(duì)應(yīng)的樣本網(wǎng)頁內(nèi)容中的樣本文本信息,完全提取完成,結(jié)束該提取過程;也可以是將所確定的樣本ULR對(duì)應(yīng)的樣本網(wǎng)頁內(nèi)容,全部獲取完成后,再統(tǒng)一進(jìn)行提取。同理的,對(duì)樣本文本信息進(jìn)行分詞處理時(shí),既可以單一處理又可以統(tǒng)一處理,這都是合理的。

S104:從預(yù)先存儲(chǔ)的多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系中,篩選出與該樣本詞語對(duì)應(yīng)的逆向詞語頻率值,其中,該逆向詞語頻率值為:根據(jù)每一學(xué)習(xí)詞語在所對(duì)應(yīng)學(xué)習(xí)文本信息中的出現(xiàn)次數(shù)所確定的值;

需要說明的是,本發(fā)明實(shí)施例中,預(yù)先存儲(chǔ)有多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系,可以從該預(yù)先存儲(chǔ)的多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系中,篩選出與該樣本詞語對(duì)應(yīng)的逆向詞語頻率值,其中,該逆向詞語頻率值為:根據(jù)每一學(xué)習(xí)詞語在所對(duì)應(yīng)學(xué)習(xí)文本信息中的出現(xiàn)次數(shù)所確定的值??梢岳斫獾氖?,該學(xué)習(xí)詞語是從海量的學(xué)習(xí)URL中處理所得的,根據(jù)每一學(xué)習(xí)詞語在所對(duì)應(yīng)學(xué)習(xí)文本信息中的出現(xiàn)次數(shù),能夠更好的體現(xiàn)出學(xué)習(xí)詞語在學(xué)習(xí)文本信息中的重要程度。其中,該樣本(學(xué)習(xí))詞語出現(xiàn)的次數(shù)越多,即其越常見,表明該樣本(學(xué)習(xí))詞語對(duì)于后續(xù)的對(duì)網(wǎng)頁進(jìn)行分類的重要程度越大。

S105:將該樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中。

需要說明的是,確定出每一樣本詞語對(duì)應(yīng)的逆向詞語頻率值后,可以根據(jù)該逆向詞語頻率值,確定所對(duì)應(yīng)樣本詞語的權(quán)重值,以用于后續(xù)的對(duì)未知類型的網(wǎng)頁進(jìn)行分類時(shí)作為參考依據(jù)??梢岳斫獾氖?,可以直接將該逆向詞語頻率值確定為所對(duì)應(yīng)樣本詞語的權(quán)重值,或者,將該逆向詞語頻率值經(jīng)過特定的計(jì)算處理(如:加、減、乘或除某一數(shù)值)后所得的結(jié)果,確定為所對(duì)應(yīng)樣本詞語的權(quán)重值,這都是可以的。后續(xù)的,將樣本詞語與根據(jù)所對(duì)應(yīng)的逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中,以為用戶對(duì)未知類型的網(wǎng)頁的分類提供參考。

其中,該網(wǎng)頁分類字典可以是以表格形式進(jìn)行存儲(chǔ),也可以以文件形式進(jìn)行存儲(chǔ),等等。在將樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中時(shí),可以是根據(jù)樣本詞語所屬的網(wǎng)頁分類類型,分別存儲(chǔ)于不同的網(wǎng)頁分類字典中,也可以是全部存儲(chǔ)于同一個(gè)網(wǎng)頁分類字典,當(dāng)然,當(dāng)所有的樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于同一個(gè)網(wǎng)頁分類字典中時(shí),各樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,以其所屬的網(wǎng)頁分類類型進(jìn)行分類存儲(chǔ)。

應(yīng)用本發(fā)明實(shí)施例,確定每一樣本詞語的逆向詞語頻率值時(shí),充分考慮了每一詞語在所有文本信息中出現(xiàn)的次數(shù),即充分考慮了詞語與文本信息之間存在的關(guān)系,更好體現(xiàn)了詞語的重要程度;將樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中。以生成準(zhǔn)確度更高的網(wǎng)頁分類字典,進(jìn)而在使用該網(wǎng)頁分類字典時(shí)可以提高網(wǎng)頁分類的準(zhǔn)確度。

在一種具體實(shí)現(xiàn)方式中,如圖2所示,所述多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系的建立過程為:

S201:獲得任意選取的學(xué)習(xí)URL對(duì)應(yīng)的學(xué)習(xí)網(wǎng)頁內(nèi)容;

S202:從所獲得的學(xué)習(xí)網(wǎng)頁內(nèi)容中,分別提取出該學(xué)習(xí)網(wǎng)頁內(nèi)容中的學(xué)習(xí)文本信息,并對(duì)該學(xué)習(xí)文本信息進(jìn)行分詞處理,得到每一所提取出的學(xué)習(xí)文本信息對(duì)應(yīng)的學(xué)習(xí)詞語;

S203:根據(jù)每一學(xué)習(xí)詞語在所有學(xué)習(xí)文本信息中出現(xiàn)的次數(shù),確定每一學(xué)習(xí)詞語的逆向詞語頻率值,并將所有學(xué)習(xí)詞語以及所對(duì)應(yīng)的逆向詞語頻率值進(jìn)行對(duì)應(yīng)存儲(chǔ)。

需要說明的是,在確定學(xué)習(xí)詞語的逆向詞語頻率值時(shí),為了保證逆向詞語頻率值的準(zhǔn)確性,需要通過爬蟲工具從海量的網(wǎng)頁中,統(tǒng)計(jì)該各學(xué)習(xí)詞語所對(duì)應(yīng)的逆向詞語頻率值。通過爬蟲工具隨機(jī)獲取學(xué)習(xí)URL(獲取的學(xué)習(xí)URL數(shù)量越多,所得逆向詞語頻率值越準(zhǔn)確),訪問學(xué)習(xí)URL對(duì)應(yīng)的網(wǎng)頁,獲得學(xué)習(xí)文本信息,對(duì)學(xué)習(xí)文本信息進(jìn)行分詞處理,得到學(xué)習(xí)詞語。確定每一學(xué)習(xí)詞語的逆向詞語頻率值時(shí),充分考慮了每一學(xué)習(xí)詞語在所有學(xué)習(xí)文本信息中出現(xiàn)的次數(shù)(不僅考慮了學(xué)習(xí)詞語所在的學(xué)習(xí)樣本的數(shù)量,還考慮在學(xué)習(xí)詞語在每個(gè)學(xué)習(xí)樣本中出現(xiàn)的次數(shù)),即充分考慮了詞語與文本信息之間存在的關(guān)系,更好體現(xiàn)了詞語的重要程度。確定每一學(xué)習(xí)詞語對(duì)應(yīng)的逆向詞語頻率值后,將所有學(xué)習(xí)詞語以及所對(duì)應(yīng)的逆向詞語頻率值進(jìn)行對(duì)應(yīng)存儲(chǔ),以用于后續(xù)的網(wǎng)頁分類字典的生成。

在一種具體實(shí)現(xiàn)方式中,為了更好的確定出詞語對(duì)應(yīng)的準(zhǔn)確性更高的權(quán)重值,更好的體現(xiàn)出詞語在該類型的網(wǎng)頁中的重要程度,本發(fā)明實(shí)施例提供了一種確定每一學(xué)習(xí)詞語的逆向詞語頻率值的計(jì)算方式,所述確定每一詞語的逆向詞語頻率值的計(jì)算公式可以為:

Ti=1/Ni

其中,該Ti表示學(xué)習(xí)詞語i的逆向詞語頻率值,該Ni表示學(xué)習(xí)詞語i在所有學(xué)習(xí)文本信息中的出現(xiàn)次數(shù)。該公式充分考慮學(xué)習(xí)詞語在所有學(xué)習(xí)文本信息中的出現(xiàn)次數(shù)(不僅考慮了學(xué)習(xí)詞語所在的學(xué)習(xí)樣本的數(shù)量,還考慮在學(xué)習(xí)詞語在每個(gè)學(xué)習(xí)樣本中出現(xiàn)的次數(shù)),即詞語與樣本之間的關(guān)系。

舉例而言,對(duì)10000個(gè)網(wǎng)頁進(jìn)行處理,發(fā)現(xiàn)詞語“銀行”在10個(gè)文件中分別出現(xiàn)了20、50、40、70、20、50、40、70、10和50次,此時(shí),N銀行=20+50+40+70+20+50+40+70+10+50=420次,而非僅考慮10個(gè)文件。

在一種具體實(shí)現(xiàn)方式中,根據(jù)預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn),確定各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本統(tǒng)一資源定位符URL,包括:

根據(jù)該預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn)以及所獲得的關(guān)于同類別的網(wǎng)站的相關(guān)度排名,針對(duì)每一類別,確定該排名中最相關(guān)的前預(yù)定位數(shù)個(gè)網(wǎng)站對(duì)應(yīng)的URL,為各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本URL。

進(jìn)一步的,在確定樣本URL時(shí),為了更好的保證所形成網(wǎng)頁分類字典的準(zhǔn)確性,在確定樣本URL時(shí),可以選擇與網(wǎng)頁類型強(qiáng)相關(guān)的網(wǎng)站的URL。可以預(yù)先獲得關(guān)于該預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn)中的各個(gè)網(wǎng)頁分類類別中的網(wǎng)站的相關(guān)度排名,針對(duì)每一類別,確定該排名中最相關(guān)的前預(yù)定位數(shù)個(gè)網(wǎng)站對(duì)應(yīng)的URL,為各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本URL。如:對(duì)于體育類的網(wǎng)站,可以選擇在體育類網(wǎng)站中較相關(guān)的網(wǎng)站的URL為樣本URL,根據(jù)體育類網(wǎng)站的網(wǎng)站的相關(guān)度排名,可知新浪體育、搜狐體育及騰訊體育在排名前三位,則可以選取新浪體育、搜狐體育及騰訊體育分別對(duì)應(yīng)的URL為樣本URL。

在一種具體實(shí)現(xiàn)方式中,在所述從所獲取的樣本網(wǎng)頁內(nèi)容中,分別提取出該樣本網(wǎng)頁內(nèi)容中的樣本文本信息之前,本發(fā)明實(shí)施例所提供的一種網(wǎng)頁分類字典生成方法還可以包括:

根據(jù)預(yù)設(shè)編碼規(guī)則,對(duì)所獲取的樣本網(wǎng)頁內(nèi)容進(jìn)行統(tǒng)一編碼;

所述從所獲取的樣本網(wǎng)頁內(nèi)容中,分別提取出該樣本網(wǎng)頁內(nèi)容中的樣本文本信息,包括:

從進(jìn)行統(tǒng)一編碼后的樣本網(wǎng)頁內(nèi)容中,分別提取出進(jìn)行統(tǒng)一編碼后的樣本網(wǎng)頁內(nèi)容中的樣本文本信息。

可以理解的是,對(duì)于不同的網(wǎng)站,其對(duì)應(yīng)的網(wǎng)頁中的內(nèi)容可能采用了不同的編碼方式,為了減少后續(xù)的處理中的誤差,可以根據(jù)預(yù)設(shè)的編碼規(guī)則,對(duì)所獲得的樣本網(wǎng)頁內(nèi)容進(jìn)行統(tǒng)一編碼,為后續(xù)的處理過程提供便利,同時(shí)也避免了在提取樣本網(wǎng)頁內(nèi)容中的樣本文本信息時(shí),出現(xiàn)誤差的情況。其中,該預(yù)設(shè)的編碼規(guī)則可以是現(xiàn)有技術(shù)中的任一編碼規(guī)則(編碼方式),如:UTF8(8-bit Unicode Transformation Format,萬國碼)或GBK(Chinese Internal Code Specification,漢字編碼字符集)等。后續(xù)的,分別提取進(jìn)行統(tǒng)一編碼后的樣本網(wǎng)頁內(nèi)容中的樣本文本信息。

在一種具體實(shí)現(xiàn)方式中,所述對(duì)該樣本文本信息進(jìn)行分詞處理,得到每一所提取出的樣本文本信息對(duì)應(yīng)的樣本詞語之后,本發(fā)明實(shí)施例所提供的一種網(wǎng)頁分類字典生成方法還可以包括:

從樣本詞語中,選擇符合預(yù)設(shè)篩選規(guī)則的目標(biāo)樣本詞語;

所述從預(yù)先存儲(chǔ)的多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系中,篩選出與所述樣本詞語對(duì)應(yīng)的逆向詞語頻率值,包括:

從預(yù)先存儲(chǔ)的多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系中,篩選出與所述目標(biāo)樣本詞語對(duì)應(yīng)的逆向詞語頻率值;

所述將該樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中,包括:

將該目標(biāo)樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中。

需要說明的是,針對(duì)于每一個(gè)樣本網(wǎng)頁內(nèi)容,對(duì)其所得的樣本文本信息進(jìn)行分詞處理后,所得樣本詞語可能會(huì)存在許多與網(wǎng)頁分類無關(guān)的詞,此時(shí),需要將該類與網(wǎng)頁分類無關(guān)的詞濾除,選擇出與網(wǎng)頁類型強(qiáng)相關(guān)的目標(biāo)樣本詞語,以得到準(zhǔn)確性更高的網(wǎng)頁分類字典,與網(wǎng)頁類型強(qiáng)相關(guān)的目標(biāo)樣本詞語可以為與網(wǎng)頁類型相關(guān)的專業(yè)詞語,如:某個(gè)銀行網(wǎng)站,其應(yīng)該為金融類型的網(wǎng)站,對(duì)其對(duì)應(yīng)的樣本網(wǎng)頁內(nèi)容中的樣本文本信息,進(jìn)行分詞處理后得到“利率”、“貸款”、“一批”及“中國人”等詞語,對(duì)于“一批”及“中國人”在其他類型的網(wǎng)站中也是經(jīng)常出現(xiàn)的,其對(duì)網(wǎng)頁分類的作用不大,可以將其刪除,而“利率”和“貸款”為金融類的一些專業(yè)詞語,可以將其作為目標(biāo)樣本詞語,繼而進(jìn)行后續(xù)的網(wǎng)頁分類字典生成流程。

在一種具體實(shí)現(xiàn)方式中,為了更好的完善該網(wǎng)頁分類字典,提高該網(wǎng)頁分類字典對(duì)網(wǎng)頁分類的準(zhǔn)確度,本發(fā)明實(shí)施例所提供的一種網(wǎng)頁分類字典生成方法還可以包括:

接收用戶反饋的詞語匹配次數(shù),其中,該詞語匹配次數(shù)為:使用該網(wǎng)頁分類字典對(duì)未知類型的網(wǎng)頁分類時(shí),該網(wǎng)頁分類字典中所存儲(chǔ)的詞語的匹配次數(shù);

根據(jù)該詞語匹配次數(shù),計(jì)算該網(wǎng)頁分類詞典中所存儲(chǔ)的詞語的匹配概率;

從該網(wǎng)頁分類詞典中刪除所對(duì)應(yīng)匹配概率低于預(yù)定閾值的詞語。

可以理解的是,在使用該網(wǎng)頁分類字典對(duì)未知類型的網(wǎng)頁分類時(shí),是通過該未知類型的網(wǎng)頁中所包含的詞語,與該網(wǎng)頁分類字典中所存儲(chǔ)的詞語進(jìn)行匹配,并確定所匹配的詞語對(duì)應(yīng)的權(quán)重值,根據(jù)所確定的權(quán)重值對(duì)該未知類型的網(wǎng)頁進(jìn)行分類。其中,該網(wǎng)頁分類字典中所存儲(chǔ)的詞語為樣本詞語??梢岳斫獾氖?,接收用戶反饋的詞語匹配次數(shù),并根據(jù)該詞語匹配次數(shù),計(jì)算該網(wǎng)頁分類詞典中所存儲(chǔ)的詞語的匹配概率,其中,匹配概率越高,可以表明所對(duì)應(yīng)的詞語在該類型的網(wǎng)站中的出現(xiàn)的頻率越高,其在該類型的網(wǎng)站中的重要程度越高,反之,匹配概率越低,可以表明所對(duì)應(yīng)的詞語在該類型的網(wǎng)頁中出現(xiàn)的頻率越低,其在該類型的網(wǎng)站中的重要程度越低。后續(xù)的,可以從該網(wǎng)頁分類詞典中刪除所對(duì)應(yīng)匹配概率低于預(yù)定閾值的詞語,該預(yù)定閾值可以根據(jù)實(shí)際情況進(jìn)行調(diào)整。

相應(yīng)于上述方法實(shí)施例,本發(fā)明實(shí)施例提供了一種網(wǎng)頁分類字典生成裝置,如圖3所示,所述裝置可以包括:第一確定模塊301、獲取模塊302、提取模塊303、模塊304、第二確定模塊305和存儲(chǔ)模塊306;

所述第一確定模塊301:用于根據(jù)預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn),確定各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本統(tǒng)一資源定位符URL,其中,所述網(wǎng)頁分類標(biāo)準(zhǔn)中包含網(wǎng)頁分類類別;

所述獲取模塊302:用于根據(jù)各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本URL,獲取所對(duì)應(yīng)的樣本網(wǎng)頁內(nèi)容;

所述提取模塊303:用于從所獲取的樣本網(wǎng)頁內(nèi)容中,分別提取出所述樣本網(wǎng)頁內(nèi)容中的樣本文本信息;

所述分詞模塊304:用于對(duì)所述樣本文本信息進(jìn)行分詞處理,得到每一所提取出的樣本文本信息對(duì)應(yīng)的樣本詞語;

所述第二確定模塊305:用于從預(yù)先存儲(chǔ)的多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系中,篩選出與所述樣本詞語對(duì)應(yīng)的逆向詞語頻率值,其中,所述逆向詞語頻率值為:根據(jù)每一學(xué)習(xí)詞語在所對(duì)應(yīng)學(xué)習(xí)文本信息中的出現(xiàn)次數(shù)所確定的值;

所述存儲(chǔ)模塊306:用于將所述樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中。

應(yīng)用本發(fā)明實(shí)施例,確定每一樣本詞語的逆向詞語頻率值時(shí),充分考慮了每一詞語在所有文本信息中出現(xiàn)的次數(shù),即充分考慮了詞語與文本信息之間存在的關(guān)系,更好體現(xiàn)了詞語的重要程度;將樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中。以生成準(zhǔn)確度更高的網(wǎng)頁分類字典,進(jìn)而在使用該網(wǎng)頁分類字典時(shí)可以提高網(wǎng)頁分類的準(zhǔn)確度。

在一種具體實(shí)現(xiàn)方式中,所述多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系的建立過程為:

獲得任意選取的學(xué)習(xí)URL對(duì)應(yīng)的學(xué)習(xí)網(wǎng)頁內(nèi)容;

從所獲得的學(xué)習(xí)網(wǎng)頁內(nèi)容中,分別提取出所述學(xué)習(xí)網(wǎng)頁內(nèi)容中的學(xué)習(xí)文本信息,并對(duì)所述學(xué)習(xí)文本信息進(jìn)行分詞處理,得到每一所提取出的學(xué)習(xí)文本信息對(duì)應(yīng)的學(xué)習(xí)詞語;

根據(jù)每一學(xué)習(xí)詞語在所有學(xué)習(xí)文本信息中出現(xiàn)的次數(shù),確定每一學(xué)習(xí)詞語的逆向詞語頻率值,并將所有學(xué)習(xí)詞語以及所對(duì)應(yīng)的逆向詞語頻率值進(jìn)行對(duì)應(yīng)存儲(chǔ)。

在一種具體實(shí)現(xiàn)方式中,所述確定每一學(xué)習(xí)詞語的逆向詞語頻率值的計(jì)算公式為:

Ti=1/Ni;

其中,所述Ti表示學(xué)習(xí)詞語i的逆向詞語頻率值,所述Ni表示學(xué)習(xí)詞語i在所有學(xué)習(xí)文本信息中的出現(xiàn)次數(shù)。

在一種具體實(shí)現(xiàn)方式中,所述第一確定模塊,具體用于:

根據(jù)所述預(yù)定的網(wǎng)頁分類標(biāo)準(zhǔn)以及所獲得的關(guān)于同類別的網(wǎng)站的相關(guān)度排名,針對(duì)每一類別,確定所述排名中最相關(guān)的前預(yù)定位數(shù)個(gè)網(wǎng)站對(duì)應(yīng)的URL,為各個(gè)類別的網(wǎng)頁分類樣本對(duì)應(yīng)的樣本URL。

在一種具體實(shí)現(xiàn)方式中,本發(fā)明實(shí)施例所提供的一種網(wǎng)頁分類字典生成裝置還可以包括編碼模塊;

所述編碼模塊:用于在所述從所獲取的樣本網(wǎng)頁內(nèi)容中,分別提取出所述樣本網(wǎng)頁內(nèi)容中的樣本文本信息之前,根據(jù)預(yù)設(shè)編碼規(guī)則,對(duì)所獲取的樣本網(wǎng)頁內(nèi)容進(jìn)行統(tǒng)一編碼;

所述提取模塊,具體用于:從進(jìn)行統(tǒng)一編碼后的樣本網(wǎng)頁內(nèi)容中,分別提取出進(jìn)行統(tǒng)一編碼后的樣本網(wǎng)頁內(nèi)容中的樣本文本信息。

在一種具體實(shí)現(xiàn)方式中,本發(fā)明實(shí)施例所提供的一種網(wǎng)頁分類字典生成裝置還可以包括選擇模塊;

所述選擇模塊:用于對(duì)所述樣本文本信息進(jìn)行分詞處理,得到每一所提取出的樣本文本信息對(duì)應(yīng)的樣本詞語之后,從所述樣本詞語中,選擇符合預(yù)設(shè)篩選規(guī)則的目標(biāo)樣本詞語;

所述第二確定模塊,具體用于:從預(yù)先存儲(chǔ)的多個(gè)學(xué)習(xí)詞語與逆向詞語頻率值的對(duì)應(yīng)關(guān)系中,篩選出與所述目標(biāo)樣本詞語對(duì)應(yīng)的逆向詞語頻率值;

所述存儲(chǔ)模塊,具體用于:將所述目標(biāo)樣本詞語以及根據(jù)所對(duì)應(yīng)逆向詞語頻率值確定的權(quán)重值,存儲(chǔ)于網(wǎng)頁分類字典中。

在一種具體實(shí)現(xiàn)方式中,如圖4所示,基于圖3所示,本發(fā)明實(shí)施例所提供的一種網(wǎng)頁分類字典生成裝置還可以包括接收模塊401、計(jì)算模塊402和刪除模塊403;

所述接收模塊401:用于接收用戶反饋的詞語匹配次數(shù),其中,所述詞語匹配次數(shù)為:使用所述網(wǎng)頁分類字典對(duì)未知類型的網(wǎng)頁分類時(shí),所述網(wǎng)頁分類字典中所存儲(chǔ)的詞語的匹配次數(shù);

所述計(jì)算模塊402:用于根據(jù)所述詞語匹配次數(shù),計(jì)算所述網(wǎng)頁分類詞典中所存儲(chǔ)的詞語的匹配概率;

所述刪除模塊403:用于從所述網(wǎng)頁分類詞典中刪除所對(duì)應(yīng)匹配概率低于預(yù)定閾值的詞語。

對(duì)于系統(tǒng)/裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。

需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施方式中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,這里所稱得的存儲(chǔ)介質(zhì),如:ROM/RAM、磁碟、光盤等。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
巴林左旗| 千阳县| 涟源市| 岗巴县| 南江县| 宣城市| 博湖县| 泰和县| 施秉县| 开原市| 博湖县| 新源县| 新化县| 茂名市| 沙坪坝区| 泸水县| 盈江县| 建湖县| 凤山市| 固安县| 侯马市| 南部县| 东至县| 罗定市| 五峰| 始兴县| 肃南| 江华| 靖州| 聂拉木县| 安泽县| 扬州市| 霍城县| 利津县| 个旧市| 乐业县| 雷州市| 长乐市| 乐陵市| 佳木斯市| 垣曲县|