欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

獲取頁(yè)面關(guān)鍵詞的方法及頁(yè)面信息處理裝置的制作方法

文檔序號(hào):6458742閱讀:165來(lái)源:國(guó)知局

專(zhuān)利名稱(chēng)::獲取頁(yè)面關(guān)鍵詞的方法及頁(yè)面信息處理裝置的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及通信領(lǐng)域,尤其涉及一種獲取頁(yè)面關(guān)鍵詞的方法及一種頁(yè)面信息處理裝置。
背景技術(shù)
:隨著因特網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)已經(jīng)改變了人們獲取信息的主要方法與手段。其中,發(fā)展最為迅猛的萬(wàn)維網(wǎng)(WorldWideWeb,WWW)技術(shù),以其直觀(guān)、方便的使用方式和豐富的表達(dá)能力,已逐漸成為因特網(wǎng)上最重要的信息發(fā)布和傳輸方式。伴隨著信息時(shí)代的到來(lái)和發(fā)展,WEB上的信息也迅速增長(zhǎng)起來(lái)。然而,WEB信息的急速膨脹,在給人們提供了豐富信息的同時(shí),又使人們?cè)趯?duì)這些信息進(jìn)行有效使用方面面臨著一個(gè)巨大的挑戰(zhàn)。一方面因特網(wǎng)(Internet)上的信息多種多樣、豐富多彩,而另一方面用戶(hù)卻找不到所需要的信息。因此,若WEB頁(yè)面的提供者對(duì)頁(yè)面內(nèi)容進(jìn)行預(yù)先處理,提取出該WEB頁(yè)面的關(guān)鍵詞,將每個(gè)頁(yè)面的關(guān)鍵詞與頁(yè)面內(nèi)容關(guān)聯(lián)保存在數(shù)據(jù)庫(kù)中,這樣,當(dāng)網(wǎng)絡(luò)用戶(hù)請(qǐng)求瀏覽某一頁(yè)面時(shí),可先從數(shù)據(jù)庫(kù)中獲得該頁(yè)面對(duì)應(yīng)的關(guān)鍵詞,最后將具有相同關(guān)鍵詞的頁(yè)面提供給用戶(hù)瀏覽,以便于網(wǎng)絡(luò)用戶(hù)從大量的WEB頁(yè)面中快捷準(zhǔn)確地篩選出所需要的WEB頁(yè)面。目前,WEB頁(yè)面的后綴有以下幾種超文本標(biāo)記語(yǔ)言(HypertextMarkupLanguage,HTML),超文本標(biāo)記(HypertextMarkup,HTM),超文本預(yù)處理器(HypertextPreprocessor,PHP),動(dòng)態(tài)月l務(wù)器頁(yè)面(ActiveServerPage,ASP),JAVA服務(wù)器端頁(yè)面(JavaServerPage),服務(wù)器解析超文本標(biāo)記語(yǔ)言(Server-parsedHTML,SHTML)。其中,后綴是php,asp,jsp,shtml的頁(yè)面,在瀏覽器端所接收到的頁(yè)面都是HTML頁(yè)面。另夕卜,根據(jù)爬蟲(chóng)工具獲取到的頁(yè)面也是HTML頁(yè)面,與后綴是無(wú)關(guān)的??蓴U(kuò)展標(biāo)記語(yǔ)言(ExtensibleMarkupLanguage,XML)是一種用戶(hù)可以根據(jù)自己的需求而設(shè)計(jì)標(biāo)簽的語(yǔ)言。在網(wǎng)絡(luò)上獲取到的XML頁(yè)面,其中包含了在頁(yè)面上顯示的文本。但是XML頁(yè)面的顯示,需要一個(gè)xslt文件來(lái)把XML頁(yè)面當(dāng)中的標(biāo)簽轉(zhuǎn)化成為HTML標(biāo)簽。這個(gè)xslt文件的鏈接在XML頁(yè)面當(dāng)中提供。而對(duì)于XML頁(yè)面的處理需要提取當(dāng)中所有的中文文本。因此,可將網(wǎng)—絡(luò)上的WEB頁(yè)面大體分為兩種類(lèi)型一是HTML頁(yè)面,一是XML頁(yè)面。通常的HTML頁(yè)面具有以下表1所示的格式<table>tableseeoriginaldocumentpage6</column></row><table>表1現(xiàn)有技術(shù)中提供了一種獲取頁(yè)面關(guān)鍵詞的方法,該方法是根據(jù)WEB頁(yè)面標(biāo)題詞根在頁(yè)面中的詞頻確定關(guān)鍵詞,具體過(guò)程如圖l所示,包括101,獲取WEB頁(yè)面標(biāo)題;102,對(duì)所述WEB頁(yè)面標(biāo)題進(jìn)行分詞,得到標(biāo)題詞條的集合;103,統(tǒng)計(jì)所述各標(biāo)題詞條在所述頁(yè)面中出現(xiàn)的次數(shù);104,根據(jù)各標(biāo)題詞條在所述WEB頁(yè)面中出現(xiàn)的次數(shù),選擇其中出現(xiàn)次數(shù)多的標(biāo)題詞條作為所述WEB頁(yè)面的關(guān)鍵詞,在具體實(shí)現(xiàn)時(shí)可采用一次數(shù)閾值,當(dāng)所述標(biāo)題詞條的出現(xiàn)次數(shù)達(dá)到該次數(shù)閾值時(shí),則確定以該標(biāo)題詞條作為WEB頁(yè)面的關(guān)M:詞。由于現(xiàn)有技術(shù)獲取頁(yè)面關(guān)鍵詞時(shí),只考慮頁(yè)面標(biāo)題中的詞條,而頁(yè)面標(biāo)題不能完全覆蓋WEB頁(yè)面的內(nèi)容情況,因此,現(xiàn)有技術(shù)獲取頁(yè)面關(guān)鍵詞具有局限性,獲取頁(yè)面關(guān)鍵詞的準(zhǔn)確度較低。
發(fā)明內(nèi)容本發(fā)明實(shí)施例所要解決的技術(shù)問(wèn)題在于,提供了一種獲取頁(yè)面關(guān)鍵:詞的方法以及一種頁(yè)面信息處理裝置,可提高獲取WEB頁(yè)面關(guān)鍵詞的準(zhǔn)確度。為了解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提出了一種獲取頁(yè)面關(guān)鍵詞的方法,包括獲取WEB頁(yè)面中的關(guān)鍵文本;對(duì)所述關(guān)鍵文本進(jìn)行分詞處理,得到所述關(guān)鍵文本的詞條;將與預(yù)定義詞庫(kù)中預(yù)定義詞條匹配的所述關(guān)鍵文本的詞條確定為所述WEB頁(yè)面的關(guān)鍵詞。相應(yīng)地,本發(fā)明實(shí)施例還提供了一種頁(yè)面信息處理裝置,包括存儲(chǔ)單元,存儲(chǔ)預(yù)定義詞條集合,該預(yù)定義詞條集合形成預(yù)定義詞庫(kù);獲取單元,獲取WEB頁(yè)面中的關(guān)鍵文本;分詞處理單元,對(duì)所述關(guān)鍵文本進(jìn)行分詞處理,得到所述關(guān)鍵文本的詞條;確定單元,將與所述預(yù)定義詞庫(kù)中預(yù)定義詞條匹配的所述關(guān)鍵文本的詞條確定為所述WEB頁(yè)面的關(guān)^f建詞。本發(fā)明實(shí)施例通過(guò)對(duì)獲取WEB頁(yè)面中的關(guān)鍵文本進(jìn)行分詞處理,得到關(guān)鍵文本的詞條,并將與所述預(yù)定義詞庫(kù)中預(yù)定義詞條匹配的所述關(guān)鍵文本的詞條確定為所述WEB頁(yè)面的關(guān)鍵詞,從而全方位考慮WEB頁(yè)面的主要內(nèi)容,提高獲取WEB頁(yè)面關(guān)鍵詞的準(zhǔn)確度。圖1是現(xiàn)有技術(shù)的獲取頁(yè)面關(guān)鍵詞的方法的流程圖;圖2是本發(fā)明的獲取頁(yè)面關(guān)鍵詞的方法的第一實(shí)施例示意圖;圖3是本發(fā)明的獲取頁(yè)面關(guān)鍵詞的方法的第二實(shí)施例示意圖;圖4是本發(fā)明的獲取頁(yè)面關(guān)鍵詞的方法的第二實(shí)施例中305的具體流程圖;圖5是本發(fā)明的頁(yè)面信息處理裝置的第一實(shí)施例示意圖;圖6是本發(fā)明的頁(yè)面信息處理裝置的第二實(shí)施例示意圖。具體實(shí)施方式本發(fā)明實(shí)施例提供了一種獲取頁(yè)面關(guān)鍵詞的方法以及頁(yè)面信息處理裝置,可實(shí)現(xiàn)在獲取WEB頁(yè)面關(guān)鍵詞時(shí),綜合考慮WEB頁(yè)面中的關(guān)鍵文本、預(yù)定義詞條,可全方位考慮WEB頁(yè)面的主要內(nèi)容,提高獲取WEB頁(yè)面關(guān)鍵詞的準(zhǔn)確度。下面結(jié)合附圖,對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)說(shuō)明。圖2是本發(fā)明的獲取頁(yè)面關(guān)鍵詞的方法的第一實(shí)施例示意圖,該方法中提供了預(yù)定義詞庫(kù),該預(yù)定義詞庫(kù)保存了預(yù)定義詞條的集合,該方法主要包括201,獲取WEB頁(yè)面中的關(guān)鍵文本,具體可通過(guò)首先對(duì)WEB頁(yè)面是否為HTML頁(yè)面進(jìn)行判斷,并對(duì)其中的標(biāo)簽內(nèi)容或閉合標(biāo)簽內(nèi)容進(jìn)行提取,之后可對(duì)提取的標(biāo)簽內(nèi)容或閉合標(biāo)簽內(nèi)容進(jìn)行解碼,從而得到WEB頁(yè)面的關(guān)鍵文本;202,對(duì)所述關(guān)鍵文本進(jìn)行分詞操作,得到所述關(guān)鍵文本的詞條,這部分流程可用任何現(xiàn)有技術(shù)的分詞手段來(lái)實(shí)現(xiàn);203,將與預(yù)定義詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條確定為所述WEB頁(yè)面的關(guān)鍵詞,匹配關(guān)系可以是所述預(yù)定義詞條與所述分詞所得詞條相同,但不僅限于此。實(shí)施如圖2所示的本發(fā)明的獲取頁(yè)面關(guān)鍵詞的方法的第一實(shí)施例,通過(guò)對(duì)獲取WEB頁(yè)面中的關(guān)鍵文本進(jìn)行分詞處理,得到關(guān)鍵文本的詞條,并將與所述預(yù)定義詞庫(kù)中預(yù)定義詞條匹配的所述關(guān)鍵文本的詞條確定為所述WEB頁(yè)面的關(guān)鍵詞,從而全方位考慮WEB頁(yè)面的主要內(nèi)容,提高獲取WEB頁(yè)面關(guān)鍵詞的準(zhǔn)確度。本發(fā)明實(shí)施例還提供了另外一種獲取頁(yè)面關(guān)鍵詞的方法,如下描述圖3是本發(fā)明的獲取頁(yè)面關(guān)鍵詞的方法的第二實(shí)施例示意圖,參照該圖,該方法主要包括301,獲取WEB頁(yè)面,具體可通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)獲取互連網(wǎng)上的WEB頁(yè)面;302,判斷所述WEB頁(yè)面是否為HTML頁(yè)面,若是,則提取所述WEB頁(yè)面部分標(biāo)簽內(nèi)容,比如標(biāo)題標(biāo)簽、主體標(biāo)簽等標(biāo)簽的內(nèi)容;否則,提取所述WEB頁(yè)面所有閉合標(biāo)簽內(nèi)容,其中要說(shuō)明的是,當(dāng)所述WEB頁(yè)面為HTML頁(yè)面且當(dāng)該WEB頁(yè)面中沒(méi)有標(biāo)簽內(nèi)容時(shí),仍提取該WEB頁(yè)面所有閉合標(biāo)簽內(nèi)容。在實(shí)際應(yīng)用中,由前面表1所示的HTML頁(yè)面的一般格式可知,HTML標(biāo)簽主要由兩組標(biāo)簽構(gòu)成,一個(gè)是〈headx/head〉標(biāo)簽,另一個(gè)是〈bodyx/body〉標(biāo)簽。下面介紹HTML頁(yè)面的各類(lèi)標(biāo)簽的具體內(nèi)容在本發(fā)明技術(shù)方案中是否需要提取,參照下表2的內(nèi)容標(biāo)簽所屬內(nèi)容是否需要提取備注<SCRIPTLANGUAGE="JavaScript"></SCRIPT〉<head>~</head>OR<body>~</body>嵌入的腳本否,去除<!——><hcad></h6ad>OR<body>~</body>注釋否,去除/承承/<head>~</head〉OR<body></body>注釋否,去除<style>~</style><head>~</head>OR<body></body>css樣式表否,去除<link〉標(biāo)簽<head>~</head>OR<body></body>----否,去除<noscript>~</noscript〉<head>~</head>OR<body>~</body>----否,去除〈li〉標(biāo)簽<head>~</head>OR<body>~</body>----是,提取不排除該標(biāo)簽內(nèi)也含有重要信息的可能〈td〉標(biāo)簽<h6ad></h6ad>OR<body></body>----是,提取不排除該標(biāo)簽內(nèi)也含有重要信息的可能〈div〉標(biāo)簽<head></head>OR<body>~</body>----是,提取不排除該標(biāo)簽內(nèi)也含有重要信息的可能<table>tableseeoriginaldocumentpage10</column></row><table>表2根據(jù)上表2所示內(nèi)容,需要進(jìn)行所述提取的WEB標(biāo)簽內(nèi)容包括但不僅限于:A、〈headx/head〉標(biāo)簽之間需要提取的內(nèi)容al、〈titlex/title〉標(biāo)簽之間的內(nèi)容,此部分的內(nèi)容為WEB頁(yè)面標(biāo)題內(nèi)容,可顯示于瀏覽器標(biāo)題欄位置;a2、〈meta〉標(biāo)簽中的內(nèi)容,例如<metaname="description"content="CSDN安全頻道,V〉<metacontent="殺毒,安全,軟件加密解密,DRM,軟件安全,,name=,,keywords,7>此部分內(nèi)容用于描述WEB頁(yè)面的內(nèi)容,可包括便于搜索引擎搜索的關(guān)鍵詞;B、〈bodyx/body〉標(biāo)簽之間需要提取的內(nèi)容bl、〈hxx/hx〉標(biāo)簽之間的內(nèi)容,此部分內(nèi)容為小標(biāo)題、圖片格式的標(biāo)題等,其中標(biāo)簽之間的內(nèi)容字體大小與x有關(guān)(x=l,2,3,4,5,6,x越小,字體越大),這種標(biāo)簽使用的場(chǎng)合很多,不僅僅是WEB頁(yè)面中一些需要提取的信息的小標(biāo)題采用了這種標(biāo)簽,某些"特別推薦"、"用戶(hù)評(píng)論"等標(biāo)題或者一些圖片格式的標(biāo)題也會(huì)使用這種標(biāo)簽;b2、〈px/p〉標(biāo)簽之間的內(nèi)容,此部分內(nèi)容為WEB頁(yè)面顯示的主要內(nèi)容,而〈px/p〉標(biāo)簽一般嵌套在〈divx/div〉標(biāo)簽之中,該WEB頁(yè)面顯示的主要內(nèi)容的'J、標(biāo)題有時(shí)存在于〈px/p〉標(biāo)簽中的〈strongx/strong〉標(biāo)簽之間;b3、〈bx/b〉標(biāo)簽之間的內(nèi)容,此部分也可關(guān)系到WEB頁(yè)面中的內(nèi)容;需要說(shuō)明的是,〈bodyx/body^示簽可存在標(biāo)簽嵌套使用的情況,甚至有多層嵌套的情況,因此,對(duì)于從一組標(biāo)簽中提取的內(nèi)容,還需要多次判斷是否在該標(biāo)簽之間的內(nèi)容中還嵌套有別的標(biāo)簽,若存在其他標(biāo)簽,則去除這些標(biāo)簽,保證最后提取的標(biāo)簽內(nèi)容中不存在HTML標(biāo)簽;才艮據(jù)上表2中情況,在實(shí)際應(yīng)用中,<li>、<td>、〈div〉標(biāo)簽中的內(nèi)容在某些情況下,也可作為重要信息進(jìn)行提??;另外,在對(duì)〈headx/head〉標(biāo)簽之間的內(nèi)容進(jìn)行提取的同時(shí),也可以提取在〈headx/head〉標(biāo)簽之間的內(nèi)容中<metahttp-equiv="Content-Type"content="text/html;charset:gb2312,7〉標(biāo)簽內(nèi)容,該標(biāo)簽的charset屬性指定了頁(yè)面的編碼方式,提取的〈metahttp-equiv="Content-Type"content="text/html;charset:gb2312"/〉標(biāo)簽內(nèi)容可用于在下面描述的解碼之中(可參照所述編碼方式解碼),WEB頁(yè)面中比較常見(jiàn)的中文編碼方式有GB2312、UTF-8、ISO-8859三種編碼方式,但不僅限于此;303,對(duì)J02中提取的WEB頁(yè)面標(biāo)簽內(nèi)容/全部閉合標(biāo)簽內(nèi)容進(jìn)行解碼處理,得到WEB頁(yè)面的關(guān)鍵文本,其中,解碼處理可參照所述〈metahttp-equiv="Content-Type"content="text/html;charset二gb2312,7〉標(biāo)簽內(nèi)容中charset屬性指示的編碼方式進(jìn)行解碼,也可以通過(guò)從多種解碼方式中選擇一個(gè)適配的解碼方式進(jìn)行解碼;304,對(duì)所述WEB頁(yè)面的關(guān)鍵文本進(jìn)行分詞操作,得到所述關(guān)鍵文本的詞條,分詞操作可通過(guò)多種方式實(shí)現(xiàn),比如通過(guò)遍歷的方式,按照讀寫(xiě)順序遍歷所述關(guān)鍵文本的每個(gè)字符,在每次遍歷過(guò)程中,將當(dāng)前字符作為一個(gè)詞條進(jìn)行保存,在該詞條基礎(chǔ)上追加下一個(gè)字符作為另一個(gè)詞條進(jìn)行保存,從而得到所述關(guān)4建文本的詞條;305,根據(jù)預(yù)定義詞庫(kù)中每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的貢獻(xiàn)度量標(biāo)準(zhǔn)確定所述WEB頁(yè)面的頁(yè)面類(lèi)別;所述預(yù)定義詞庫(kù)中收錄了能夠代表某個(gè)頁(yè)面類(lèi)別的預(yù)定義詞條集合,當(dāng)有多個(gè)頁(yè)面類(lèi)別時(shí),可在預(yù)定義詞庫(kù)中為每個(gè)頁(yè)面類(lèi)別建立對(duì)應(yīng)的一個(gè)子詞庫(kù),且對(duì)每個(gè)子詞庫(kù)中的預(yù)定義詞條分配有指示對(duì)頁(yè)面類(lèi)別貢獻(xiàn)作用的貢獻(xiàn)度量標(biāo)準(zhǔn),所述貢獻(xiàn)度量標(biāo)準(zhǔn)可為權(quán)重值或積分值等,本實(shí)施方式以權(quán)重值為例進(jìn)行說(shuō)明。所述預(yù)定義詞庫(kù)中的子詞庫(kù)的建立有如下方法第一種是人工建立的方法,該方法需要在子詞庫(kù)中人工收錄各種符合上述要求的預(yù)定義詞條,并隨后為各預(yù)定義詞條分配指示對(duì)該子詞庫(kù)對(duì)應(yīng)頁(yè)面類(lèi)別貢獻(xiàn)作用的權(quán)重值;第二種是機(jī)器訓(xùn)練的方法,該方法需要從一批確定頁(yè)面類(lèi)別的HTML頁(yè)面中提取預(yù)定義詞條,可通過(guò)程序控制,首先確定一批屬于同一類(lèi)別的HTML頁(yè)面樣本,從這些樣本中提取關(guān)鍵文本,然后對(duì)提取的關(guān)鍵文本進(jìn)行分詞操作,分詞結(jié)束后統(tǒng)計(jì)分詞處理所得關(guān)鍵文本的詞條的詞頻,將其中詞頻較高的關(guān)鍵文本的詞條劃歸到所屬頁(yè)面類(lèi)別的子詞庫(kù)中,即預(yù)定義詞條,之后可將所述劃歸的預(yù)定義詞條的詞頻簡(jiǎn)化為該預(yù)定義詞條對(duì)應(yīng)的權(quán)重值;同時(shí),由于一些沒(méi)有具體意義而經(jīng)常出現(xiàn)的詞條被統(tǒng)計(jì)的頻率較高,從而導(dǎo)致預(yù)定義詞庫(kù)準(zhǔn)確性大大降低,因此預(yù)定義詞庫(kù)需要對(duì)一些沒(méi)有具體意義而經(jīng)常出現(xiàn)的詞條,如"的"、"了"、代詞、擬聲詞等做屏蔽或其他類(lèi)似處理,不以其作為預(yù)定義詞條。內(nèi)容等進(jìn)行確定,例如當(dāng)頁(yè)面類(lèi)別為新聞?lì)悤r(shí),可定義新聞?lì)愴?yè)面的預(yù)定義詞條為時(shí)事、政治、股票等,當(dāng)頁(yè)面中文本內(nèi)容將涉及奧運(yùn),則可定義奧運(yùn)相關(guān)文本內(nèi)容的預(yù)定義詞條為福娃、北京、鳥(niǎo)巢等,預(yù)定義詞條可根據(jù)實(shí)際情況選擇確定,不僅限于此。306,將所述WEB頁(yè)面的頁(yè)面類(lèi)別對(duì)應(yīng)的子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條確定為所述WEB頁(yè)面的關(guān)4定詞,在具體實(shí)現(xiàn)時(shí),當(dāng)確定了WEB頁(yè)面類(lèi)別后,所述關(guān)鍵文本的詞條為該WEB頁(yè)面類(lèi)別下屬的預(yù)定義詞條,則以該預(yù)定義詞條作為WEB頁(yè)面的關(guān)4建詞。具體地,根據(jù)上述說(shuō)明,步驟305可包括如圖4所示的如下具體流程401、獲得每一個(gè)子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的權(quán)重值,具體地,匹配可以是所述分詞處理所得詞條與所述預(yù)定義詞條相同,或所述分詞處理所得詞條與所述預(yù)定義詞條相似度超過(guò)某個(gè)閾值;402、根據(jù)每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的權(quán)重值標(biāo)準(zhǔn),計(jì)算該子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條的權(quán)重值之和;403、確定所述^5L重值之和最大的子詞庫(kù)所對(duì)應(yīng)的頁(yè)面類(lèi)別為所述WEB頁(yè)面的頁(yè)面類(lèi)別;本實(shí)施方式中,上述步驟401中所提及的預(yù)定義詞條的權(quán)重值為根據(jù)預(yù)定義詞條預(yù)定義詞條對(duì)頁(yè)面類(lèi)別貢獻(xiàn)作用的基本權(quán)重值。在另一實(shí)施方式中,還可以綜合考慮與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條在頁(yè)面中的位置來(lái)得到每一個(gè)子詞庫(kù)中預(yù)定義詞條權(quán)重值之和,從而得到WEB頁(yè)面類(lèi)別。具體可參照如下例的說(shuō)明,該例中WEB頁(yè)面為HTML頁(yè)面,這里引入了根據(jù)與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條在WEB頁(yè)面位置而設(shè)置的比例系數(shù),以及預(yù)定義詞條在該HTML頁(yè)面類(lèi)別中的基本權(quán)重值在不同HTML頁(yè)面位置的預(yù)定義詞條具有不同的權(quán)重值,這種設(shè)計(jì)依據(jù)HTML頁(yè)面一般的設(shè)計(jì)原理,具體地,可按照描述(description),關(guān)鍵字(keywords)、標(biāo)題(title)、副標(biāo)題(subtitle)、內(nèi)容(content)分為五個(gè)部分來(lái)判斷其位置,由于HTML頁(yè)面中的元標(biāo)簽〈meta〉中的description和keywords主要標(biāo)明該站點(diǎn)或該HTML頁(yè)面所描述的主要內(nèi)容,title為該HTML頁(yè)面的標(biāo)題,subtitle為該HTML頁(yè)面的副標(biāo)題,content則是HTML頁(yè)面所描述的具體內(nèi)容,不同HTML頁(yè)面位置的預(yù)定義詞條的權(quán)重值目前根據(jù)經(jīng)驗(yàn)判斷,description和keywords字段的比例系數(shù)各為20%,title為40%,subtitle和content各為10%,這些比例系數(shù)是根據(jù)多次實(shí)驗(yàn)總結(jié)而來(lái),當(dāng)然也可以在多次不斷實(shí)驗(yàn)中調(diào)整該比例系數(shù)。下面是一個(gè)HTML頁(yè)面的〈head〉標(biāo)簽部分內(nèi)容<HTMI><HEAD><METAhttp-equiv="Content-Type"content="text/html;charset=UTF-8"/〉<title>華為</title><linkrel="SHORTCUTICON"href=7cn/images/logo.gif'/><metaname="Security"content="public"/><metaname="Robots"content="index,follow"/><metaname="DCLanguage"scheme="rfcl766"content="zh-CN"/><metaname="Huawei.Country"content="CN"/><metaname="Description"content="華為是全5求領(lǐng)先的下一代電信網(wǎng)絡(luò)解決方案供應(yīng)商,致力于向客戶(hù)提供創(chuàng)新的滿(mǎn)足其需求的產(chǎn)品、服務(wù)和解決方案,為客戶(hù)創(chuàng)造長(zhǎng)期的價(jià)值和潛在的增長(zhǎng)。華為產(chǎn)品和解決方案涵蓋移動(dòng)(HSDPA/WCDMA/EDGE/GPRS/GSM,CDMA2000lxEV-DO/CDMA2000IX,TD-SCDMA和WiMAX)、核心網(wǎng)(IMS,MobileSoftswitch,NGN)網(wǎng)絡(luò)(FTTx,xDSL,光網(wǎng)絡(luò),路由器和LANSwitch)、電信增值業(yè)務(wù)(IN,mobiledataservice,Boss)和終端(UMTS/CDMA)等領(lǐng)域。"/><metaname="Keywords"content-"華為,基于AllIP網(wǎng)絡(luò)的FMC,移動(dòng)核心網(wǎng),下一代網(wǎng)絡(luò),NGN,WCDMA/HSPA,交換網(wǎng)絡(luò),GSM,光網(wǎng)絡(luò),CDMA2000,接入網(wǎng),無(wú)線(xiàn)網(wǎng)絡(luò)規(guī)劃,數(shù)據(jù)通信,增值業(yè)務(wù),視頻通信,運(yùn)營(yíng)支撐,固網(wǎng)終端,數(shù)字i某體娛樂(lè),存儲(chǔ)與網(wǎng)絡(luò)安全,華為手機(jī),配線(xiàn)配套產(chǎn)品,華為技術(shù)支持,華為職位招聘,華為新聞"/><LINKhref=7cn/css/wwwvi.css"rel="stylesheet"type="text/css"></HEAD>上述〈head〉標(biāo)簽內(nèi)容中包含了description,keywords、title三個(gè)有效部分(〈body〉標(biāo)簽部分未舉例,但也適用)。通過(guò)提取關(guān)鍵文本后得到如下三個(gè)字段,分別是Description:華為是全球領(lǐng)先的下一代電信網(wǎng)絡(luò)解決方案供應(yīng)商,致力于向客戶(hù)提供創(chuàng)新的滿(mǎn)足其需求的產(chǎn)品、服務(wù)和解決方案,為客戶(hù)創(chuàng)造長(zhǎng)期的價(jià)值和潛在的增長(zhǎng)。華為產(chǎn)品和解決方案涵蓋移動(dòng)(HSDPA/WCDMA/EDGE/GPRS/GSM,CDMA2000lxEV陽(yáng)DO/CDMA2000IX,TD-SCDMA和WiMAX)、核心網(wǎng)(IMS,MobileSoftswitch,NGN)網(wǎng)絡(luò)(FTTx,DSL,光網(wǎng)絡(luò),路由器和LANSwitch)、電信增值業(yè)務(wù)(IN,mobiledataservice,Boss)和終端(UMTS/CDMA)等領(lǐng)域;Keywords:華為,基于AllIP網(wǎng)絡(luò)的FMC,移動(dòng)核心網(wǎng),下一代網(wǎng)絡(luò),NGN,WCDMA/HSPA,交換網(wǎng)絡(luò),GSM,光網(wǎng)絡(luò),CDMA2000,接入網(wǎng),無(wú)線(xiàn)網(wǎng)絡(luò)規(guī)劃,數(shù)據(jù)通信,增值業(yè)務(wù),視頻通信,運(yùn)營(yíng)支撐,固網(wǎng)終端,數(shù)字媒體娛樂(lè),存儲(chǔ)與網(wǎng)絡(luò)安全,華為手機(jī),配線(xiàn)配套產(chǎn)品,華為技術(shù)支持,華為職位招聘,華為新聞;Title:華為。結(jié)合上述關(guān)鍵文本的三個(gè)字段內(nèi)容、比例系數(shù)、基本權(quán)重值,對(duì)上述三個(gè)字段分詞后得到的詞條就可以確定HTML頁(yè)面的頁(yè)面類(lèi)別了,例如上述實(shí)例中description字段中分詞所得的詞條"華為"出現(xiàn)了2次,在keywords字段中分詞所得的詞條"華為"出現(xiàn)了5次,在title字段中分詞所得的詞條"華為"出現(xiàn)了1次,而"華為"在頁(yè)面類(lèi)別為7>司類(lèi)(該類(lèi)別下具有"華為"這個(gè)預(yù)定義詞條)的基本權(quán)重值為rl,在頁(yè)面類(lèi)別為娛樂(lè)類(lèi)的基本權(quán)重值為r2,所以"華為,,在公司類(lèi)的權(quán)重值為[(2x20%xrl+5x20%xrl+lx40%xrl)+(2+5+1)],而"華為,,在娛樂(lè)類(lèi)的權(quán)重值為[(2x20%xr2+5x20%xr2+lx40%xr2)+(2+5+1)],同樣,其他預(yù)定義詞條的權(quán)重計(jì)算原理一樣。實(shí)施如圖3所示的本發(fā)明的獲取頁(yè)面關(guān)4建詞的方法的第二實(shí)施例,通過(guò)獲取WEB頁(yè)面,并判斷所述WEB頁(yè)面是否為HTML頁(yè)面進(jìn)行相應(yīng)標(biāo)簽內(nèi)容或閉合標(biāo)簽內(nèi)容的提取,然后對(duì)提取的WEB頁(yè)面標(biāo)簽內(nèi)容/全部閉合標(biāo)簽內(nèi)容進(jìn)行解碼處理,得到關(guān)鍵文本,對(duì)獲取WEB頁(yè)面中的關(guān)鍵文本進(jìn)行分詞處理,得到關(guān)鍵文本的詞條,根據(jù)預(yù)定義詞庫(kù)中每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的貢獻(xiàn)度量標(biāo)準(zhǔn)確定所述WEB頁(yè)面的頁(yè)面類(lèi)別,將所述WEB頁(yè)面的頁(yè)面類(lèi)別對(duì)應(yīng)的子詞庫(kù)中與所述關(guān)4建文本的詞條匹配的預(yù)定義詞條確定為所述WEB頁(yè)面的關(guān)鍵詞,從而全方位考慮WEB頁(yè)面的主要內(nèi)容,提高獲取WEB頁(yè)面關(guān)鍵詞的準(zhǔn)確度,由于考慮到WEB頁(yè)面的頁(yè)面類(lèi)別,因此可更加準(zhǔn)確的獲取WEB頁(yè)面的關(guān)4建詞。相應(yīng)地,下面對(duì)本發(fā)明實(shí)施例的頁(yè)面信息處理裝置進(jìn)^S兌明。圖5是本發(fā)明的頁(yè)面信息處理裝置的第一實(shí)施例示意圖,如圖5所示,主要包括存儲(chǔ)單元51、獲取單元52、分詞處理單元53、確定單元54,其中各單元連接關(guān)系及功能如下述獲取單元52與分詞處理單元53相連,存儲(chǔ)單元51、分詞處理單元53分別與確定單元54相連;存儲(chǔ)單元51,用于存儲(chǔ)預(yù)定義詞條集合,該預(yù)定義詞條集合形成預(yù)定義詞庫(kù);獲取單元52,用于獲取WEB頁(yè)面中的關(guān)鍵文本,具體可通過(guò)首先對(duì)WEB頁(yè)面是否為HTML頁(yè)面進(jìn)行判斷,并對(duì)其中的標(biāo)簽內(nèi)容或閉合標(biāo)簽內(nèi)容進(jìn)行提取,之后可對(duì)提取的標(biāo)簽內(nèi)容或閉合標(biāo)簽內(nèi)容進(jìn)行解碼,從而得到WEB頁(yè)面的關(guān)鍵文本;分詞處理單元53,用于對(duì)所述關(guān)鍵文本進(jìn)行分詞處理,得到所述關(guān)鍵文本的詞條,這部分功能可用任何現(xiàn)有技術(shù)的分詞手段來(lái)實(shí)現(xiàn);確定單元54,用于將所述預(yù)定義詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條確定為所述WEB頁(yè)面的關(guān)鍵詞,匹配關(guān)系可以是所述預(yù)定義詞條與所述分詞所得詞條相同,但不僅限于此。實(shí)施如圖5所示的本發(fā)明的頁(yè)面關(guān)4定詞獲取裝置的第一實(shí)施例,通過(guò)分詞處理單元53對(duì)獲取單元52獲取到的WEB頁(yè)面中的關(guān)鍵文本進(jìn)行分詞處理,得到關(guān)鍵文本的詞條,并由確定單元54將與所述預(yù)定義詞庫(kù)中預(yù)定義詞條匹配的所述關(guān)鍵文本的詞條確定為所述WEB頁(yè)面的關(guān)鍵詞,從而全方位考慮WEB頁(yè)面的主要內(nèi)容,提高獲取WEB頁(yè)面關(guān)鍵詞的準(zhǔn)確度。圖6是本發(fā)明的頁(yè)面信息處理裝置的第二實(shí)施例示意圖,參照該圖,該裝置主要包括導(dǎo)入單元61、獲取單元62、分詞處理單元63、確定單元64、存儲(chǔ)單元65,其中確定單元64包括類(lèi)別確定單元641、關(guān)4定詞確定單元642,其中獲取單元62包括判斷單元621、提取單元622、解碼單元623,各單元之間連接關(guān)系及功能如下述導(dǎo)入單元61與獲取單元62相連,獲取單元62、確定單元64分別與分詞處理單元63相連,確定單元64與存儲(chǔ)單元65相連,類(lèi)別確定單元641與關(guān)鍵詞確定單元642相連,判斷單元621、解碼單元623分別與提取單元622相連;導(dǎo)入單元61,用于導(dǎo)入WEB頁(yè)面,具體可通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)獲取互連網(wǎng)上的WEB頁(yè)面并將該WEB頁(yè)面導(dǎo)入;判斷單元621,用于判斷所述WEB頁(yè)面是否為HTML頁(yè)面;提取單元622,用于當(dāng)判斷單元621判斷所述WEB頁(yè)面為HTML頁(yè)面時(shí),提取所述WEB頁(yè)面標(biāo)簽內(nèi)容,當(dāng)判斷單元621判斷為WEB頁(yè)面為非HTML頁(yè)面時(shí),提取所述WEB頁(yè)面閉合標(biāo)簽內(nèi)容,其中要說(shuō)明的是,當(dāng)所述WEB頁(yè)面為HTML頁(yè)面且當(dāng)該WEB頁(yè)面中沒(méi)有標(biāo)簽內(nèi)容時(shí),仍提取該WEB頁(yè)面閉合標(biāo)簽內(nèi)容,如〈bodyx/body〉標(biāo)簽之間的內(nèi)容;在實(shí)際應(yīng)用中,由前面表1所示的HTML頁(yè)面的一般格式可知,HTML標(biāo)簽主要由兩組標(biāo)簽構(gòu)成,一個(gè)是〈headx/head〉標(biāo)簽,另一個(gè)是〈bodyx/body〉標(biāo)簽。為了能更形象地說(shuō)明所述HTML頁(yè)面標(biāo)簽內(nèi)容的提取過(guò)程,先詳細(xì)介紹一下HTML頁(yè)面的各類(lèi)標(biāo)簽的具體內(nèi)容在本發(fā)明技術(shù)方案中是否需要提取并轉(zhuǎn)化成為所述關(guān)鍵文本,具體可參照上表2的內(nèi)容,其中,需要進(jìn)行所述提取的WEB標(biāo)簽內(nèi)容包括但不僅限于A、〈headx/head〉標(biāo)簽之間需要提取的內(nèi)容al、〈titlex/title〉標(biāo)簽之間的內(nèi)容,此部分的內(nèi)容為WEB頁(yè)面標(biāo)題內(nèi)容,可顯示于WEB頁(yè)面標(biāo)題欄位置;a2、<metaname=,,description,,content=,,CSDN安全頻道,V〉<metacontent="殺毒,安全,軟件加密解密,DRM,軟件安全"name=,,keywords,7>此部分內(nèi)容用于描述WEB頁(yè)面的內(nèi)容,可包括便于搜索引擎搜索的關(guān)鍵詞;B、〈bodyx/body〉標(biāo)簽之間需要提取的內(nèi)容bl、〈hxx/hx〉標(biāo)簽之間的內(nèi)容,此部分內(nèi)容為小標(biāo)題、圖片格式的標(biāo)題等,其中標(biāo)簽之間的內(nèi)容字體大小與x有關(guān)(x=l,2,3,4,5,6,x越小,字體越大),這種標(biāo)簽使用的場(chǎng)合很多,不僅僅是WEB頁(yè)面中一些需要提取的信息的小標(biāo)題采用了這種標(biāo)簽,某些"特別推薦"、"用戶(hù)評(píng)論"等標(biāo)題或者一些圖片格式的標(biāo)題也會(huì)使用這種標(biāo)簽;b2、,x/p〉標(biāo)簽之間的內(nèi)容,此部分內(nèi)容為WEB頁(yè)面顯示的主要內(nèi)容,而〈px/p〉標(biāo)簽一般嵌套在〈divx/div〉標(biāo)簽之中,該WEB頁(yè)面顯示的主要內(nèi)容的'J、標(biāo)題有時(shí)存在于〈px/p〉標(biāo)簽中的〈strongx/strong〉標(biāo)簽之間;b3、〈bx/b〉標(biāo)簽之間的內(nèi)容,此部分也可關(guān)系到WEB頁(yè)面中的內(nèi)容;需要說(shuō)明的是,〈bodyx/bod"標(biāo)簽可存在標(biāo)簽嵌套使用的情況,甚至有多層嵌套的情況,因此,對(duì)于從一組標(biāo)簽中提取的內(nèi)容,還需要多次判斷是否在該標(biāo)簽之間的內(nèi)容中還嵌套有別的標(biāo)簽,若存在其他標(biāo)簽,則去除這些標(biāo)簽,保證最后提取的標(biāo)簽內(nèi)容中不存在HTML標(biāo)簽;另外,在對(duì)〈headx/head〉標(biāo)簽之間的內(nèi)容進(jìn)行提取的同時(shí),也可以提取在<head></head>標(biāo)簽之間的內(nèi)容中<metahttp-equiv=,,Content-Type,,contentytext/html;charset-gb2312"/〉標(biāo)簽內(nèi)容,該標(biāo)簽的charset屬性指定了頁(yè)面的編碼方式,提取的<metahttp-equiv="Content-Type"content-"text/html;charset:gb2312"/〉標(biāo)簽內(nèi)容可用于在下面描述的解碼之中(可參照所述編碼方式解碼),WEB頁(yè)面中比l交常見(jiàn)的中文編碼方式有GB2312、UTF-8、ISO-8859三種編碼方式,但不僅限于此;解碼單元623,用于對(duì)提取單元622提取的WEB頁(yè)面標(biāo)簽內(nèi)容/全部閉合標(biāo)簽內(nèi)容進(jìn)行解碼處理,得到WEB頁(yè)面的關(guān)^I建文本,其中,解碼處理可參照所述<metahttp-equiv=,,Content-Type,,contentytext/html;charset二gb2312"/〉才示簽內(nèi)容中charset屬性指示的編碼方式進(jìn)^f亍解碼,也可以通過(guò)從多種解碼方式中選擇一個(gè)適配的解碼方式進(jìn)行解碼;分詞處理單元63,用于對(duì)所述WEB頁(yè)面的關(guān)4建文本進(jìn)行分詞操作,得到所述關(guān)鍵文本的詞條,這部分流程可用任何現(xiàn)有技術(shù)的分詞手段來(lái)實(shí)現(xiàn);存儲(chǔ)單元65,用于存儲(chǔ)預(yù)定義詞條集合,該預(yù)定義詞條集合形成預(yù)定義詞庫(kù),這里及下文所提到的預(yù)定義詞庫(kù)、子詞庫(kù)、預(yù)定義詞條、頁(yè)面類(lèi)別等可根據(jù)上述方法流程中描述的內(nèi)容進(jìn)行說(shuō)明,此處不再贅述;類(lèi)別確定單元641,用于根據(jù)預(yù)定義詞庫(kù)中對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的預(yù)定義詞條的貢獻(xiàn)度量標(biāo)準(zhǔn),以及所述關(guān)鍵文本的詞條與所述預(yù)定義詞條的匹配關(guān)系,確定所述WEB頁(yè)面的頁(yè)面類(lèi)別,在具體實(shí)現(xiàn)時(shí),所述貢獻(xiàn)度量標(biāo)準(zhǔn)可以是權(quán)重值標(biāo)準(zhǔn)(為每個(gè)預(yù)定義詞條賦予權(quán)重值),該類(lèi)別確定單元641可包括獲得單元,獲得每一個(gè)子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)應(yīng)的權(quán)重值,具體地,匹配可以是所述分詞處理所得詞條與所述預(yù)定義統(tǒng)計(jì)單元,根據(jù)每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的權(quán)重值標(biāo)準(zhǔn),計(jì)算該子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條的權(quán)重值之和;確定單元,確定所述權(quán)重值之和最大的子詞庫(kù)所對(duì)應(yīng)的頁(yè)面類(lèi)別為所述WEB頁(yè)面的頁(yè)面類(lèi)別;關(guān)鍵詞確定單元642,將所述確定的WEB頁(yè)面的頁(yè)面類(lèi)別下的、與所述預(yù)定義詞庫(kù)中預(yù)定義詞條匹配的所述關(guān)鍵文本的詞條作為所述WEB頁(yè)面的關(guān)鍵詞,在具體實(shí)現(xiàn)時(shí),當(dāng)確定了WEB頁(yè)面類(lèi)別后,所述關(guān)鍵文本的詞條為該WEB頁(yè)面類(lèi)別下屬的預(yù)定義詞條,則以該預(yù)定義詞條作為WEB頁(yè)面的關(guān)鍵詞。作為一種實(shí)施方式,所述統(tǒng)計(jì)單元中可以包括有比例系數(shù)提供單元,提供每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條在所述WEB頁(yè)面的位置而設(shè)置的比例系數(shù),所述統(tǒng)計(jì)單元根據(jù)每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的權(quán)重值標(biāo)準(zhǔn)和該比例系數(shù)計(jì)算該子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條的權(quán)重值之和,這里則表明,還可以考慮預(yù)定義詞條在頁(yè)面中的位置來(lái)得到所述權(quán)重值,從而得到WEB頁(yè)面類(lèi)別,具體可參照上述方法流程中的說(shuō)明,此處不再贅述。實(shí)施如圖6所示的本發(fā)明的頁(yè)面關(guān)4建詞獲取裝置的第二實(shí)施例,通過(guò)導(dǎo)入單元61獲取WEB頁(yè)面,并由判斷單元621判斷所述WEB頁(yè)面是否為HTML頁(yè)面進(jìn)行相應(yīng)標(biāo)簽內(nèi)容或閉合標(biāo)簽內(nèi)容的提取,然后解碼單元623對(duì)提取的WEB頁(yè)面標(biāo)簽內(nèi)容/全部閉合標(biāo)簽內(nèi)容進(jìn)行解碼處理,得到關(guān)鍵文本,分詞處理單元63對(duì)獲取WEB頁(yè)面中的關(guān)鍵文本進(jìn)行分詞處理,得到關(guān)鍵文本的詞條,類(lèi)別確定單元641根據(jù)預(yù)定義詞庫(kù)中每一子詞庫(kù)中與所述關(guān)^:文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的貢獻(xiàn)度量標(biāo)準(zhǔn)確定所述WEB頁(yè)面的頁(yè)面類(lèi)別,關(guān)4建詞確定單元642將所述WEB頁(yè)面的頁(yè)面類(lèi)別對(duì)應(yīng)的子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條確定為所述WEB頁(yè)面的關(guān)鍵詞,從而全方位考慮WEB頁(yè)面的主要內(nèi)容,提高獲取WEB頁(yè)面關(guān)鍵詞的準(zhǔn)確度,由于考慮到WEB頁(yè)面的頁(yè)面類(lèi)別,因此可更加準(zhǔn)確的獲取WEB頁(yè)面的關(guān)鍵詞。另外,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為f茲碟、光盤(pán)、只讀存儲(chǔ)記憶體(Read-OnlyMemory,ROM)或隨機(jī)存儲(chǔ)記憶體(RadomAccessMemory,RAM)等。以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域
的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也視為本發(fā)明的保護(hù)范圍。權(quán)利要求1、一種獲取頁(yè)面關(guān)鍵詞的方法,其特征在于,包括獲取WEB頁(yè)面中的關(guān)鍵文本;對(duì)所述關(guān)鍵文本進(jìn)行分詞處理,得到所述關(guān)鍵文本的詞條;將預(yù)定義詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條確定為所述WEB頁(yè)面的關(guān)鍵詞。2、如權(quán)利要求1所述的獲取頁(yè)面關(guān)4建詞的方法,其特征在于,所述預(yù)定義詞庫(kù)包括若干子詞庫(kù),每一子詞庫(kù)中的預(yù)定義詞條與一頁(yè)面類(lèi)別對(duì)應(yīng)且分配有指示對(duì)頁(yè)面類(lèi)別貢獻(xiàn)作用的貢獻(xiàn)度量標(biāo)準(zhǔn),所述將預(yù)定義詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條確定為所述WEB頁(yè)面的關(guān)鍵詞步驟包括根據(jù)每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的貢獻(xiàn)度量標(biāo)準(zhǔn)確定所述WEB頁(yè)面的頁(yè)面類(lèi)別;將所述WEB頁(yè)面的頁(yè)面類(lèi)別對(duì)應(yīng)的子詞庫(kù)中與所述關(guān)4建文本的詞條匹配的預(yù)定義詞條確定為所述WEB頁(yè)面的關(guān)#:詞。3、如權(quán)利要求2所述的獲取頁(yè)面關(guān)鍵詞的方法,其特征在于,所述貢獻(xiàn)度量標(biāo)準(zhǔn)為權(quán)重值標(biāo)準(zhǔn),所述根據(jù)每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的貢獻(xiàn)度量標(biāo)準(zhǔn)確定所述WEB頁(yè)面的頁(yè)面類(lèi)別步驟包括獲得每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的權(quán)重值標(biāo)準(zhǔn);根據(jù)每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的權(quán)重值標(biāo)準(zhǔn),計(jì)算該子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條的權(quán)重值之和;確定所述權(quán)重值之和最大的子詞庫(kù)所對(duì)應(yīng)的頁(yè)面類(lèi)別為所述WEB頁(yè)面的頁(yè)面類(lèi)別。4、如權(quán)利要求3所述的獲取頁(yè)面關(guān)鍵詞的方法,其特征在于,還才艮據(jù)每一子詞庫(kù)中與所述關(guān)^:文本的詞條匹配的預(yù)定義詞條在所述WEB頁(yè)面的位置而設(shè)置的比例系數(shù),計(jì)算該子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條的權(quán)重值之和。5、如權(quán)利要求1至4中任一項(xiàng)所述的獲取頁(yè)面關(guān)4建詞的方法,其特征在于,所述獲取WEB頁(yè)面中的關(guān)鍵文本包括判斷所述WEB頁(yè)面是否為超文本標(biāo)記語(yǔ)言頁(yè)面,若是,則提取所述WEB頁(yè)面標(biāo)簽內(nèi)容/所述WEB頁(yè)面閉合標(biāo)簽內(nèi)容,否則提取所述WEB頁(yè)面閉合標(biāo)簽內(nèi)容;對(duì)所述提取的內(nèi)容進(jìn)行解碼,得到所述關(guān)鍵文本。6、一種頁(yè)面信息處理裝置,其特征在于,包括存儲(chǔ)單元,存儲(chǔ)預(yù)定義詞條集合,該預(yù)定義詞條集合形成預(yù)定義詞庫(kù);獲取單元,獲取WEB頁(yè)面中的關(guān)鍵文本;分詞處理單元,對(duì)所述關(guān)鍵文本進(jìn)行分詞處理,得到所述關(guān)鍵文本的詞條;確定單元,將與所述預(yù)定義詞庫(kù)中預(yù)定義詞條匹配的所述關(guān)鍵文本的詞條確定為所述WEB頁(yè)面的關(guān)4建詞。7、如權(quán)利要求6所述的頁(yè)面信息處理裝置,其特征在于,所述預(yù)定義詞庫(kù)包括若干子詞庫(kù),每一子詞庫(kù)中的預(yù)定義詞條與一頁(yè)面類(lèi)別對(duì)應(yīng)且分配有指示對(duì)頁(yè)面類(lèi)別貢獻(xiàn)作用的貢獻(xiàn)度量標(biāo)準(zhǔn),所述確定單元包括類(lèi)別確定單元,根據(jù)每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的貢獻(xiàn)度量標(biāo)準(zhǔn)確定所述WEB頁(yè)面的頁(yè)面類(lèi)別;關(guān)鍵詞確定單元,將所述WEB頁(yè)面的頁(yè)面類(lèi)別對(duì)應(yīng)的子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條確定為所述WEB頁(yè)面的關(guān)4建詞。8、如權(quán)利要求7所述的頁(yè)面信息處理裝置,其特征在于,所述貢獻(xiàn)度量標(biāo)準(zhǔn)為權(quán)重值標(biāo)準(zhǔn),則所述類(lèi)別確定單元包括獲得單元,獲得每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的權(quán)重值標(biāo)準(zhǔn);統(tǒng)計(jì)單元,根據(jù)每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條及其對(duì)頁(yè)面類(lèi)別具有貢獻(xiàn)作用的權(quán)重值標(biāo)準(zhǔn),計(jì)算該子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條的權(quán)重值之和;確定單元,確定所述權(quán)重值之和最大的子詞庫(kù)所對(duì)應(yīng)的頁(yè)面類(lèi)別為所述WEB頁(yè)面的頁(yè)面類(lèi)別。9、如權(quán)利要求8所述的頁(yè)面信息處理裝置,其特征在于,所述統(tǒng)計(jì)單元中包括有比例系數(shù)提供單元,提供每一子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條在所述WEB頁(yè)面的位置而設(shè)置的比例系數(shù),所述統(tǒng)計(jì)單元還#4居該比例系數(shù)計(jì)算該子詞庫(kù)中與所述關(guān)鍵文本的詞條匹配的預(yù)定義詞條的權(quán)重值之和。10、如權(quán)利要求6至9中任一項(xiàng)所述的頁(yè)面信息處理裝置,其特征在于,所述獲取單元包括判斷單元,判斷所述WEB頁(yè)面是否為超文本標(biāo)記語(yǔ)言頁(yè)面;提取單元,當(dāng)判斷單元判斷得到所述WEB頁(yè)面為超文本標(biāo)記語(yǔ)言頁(yè)面時(shí),提取所述WEB頁(yè)面標(biāo)簽內(nèi)容/所述WEB頁(yè)面閉合標(biāo)簽內(nèi)容;當(dāng)判斷單元判斷得到所述WEB頁(yè)面不為超文本標(biāo)記語(yǔ)言頁(yè)面時(shí),提取所述WEB頁(yè)面閉合標(biāo)簽內(nèi)容;解碼單元,對(duì)所述提取的內(nèi)容進(jìn)行解碼,得到所述關(guān)鍵文本。全文摘要本發(fā)明公開(kāi)了一種獲取頁(yè)面關(guān)鍵詞的方法,通過(guò)對(duì)獲取WEB頁(yè)面中的關(guān)鍵文本進(jìn)行分詞處理,得到所述關(guān)鍵文本的詞條,并將與預(yù)定義詞庫(kù)中預(yù)定義詞條匹配的所述關(guān)鍵文本的詞條確定為所述WEB頁(yè)面的關(guān)鍵詞。本發(fā)明還公開(kāi)了一種頁(yè)面信息處理裝置。采用本發(fā)明,可全方位考慮WEB頁(yè)面的主要內(nèi)容,提高獲取WEB頁(yè)面關(guān)鍵詞的準(zhǔn)確度,且簡(jiǎn)單易行。文檔編號(hào)G06F17/30GK101216842SQ200810025660公開(kāi)日2008年7月9日申請(qǐng)日期2008年1月7日優(yōu)先權(quán)日2008年1月7日發(fā)明者丁一鳴,劉利鋒,斐唐,宇雷申請(qǐng)人:華為技術(shù)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
桦川县| 额尔古纳市| 周口市| 潍坊市| 英吉沙县| 宁国市| 临安市| 得荣县| 德惠市| 平江县| 礼泉县| 伊春市| 南木林县| 霍林郭勒市| 湖北省| 河源市| 隆回县| 永州市| 大悟县| 枝江市| 开远市| 兴国县| 垣曲县| 喀喇| 沾益县| 比如县| 永修县| 家居| 龙岩市| 突泉县| 弋阳县| 榕江县| 巩留县| 晋州市| 阿图什市| 遵义市| 霍邱县| 清镇市| 临夏市| 九江市| 平昌县|