網(wǎng)頁(yè)處理方法和終端的制作方法
【專利摘要】本發(fā)明提供了一種網(wǎng)頁(yè)處理方法,所述方法包括:獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句,所述匹配的抽取語(yǔ)句中包含所述加載的網(wǎng)頁(yè)的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述;根據(jù)所述標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述對(duì)所述加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽取;顯示所述抽取的標(biāo)題和正文內(nèi)容。采用該方法,使得頁(yè)面只顯示標(biāo)題和正文內(nèi)容,節(jié)省了屏幕空間。此外,還提供了一種用于執(zhí)行網(wǎng)頁(yè)處理方法的終端。
【專利說(shuō)明】網(wǎng)頁(yè)處理方法和終端
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,特別是涉及一種網(wǎng)頁(yè)處理方法和終端。
【背景技術(shù)】
[0002]用戶通常在瀏覽網(wǎng)頁(yè)時(shí),只會(huì)關(guān)注頁(yè)面上的標(biāo)題和正文內(nèi)容,而往往頁(yè)面上除了顯示標(biāo)題和正文內(nèi)容外,還包含很多與正文不相關(guān)的內(nèi)容。以新聞網(wǎng)頁(yè)為例,除了顯示新聞標(biāo)題和正文內(nèi)容外,往往還包含諸如新聞發(fā)表時(shí)間、精華推薦、熱門推薦、評(píng)論信息和廣告信息等其他用戶可能并不會(huì)去關(guān)注的內(nèi)容。如果加載頁(yè)面時(shí),將所有的內(nèi)容都顯示,會(huì)使得瀏覽不便,特別是使用屏幕大小有限的移動(dòng)終端瀏覽網(wǎng)頁(yè)時(shí),這些與正文不相關(guān)的內(nèi)容還會(huì)額外占用屏幕空間,從而影響對(duì)標(biāo)題和正文內(nèi)容的正常瀏覽。
【發(fā)明內(nèi)容】
[0003]基于此,有必要針對(duì)上述問(wèn)題,提供一種能使頁(yè)面只顯示標(biāo)題和正文內(nèi)容,節(jié)省屏幕空間的網(wǎng)頁(yè)處理方法和終端。
[0004]一種網(wǎng)頁(yè)處理方法,所述方法包括:
[0005]獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句,所述匹配的抽取語(yǔ)句中包含所述加載的網(wǎng)頁(yè)的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述;
[0006]根據(jù)所述標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述對(duì)所述加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽??;
[0007]顯示所述抽取的標(biāo)題和正文內(nèi)容。
[0008]一種用于執(zhí)行網(wǎng)頁(yè)處理方法的終端,所述終端包括:
[0009]抽取語(yǔ)句匹配模塊,用于獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句,所述匹配的抽取語(yǔ)句中包含所述加載的網(wǎng)頁(yè)的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述;
[0010]標(biāo)題正文抽取模塊,用于根據(jù)所述標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述對(duì)所述加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽取;
[0011]顯示模塊,用于顯示所述抽取的標(biāo)題和正文內(nèi)容。
[0012]上述網(wǎng)頁(yè)處理方法和終端,通過(guò)獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句,由于該匹配的抽取語(yǔ)句中包含有加載的網(wǎng)頁(yè)的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述,根據(jù)該路徑描述即可獲取到加載的網(wǎng)頁(yè)中的標(biāo)題內(nèi)容塊和正文內(nèi)容塊,從而能實(shí)現(xiàn)對(duì)加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽取,使頁(yè)面上只顯示抽取的標(biāo)題和正文內(nèi)容。而其他用戶可能并不會(huì)關(guān)注的內(nèi)容不會(huì)顯示,能夠節(jié)省屏幕空間,從而便于瀏覽。
【專利附圖】
【附圖說(shuō)明】
[0013]圖1為一個(gè)實(shí)施例中網(wǎng)頁(yè)處理方法的流程示意圖;
[0014]圖2為一個(gè)實(shí)施例中獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句的流程示意圖;
[0015]圖3為一個(gè)實(shí)施例中抽取標(biāo)題和正文內(nèi)容的流程示意圖;
[0016]圖4A為圖3所示實(shí)施例提供的原始網(wǎng)頁(yè)的示意圖;
[0017]圖4B為對(duì)圖4A所示原始網(wǎng)頁(yè)實(shí)現(xiàn)抽取后的效果圖;
[0018]圖5為一個(gè)實(shí)施例中去除加載的網(wǎng)頁(yè)中的雜質(zhì)的流程示意圖;
[0019]圖6A為圖5所示實(shí)施例中提供的原始網(wǎng)頁(yè)的示意圖;
[0020]圖6B為對(duì)圖4A所示原始網(wǎng)頁(yè)實(shí)現(xiàn)抽取后的效果圖;
[0021]圖7為一個(gè)實(shí)施例中抽取加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接的流程示意圖;
[0022]圖8為圖7所示實(shí)施例提供的續(xù)頁(yè)塊的示意圖;
[0023]圖9為一個(gè)實(shí)施例中用于執(zhí)行網(wǎng)頁(yè)處理方法的終端的結(jié)構(gòu)框圖;
[0024]圖10為圖9中抽取語(yǔ)句獲取模塊的結(jié)構(gòu)框圖;
[0025]圖11為圖9中抽取語(yǔ)句匹配模塊的結(jié)構(gòu)框圖;
[0026]圖12為圖9中標(biāo)題正文抽取模塊的結(jié)構(gòu)框圖;
[0027]圖13為另一個(gè)實(shí)施例中用于執(zhí)行網(wǎng)頁(yè)處理方法的終端的結(jié)構(gòu)框圖;
[0028]圖14為又一個(gè)實(shí)施例中用于執(zhí)行網(wǎng)頁(yè)處理方法的終端的結(jié)構(gòu)框圖;
[0029]圖15為圖14中續(xù)頁(yè)鏈接抽取模塊的結(jié)構(gòu)框圖;
[0030]圖16為圖14中第二續(xù)頁(yè)鏈接確定模塊的結(jié)構(gòu)框圖;
[0031]圖17為另一個(gè)實(shí)施例中第二續(xù)頁(yè)鏈接確定模塊的結(jié)構(gòu)框圖;
[0032]圖18為一個(gè)實(shí)施例中網(wǎng)頁(yè)處理終端的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0033]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0034]如圖1所示,在一個(gè)實(shí)施例中,提供了一種網(wǎng)頁(yè)處理方法,該方法以應(yīng)用在可運(yùn)行瀏覽器的終端中進(jìn)行舉例說(shuō)明,這些終端包括但不限于個(gè)人計(jì)算機(jī)、個(gè)人數(shù)字助理、膝上型便攜計(jì)算機(jī)、智能手機(jī)、平板電腦、MP3播放器和MP4播放器等,包括:
[0035]步驟102,獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句。
[0036]在一個(gè)實(shí)施例中,在步驟102之前,可獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句。終端可運(yùn)行瀏覽器,通過(guò)瀏覽器請(qǐng)求訪問(wèn)各種網(wǎng)頁(yè),在加載好網(wǎng)頁(yè)后,終端可獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句。具體的,終端可直接從服務(wù)器獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,也可以直接從本地緩存中獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句。
[0037]所謂抽取語(yǔ)句,是指能應(yīng)用于終端,使得終端能夠?qū)崿F(xiàn)對(duì)加載的網(wǎng)頁(yè)的各種內(nèi)容塊進(jìn)行抽取的語(yǔ)句。具體的,抽取語(yǔ)句可為XPath語(yǔ)句(也可稱為XPath規(guī)則),XPath是一門在XML (Extensible Markup Language,可擴(kuò)展標(biāo)記語(yǔ)言)文檔中查找信息的語(yǔ)言,其用于在XML文檔中通過(guò)元素和屬性進(jìn)行導(dǎo)航。由于不同域名下可能會(huì)有多種網(wǎng)站,例如域名為qq.com下可能會(huì)有小說(shuō)網(wǎng)站、新聞網(wǎng)站、圖片網(wǎng)站、游戲網(wǎng)站等等,不同的網(wǎng)站可使用不同的XPath語(yǔ)句來(lái)實(shí)現(xiàn)抽取,因此對(duì)應(yīng)于同一域名,有多條XPath語(yǔ)句。
[0038]每個(gè)XPath語(yǔ)句包含網(wǎng)站域名、正則表達(dá)式以及各種網(wǎng)頁(yè)內(nèi)容塊的路徑描述(或稱為網(wǎng)頁(yè)內(nèi)容塊的XPath)。具體的,在步驟102中,可獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條XPath語(yǔ)句,其中,每條XPath語(yǔ)句可使用第一分隔符分割,而每個(gè)XPath語(yǔ)句中的不同網(wǎng)頁(yè)內(nèi)容塊的路徑描述則可用第二分隔符分割。其中,第一分隔符可為:/t ;第二分隔符可為:$$。例如,所下發(fā)的與加載的網(wǎng)頁(yè)域名對(duì)應(yīng)的多條抽取語(yǔ)句形如:qq.com正則表達(dá)式\ttitie: xpath$$content: xpath$$content: xpah$$page: xpath....?,其中,title: xpath 為標(biāo)題內(nèi)容塊的路徑描述,content:xpath為正文內(nèi)容塊的路徑描述,page:xpath為續(xù)頁(yè)塊的路徑描述。又如,某一條 content:xpath 為:content://*[0id=〃shop738279205〃]/div/div/div [2] /div/p [I] /span/span/strong,終端根據(jù)該正文內(nèi)容塊的路徑描述,即可抽取對(duì)應(yīng)的正文內(nèi)容。
[0039]由于與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)有多條抽取語(yǔ)句,而加載的網(wǎng)頁(yè)只是該域名下的某一具體網(wǎng)站的網(wǎng)頁(yè),因此需根據(jù)加載的網(wǎng)頁(yè)的URL地址匹配得到該網(wǎng)頁(yè)對(duì)應(yīng)的抽取語(yǔ)句。具體的,可將加載的網(wǎng)頁(yè)的URL地址與每條抽取語(yǔ)句中的正則表達(dá)式進(jìn)行匹配,匹配成功,則包含該正則表達(dá)式的抽取語(yǔ)句為與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句。
[0040]步驟104,根據(jù)標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述對(duì)加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽取。
[0041 ] 由于匹配的抽取語(yǔ)句中包含標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述,終端根據(jù)這些路徑描述即可抽取得到對(duì)應(yīng)的標(biāo)題和正文內(nèi)容。
[0042]步驟106,顯示抽取的標(biāo)題和正文內(nèi)容。
[0043]本實(shí)施例中,能實(shí)現(xiàn)對(duì)加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽取,使得在頁(yè)面上只顯示抽取的標(biāo)題和正文內(nèi)容,而其他用戶可能并不會(huì)關(guān)注的內(nèi)容不會(huì)顯示,節(jié)省了屏幕空間,從而便于瀏覽。
[0044]在一個(gè)實(shí)施例中,獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,包括:檢測(cè)緩存中是否有與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,如果有,則從緩存中獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,如果沒有,則從服務(wù)器獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句并緩存。
[0045]本實(shí)施例中,抽取語(yǔ)句可保存在服務(wù)器上,可包含服務(wù)器對(duì)不同域名下的大量網(wǎng)站進(jìn)行處理后得到的網(wǎng)頁(yè)內(nèi)容塊的路徑描述所組成的抽取語(yǔ)句,也可包含預(yù)先存儲(chǔ)在服務(wù)器中人工設(shè)置的抽取語(yǔ)句。在服務(wù)器上存儲(chǔ)了域名與多條抽取語(yǔ)句的對(duì)應(yīng)關(guān)系。
[0046]本實(shí)施例中,從服務(wù)器獲取到的與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句可在終端本地進(jìn)行緩存,這樣,終端先檢測(cè)緩存中是否有與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,如果有,則無(wú)需再?gòu)姆?wù)器獲取,節(jié)省了網(wǎng)絡(luò)流量,如果沒有,則再?gòu)姆?wù)器獲取并緩存,以便下次獲取同一域名對(duì)應(yīng)的多條抽取語(yǔ)句時(shí)可直接從緩存中獲取。
[0047]進(jìn)一步的,可預(yù)先設(shè)置緩存中可存儲(chǔ)的抽取語(yǔ)句對(duì)應(yīng)的域名個(gè)數(shù),例如可設(shè)置可存儲(chǔ)50個(gè)域名所對(duì)應(yīng)的多條抽取語(yǔ)句。當(dāng)緩存已滿,則對(duì)之前緩存的抽取語(yǔ)句進(jìn)行淘汰。具體的,可在終端上運(yùn)行瀏覽器,并在瀏覽器切入前臺(tái)后延遲5秒執(zhí)行淘汰,例如,可淘汰掉7天前未訪問(wèn)的域名對(duì)應(yīng)的抽取語(yǔ)句。
[0048]本實(shí)施例中,通過(guò)緩存獲取的與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,在緩存中存在有與域名對(duì)應(yīng)才抽取語(yǔ)句時(shí),則無(wú)需再聯(lián)網(wǎng),并從服務(wù)器獲取,從而節(jié)省了網(wǎng)絡(luò)流量,提高了抽取的速度。
[0049]圖2示出了一個(gè)實(shí)施例中獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句的流程,具體包括:
[0050]步驟202,將加載的網(wǎng)頁(yè)的URL地址與多條抽取語(yǔ)句對(duì)應(yīng)的正則表達(dá)式逐一進(jìn)行匹配。
[0051]步驟204,判斷是否匹配成功,若是,則進(jìn)入步驟206,否則返回步驟202。
[0052]步驟206,匹配的正則表達(dá)式對(duì)應(yīng)的抽取語(yǔ)句為匹配的抽取語(yǔ)句。
[0053]步驟208,根據(jù)匹配的抽取語(yǔ)句中的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述,嘗試抽取加載的網(wǎng)頁(yè)的標(biāo)題和正文內(nèi)容。
[0054]步驟210,判斷是否有其中一個(gè)路徑描述嘗試抽取失敗,若是,則返回步驟202,否則進(jìn)入步驟212。
[0055]步驟212,對(duì)加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽取。
[0056]本實(shí)施例中,當(dāng)抽取語(yǔ)句中的正則表達(dá)式與加載的網(wǎng)頁(yè)的URL地址匹配成功,則表明該抽取語(yǔ)句可能實(shí)現(xiàn)對(duì)該加載的網(wǎng)頁(yè)進(jìn)行抽取。在嘗試根據(jù)匹配的抽取語(yǔ)句中的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述進(jìn)行標(biāo)題和正文內(nèi)容的抽取時(shí),如果有其中一個(gè)路徑描述嘗試抽取失敗,則表明匹配的抽取語(yǔ)句實(shí)際上并不能實(shí)現(xiàn)對(duì)加載的網(wǎng)頁(yè)進(jìn)行抽取,則繼續(xù)進(jìn)行匹配,直到匹配的抽取語(yǔ)句中的路徑描述都能嘗試抽取成功。進(jìn)一步的,所有路徑描述都能嘗試抽取成功后,可顯示閱讀器按鈕,點(diǎn)擊該閱讀器按鈕即可觸發(fā)對(duì)加載的網(wǎng)頁(yè)的抽取,在抽取后,還可由終端來(lái)編寫CSS (層疊樣式表),進(jìn)行重新排版。
[0057]可以理解的是,在一個(gè)實(shí)施例中,可省略上述步驟208?212,也就是當(dāng)根據(jù)正則表達(dá)式匹配到對(duì)應(yīng)的抽取語(yǔ)句,則直接可根據(jù)該抽取語(yǔ)句對(duì)加載的網(wǎng)頁(yè)進(jìn)行抽取。
[0058]圖3示出了一個(gè)實(shí)施例中抽取標(biāo)題和正文內(nèi)容的流程,包括:
[0059]步驟302,從抽取語(yǔ)句中的第一個(gè)標(biāo)題內(nèi)容塊的路徑描述進(jìn)行檢測(cè),當(dāng)檢測(cè)到非空字符串時(shí),則停止檢測(cè),根據(jù)檢測(cè)到的非空字符串對(duì)加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題的抽取。
[0060]具體的,根據(jù)抽取語(yǔ)句中的第一個(gè)標(biāo)題內(nèi)容塊的路徑描述進(jìn)行抽取,當(dāng)抽取到標(biāo)題內(nèi)容時(shí),也就是能夠檢測(cè)到非空字符串時(shí),由于標(biāo)題僅有一個(gè)即可,如果檢測(cè)到非空字符串,則能夠得到一個(gè)標(biāo)題,即可根據(jù)檢測(cè)到的非空字符串對(duì)加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題的抽取。
[0061]步驟304,根據(jù)抽取語(yǔ)句中的正文內(nèi)容塊的路徑描述抽取加載的網(wǎng)頁(yè)中的正文內(nèi)容,并將抽取到的正文內(nèi)容按順序拼接。
[0062]由于正文內(nèi)容塊之間可能還包含其他用戶不會(huì)關(guān)注的內(nèi)容,例如廣告信息,因此各個(gè)正文內(nèi)容塊并非是緊密排列在一起的。步驟304中,抽取到所有的正文內(nèi)容,并按照順序拼接,從而得到當(dāng)前的網(wǎng)頁(yè)中的所有正文內(nèi)容。
[0063]一種對(duì)加載的網(wǎng)頁(yè)(如圖4A所示)顯示抽取的標(biāo)題和正文內(nèi)容的效果如圖4B所示,對(duì)加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽取后,在頁(yè)面上只顯示標(biāo)題和正文內(nèi)容,而用戶可能并不關(guān)注的大量?jī)?nèi)容都不會(huì)再顯示,節(jié)省了屏幕空間,特別是使用在屏幕大小有限的移動(dòng)終端時(shí),能夠便于瀏覽。
[0064]在一個(gè)實(shí)施例中,匹配的抽取語(yǔ)句中還包括加載的網(wǎng)頁(yè)的雜質(zhì)塊的路徑描述,網(wǎng)頁(yè)處理方法還能夠去除網(wǎng)頁(yè)上的雜質(zhì),具體的,如圖5所示,該方法還包括:
[0065]步驟502,根據(jù)雜質(zhì)塊的路徑描述將加載的網(wǎng)頁(yè)中的雜質(zhì)去除。
[0066]步驟504,將加載的網(wǎng)頁(yè)中帶雜質(zhì)標(biāo)簽的DOM節(jié)點(diǎn)去除。
[0067]本實(shí)施例中,采用重建DOM樹的方式去除網(wǎng)頁(yè)上的雜質(zhì)。DOM (Document ObjectModel,文檔對(duì)象模型),是以層次結(jié)構(gòu)組織的節(jié)點(diǎn)或信息片斷的集合,其中,每個(gè)節(jié)點(diǎn)都擁有包含著關(guān)于節(jié)點(diǎn)某些信息的屬性,這些屬性包括節(jié)點(diǎn)名稱、節(jié)點(diǎn)值和節(jié)點(diǎn)類型等。
[0068]進(jìn)一步的,在重建DOM樹的過(guò)程中去除掉網(wǎng)頁(yè)中的雜質(zhì)。由于匹配的抽取語(yǔ)句中包含雜質(zhì)塊的路徑描述,根據(jù)雜質(zhì)塊的路徑描述即可獲知哪些DOM節(jié)點(diǎn)是雜質(zhì)節(jié)點(diǎn)。另一方面,DOM節(jié)點(diǎn)中包括一些標(biāo)簽可認(rèn)為是雜質(zhì)節(jié)點(diǎn),則將帶這些標(biāo)簽的DOM節(jié)點(diǎn)也去除,這些標(biāo)簽包括但不限于〈script〉、〈link〉、〈iframe〉、〈style〉、〈form〉、〈input〉、〈embed〉和<object> 等。
[0069]本實(shí)施例中,終端在重建DOM樹的過(guò)程中,可刪除每個(gè)DOM節(jié)點(diǎn)的屬性,但可保留圖片標(biāo)簽(img標(biāo)簽)的圖片路徑屬性(src屬性)、鏈接標(biāo)簽(a標(biāo)簽)的鏈接地址屬性(href屬性)和視頻標(biāo)簽(video標(biāo)簽)的視頻路徑屬性(src屬性)等,然后由終端編寫CSS (層疊樣式表),進(jìn)行重新排版。從而能實(shí)現(xiàn)去除網(wǎng)頁(yè)中的雜質(zhì),并能夠保留網(wǎng)頁(yè)中的超鏈接、圖片和視頻等??梢岳斫獾氖?,在其他實(shí)施例中,去除雜質(zhì)的流程可包括步驟502和步驟504中的至少一個(gè)步驟。
[0070]一種對(duì)加載的網(wǎng)頁(yè)(如圖6A所示)顯示抽取的標(biāo)題和正文內(nèi)容的效果如圖6B所示,本實(shí)施例中,除了可對(duì)加載的網(wǎng)頁(yè)抽取標(biāo)題和正文內(nèi)容外,還能去除掉網(wǎng)頁(yè)中的雜質(zhì),而保留圖片和超鏈接,使得頁(yè)面上除了顯示標(biāo)題和正文內(nèi)容外,還能顯示正文中的圖片,進(jìn)一步便于瀏覽。
[0071]可以理解,上述各實(shí)施例中的步驟都可由終端來(lái)執(zhí)行,當(dāng)緩存中存儲(chǔ)有與加載的網(wǎng)頁(yè)中的域名對(duì)應(yīng)的抽取語(yǔ)句時(shí),則終端不需要再與服務(wù)器聯(lián)網(wǎng)即可實(shí)現(xiàn)對(duì)加載的網(wǎng)頁(yè)的抽取,并在頁(yè)面上只顯示標(biāo)題和正文內(nèi)容(可包含正文中的圖片),抽取速度快,且節(jié)省了網(wǎng)絡(luò)流量。若緩存中不存在有與加的網(wǎng)頁(yè)中的域名對(duì)應(yīng)的抽取語(yǔ)句,則終端僅從服務(wù)器獲取抽取語(yǔ)句,而抽取語(yǔ)句相對(duì)于網(wǎng)頁(yè)中的標(biāo)題和正文內(nèi)容來(lái)說(shuō),數(shù)據(jù)量很小,不會(huì)占用過(guò)多的網(wǎng)絡(luò)流量。
[0072]在一個(gè)實(shí)施例中,匹配的抽取語(yǔ)句中還包括加載的網(wǎng)頁(yè)的續(xù)頁(yè)塊的路徑描述,本實(shí)施例中,還可進(jìn)行續(xù)頁(yè)處理,即對(duì)加載的網(wǎng)頁(yè)的下一頁(yè)網(wǎng)頁(yè)實(shí)現(xiàn)自動(dòng)抽取。具體的,網(wǎng)頁(yè)處理方法還包括:根據(jù)續(xù)頁(yè)塊的路徑描述抽取加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接;對(duì)續(xù)頁(yè)鏈接對(duì)應(yīng)的網(wǎng)頁(yè)執(zhí)行上述各實(shí)施例中的網(wǎng)頁(yè)處理方法。
[0073]本實(shí)施例中,根據(jù)續(xù)頁(yè)塊的路徑描述即可抽取得到加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接,該續(xù)頁(yè)鏈接對(duì)應(yīng)了一個(gè)網(wǎng)頁(yè)的URL地址,根據(jù)該URL地址即可得到加載的網(wǎng)頁(yè)的下一頁(yè)網(wǎng)頁(yè)。進(jìn)一步的,根據(jù)該URL地址即可匹配到對(duì)應(yīng)的抽取語(yǔ)句,進(jìn)而根據(jù)匹配的抽取語(yǔ)句實(shí)現(xiàn)標(biāo)題和正文內(nèi)容的抽取、雜質(zhì)去除等。
[0074]在一個(gè)實(shí)施例中,可由服務(wù)器獲取續(xù)頁(yè)鏈接,根據(jù)續(xù)頁(yè)鏈接對(duì)下一頁(yè)網(wǎng)頁(yè)進(jìn)行抽取,然后將抽取得到的內(nèi)容發(fā)送至終端,則服務(wù)器無(wú)需向終端發(fā)送下一頁(yè)網(wǎng)頁(yè)的全部?jī)?nèi)容,節(jié)省了網(wǎng)絡(luò)流量。在另一個(gè)實(shí)施例中,可由終端獲取續(xù)頁(yè)鏈接,獲取服務(wù)器下發(fā)的下一頁(yè)網(wǎng)頁(yè)內(nèi)容,并進(jìn)一步根據(jù)續(xù)頁(yè)鏈接對(duì)下一頁(yè)網(wǎng)頁(yè)進(jìn)行抽取,則下一頁(yè)網(wǎng)頁(yè)的抽取交由終端來(lái)處理,減輕了服務(wù)器的負(fù)擔(dān)。
[0075]本實(shí)施例中,由于能夠自動(dòng)實(shí)現(xiàn)對(duì)下一頁(yè)網(wǎng)頁(yè)進(jìn)行抽取,但用戶瀏覽完當(dāng)前加載的網(wǎng)頁(yè)的標(biāo)題和正文內(nèi)容后,觸發(fā)下一頁(yè)的瀏覽,則終端自動(dòng)顯示下一頁(yè)網(wǎng)頁(yè)的標(biāo)題和正文內(nèi)容。例如,在使用帶觸摸屏的移動(dòng)終端時(shí),當(dāng)用戶瀏覽完當(dāng)前頁(yè)面的內(nèi)容,使用手指在觸摸屏上向上滑動(dòng),則自動(dòng)顯示下一頁(yè)網(wǎng)頁(yè)抽取的內(nèi)容,無(wú)需用戶點(diǎn)擊鏈接,提高了便利性。
[0076]圖7示出了一個(gè)實(shí)施例中抽取加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接的流程,包括:
[0077]步驟702,判斷抽取到的是否是鏈接標(biāo)簽,若是,則進(jìn)入步驟704,否則進(jìn)入步驟706。
[0078]步驟704,使用抽取到的標(biāo)簽中的第一個(gè)所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0079]本實(shí)施例中,當(dāng)根據(jù)續(xù)頁(yè)塊的路徑描述抽取到的是鏈接標(biāo)簽,則可直接使用該鏈接。
[0080]步驟706,查找抽取到的續(xù)頁(yè)塊中的鏈接標(biāo)簽,對(duì)鏈接標(biāo)簽進(jìn)行打分,獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0081]本實(shí)施例中,當(dāng)根據(jù)續(xù)頁(yè)塊的路徑描述抽取到的不是鏈接標(biāo)簽,則抽取到的是續(xù)頁(yè)塊,如圖8所示,續(xù)頁(yè)塊802中可能包含有多個(gè)鏈接標(biāo)簽,例如“上一章”、“下一章”、“回目錄”等,需要在這多個(gè)鏈接標(biāo)簽中確定續(xù)頁(yè)鏈接。
[0082]具體的,在一個(gè)實(shí)施例中,步驟706包括:檢測(cè)鏈接標(biāo)簽的屬性中是否包含預(yù)設(shè)鏈接內(nèi)容,若是,則根據(jù)屬性中包含的預(yù)設(shè)鏈接內(nèi)容對(duì)鏈接標(biāo)簽進(jìn)行加分;判斷是否含有大于零分的鏈接標(biāo)簽,如果有,則獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0083]鏈接標(biāo)簽的屬性包含文本、title、alt、id、class等,檢測(cè)這些屬性中是否包含預(yù)設(shè)鏈接內(nèi)容,其中預(yù)設(shè)鏈接內(nèi)容可以是但不限于“下一頁(yè)”、“下一章”、“下一張”、“下一節(jié)”、“next”、“〉”等,根據(jù)屬性中包含的預(yù)設(shè)鏈接內(nèi)容對(duì)鏈接標(biāo)簽進(jìn)行加分,從而可區(qū)分預(yù)設(shè)鏈接內(nèi)容的優(yōu)先級(jí)。例如,如果包含預(yù)設(shè)鏈接內(nèi)容為“下一頁(yè)”,則對(duì)該鏈接標(biāo)簽加200分;如果包含預(yù)設(shè)鏈接內(nèi)容為“下一張”,則對(duì)該鏈接標(biāo)簽加180 ;依次類推。在抽取得到的所有續(xù)頁(yè)塊中的鏈接標(biāo)簽都打分完成后,判斷是否含有大于零分的鏈接標(biāo)簽,如果有,表示存在續(xù)頁(yè)鏈接,獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽為續(xù)頁(yè)鏈接。
[0084]在一個(gè)實(shí)施例中,步驟706還包括:如果沒有大于零分的鏈接標(biāo)簽,則獲取鏈接標(biāo)簽的兄弟節(jié)點(diǎn),根據(jù)兄弟節(jié)點(diǎn)中包含的文字內(nèi)容對(duì)鏈接標(biāo)簽進(jìn)行加分,以及檢測(cè)鏈接標(biāo)簽中是否包含圖片,若是,則根據(jù)圖片中包含的預(yù)設(shè)文件內(nèi)容對(duì)鏈接標(biāo)簽進(jìn)行加分;獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0085]本實(shí)施例中,如果沒有大于零分的鏈接標(biāo)簽,則進(jìn)一步獲取鏈接標(biāo)簽的兄弟節(jié)點(diǎn),即位于鏈接標(biāo)簽前面或后面的文字,優(yōu)選為鏈接標(biāo)簽前面的文字,根據(jù)這些文字對(duì)鏈接標(biāo)簽進(jìn)行加分,例如,如果包含“下一頁(yè)”則加100分;如果包含“下一張”則加80分;依次類推。進(jìn)一步的,由于有些鏈接標(biāo)簽呈現(xiàn)的形式是圖片,因此還可進(jìn)一步檢測(cè)鏈接標(biāo)簽中是否包含圖片,若是,則根據(jù)圖片中是否包含“下一頁(yè)”、“下一張”、“下一章”等對(duì)鏈接標(biāo)簽進(jìn)行加分,例如,如果包含“下”或者“next”則加10分;在對(duì)所有續(xù)頁(yè)塊中的鏈接標(biāo)簽都打分完成后,獲取其中分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的連接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0086]如圖9所示,在一個(gè)實(shí)施例中,提供了一種用于執(zhí)行網(wǎng)頁(yè)處理方法的終端,該終端包括:
[0087]抽取語(yǔ)句匹配模塊904,用于獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句,該匹配的抽取語(yǔ)句中包含加載的網(wǎng)頁(yè)的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述。
[0088]標(biāo)題正文抽取模塊906,用于根據(jù)標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述對(duì)加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容塊的抽取。
[0089]顯示模塊908,用于顯示抽取的標(biāo)題和正文內(nèi)容。
[0090]在一個(gè)實(shí)施例中,終端還包括抽取語(yǔ)句獲取模塊902,用于獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的抽取語(yǔ)句。
[0091]在一個(gè)實(shí)施例中,如圖10所示,抽取語(yǔ)句獲取模塊902包括:
[0092]緩存獲取模塊902a,用于檢測(cè)緩存中是否有與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,如果有,則從緩存中獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句
[0093]緩存模塊902b,用于如果緩存中沒有與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,則從服務(wù)器獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句并緩存。
[0094]在一個(gè)實(shí)施例中,如圖11所示,抽取語(yǔ)句匹配模塊904包括:
[0095]正則表達(dá)式匹配模塊904a,用于將加載的網(wǎng)頁(yè)的URL地址與多條抽取語(yǔ)句對(duì)應(yīng)的正則表達(dá)式進(jìn)行匹配;若匹配成功,則匹配的正則表達(dá)式對(duì)應(yīng)的抽取語(yǔ)句為匹配的抽取語(yǔ)句。
[0096]嘗試抽取模塊904b,用于若正則表達(dá)式匹配模塊904a匹配成功,則根據(jù)匹配的抽取語(yǔ)句中的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述,嘗試抽取加載的網(wǎng)頁(yè)的標(biāo)題和正文內(nèi)容。
[0097]本實(shí)施例中,正則表達(dá)式匹配模塊904a,還用于如果有其中一個(gè)路徑描述嘗試抽取失敗,則繼續(xù)將加載的網(wǎng)頁(yè)的URL地址與多條抽取語(yǔ)句對(duì)應(yīng)的正則表達(dá)式逐一進(jìn)行匹配,直至匹配的抽取語(yǔ)句中的路徑描述都能嘗試抽取成功。
[0098]在其他實(shí)施例中,抽取語(yǔ)句匹配模塊904可包含正則表達(dá)式匹配模塊904a和嘗試抽取模塊904b中的至少一個(gè)。
[0099]在一個(gè)實(shí)施例中,如圖12所示,標(biāo)題正文抽取模塊906包括:
[0100]標(biāo)題抽取模塊906a,用于從抽取語(yǔ)句中的第一個(gè)標(biāo)題內(nèi)容塊的路徑描述進(jìn)行檢測(cè),當(dāng)檢測(cè)到非空字符串時(shí),則停止檢測(cè),根據(jù)檢測(cè)到的非空字符串對(duì)加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題的抽取。
[0101]正文內(nèi)容抽取模塊906b,用于根據(jù)抽取語(yǔ)句中的正文內(nèi)容塊的路徑描述抽取加載的網(wǎng)頁(yè)中的正文內(nèi)容,并將抽取到的正文內(nèi)容按順序進(jìn)行拼接。
[0102]在一個(gè)實(shí)施例中,匹配的抽取語(yǔ)句中包含加載的網(wǎng)頁(yè)的雜質(zhì)塊的路徑描述,如圖13所示,終端還包括:
[0103]第一雜質(zhì)去除模塊905,用于根據(jù)雜質(zhì)塊的路徑描述將加載的網(wǎng)頁(yè)中的雜質(zhì)去除。
[0104]第二雜質(zhì)去除模塊907,用于將加載的網(wǎng)頁(yè)中帶雜質(zhì)標(biāo)簽的DOM節(jié)點(diǎn)去除。
[0105]在其他實(shí)施例中,終端可包含第一雜質(zhì)去除模塊905和第二雜質(zhì)去除模塊907中的至少一個(gè)。
[0106]在一個(gè)實(shí)施例中,匹配的抽取語(yǔ)句中還包含加載的網(wǎng)頁(yè)的續(xù)頁(yè)塊的路徑描述,如圖14所示,終端還包括:
[0107]續(xù)頁(yè)鏈接抽取模塊909,用于根據(jù)續(xù)頁(yè)塊的路徑描述抽取所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0108]本實(shí)施例中,抽取語(yǔ)句匹配模塊904還用于根據(jù)續(xù)頁(yè)鏈接對(duì)應(yīng)的URL地址,獲取與續(xù)頁(yè)鏈接對(duì)應(yīng)的URL地址匹配的抽取語(yǔ)句;標(biāo)題正文抽取模塊906還用于根據(jù)匹配的抽取語(yǔ)句中的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述對(duì)續(xù)頁(yè)鏈接對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽取。
[0109]在一個(gè)實(shí)施例中,如圖15所示,續(xù)頁(yè)鏈接抽取模塊909包括:
[0110]第一續(xù)頁(yè)鏈接確定模塊919,用于如果抽取到的是鏈接標(biāo)簽,則使用抽取到的鏈接標(biāo)簽中的第一個(gè)所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0111]第二續(xù)頁(yè)鏈接確定模塊929,用于如果抽取到的不是鏈接標(biāo)簽,則查找抽取到的續(xù)頁(yè)塊中的鏈接標(biāo)簽,對(duì)鏈接標(biāo)簽進(jìn)行打分,獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0112]在一個(gè)實(shí)施例中,如圖16所示,第二續(xù)頁(yè)鏈接確定模塊929包括:
[0113]第一加分模塊929a,用于檢測(cè)鏈接標(biāo)簽的屬性中是否包含預(yù)設(shè)鏈接內(nèi)容,若是,則根據(jù)所屬性中包含的預(yù)設(shè)鏈接內(nèi)容對(duì)鏈接標(biāo)簽進(jìn)行加分。
[0114]續(xù)頁(yè)鏈接獲取模塊929b,用于判斷是否含有大于零分的鏈接標(biāo)簽,如果有,則獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0115]在另一個(gè)實(shí)施例中,如圖17所示,第二續(xù)頁(yè)鏈接確定模塊929還包括:
[0116]第二加分模塊929c,用于如果沒有大于零分的鏈接標(biāo)簽,則獲取鏈接標(biāo)簽的兄弟節(jié)點(diǎn),根據(jù)兄弟節(jié)點(diǎn)中包含的文字內(nèi)容對(duì)鏈接標(biāo)簽進(jìn)行加分,以及檢測(cè)鏈接標(biāo)簽中是否包含圖片,若是,則根據(jù)圖片中包含的預(yù)設(shè)文本內(nèi)容對(duì)鏈接標(biāo)簽進(jìn)行加分。
[0117]本實(shí)施例中,續(xù)頁(yè)鏈接獲取模塊929b還用于獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0118]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory, ROM)或隨機(jī)存儲(chǔ)記憶體(Random AccessMemory, RAM)等。
[0119]本發(fā)明實(shí)施例還提供了另一種網(wǎng)頁(yè)處理終端,如圖18所示,為了便于說(shuō)明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,具體技術(shù)細(xì)節(jié)未揭示的,請(qǐng)參照本發(fā)明實(shí)施例方法部分。該終端可以為包括手機(jī)、平板電腦、PDA (Personal Digital Assistant,個(gè)人數(shù)字助理)、POS (Point of Sales,銷售終端)、車載電腦等任意終端設(shè)備,以終端為手機(jī)為例:
[0120]圖18示出的是與本發(fā)明實(shí)施例提供的終端相關(guān)的手機(jī)的部分結(jié)構(gòu)的框圖。參考圖18,手機(jī)包括:射頻(Rad1 Frequency,RF)電路1110、存儲(chǔ)器1120、輸入單元1130、顯示單元1140、傳感器1150、音頻電路1160、無(wú)線保真(wireless fidelity, WiFi)模塊1170、處理器1180、以及電源1190等部件。本領(lǐng)域技術(shù)人員可以理解,圖18中示出的手機(jī)結(jié)構(gòu)并不構(gòu)成對(duì)手機(jī)的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布直。
[0121]下面結(jié)合圖18對(duì)手機(jī)的各個(gè)構(gòu)成部件進(jìn)行具體的介紹:
[0122]RF電路1110可用于收發(fā)信息或通話過(guò)程中,信號(hào)的接收和發(fā)送,特別地,將基站的下行信息接收后,給處理器1180處理;另外,將設(shè)計(jì)上行的數(shù)據(jù)發(fā)送給基站。通常,RF電路包括但不限于天線、至少一個(gè)放大器、收發(fā)信機(jī)、耦合器、低噪聲放大器(LowNoise Amplifier, LNA)、雙工器等。此外,RF電路110還可以通過(guò)無(wú)線通信與網(wǎng)絡(luò)和其他設(shè)備通信。上述無(wú)線通信可以使用任一通信標(biāo)準(zhǔn)或協(xié)議,包括但不限于全球移動(dòng)通訊系統(tǒng)(Global System of Mobile communicat1n, GSM)、通用分組無(wú)線服務(wù)(GeneralPacket Rad1 Service, GPRS)、碼分多址(Code Divis1n Multiple Access, CDMA)、寬帶碼分多址(Wideband Code Divis1n Multiple Access, WCDMA)、長(zhǎng)期演進(jìn)(Long TermEvolut1n, LTE))、電子郵件、短消息服務(wù)(Short Messaging Service, SMS)等。
[0123]存儲(chǔ)器1120可用于存儲(chǔ)軟件程序以及模塊,處理器1180通過(guò)運(yùn)行存儲(chǔ)在存儲(chǔ)器1120的軟件程序以及模塊,從而執(zhí)行手機(jī)的各種功能應(yīng)用以及數(shù)據(jù)處理。存儲(chǔ)器1120可主要包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)手機(jī)的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲(chǔ)器1120可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他易失性固態(tài)存儲(chǔ)器件。
[0124]輸入單元1130可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與手機(jī)1100的用戶設(shè)置以及功能控制有關(guān)的鍵信號(hào)輸入。具體地,輸入單元1130可包括觸控面板1131以及其他輸入設(shè)備1132。觸控面板1131,也稱為觸摸屏,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板1131上或在觸控面板1131附近的操作),并根據(jù)預(yù)先設(shè)定的程式驅(qū)動(dòng)相應(yīng)的連接裝置??蛇x的,觸控面板1131可包括觸摸檢測(cè)裝置和觸摸控制器兩個(gè)部分。其中,觸摸檢測(cè)裝置檢測(cè)用戶的觸摸方位,并檢測(cè)觸摸操作帶來(lái)的信號(hào),將信號(hào)傳送給觸摸控制器;觸摸控制器從觸摸檢測(cè)裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點(diǎn)坐標(biāo),再送給處理器1180,并能接收處理器1180發(fā)來(lái)的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實(shí)現(xiàn)觸控面板1131。除了觸控面板1131,輸入單元1130還可以包括其他輸入設(shè)備1132。具體地,其他輸入設(shè)備1132可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標(biāo)、操作桿等中的一種或多種。
[0125]顯示單元1140可用于顯示由用戶輸入的信息或提供給用戶的信息以及手機(jī)的各種菜單。顯示單元1140可包括顯示面板1141,可選的,可以采用液晶顯示器(LiquidCrystal Display, LCD)、有機(jī)發(fā)光二極管(Organic Light-Emitting D1de, 0LED)等形式來(lái)配置顯示面板1141。進(jìn)一步的,觸控面板1131可覆蓋顯示面板1141,當(dāng)觸控面板1131檢測(cè)到在其上或附近的觸摸操作后,傳送給處理器1180以確定觸摸事件的類型,隨后處理器1180根據(jù)觸摸事件的類型在顯示面板1141上提供相應(yīng)的視覺輸出。雖然在圖18中,觸控面板1131與顯示面板1141是作為兩個(gè)獨(dú)立的部件來(lái)實(shí)現(xiàn)手機(jī)的輸入和輸入功能,但是在某些實(shí)施例中,可以將觸控面板1131與顯示面板1141集成而實(shí)現(xiàn)手機(jī)的輸入和輸出功倉(cāng)泛。
[0126]手機(jī)1100還可包括至少一種傳感器1150,比如光傳感器、運(yùn)動(dòng)傳感器以及其他傳感器。具體地,光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來(lái)調(diào)節(jié)顯示面板1141的亮度,接近傳感器可在手機(jī)移動(dòng)到耳邊時(shí),關(guān)閉顯示面板1141和/或背光。作為運(yùn)動(dòng)傳感器的一種,加速計(jì)傳感器可檢測(cè)各個(gè)方向上(一般為三軸)加速度的大小,靜止時(shí)可檢測(cè)出重力的大小及方向,可用于識(shí)別手機(jī)姿態(tài)的應(yīng)用匕如橫豎屏切換、相關(guān)游戲、磁力計(jì)姿態(tài)校準(zhǔn))、振動(dòng)識(shí)別相關(guān)功能(比如計(jì)步器、敲擊)等;至于手機(jī)還可配置的陀螺儀、氣壓計(jì)、濕度計(jì)、溫度計(jì)、紅外線傳感器等其他傳感器,在此不再贅述。
[0127]音頻電路1160、揚(yáng)聲器1161,傳聲器1162可提供用戶與手機(jī)之間的音頻接口。音頻電路1160可將接收到的音頻數(shù)據(jù)轉(zhuǎn)換后的電信號(hào),傳輸?shù)綋P(yáng)聲器1161,由揚(yáng)聲器1161轉(zhuǎn)換為聲音信號(hào)輸出;另一方面,傳聲器1162將收集的聲音信號(hào)轉(zhuǎn)換為電信號(hào),由音頻電路1160接收后轉(zhuǎn)換為音頻數(shù)據(jù),再將音頻數(shù)據(jù)輸出處理器1180處理后,經(jīng)RF電路1110以發(fā)送給比如另一手機(jī),或者將音頻數(shù)據(jù)輸出至存儲(chǔ)器1120以便進(jìn)一步處理。
[0128]WiFi屬于短距離無(wú)線傳輸技術(shù),手機(jī)通過(guò)WiFi模塊1170可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁(yè)和訪問(wèn)流式媒體等,它為用戶提供了無(wú)線的寬帶互聯(lián)網(wǎng)訪問(wèn)。雖然圖18示出了 WiFi模塊1170,但是可以理解的是,其并不屬于手機(jī)1100的必須構(gòu)成,完全可以根據(jù)需要在不改變發(fā)明的本質(zhì)的范圍內(nèi)而省略。
[0129]處理器1180是手機(jī)的控制中心,利用各種接口和線路連接整個(gè)手機(jī)的各個(gè)部分,通過(guò)運(yùn)行或執(zhí)行存儲(chǔ)在存儲(chǔ)器1120內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲(chǔ)在存儲(chǔ)器1120內(nèi)的數(shù)據(jù),執(zhí)行手機(jī)的各種功能和處理數(shù)據(jù),從而對(duì)手機(jī)進(jìn)行整體監(jiān)控??蛇x的,處理器1180可包括一個(gè)或多個(gè)處理單元;優(yōu)選的,處理器1180可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無(wú)線通信??梢岳斫獾氖?,上述調(diào)制解調(diào)處理器也可以不集成到處理器1180中。
[0130]手機(jī)1100還包括給各個(gè)部件供電的電源1190(比如電池),優(yōu)選的,電源可以通過(guò)電源管理系統(tǒng)與處理器1180邏輯相連,從而通過(guò)電源管理系統(tǒng)實(shí)現(xiàn)管理充電、放電、以及功耗管理等功能。
[0131]盡管未示出,手機(jī)1100還可以包括攝像頭、藍(lán)牙模塊等,在此不再贅述。
[0132]在本發(fā)明實(shí)施例中,該終端所包括的處理器1180還具有以下功能:獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句,匹配的抽取語(yǔ)句中包含加載的網(wǎng)頁(yè)的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述;根據(jù)標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述對(duì)加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽取;顯示抽取的標(biāo)題和正文內(nèi)容。
[0133]在一個(gè)實(shí)施例中,處理器1180還具有以下功能:獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句。
[0134]在一個(gè)實(shí)施例中,處理器1180還具有以下功能:將加載的網(wǎng)頁(yè)的URL地址與多條抽取語(yǔ)句對(duì)應(yīng)的正則表達(dá)式逐一進(jìn)行匹配;若匹配成功,則匹配的正則表達(dá)式對(duì)應(yīng)的抽取語(yǔ)句為匹配的抽取語(yǔ)句。
[0135]在一個(gè)實(shí)施例中,處理器1180還具有以下功能:若匹配成功,則根據(jù)匹配的抽取語(yǔ)句中的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述,嘗試抽取加載的網(wǎng)頁(yè)的標(biāo)題和正文內(nèi)容;如果有其中一個(gè)路徑描述嘗試抽取失敗,則繼續(xù)將加載的網(wǎng)頁(yè)的URL地址與多條抽取語(yǔ)句對(duì)應(yīng)的正則表達(dá)式逐一進(jìn)行匹配,直至匹配的抽取語(yǔ)句中的路徑描述都能嘗試抽取成功。
[0136]在一個(gè)實(shí)施例中,處理器1180還具有以下功能:從抽取語(yǔ)句中的第一個(gè)標(biāo)題內(nèi)容塊的路徑描述進(jìn)行檢測(cè),當(dāng)檢測(cè)到非空字符串時(shí),則停止檢測(cè),根據(jù)檢測(cè)到的非空字符串對(duì)加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題的抽??;根據(jù)抽取語(yǔ)句中的正文內(nèi)容塊的路徑描述抽取加載的網(wǎng)頁(yè)中的正文內(nèi)容,并將抽取到的正文內(nèi)容按順序進(jìn)行拼接。
[0137]在一個(gè)實(shí)施例中,匹配的抽取語(yǔ)句中還包含加載的網(wǎng)頁(yè)的雜質(zhì)塊的路徑描述,處理器1180還具有以下功能:根據(jù)雜質(zhì)塊的路徑描述將加載的網(wǎng)頁(yè)中的雜質(zhì)去除。
[0138]在另一個(gè)實(shí)施例中,處理器1180還具有以下功能:將加載的網(wǎng)頁(yè)中帶雜質(zhì)標(biāo)簽的DOM節(jié)點(diǎn)去除。
[0139]在一個(gè)實(shí)施例中,匹配的抽取語(yǔ)句中還包含加載的網(wǎng)頁(yè)的續(xù)頁(yè)塊的路徑描述,處理器1180還具有以下功能:根據(jù)所續(xù)頁(yè)塊的路徑描述抽取加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接;對(duì)續(xù)頁(yè)鏈接對(duì)應(yīng)的網(wǎng)頁(yè)執(zhí)行網(wǎng)頁(yè)處理方法。
[0140]在一個(gè)實(shí)施例中,處理器1180還具有以下功能:如果抽取到的是鏈接標(biāo)簽,使用抽取到的鏈接標(biāo)簽中的第一個(gè)所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接;如果抽取到的不是鏈接標(biāo)簽,則查找抽取到的續(xù)頁(yè)塊中的鏈接標(biāo)簽,對(duì)鏈接標(biāo)簽進(jìn)行打分,獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0141]在一個(gè)實(shí)施例中,處理器1180還具有以下功能:檢測(cè)所鏈接標(biāo)簽的屬性中是否包含預(yù)設(shè)鏈接內(nèi)容,若是,則根據(jù)屬性中包含的預(yù)設(shè)鏈接內(nèi)容對(duì)鏈接標(biāo)簽進(jìn)行加分;判斷是否含有大于零分的鏈接標(biāo)簽,如果有,則獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0142]在一個(gè)實(shí)施例中,處理器1180還具有以下功能:如果沒有大于零分的鏈接標(biāo)簽,則獲取鏈接標(biāo)簽的兄弟節(jié)點(diǎn),根據(jù)兄弟節(jié)點(diǎn)中包含的文字內(nèi)容對(duì)鏈接標(biāo)簽進(jìn)行加分,以及檢測(cè)鏈接標(biāo)簽中是否包含圖片,若是,則根據(jù)圖片中包含的預(yù)設(shè)文本內(nèi)容對(duì)鏈接標(biāo)簽進(jìn)行加分;獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
[0143]在一個(gè)實(shí)施例中,處理器1180還具有以下功能:檢測(cè)緩存中是否有與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,如果有,則從緩存中獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,如果沒有,則從服務(wù)器獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句并緩存。
[0144]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)處理方法,所述方法包括: 獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句,所述匹配的抽取語(yǔ)句中包含所述加載的網(wǎng)頁(yè)的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述; 根據(jù)所述標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述對(duì)所述加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽??; 顯示所述抽取的標(biāo)題和正文內(nèi)容。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句,包括: 將所述加載的網(wǎng)頁(yè)的URL地址與多條抽取語(yǔ)句對(duì)應(yīng)的正則表達(dá)式逐一進(jìn)行匹配; 若匹配成功,則匹配的正則表達(dá)式對(duì)應(yīng)的抽取語(yǔ)句為所述匹配的抽取語(yǔ)句。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句,還包括: 若匹配成功,則根據(jù)所述匹配的抽取語(yǔ)句中的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述,嘗試抽取所述加載的網(wǎng)頁(yè)的標(biāo)題和正文內(nèi)容; 如果有其中一個(gè)路徑描述嘗試抽取失敗,則繼續(xù)將所述加載的網(wǎng)頁(yè)的URL地址與所述多條抽取語(yǔ)句對(duì)應(yīng)的正則表達(dá)式逐一進(jìn)行匹配,直至匹配的抽取語(yǔ)句中的路徑描述都能嘗試抽取成功。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述對(duì)所述加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽取,包括: 從所述抽取語(yǔ)句中的第一個(gè)標(biāo)題內(nèi)容塊的路徑描述進(jìn)行檢測(cè),當(dāng)檢測(cè)到非空字符串時(shí),則停止檢測(cè),根據(jù)所述檢測(cè)到的非空字符串對(duì)所述加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題的抽取; 根據(jù)所述抽取語(yǔ)句中的正文內(nèi)容塊的路徑描述抽取加載的網(wǎng)頁(yè)中的正文內(nèi)容,并將抽取到的正文內(nèi)容按順序進(jìn)行拼接。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述匹配的抽取語(yǔ)句中還包含所述加載的網(wǎng)頁(yè)的雜質(zhì)塊的路徑描述;所述方法還包括: 根據(jù)所述雜質(zhì)塊的路徑描述將所述加載的網(wǎng)頁(yè)中的雜質(zhì)去除。
6.根據(jù)權(quán)利要求1或5所述的方法,其特征在于,所述方法還包括: 將所述加載的網(wǎng)頁(yè)中帶雜質(zhì)標(biāo)簽的DOM節(jié)點(diǎn)去除。
7.根據(jù)權(quán)利要求1或6所述的方法,其特征在于,所述匹配的抽取語(yǔ)句中還包含所述加載的網(wǎng)頁(yè)的續(xù)頁(yè)塊的路徑描述;所述方法還包括: 根據(jù)所述續(xù)頁(yè)塊的路徑描述抽取所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接; 對(duì)所述續(xù)頁(yè)鏈接對(duì)應(yīng)的網(wǎng)頁(yè)執(zhí)行所述網(wǎng)頁(yè)處理方法。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)續(xù)頁(yè)塊的路徑描述抽取所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接,包括: 如果抽取到的是鏈接標(biāo)簽,則使用所述抽取到的鏈接標(biāo)簽中的第一個(gè)所對(duì)應(yīng)的鏈接為所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接; 如果抽取到的不是鏈接標(biāo)簽,則查找抽取到的續(xù)頁(yè)塊中的鏈接標(biāo)簽,對(duì)所述鏈接標(biāo)簽進(jìn)行打分,獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述查找抽取到的續(xù)頁(yè)塊中的鏈接標(biāo)簽,對(duì)所述鏈接標(biāo)簽進(jìn)行打分,獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接,包括: 檢測(cè)所述鏈接標(biāo)簽的屬性中是否包含預(yù)設(shè)鏈接內(nèi)容,若是,則根據(jù)所述屬性中包含的預(yù)設(shè)鏈接內(nèi)容對(duì)所述鏈接標(biāo)簽進(jìn)行加分; 判斷是否含有大于零分的鏈接標(biāo)簽,如果有,則獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述查找抽取到的續(xù)頁(yè)塊中的鏈接標(biāo)簽,對(duì)所述鏈接標(biāo)簽進(jìn)行打分,獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接,還包括: 如果沒有大于零分的鏈接標(biāo)簽,則獲取所述鏈接標(biāo)簽的兄弟節(jié)點(diǎn),根據(jù)所述兄弟節(jié)點(diǎn)中包含的文字內(nèi)容對(duì)所述鏈接標(biāo)簽進(jìn)行加分,以及檢測(cè)所述鏈接標(biāo)簽中是否包含圖片,若是,則根據(jù)所述圖片中包含的預(yù)設(shè)文本內(nèi)容對(duì)所述鏈接標(biāo)簽進(jìn)行加分; 獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
11.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句之前,還包括: 獲取與所述加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的所述多條抽取語(yǔ)句。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,包括: 檢測(cè)緩存中是否有與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,如果有,則從緩存中獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,如果沒有,則從服務(wù)器獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句并緩存。
13.一種用于執(zhí)行網(wǎng)頁(yè)處理方法的終端,其特征在于,所述終端包括: 抽取語(yǔ)句匹配模塊,用于獲取與加載的網(wǎng)頁(yè)的URL地址匹配的抽取語(yǔ)句,所述匹配的抽取語(yǔ)句中包含所述加載的網(wǎng)頁(yè)的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述; 標(biāo)題正文抽取模塊,用于根據(jù)所述標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述對(duì)所述加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽??; 顯示模塊,用于顯示所述抽取的標(biāo)題和正文內(nèi)容。
14.根據(jù)權(quán)利要求13所述的終端,其特征在于,所述抽取語(yǔ)句匹配模塊包括: 正則表達(dá)式匹配模塊,用于將所述加載的網(wǎng)頁(yè)的URL地址與多條抽取語(yǔ)句對(duì)應(yīng)的正則表達(dá)式進(jìn)行匹配;若匹配成功,則匹配的正則表達(dá)式對(duì)應(yīng)的抽取語(yǔ)句為所述匹配的抽取語(yǔ)句。
15.根據(jù)權(quán)利要求14所述的終端,其特征在于,所述抽取語(yǔ)句匹配模塊還包括: 嘗試抽取模塊,用于若所述正則表達(dá)式匹配模塊匹配成功,則根據(jù)所述匹配的抽取語(yǔ)句中的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述,嘗試抽取所述加載的網(wǎng)頁(yè)的標(biāo)題和正文內(nèi)容; 所述正則表達(dá)式匹配模塊還用于如果有其中一個(gè)路徑描述嘗試抽取失敗,則繼續(xù)將所述加載的網(wǎng)頁(yè)的URL地址與所述多條抽取語(yǔ)句對(duì)應(yīng)的正則表達(dá)式逐一進(jìn)行匹配,直至匹配的抽取語(yǔ)句中的路徑描述都能嘗試抽取成功。
16.根據(jù)權(quán)利要求13所述的終端,其特征在于,所述標(biāo)題正文抽取模塊包括: 標(biāo)題抽取模塊,用于從所述抽取語(yǔ)句中的第一個(gè)標(biāo)題內(nèi)容塊的路徑描述進(jìn)行檢測(cè),當(dāng)檢測(cè)到非空字符串時(shí),則停止檢測(cè),根據(jù)所述檢測(cè)到的非空字符串對(duì)所述加載的網(wǎng)頁(yè)進(jìn)行標(biāo)題的抽取; 正文內(nèi)容抽取模塊,用于根據(jù)所述抽取語(yǔ)句中的正文內(nèi)容塊的路徑描述抽取加載的網(wǎng)頁(yè)中的正文內(nèi)容,并將抽取到的正文內(nèi)容按順序進(jìn)行拼接。
17.根據(jù)權(quán)利要求13所述的終端,其特征在于,所述匹配的抽取語(yǔ)句中還包含所述加載的網(wǎng)頁(yè)的雜質(zhì)塊的路徑描述;所述終端還包括: 第一雜質(zhì)去除模塊,用于根據(jù)所述雜質(zhì)塊的路徑描述將所述加載的網(wǎng)頁(yè)中的雜質(zhì)去除。
18.根據(jù)權(quán)利要求13或17所述的終端,其特征在于,所述終端還包括: 第二雜質(zhì)去除模塊,用于將所述加載的網(wǎng)頁(yè)中帶雜質(zhì)標(biāo)簽的DOM節(jié)點(diǎn)去除。
19.根據(jù)權(quán)利要求13或18所述的終端,其特征在于,所述匹配的抽取語(yǔ)句中還包含所述加載的網(wǎng)頁(yè)的續(xù)頁(yè)塊的路徑描述;所述終端還包括: 續(xù)頁(yè)鏈接抽取模塊,用于根據(jù)所述續(xù)頁(yè)塊的路徑描述抽取所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接; 所述抽取語(yǔ)句匹配模塊還用于根據(jù)所述續(xù)頁(yè)鏈接對(duì)應(yīng)的URL地址,獲取與所述續(xù)頁(yè)鏈接對(duì)應(yīng)的URL地址匹配的抽取語(yǔ)句; 所述標(biāo)題正文抽取模塊還用于根據(jù)所述匹配的抽取語(yǔ)句中的標(biāo)題內(nèi)容塊和正文內(nèi)容塊的路徑描述對(duì)所述續(xù)頁(yè)鏈接對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行標(biāo)題和正文內(nèi)容的抽取。
20.根據(jù)權(quán)利要求19所述的終端,其特征在于,所述續(xù)頁(yè)鏈接抽取模塊包括: 第一續(xù)頁(yè)鏈接確定模塊,用于如果抽取到的是鏈接標(biāo)簽,則使用所述抽取到的鏈接標(biāo)簽中的第一個(gè)所對(duì)應(yīng)的鏈接為所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接; 第二續(xù)頁(yè)鏈接確定模塊,用于如果抽取到的不是鏈接標(biāo)簽,則查找抽取到的續(xù)頁(yè)塊中的鏈接標(biāo)簽,對(duì)所述鏈接標(biāo)簽進(jìn)行打分,獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
21.根據(jù)權(quán)利要求20所述的終端,其特征在于,所述第二續(xù)頁(yè)鏈接確定模塊包括: 第一加分模塊,用于檢測(cè)所述鏈接標(biāo)簽的屬性中是否包含預(yù)設(shè)鏈接內(nèi)容,若是,則根據(jù)所述屬性中包含的預(yù)設(shè)鏈接內(nèi)容對(duì)所述鏈接標(biāo)簽進(jìn)行加分; 續(xù)頁(yè)鏈接獲取模塊,用于判斷是否含有大于零分的鏈接標(biāo)簽,如果有,則獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
22.根據(jù)權(quán)利要求21所述的終端,其特征在于,所述第二續(xù)頁(yè)鏈接確定模塊還包括: 第二加分模塊,用于如果沒有大于零分的鏈接標(biāo)簽,則獲取所述鏈接標(biāo)簽的兄弟節(jié)點(diǎn),根據(jù)所述兄弟節(jié)點(diǎn)中包含的文字內(nèi)容對(duì)所述鏈接標(biāo)簽進(jìn)行加分,以及檢測(cè)所述鏈接標(biāo)簽中是否包含圖片,若是,則根據(jù)所述圖片中包含的預(yù)設(shè)文本內(nèi)容對(duì)所述鏈接標(biāo)簽進(jìn)行加分;所述續(xù)頁(yè)鏈接獲取模塊還用于獲取分?jǐn)?shù)值最高的鏈接標(biāo)簽所對(duì)應(yīng)的鏈接為所述加載的網(wǎng)頁(yè)中的續(xù)頁(yè)鏈接。
23.根據(jù)權(quán)利要求13所述的終端,其特征在于,所述終端還包括: 抽取語(yǔ)句獲取模塊,用于獲取與所述加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的所述多條抽取語(yǔ)句。
24.根據(jù)權(quán)利要求23所述的終端,其特征在于,所述抽取語(yǔ)句獲取模塊包括: 緩存獲取模塊,用于檢測(cè)緩存中是否有與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,如果有,則從緩存中獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句; 緩存模塊,用于如果緩存中沒有與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句,則從服務(wù)器獲取與加載的網(wǎng)頁(yè)的域名對(duì)應(yīng)的多條抽取語(yǔ)句并緩存。
【文檔編號(hào)】G06F17/30GK104182429SQ201310204185
【公開日】2014年12月3日 申請(qǐng)日期:2013年5月28日 優(yōu)先權(quán)日:2013年5月28日
【發(fā)明者】宋飛 申請(qǐng)人:騰訊科技(深圳)有限公司