網(wǎng)頁(yè)收藏方法和裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng)。所述方法包括:接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫(xiě)入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。應(yīng)用本發(fā)明實(shí)施例所提供的技術(shù)方案,可以保證抓取的網(wǎng)頁(yè)內(nèi)容的全面性,并且可以提升網(wǎng)頁(yè)收藏結(jié)果的有序性,便于用戶(hù)進(jìn)行閱讀。
【專(zhuān)利說(shuō)明】網(wǎng)頁(yè)收藏方法和裝置
[0001]本發(fā)明專(zhuān)利申請(qǐng)是申請(qǐng)日為2012年3月31日、申請(qǐng)?zhí)枮?01210092944.7、名稱(chēng)為“一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng)”的中國(guó)發(fā)明專(zhuān)利申請(qǐng)的分案申請(qǐng)。
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)處理領(lǐng)域,特別是涉及一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0003]收藏網(wǎng)頁(yè),是指互聯(lián)網(wǎng)用戶(hù)將感興趣的網(wǎng)頁(yè)進(jìn)行保存,以便于隨時(shí)能夠重新閱讀相關(guān)信息。
[0004]現(xiàn)有技術(shù)中一種網(wǎng)頁(yè)收藏方法是:將用戶(hù)瀏覽過(guò)的網(wǎng)頁(yè)內(nèi)容以快照的形式保存起來(lái)。具體的,該方法實(shí)現(xiàn)的過(guò)程中,根據(jù)用戶(hù)所提供的待收藏網(wǎng)頁(yè)的超鏈接,定位網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)進(jìn)行快照,將快照保存為網(wǎng)頁(yè)收藏信息,用戶(hù)還可以進(jìn)一步對(duì)所收藏的網(wǎng)頁(yè)標(biāo)題、簡(jiǎn)介和標(biāo)簽等信息進(jìn)行編輯。網(wǎng)頁(yè)收藏成功后,用戶(hù)可以隨時(shí)進(jìn)行查看。
[0005]但是,現(xiàn)有技術(shù)中的網(wǎng)頁(yè)收藏方法,在快照的形式顯示網(wǎng)頁(yè)收藏內(nèi)容時(shí),也丟失大量的網(wǎng)頁(yè)原始信息,很容易導(dǎo)致所述顯示的收藏網(wǎng)頁(yè)內(nèi)容失去原有的排版格式,頁(yè)面雜亂無(wú)章,可讀性差。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是提供一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng),能夠較為完整的保存網(wǎng)頁(yè)收藏頁(yè)面內(nèi)容。
[0007]為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
[0008]一種網(wǎng)頁(yè)收藏方法,包括:
[0009]接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫(xiě)入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0010]對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0011]對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0012]其中,還包括:
[0013]當(dāng)檢測(cè)到所述用戶(hù)所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶(hù)所瀏覽的網(wǎng)頁(yè)中寫(xiě)入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;
[0014]或者,
[0015]當(dāng)接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶(hù)所瀏覽的網(wǎng)頁(yè)中寫(xiě)入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0016]其中,所述向用戶(hù)所瀏覽的網(wǎng)頁(yè)中寫(xiě)入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,包括:
[0017]在用戶(hù)所瀏覽的網(wǎng)頁(yè)中添加內(nèi)嵌框架;
[0018]在所述內(nèi)嵌框架中寫(xiě)入所述腳本代碼。
[0019]其中,所述抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息,包括:[0020]抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0021]其中,所述對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存,包括:
[0022]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0023]其中,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容包括:
[0024]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過(guò)濾,根據(jù)過(guò)濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0025]其中,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容包括:
[0026]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0027]其中,
[0028]在抓取網(wǎng)頁(yè)的內(nèi)容描述信息之后,還包括:將所述內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0029]所述服務(wù)器端設(shè)備對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容,并對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0030]一種網(wǎng)頁(yè)收藏裝置,包括:
[0031]描述信息抓取單元,用于接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫(xiě)入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0032]網(wǎng)頁(yè)內(nèi)容抓取單元,用于對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0033]網(wǎng)頁(yè)內(nèi)容保存單元,用于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0034]其中,還包括:
[0035]代碼注入單元,用于當(dāng)檢測(cè)到所述用戶(hù)所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶(hù)所瀏覽的網(wǎng)頁(yè)中寫(xiě)入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;或者,當(dāng)接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶(hù)所瀏覽的網(wǎng)頁(yè)中寫(xiě)入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0036]其中,所述代碼注入單元,包括:
[0037]框架添加子單元,用于在用戶(hù)所瀏覽的網(wǎng)頁(yè)中添加內(nèi)嵌框架;
[0038]代碼寫(xiě)入子單元,用于在所述內(nèi)嵌框架中寫(xiě)入所述腳本代碼。
[0039]其中,所述描述信息抓取單元,具體用于:
[0040]在接收到用戶(hù)的收藏操作指令后,利用預(yù)先寫(xiě)入的腳本代碼,抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0041]其中,所述網(wǎng)頁(yè)內(nèi)容保存單元,具體用于:
[0042]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0043]其中,所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0044]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過(guò)濾,根據(jù)過(guò)濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0045]其中,所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0046]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0047]一種網(wǎng)頁(yè)收藏系統(tǒng),包括客戶(hù)端設(shè)備和服務(wù)器端設(shè)備;
[0048]所述客戶(hù)端設(shè)備,包括:
[0049]描述信息抓取單元,用于接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫(xiě)入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0050]描述信息發(fā)送單元,用于將所述網(wǎng)頁(yè)內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0051]所述服務(wù)器端設(shè)備,包括:
[0052]描述信息接收單元,用于接收客戶(hù)端設(shè)備發(fā)送的網(wǎng)頁(yè)內(nèi)容描述信息;
[0053]網(wǎng)頁(yè)內(nèi)容抓取單元,用于對(duì)所述網(wǎng)頁(yè)內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取網(wǎng)頁(yè)的內(nèi)容;
[0054]網(wǎng)頁(yè)內(nèi)容保存單元,用于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0055]其中,所述客戶(hù)端設(shè)備還包括:
[0056]代碼注入單元,用于當(dāng)檢測(cè)到所述用戶(hù)所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶(hù)所瀏覽的網(wǎng)頁(yè)中寫(xiě)入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;或者,當(dāng)接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶(hù)所瀏覽的網(wǎng)頁(yè)中寫(xiě)入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0057]其中,所述代碼注入單元,包括:
[0058]框架添加子單元,用于在用戶(hù)所瀏覽的網(wǎng)頁(yè)中添加內(nèi)嵌框架;
[0059]代碼寫(xiě)入子單元,用于在所述內(nèi)嵌框架中寫(xiě)入所述腳本代碼。
[0060]其中,所述描述信息抓取單元,具體用于:
[0061]在接收到用戶(hù)的收藏操作指令后,利用預(yù)先寫(xiě)入的腳本代碼,抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0062]其中,所述網(wǎng)頁(yè)內(nèi)容保存單元,具體用于:
[0063]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0064]其中,所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0065]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過(guò)濾,根據(jù)過(guò)濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0066]其中,所述網(wǎng)頁(yè)內(nèi)容抓取單元,具體用于:
[0067]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0068]本發(fā)明實(shí)施例所提供的技術(shù)方案,由于通過(guò)預(yù)先寫(xiě)入所述網(wǎng)頁(yè)的腳本代碼對(duì)網(wǎng)頁(yè)的描述信息進(jìn)行抓取,一方面保證了抓取的網(wǎng)頁(yè)內(nèi)容的全面性;另一方面,由于網(wǎng)頁(yè)的描述信息中攜帶有網(wǎng)頁(yè)的樣式信息,因此在保存網(wǎng)頁(yè)內(nèi)容時(shí),可以根據(jù)樣式信息對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行排版,從而提高了網(wǎng)頁(yè)收藏結(jié)果的有序性,便于用戶(hù)進(jìn)行閱讀。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0069]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0070]圖1為本發(fā)明的網(wǎng)頁(yè)收藏方法一種實(shí)施例的流程圖;
[0071]圖2為本發(fā)明的網(wǎng)頁(yè)收藏方法另一種實(shí)施例的流程圖;
[0072]圖3為本發(fā)明的網(wǎng)頁(yè)收藏裝置實(shí)施例的結(jié)構(gòu)示意圖;
[0073]圖4為本發(fā)明的網(wǎng)頁(yè)收藏系統(tǒng)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0074]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0075]首先對(duì)本發(fā)明實(shí)施例所提供的一種網(wǎng)頁(yè)收藏方法進(jìn)行說(shuō)明,該方法可以包括以下步驟:
[0076]接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫(xiě)入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0077]對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0078]對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0079]在本發(fā)明的一種實(shí)施方式中,上述步驟可以全部在客戶(hù)端設(shè)備中實(shí)現(xiàn),例如在瀏覽器本身、瀏覽器插件或者專(zhuān)用的網(wǎng)頁(yè)收藏軟件中實(shí)現(xiàn)。
[0080]在本發(fā)明的一種實(shí)施方式中,上述步驟中寫(xiě)入腳本代碼步驟以及抓取網(wǎng)頁(yè)內(nèi)容描述信息的步驟在客戶(hù)端設(shè)備中實(shí)現(xiàn),客戶(hù)端抓取到網(wǎng)頁(yè)內(nèi)容描述信息后發(fā)送至服務(wù)器端設(shè)備,由服務(wù)器完成后續(xù)步驟。
[0081]首先,如圖1所示,該網(wǎng)頁(yè)收藏方法包括步驟:
[0082]SlOl:接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫(xiě)入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0083]在本發(fā)明實(shí)施例中,并不是采用服務(wù)器直接抓取網(wǎng)頁(yè)頁(yè)面內(nèi)容,這是因?yàn)?對(duì)于一部分網(wǎng)頁(yè),服務(wù)器無(wú)法直接抓取,比如某些頁(yè)面必須登錄后才能展現(xiàn),如果客戶(hù)端沒(méi)有登錄,則服務(wù)器端也無(wú)法抓取。因此在本發(fā)明實(shí)施例中,抓取網(wǎng)頁(yè)頁(yè)面的內(nèi)容的操作由客戶(hù)端完成,例如由瀏覽器等軟件完成。
[0084]根據(jù)本發(fā)明實(shí)施例的方案,可以在用戶(hù)瀏覽網(wǎng)頁(yè)時(shí),在檢測(cè)到被瀏覽的網(wǎng)頁(yè)加載完畢之后,向用戶(hù)所瀏覽的網(wǎng)頁(yè)內(nèi)寫(xiě)入腳本代碼。這段代碼能在網(wǎng)頁(yè)指定位置處(例如右偵D顯示一個(gè)按鈕(按鈕上可以顯示“我喜歡”等文字),點(diǎn)“我喜歡”按鈕后即可觸發(fā)收藏操作。或者,在另一種實(shí)時(shí)方式下,可以默認(rèn)在網(wǎng)頁(yè)指定位置處(例如右側(cè))顯示一個(gè)按鈕(按鈕上可以顯示“我喜歡”等文字),用戶(hù)如果想要收藏當(dāng)前瀏覽的網(wǎng)頁(yè),就可以點(diǎn)擊該“我喜歡”按鈕,然后執(zhí)行向用戶(hù)所瀏覽的網(wǎng)頁(yè)內(nèi)寫(xiě)入腳本代碼的操作,同時(shí)相當(dāng)于用戶(hù)觸發(fā)了收藏操作。
[0085]其中,寫(xiě)入網(wǎng)頁(yè)的腳本代碼具有抓取網(wǎng)頁(yè)頁(yè)面內(nèi)容的功能,由于目前有很多網(wǎng)頁(yè)頁(yè)面采用JS (JavaScript)技術(shù)開(kāi)發(fā),因此本發(fā)明實(shí)施例中,采向網(wǎng)頁(yè)中寫(xiě)入JS腳本代碼的方式實(shí)現(xiàn),既能夠解決用戶(hù)登錄后的頁(yè)面內(nèi)容抓取問(wèn)題,又可以保證信息抓取的安全性。[0086]在本發(fā)明的一種改進(jìn)實(shí)施方式中,可以先在用戶(hù)所瀏覽的網(wǎng)頁(yè)中中添加內(nèi)嵌框架,然后在內(nèi)嵌框架中寫(xiě)入所述腳本代碼。
[0087]其中內(nèi)嵌框架可以是iframe框架,iframe框架可以隔離腳本代碼和瀏覽器接口。這樣實(shí)施的原因在于:因?yàn)閷?shí)際應(yīng)用中,別有用心的用戶(hù)如果能夠獲取腳本代碼,就可以操作瀏覽器接口,從而帶來(lái)一些安全問(wèn)題,比如:用戶(hù)可以通過(guò)利用腳本代碼在瀏覽器中發(fā)起跨域請(qǐng)求,可以操作瀏覽器接口修改瀏覽器配置文件,以及瀏覽器的其他接口功能。為了避免腳本代碼被惡意利用,本發(fā)明實(shí)施例中,將腳本代碼寫(xiě)入內(nèi)嵌框架中,通過(guò)內(nèi)嵌框架將腳本代碼與瀏覽器接口相隔離,從而增加安全性。
[0088]向網(wǎng)頁(yè)寫(xiě)入腳本代碼后,可以待頁(yè)面加載完畢后,在頁(yè)面一側(cè)繪制按鈕或用戶(hù)交互面板。以便用戶(hù)點(diǎn)擊該按鈕觸發(fā)收藏操作。當(dāng)然,在本發(fā)明中,用戶(hù)發(fā)出收藏操作指令的方式并僅限于點(diǎn)擊按鈕。此外,用戶(hù)還可以用過(guò)交互面板進(jìn)行設(shè)置按鈕皮膚、分享配置等操作,這里不再贅述。
[0089]當(dāng)然,在實(shí)際應(yīng)用中,本發(fā)明實(shí)施例的方案可以通過(guò)一個(gè)瀏覽器插件的方式來(lái)實(shí)現(xiàn),在瀏覽器插件支持的情況下,也可以直接在用戶(hù)瀏覽的網(wǎng)頁(yè)中注入腳本,而不必采用上述添加內(nèi)嵌框架的方式來(lái)實(shí)現(xiàn)。
[0090]當(dāng)接收用戶(hù)通過(guò)點(diǎn)擊收藏操作按鈕或其他方式發(fā)起收藏操作指令后,利用預(yù)先寫(xiě)入的腳本代碼,抓取網(wǎng)頁(yè)的內(nèi)容描述信息。
[0091]在本發(fā)明中,主要需要抓取的網(wǎng)頁(yè)內(nèi)容描述信息包括網(wǎng)頁(yè)的DOM (DocumentObject Model,文檔對(duì)象模型)信息,在網(wǎng)頁(yè)的DOM樹(shù)中包含有頁(yè)面的布局結(jié)構(gòu)信息,利用這些信息,后續(xù)就可以在保存網(wǎng)頁(yè)內(nèi)容時(shí),根據(jù)網(wǎng)頁(yè)原有的樣式進(jìn)行排版,以結(jié)構(gòu)化的形式進(jìn)行保存。
[0092]本領(lǐng)域技術(shù)人員可以理解,在抓取網(wǎng)頁(yè)內(nèi)容描述信息的過(guò)程中,除DOM信息之外,還可以進(jìn)一步抓取網(wǎng)頁(yè)的頁(yè)面超鏈接、標(biāo)題等信息。本發(fā)明實(shí)施例對(duì)此并不需要進(jìn)行限定。
[0093]S102:對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0094]通過(guò)解析網(wǎng)頁(yè)的DOM樹(shù),可以抽取出頁(yè)面所包含的文字、圖片等內(nèi)容。其中,所解析出的圖片內(nèi)容是圖片文件所在的源位置,還需要進(jìn)一步從源位置將實(shí)際的圖片文件下載下載到本地。
[0095]在下在圖片文件的過(guò)程中,可以首先判斷判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于某個(gè)預(yù)設(shè)的閾值(例如10幅、20幅等等),如果否,則直接下載每個(gè)圖像文件。而在網(wǎng)頁(yè)所包含的圖片數(shù)量比較多時(shí),抓取圖片文件的過(guò)程中將會(huì)十分費(fèi)時(shí)。為了提高系統(tǒng)性能,可以采用異步方式實(shí)現(xiàn)圖片文件的多線(xiàn)程批量下載,所有圖片文件處理完之后在統(tǒng)一歸檔,這樣可以有效降低抓取圖片所需的時(shí)間。
[0096]在實(shí)際應(yīng)用中,有些網(wǎng)站可能采用了防盜鏈技術(shù),無(wú)法直接下載圖片文件。針對(duì)這種情況,在本發(fā)明實(shí)施例中,在下載圖片文件的請(qǐng)求發(fā)起時(shí),可以在http頭的referer字段中添加上圖片資源所在的網(wǎng)站的源域名。圖片資源所在的網(wǎng)站的服務(wù)器解析該請(qǐng)求時(shí),會(huì)認(rèn)為這個(gè)請(qǐng)求是由自身發(fā)起的,從而返回圖片內(nèi)容。
[0097]在抓取圖片內(nèi)容的過(guò)程中,還可以首先獲得網(wǎng)頁(yè)中圖片的尺寸,對(duì)于尺寸過(guò)小的圖片,不進(jìn)行下載。這種抓取圖片的方式,可以篩選出圖片尺寸大于預(yù)設(shè)尺寸閾值的圖片。這是因?yàn)榫W(wǎng)頁(yè)中的圖片可能有很多,這其中包括大量的廣告圖片等等不存在收藏意義的內(nèi)容。然而作為網(wǎng)頁(yè)主要內(nèi)容的圖片,通常都具有較大的尺寸,因此采用圖片尺寸進(jìn)行過(guò)濾的方式,可以有效減少無(wú)用圖片內(nèi)容的抓取,既節(jié)約了系統(tǒng)資源,也提高了收藏結(jié)果的可讀性。
[0098]可以理解的是,處除了利用圖片尺寸進(jìn)行圖片內(nèi)容過(guò)濾之外,還可以采用其他的預(yù)置規(guī)則,例如網(wǎng)址關(guān)鍵字、文件名關(guān)鍵字等方式,對(duì)網(wǎng)頁(yè)中可能存在的不具有收藏意義的信息進(jìn)行過(guò)濾,從而達(dá)到節(jié)約系統(tǒng)資源和提高了收藏結(jié)果的可讀性的目的,本發(fā)明實(shí)施例對(duì)此并不需要進(jìn)行限定。
[0099]S103:對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0100]在本步驟中,對(duì)S103中所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存,特別地,根據(jù)網(wǎng)頁(yè)的DOM樹(shù)信息,可以對(duì)抓取的網(wǎng)頁(yè)內(nèi)容按照網(wǎng)頁(yè)的原始樣式,樣式進(jìn)行排版,以結(jié)構(gòu)化的形式進(jìn)行保存。
[0101]進(jìn)一步地,還可以根據(jù)所保存的內(nèi)容信息生成網(wǎng)頁(yè)摘要,以便在收藏列表中展示給用戶(hù),便于用戶(hù)進(jìn)行瀏覽。在具體實(shí)施過(guò)程中,可以根據(jù)網(wǎng)頁(yè)標(biāo)題信息可以生成摘要的標(biāo)題、根據(jù)網(wǎng)頁(yè)的頁(yè)面文字可以生成摘要中的文字部分、根據(jù)頁(yè)面圖片信息可以生成摘要中的縮略圖,等等。保存所述摘要信息,用戶(hù)就可以在后續(xù)的上網(wǎng)瀏覽過(guò)程中,在網(wǎng)頁(yè)收藏列表中直接查看收藏過(guò)的網(wǎng)頁(yè)的摘要信息。
[0102]此外,應(yīng)用本發(fā)明方案,還允許用戶(hù)將收藏的網(wǎng)頁(yè)分享到其他網(wǎng)站,還可以通過(guò)調(diào)用其他網(wǎng)站的接口,將排版好的網(wǎng)頁(yè)內(nèi)容信息以及摘要信息發(fā)送到目標(biāo)網(wǎng)站,從而實(shí)現(xiàn)用戶(hù)信息的共享,提高用戶(hù)體驗(yàn)。
[0103]上述所提供的網(wǎng)頁(yè)收藏方法,通過(guò)預(yù)先寫(xiě)入所述網(wǎng)頁(yè)的腳本代碼對(duì)網(wǎng)頁(yè)的描述信息進(jìn)行抓取,一方面保證了抓取的網(wǎng)頁(yè)內(nèi)容的全面性;另一方面,由于網(wǎng)頁(yè)的描述信息中攜帶有網(wǎng)頁(yè)的樣式信息,因此在保存網(wǎng)頁(yè)內(nèi)容時(shí),可以根據(jù)樣式信息對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行排版,從而提高了網(wǎng)頁(yè)收藏結(jié)果的有序性,便于用戶(hù)進(jìn)行閱讀。
[0104]在上述實(shí)施例中,所有網(wǎng)頁(yè)收藏步驟都是在客戶(hù)端設(shè)備中實(shí)現(xiàn),在本發(fā)明的另一種實(shí)施方式中,可以由客戶(hù)端和服務(wù)器設(shè)備協(xié)作完成網(wǎng)頁(yè)收藏操作,參見(jiàn)圖2所示,該方法包括以下步驟:
[0105]S201:客戶(hù)端設(shè)備接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫(xiě)入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0106]S202:客戶(hù)端設(shè)備將所述內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0107]S203:服務(wù)器端設(shè)備對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0108]S204:服務(wù)器端設(shè)備對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0109]與前一實(shí)施例相比:S201與SlOl相同;S203_S204與S102-S103相比,區(qū)別在于執(zhí)行主體由客戶(hù)端設(shè)備變?yōu)榉?wù)器端設(shè)備;增加了 S202客戶(hù)端設(shè)備將內(nèi)容描述信息描述信息發(fā)送至服務(wù)器端設(shè)備的步驟。
[0110]由于服務(wù)端的分析能力、下載可控性、重新排版等方面要比前端JS腳本高出很多。因此可以這種方式可以有效提升網(wǎng)頁(yè)內(nèi)容的抓取質(zhì)量。而且服務(wù)端的存儲(chǔ)空間更為充裕,也更便于用戶(hù)之間的信息分享。
[0111]此外,根據(jù)之前的描述,由于服務(wù)端無(wú)法直接抓取某些網(wǎng)頁(yè),因此抓取網(wǎng)頁(yè)描述信息的步驟仍然由客戶(hù)端完成,從而保證抓取的成功率。
[0112]可以理解的是,客戶(hù)端設(shè)備在將內(nèi)容描述信息描述信息發(fā)送至服務(wù)器端設(shè)備的過(guò)程中,可以采用數(shù)據(jù)壓縮技術(shù),從而進(jìn)一步提升傳輸效率。
[0113]相應(yīng)于上面的方法實(shí)施例,本發(fā)明實(shí)施例還提供一種網(wǎng)頁(yè)收藏裝置,參見(jiàn)圖3所示,該裝置可以包括:
[0114]描述信息抓取單元301,用于接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令后,利用寫(xiě)入所述網(wǎng)頁(yè)的用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0115]網(wǎng)頁(yè)內(nèi)容抓取單元302,用于對(duì)所述內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容;
[0116]網(wǎng)頁(yè)內(nèi)容保存單元303,用于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0117]具體實(shí)現(xiàn)時(shí),該裝置還可以包括:
[0118]代碼注入單元,用于當(dāng)檢測(cè)到所述用戶(hù)所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶(hù)所瀏覽的網(wǎng)頁(yè)中寫(xiě)入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;或者,當(dāng)接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶(hù)所瀏覽的網(wǎng)頁(yè)中寫(xiě)入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0119]其中,在本發(fā)明的一種實(shí)施方式中,所述代碼注入單元,可以包括:
[0120]框架添加子單元,用于在用戶(hù)所瀏覽的網(wǎng)頁(yè)中中添加內(nèi)嵌框架;
[0121]代碼寫(xiě)入子單元,用于在所述內(nèi)嵌框架中寫(xiě)入所述腳本代碼。
[0122]其中,所述描述信息抓取單元301,可以具體用于:
[0123]在接收到用戶(hù)的收藏操作指令后,利用預(yù)先寫(xiě)入的腳本代碼,抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0124]網(wǎng)頁(yè)內(nèi)容保存單元303,可以具體用于:
[0125]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0126]在本發(fā)明的一種實(shí)施方式中,所述網(wǎng)頁(yè)內(nèi)容抓取單元302,可以具體用于:
[0127]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過(guò)濾,根據(jù)過(guò)濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0128]在本發(fā)明的另一種實(shí)施方式中,所述網(wǎng)頁(yè)內(nèi)容抓取單元302,還可以具體用于:
[0129]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0130]以上提供的網(wǎng)頁(yè)收藏裝置,可以是位于客戶(hù)端的功能模塊,該模塊可以是瀏覽器本身、瀏覽器插件或者專(zhuān)用的網(wǎng)頁(yè)收藏軟件等等。
[0131]相應(yīng)與上述在客戶(hù)端實(shí)現(xiàn)全部收藏操作的方案,本發(fā)明實(shí)施例還提供一種網(wǎng)頁(yè)收藏系統(tǒng),參見(jiàn)圖4所示,該系統(tǒng)包括客戶(hù)端設(shè)備401和服務(wù)器端設(shè)備402 ;
[0132]所述客戶(hù)端設(shè)備401,包括:
[0133]描述信息抓取單元4011,用于在接收到用戶(hù)的收藏操作指令后,利用預(yù)先寫(xiě)入的腳本代碼,抓取所述網(wǎng)頁(yè)的內(nèi)容描述信息;
[0134]描述信息發(fā)送單元4012,用于將所述網(wǎng)頁(yè)內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0135]所述服務(wù)器端設(shè)備402,包括:
[0136]描述信息接收單元4021,用于接收客戶(hù)端設(shè)備發(fā)送的網(wǎng)頁(yè)內(nèi)容描述信息;[0137]網(wǎng)頁(yè)內(nèi)容抓取單元4022,用于對(duì)所述網(wǎng)頁(yè)內(nèi)容描述信息進(jìn)行解析,根據(jù)解析結(jié)果抓取網(wǎng)頁(yè)的內(nèi)容;
[0138]網(wǎng)頁(yè)內(nèi)容保存單元4023,用于對(duì)所抓取的網(wǎng)頁(yè)內(nèi)容進(jìn)行保存。
[0139]由于服務(wù)端的分析能力、下載可控性、重新排版等方面要比前端JS腳本高出很多。因此本發(fā)明實(shí)施例所提供的網(wǎng)頁(yè)收藏系統(tǒng)可以有效提升網(wǎng)頁(yè)內(nèi)容的抓取質(zhì)量。而且服務(wù)端的存儲(chǔ)空間更為充裕,也更便于用戶(hù)之間的信息分享。
[0140]此外,根據(jù)之前的描述,由于服務(wù)端無(wú)法直接抓取某些網(wǎng)頁(yè),因此抓取網(wǎng)頁(yè)描述信息的步驟仍然由客戶(hù)端完成,從而保證抓取的成功率。
[0141]具體實(shí)現(xiàn)時(shí),客戶(hù)端設(shè)備401還可以包括:
[0142]代碼注入單元,用于當(dāng)檢測(cè)到所述用戶(hù)所瀏覽的網(wǎng)頁(yè)加載完成時(shí),向用戶(hù)所瀏覽的網(wǎng)頁(yè)中寫(xiě)入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼;或者,當(dāng)接收到用戶(hù)對(duì)所瀏覽的網(wǎng)頁(yè)執(zhí)行的收藏操作指令時(shí),向用戶(hù)所瀏覽的網(wǎng)頁(yè)中寫(xiě)入用于抓取網(wǎng)頁(yè)內(nèi)容的腳本代碼。
[0143]在本發(fā)明的一種實(shí)施方式中,所述代碼注入單元可以包括:
[0144]框架添加子單元,用于在用戶(hù)所瀏覽的網(wǎng)頁(yè)中中添加內(nèi)嵌框架;
[0145]代碼寫(xiě)入子單元,用于在所述內(nèi)嵌框架中寫(xiě)入所述腳本代碼。
[0146]在本發(fā)明的一種實(shí)施方式中,所述描述信息抓取單兀4011,可以具體用于:
[0147]在接收到用戶(hù)的收藏操作指令后,利用預(yù)先寫(xiě)入的腳本代碼,抓取所述網(wǎng)頁(yè)的文檔對(duì)象模型信息。
[0148]在本發(fā)明的一種實(shí)施方式中,所述網(wǎng)頁(yè)內(nèi)容保存單元4023,可以具體用于:
[0149]根據(jù)所述網(wǎng)頁(yè)的文檔對(duì)象模型信息,將所抓取的網(wǎng)頁(yè)內(nèi)容以結(jié)構(gòu)化樣式進(jìn)行保存。
[0150]在本發(fā)明的一種實(shí)施方式中,所述網(wǎng)頁(yè)內(nèi)容抓取單元4022,可以具體用于:
[0151]根據(jù)預(yù)設(shè)的規(guī)則對(duì)網(wǎng)頁(yè)內(nèi)容中包含的不具有收藏意義的內(nèi)容進(jìn)行過(guò)濾,根據(jù)過(guò)濾結(jié)果抓取所述網(wǎng)頁(yè)的內(nèi)容。
[0152]在本發(fā)明的一種實(shí)施方式中,所述網(wǎng)頁(yè)內(nèi)容抓取單元4022,還可以具體用于:
[0153]在網(wǎng)頁(yè)內(nèi)容包括圖片的情況下,判斷網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁(yè)的圖片內(nèi)容。
[0154]通過(guò)以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤(pán)等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
[0155]本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置或系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上所描述的裝置及系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
[0156]以上對(duì)本發(fā)明所提供的一種網(wǎng)頁(yè)收藏方法、裝置及系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
[0157]本發(fā)明實(shí)施例公開(kāi)了 Al —種網(wǎng)頁(yè)收藏方法,其包括:
[0158]抓取待收藏網(wǎng)頁(yè)的內(nèi)容描述信息;
[0159]解析所述內(nèi)容描述信息;
[0160]根據(jù)解析結(jié)果抓取所述待收藏網(wǎng)頁(yè)的內(nèi)容;
[0161]保存所抓取的待收藏網(wǎng)頁(yè)的內(nèi)容。
[0162]A2、根據(jù)Al所述的方法,其中,所述內(nèi)容描述信息包括文檔對(duì)象模型信息。
[0163]A3、根據(jù)A2所述的方法,其中,所述內(nèi)容描述信息還包括待收藏網(wǎng)頁(yè)的頁(yè)面超鏈接和/或標(biāo)題。
[0164]A4、根據(jù)A2或A3所述的方法,其中,解析所述內(nèi)容描述信息進(jìn)一步包括:從所述內(nèi)容描述信息中抽取出待收藏網(wǎng)頁(yè)所包含的文字、圖片。
[0165]A5、根據(jù)A4所述的方法,其中,從所述內(nèi)容描述信息中抽取出待收藏網(wǎng)頁(yè)所包含的圖片為從所述內(nèi)容描述信息中抽取出圖片文件所在的源位置并從該源位置下載該圖片文件。
[0166]A6、根據(jù)Al至A5中任一項(xiàng)所述的方法,還包括:
[0167]根據(jù)所保存的待收藏網(wǎng)頁(yè)的內(nèi)容生成頁(yè)面摘要;
[0168]把所述頁(yè)面摘要存放在收藏列表中以便展示。
[0169]A7、根據(jù)A6所述的方法,其中,根據(jù)所保存的待收藏網(wǎng)頁(yè)的內(nèi)容生成頁(yè)面摘要進(jìn)一步包括:
[0170]根據(jù)網(wǎng)頁(yè)標(biāo)題信息生成頁(yè)面摘要的標(biāo)題;
[0171]根據(jù)待收藏網(wǎng)頁(yè)的頁(yè)面文字生成頁(yè)面摘要中的文字部分;
[0172]根據(jù)頁(yè)面圖片信息生成頁(yè)面摘要中的縮略圖。
[0173]B8、一種網(wǎng)頁(yè)收藏裝置,其包括:
[0174]抓取單元,適于抓取待收藏網(wǎng)頁(yè)的內(nèi)容描述信息;
[0175]解析單元,適于解析所述內(nèi)容描述信息;
[0176]獲取單元,適于根據(jù)解析結(jié)果抓取所述待收藏網(wǎng)頁(yè)的內(nèi)容;
[0177]保存單元,適于保存所抓取的待收藏網(wǎng)頁(yè)的內(nèi)容。
[0178]B9、根據(jù)B8所述的裝置,其中,所述內(nèi)容描述信息包括文檔對(duì)象模型信息。
[0179]B10、根據(jù)B9所述的裝置,其中,所述內(nèi)容描述信息還包括待收藏網(wǎng)頁(yè)的頁(yè)面超鏈接和/或標(biāo)題。
[0180]B11、根據(jù)B9或BlO所述的裝置,其中,所述解析單元還適于:從所述內(nèi)容描述信息中抽取出待收藏網(wǎng)頁(yè)所包含的文字、圖片。
[0181]B12、根據(jù)Bll所述的裝置,其中,從所述內(nèi)容描述信息中抽取出待收藏網(wǎng)頁(yè)所包含的圖片為從所述內(nèi)容描述信息中抽取出圖片文件所在的源位置并從該源位置下載該圖片文件。
[0182]B13、根據(jù)B8至B12中任一項(xiàng)所述的裝置,還包括:
[0183]生成單元,適于根據(jù)所保存的待收藏網(wǎng)頁(yè)的內(nèi)容生成頁(yè)面摘要;
[0184]存放單元,適于把所述頁(yè)面摘要存放在收藏列表中以便展示。
[0185]B14、根據(jù)B13所述的裝置,其中,所述存放生成單元還適于:
[0186]標(biāo)題生成單元,適于根據(jù)網(wǎng)頁(yè)標(biāo)題信息生成頁(yè)面摘要的標(biāo)題;
[0187]文字部分生成單元,適于根據(jù)待收藏網(wǎng)頁(yè)的頁(yè)面文字生成頁(yè)面摘要中的文字部分;
[0188]縮略圖生成單元,適于根據(jù)頁(yè)面圖片信息生成頁(yè)面摘要中的縮略圖。
[0189]C15、一種網(wǎng)頁(yè)收藏方法,其包括:
[0190]抓取待收藏網(wǎng)頁(yè)的內(nèi)容描述信息;
[0191]解析所述內(nèi)容描述信息以得到待收藏網(wǎng)頁(yè)所包含的內(nèi)容;
[0192]根據(jù)待收藏網(wǎng)頁(yè)所包含的內(nèi)容抓取所述待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容;
[0193]保存所抓取的待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容。
[0194]C16、根據(jù)C15所述的方法,其中,如果待收藏網(wǎng)頁(yè)所包含的內(nèi)容為圖片文件所在的源位置,則根據(jù)待收藏網(wǎng)頁(yè)所包含的內(nèi)容抓取所述待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容進(jìn)一步包括:
[0195]判斷待收藏網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)閾值;
[0196]如果待收藏網(wǎng)頁(yè)中的圖片數(shù)量不大于預(yù)設(shè)閾值,則從各圖片文件所在的源位置下載各圖片文件;否則采用異步方式多線(xiàn)程批量下載各圖片文件。
[0197]C17、根據(jù)C16所述的方法,其中,所述內(nèi)容描述信息包括文檔對(duì)象模型信息。
[0198]C18、根據(jù)C17所述的方法,其中,所述內(nèi)容描述信息還包括待收藏網(wǎng)頁(yè)的頁(yè)面超鏈接和/或標(biāo)題。
[0199]C19、根據(jù)C15至C18中任一項(xiàng)所述的方法,還包括:
[0200]根據(jù)所保存的待收藏網(wǎng)頁(yè)的內(nèi)容生成頁(yè)面摘要;
[0201]把所述頁(yè)面摘要存放在收藏列表中以便展示。
[0202]C20、根據(jù)C19所述的方法,其中,根據(jù)所保存的待收藏網(wǎng)頁(yè)的內(nèi)容生成頁(yè)面摘要進(jìn)一步包括:
[0203]根據(jù)網(wǎng)頁(yè)標(biāo)題信息生成頁(yè)面摘要的標(biāo)題;
[0204]根據(jù)待收藏網(wǎng)頁(yè)的頁(yè)面文字生成頁(yè)面摘要中的文字部分;
[0205]根據(jù)頁(yè)面圖片信息生成頁(yè)面摘要中的縮略圖。
[0206]D21、一種網(wǎng)頁(yè)收藏裝置,其包括:
[0207]抓取單元,適于抓取待收藏網(wǎng)頁(yè)的內(nèi)容描述信息;
[0208]解析單元,適于解析所述內(nèi)容描述信息以得到待收藏網(wǎng)頁(yè)所包含的內(nèi)容;
[0209]獲取單元,適于根據(jù)待收藏網(wǎng)頁(yè)所包含的內(nèi)容抓取所述待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容;
[0210]保存單元,適于保存所抓取的待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容。
[0211]D22、根據(jù)權(quán)利要求D21所述的裝置,其中,如果所述解析單元得到的是圖片文件所在的源位置,則所述獲取單元還適于:
[0212]判斷待收藏網(wǎng)頁(yè)中的圖片數(shù)量是否大于預(yù)設(shè)閾值;[0213]如果待收藏網(wǎng)頁(yè)中的圖片數(shù)量不大于預(yù)設(shè)閾值,則從各圖片文件所在的源位置下載各圖片文件;否則采用異步方式多線(xiàn)程批量下載各圖片文件。
[0214]D23、根據(jù)D22所述的裝置,其中,所述內(nèi)容描述信息包括文檔對(duì)象模型信息。
[0215]D24、根據(jù)D23所述的裝置,其中,所述內(nèi)容描述信息還包括待收藏網(wǎng)頁(yè)的頁(yè)面超鏈接和/或標(biāo)題。
[0216]D25、根據(jù)D21至24中任一項(xiàng)所述的裝置,還包括:
[0217]生成單元,適于根據(jù)所保存的待收藏網(wǎng)頁(yè)的內(nèi)容生成頁(yè)面摘要;
[0218]存放單元,適于把所述頁(yè)面摘要存放在收藏列表中以便展示。
[0219]D26、根據(jù)D25所述的裝置,其中,所述存放生成單元還適于:
[0220]標(biāo)題生成單元,適于根據(jù)網(wǎng)頁(yè)標(biāo)題信息生成頁(yè)面摘要的標(biāo)題;
[0221]文字部分生成單元,適于根據(jù)待收藏網(wǎng)頁(yè)的頁(yè)面文字生成頁(yè)面摘要中的文字部分;
[0222]縮略圖生成單元,適于根據(jù)頁(yè)面圖片信息生成頁(yè)面摘要中的縮略圖。
[0223]E27、一種網(wǎng)頁(yè)收藏方法,其包括:
[0224]抓取待收藏網(wǎng)頁(yè)的內(nèi)容描述信息;
[0225]解析所述內(nèi)容描述信息以得到待收藏網(wǎng)頁(yè)所包含的內(nèi)容;
[0226]根據(jù)待收藏網(wǎng)頁(yè)所包含的內(nèi)容以及預(yù)定規(guī)則抓取所述待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容并過(guò)濾掉不具有收藏意義的網(wǎng)頁(yè)內(nèi)容;
[0227]保存所抓取的待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容。
[0228]E28、根據(jù)E15所述的方法,其中,如果待收藏網(wǎng)頁(yè)所包含的內(nèi)容為圖片文件所在的源位置,則根據(jù)待收藏網(wǎng)頁(yè)所包含的內(nèi)容抓取所述待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容并過(guò)濾掉不具有收藏意義的網(wǎng)頁(yè)內(nèi)容進(jìn)一步包括:
[0229]如果圖片尺寸小于預(yù)設(shè)值,則不下載該圖片文件;否則判斷待收藏網(wǎng)頁(yè)中的圖片尺寸大于預(yù)設(shè)值的圖片數(shù)量是否大于預(yù)設(shè)閾限;
[0230]如果不大于預(yù)設(shè)閾限,則從各圖片文件所在的源位置下載各圖片文件;否則采用異步方式多線(xiàn)程批量下載各圖片文件。
[0231]E29、根據(jù)E27所述的方法,其中,所述預(yù)定規(guī)則包括圖片尺寸、網(wǎng)址關(guān)鍵字和/或文件名關(guān)鍵字。
[0232]E30、根據(jù)E29所述的方法,其中,所述內(nèi)容描述信息包括文檔對(duì)象模型信息。
[0233]E31、根據(jù)E30所述的方法,其中,所述內(nèi)容描述信息還包括待收藏網(wǎng)頁(yè)的頁(yè)面超鏈接和/或標(biāo)題。
[0234]E32、根據(jù)E27至E31中任一項(xiàng)所述的方法,還包括:
[0235]根據(jù)所保存的待收藏網(wǎng)頁(yè)的內(nèi)容生成頁(yè)面摘要;
[0236]把所述頁(yè)面摘要存放在收藏列表中以便展示。
[0237]E33、根據(jù)E32所述的方法,其中,根據(jù)所保存的待收藏網(wǎng)頁(yè)的內(nèi)容生成頁(yè)面摘要進(jìn)一步包括:
[0238]根據(jù)網(wǎng)頁(yè)標(biāo)題信息生成頁(yè)面摘要的標(biāo)題;
[0239]根據(jù)待收藏網(wǎng)頁(yè)的頁(yè)面文字生成頁(yè)面摘要中的文字部分;
[0240]根據(jù)頁(yè)面圖片信息生成頁(yè)面摘要中的縮略圖。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)收藏方法,其包括: 抓取待收藏網(wǎng)頁(yè)的內(nèi)容描述信息; 解析所述內(nèi)容描述信息; 根據(jù)解析結(jié)果抓取所述待收藏網(wǎng)頁(yè)的內(nèi)容; 保存所抓取的待收藏網(wǎng)頁(yè)的內(nèi)容。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述內(nèi)容描述信息包括文檔對(duì)象模型信息。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述內(nèi)容描述信息還包括待收藏網(wǎng)頁(yè)的頁(yè)面超鏈接和/或標(biāo)題。
4.根據(jù)權(quán)利要求2或3所述的方法,其中,解析所述內(nèi)容描述信息進(jìn)一步包括:從所述內(nèi)容描述信息中抽取出待收藏網(wǎng)頁(yè)所包含的文字、圖片。
5.根據(jù)權(quán)利要求4所述的方法,其中,從所述內(nèi)容描述信息中抽取出待收藏網(wǎng)頁(yè)所包含的圖片為從所述內(nèi)容描述信息中抽取出圖片文件所在的源位置并從該源位置下載該圖片文件。
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的方法,還包括: 根據(jù)所保存的待收藏網(wǎng)頁(yè)的內(nèi)容生成頁(yè)面摘要; 把所述頁(yè)面摘要存放在收藏列表中以便展示。
7.—種網(wǎng)頁(yè)收藏裝置,其包括: 抓取單元,適于抓取待收藏網(wǎng)頁(yè)的內(nèi)容描述信息; 解析單元,適于解析所述內(nèi)容描述信息; 獲取單元,適于根據(jù)解析結(jié)果抓取所述待收藏網(wǎng)頁(yè)的內(nèi)容; 保存單元,適于保存所抓取的待收藏網(wǎng)頁(yè)的內(nèi)容。
8.—種網(wǎng)頁(yè)收藏方法,其包括: 抓取待收藏網(wǎng)頁(yè)的內(nèi)容描述信息; 解析所述內(nèi)容描述信息以得到待收藏網(wǎng)頁(yè)所包含的內(nèi)容; 根據(jù)待收藏網(wǎng)頁(yè)所包含的內(nèi)容抓取所述待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容; 保存所抓取的待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容。
9.一種網(wǎng)頁(yè)收藏裝置,其包括: 抓取單元,適于抓取待收藏網(wǎng)頁(yè)的內(nèi)容描述信息; 解析單元,適于解析所述內(nèi)容描述信息以得到待收藏網(wǎng)頁(yè)所包含的內(nèi)容; 獲取單元,適于根據(jù)待收藏網(wǎng)頁(yè)所包含的內(nèi)容抓取所述待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容; 保存單元,適于保存所抓取的待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容。
10.一種網(wǎng)頁(yè)收藏方法,其包括: 抓取待收藏網(wǎng)頁(yè)的內(nèi)容描述信息; 解析所述內(nèi)容描述信息以得到待收藏網(wǎng)頁(yè)所包含的內(nèi)容; 根據(jù)待收藏網(wǎng)頁(yè)所包含的內(nèi)容以及預(yù)定規(guī)則抓取所述待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容并過(guò)濾掉不具有收藏意義的網(wǎng)頁(yè)內(nèi)容; 保存所抓取的待收藏網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容。
【文檔編號(hào)】G06F17/30GK103617223SQ201310603048
【公開(kāi)日】2014年3月5日 申請(qǐng)日期:2012年3月31日 優(yōu)先權(quán)日:2012年3月31日
【發(fā)明者】曾強(qiáng), 張平, 魏欽剛 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司