專利名稱:網(wǎng)絡(luò)信息自動(dòng)下載和處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及實(shí)現(xiàn)針對(duì)指定的網(wǎng)址URL,根據(jù)預(yù)先設(shè)置的屬性,自動(dòng)下載和 分析頁面,提取所需要信息即頁面屬性。具體地說涉及一種網(wǎng)絡(luò)信息自動(dòng)F載 和處理方法
背景技術(shù):
面對(duì)浩瀚如海而又飛速增加和更新的網(wǎng)絡(luò)信息,能夠迅速快捷的搜集和跟 蹤某行業(yè)信息的技術(shù)顯得尤為重要。
信息化時(shí)代,對(duì)于人們來說獲取信息是極其容易的,但是面對(duì)這些輕易得 米的信息,如何從中獲取真正需要的那一部分,讓很多人束手無策。我們的網(wǎng) 絡(luò)倍總自動(dòng)下載和處理方法在這種環(huán)境下應(yīng)運(yùn)而生。不但可以應(yīng)用于個(gè)人信總 搜索,而且可以用來建立商業(yè)化的信息搜集分類中心。與人工搜索分類相比, 極大的節(jié)省人力、物力,提高搜集效率。
發(fā)明內(nèi)容
本發(fā)明的目的就在于提供一種網(wǎng)絡(luò)信息下載、處理的方法,方便用戶有l(wèi)l 的、有范圍、快捷地獲取自己需要的信息。
本發(fā)明的目的可通過以下措施來實(shí)現(xiàn)
水發(fā)明包括設(shè)定要下載網(wǎng)址URL,本方法通過計(jì)算機(jī)就可以獲取網(wǎng)址UR1. 所指定網(wǎng)頁的信息,包括文本和圖片,根據(jù)事先設(shè)定頁面屬性,可以提取網(wǎng)頁
的標(biāo)題,發(fā)布時(shí)間、正文、作者信息;具體實(shí)現(xiàn)歩驟如下
A. 獲取返回信息流
1) 傳遞要下載頁面的網(wǎng)址URL
2) 發(fā)送頁面請(qǐng)求
3) 在限定時(shí)間內(nèi)獲取返回信息
B. 判斷編碼方式
1 ) 獲取返回信息流的ContentType
2) 分析ContentType,是否含有〃charset二utf-8"字樣,如果有則為 utf-8格式,否則為Encoding. Defau丄t
C. 保存信息流到文件
l:) 根據(jù)獲取的編碼格式,將得到的信息流進(jìn)行轉(zhuǎn)換處理
2) 保存到指定的文件中
D. 提取頁面屬性
1 ) 按照預(yù)先設(shè)定的標(biāo)題標(biāo)志提取標(biāo)題
2) 按照預(yù)先設(shè)定的正文標(biāo)志提取正文
3) 依次按照設(shè)定的標(biāo)志提取其他屬性
E. 分析下載圖片
1) 分析保存的信息流文件,獲取所有圖片連接
2) 去除重復(fù)的連接
3) 按照既定規(guī)則創(chuàng)建圖片目錄
4) 下載圖片,保存到指定目錄
5) 修改信息流中圖片路徑
F. 遞歸分析和下載
1) 判斷頁面是否含有下一頁或者下幾頁
2) 如果有,提取其連接遞歸執(zhí)行上述A-E步驟
G. 保存頁面屬性
將信息的標(biāo)題、正文、拼音搜索鍵、發(fā)布時(shí)間、作者屬性保存入數(shù)據(jù)庫。
本發(fā)明中G步驟保存頁面屬性中,還可以將信息標(biāo)題的前兩個(gè)字轉(zhuǎn)換為拼
音,存入到數(shù)據(jù)庫中,作為搜索鍵。
本發(fā)明由于采用上述方法,使之具有如下優(yōu)點(diǎn)-實(shí)時(shí)性用戶可實(shí)時(shí)地從互聯(lián)網(wǎng)上下載、分析網(wǎng)絡(luò)信息。
實(shí)用性通過此方法用戶快速方便獲取自己需要的網(wǎng)絡(luò)信息。
經(jīng)濟(jì)性用戶可以通過指定的網(wǎng)絡(luò)信息源,此方法會(huì)自動(dòng)下載、處理,比
用戶臨時(shí)在浩瀚互聯(lián)網(wǎng)去搜索信息,更加節(jié)省時(shí)間。
附圖是本發(fā)明的流程圖。
具體實(shí)施例方式
本發(fā)明以下結(jié)合附圖和實(shí)施例作以詳細(xì)的描述 實(shí)施例1
本發(fā)明包括計(jì)算機(jī),其方法如下
設(shè)定要下載網(wǎng)址URL,本方法通過計(jì)算機(jī)就可以獲取網(wǎng)址URL所指定網(wǎng)貞
的信息,包括文本和圖片,根據(jù)事先設(shè)定頁面屬性,可以提取網(wǎng)頁的標(biāo)題,
發(fā)布時(shí)間、正文、作者等信息;具體實(shí)現(xiàn)步驟如下 A. 獲取返回信息流
1) 傳遞要下載頁面的網(wǎng)址URL
2) 發(fā)送頁面請(qǐng)求
3) 在限定時(shí)間內(nèi)獲取返回信息
B. 判斷編碼方式
1 ) 獲取返回信息流的C。ntentType
2)分析ContentType,是否含有〃charset^utf-8〃字樣,如果有則為 utf-8格式,否則為Encoding. Default
C. 保存信息流到文件
1) 根據(jù)獲取的編碼格式,將得到的信息流進(jìn)行轉(zhuǎn)換處理
2) 保存到指定的文件中
D. 提取頁面屬性
1) 按照預(yù)先設(shè)定的標(biāo)題標(biāo)志提取標(biāo)題
2) 按照預(yù)先設(shè)定的正文標(biāo)志提取正文
3) 依次按照設(shè)定的標(biāo)志提取其他屬性
E. 分析下載圖片
1) 分析保存的信息流文件,獲取所有圖片連接
2) 去除重復(fù)的連接
3) 按照既定規(guī)則創(chuàng)建圖片目錄
4) 下載圖片,保存到指定目錄
5) 修改信息流中圖片路徑
F. 遞歸分析和下載
1) 判斷頁面是否含有下一頁或者下幾頁
2) 如果有,提取其連接遞歸執(zhí)行上述A-E歩驟
G. 保存頁面屬性
將信息的標(biāo)題、正文、發(fā)布時(shí)間、作者等屬性保存入數(shù)據(jù)庫。 實(shí)施例2
本發(fā)明包括計(jì)算機(jī)
設(shè)定要下載網(wǎng)址URL,本方法通過計(jì)算機(jī)就可以獲取網(wǎng)址URL所指定網(wǎng) 頁的信息,包括文本和圖片,根據(jù)事先設(shè)定頁面屬性,可以提取網(wǎng)頁的標(biāo) 題,發(fā)布時(shí)間、正文等信息;具體實(shí)現(xiàn)步驟如下
A. 獲取返回信息流
1) 傳遞要下載頁面的網(wǎng)址URL
2) 發(fā)送頁面請(qǐng)求
3) 在限定時(shí)間內(nèi)獲取返回信息
B. 判斷編碼方式
1 ) 獲取返回信息流的ContentType
2)分析ContentType,是否含有〃charsetwtf-8〃字樣,如果有則為
utf-8格式,否則為Encoding. Default C. 保存信息流到文件
1) 根據(jù)獲取的編碼格式,將得到的信息流進(jìn)行轉(zhuǎn)換處理
2) 保存到指定的文件中 [〕. 提取頁面屬性
1) 按照預(yù)先設(shè)定的標(biāo)題標(biāo)志提取標(biāo)題
2) 按照預(yù)先設(shè)定的正文標(biāo)志提取正文
3) 依次按照設(shè)定的標(biāo)志提取其他屬性
E. 分析下載圖片
1) 分析保存的信息流文件,獲取所有圖片連接
2) 去除重復(fù)的連接
3) 按照既定規(guī)則創(chuàng)建圖片目錄
4) 下載圖片,保存到指定目錄
5) 修改信息流中圖片路徑
F. 遞歸分析和下載
1) 判斷頁面是否含有下一頁或者下幾頁
2) 如果有,提取其連接遞歸執(zhí)行上述A-E步驟
G. 保存頁面屬性
將信息的標(biāo)題、正文等屬性保存入數(shù)據(jù)庫。 本發(fā)明中G步驟保存頁面屬性中,還可以將信息標(biāo)題的前兩個(gè)字轉(zhuǎn)換為
拼音,存入到數(shù)據(jù)庫中,作為搜索鍵。
權(quán)利要求
1、一種網(wǎng)絡(luò)信息自動(dòng)下載和處理方法,它包括計(jì)算機(jī),其特征在于其方法如下設(shè)定要下載網(wǎng)址URL,本方法通過計(jì)算機(jī)就可以獲取網(wǎng)址URL所指定網(wǎng)頁的信息,包括文本和圖片,根據(jù)事先設(shè)定頁面屬性,可以提取網(wǎng)頁的標(biāo)題,發(fā)布時(shí)間、正文、作者信息;具體實(shí)現(xiàn)步驟如下A.獲取返回信息流1)傳遞要下載頁面的網(wǎng)址URL2)發(fā)送頁面請(qǐng)求3)在限定時(shí)間內(nèi)獲取返回信息B.判斷編碼方式1)獲取返回信息流的ContentType2)分析ContentType,是否含有″charset=utf-8″字樣,如果有則為utf-8格式,否則為Encoding.DefaultC.保存信息流到文件1)根據(jù)獲取的編碼格式,將得到的信息流進(jìn)行轉(zhuǎn)換處理2)保存到指定的文件中D.提取頁面屬性1)按照預(yù)先設(shè)定的標(biāo)題標(biāo)志提取標(biāo)題2)按照預(yù)先設(shè)定的正文標(biāo)志提取正文3)依次按照設(shè)定的標(biāo)志提取其他屬性E.分析下載圖片1)分析保存的信息流文件,獲取所有圖片連接2)去除重復(fù)的連接3)按照既定規(guī)則創(chuàng)建圖片目錄4)下載圖片,保存到指定目錄5)修改信息流中圖片路徑F.遞歸分析和下載1)判斷頁面是否含有下一頁或者下幾頁2)如果有,提取其連接遞歸執(zhí)行上述A-E步驟G.保存頁面屬性將信息的標(biāo)題、正文、拼音搜索鍵、發(fā)布時(shí)間、作者屬性保存入數(shù)據(jù)庫。
2、 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息自動(dòng)下載和處理方法,其特征在于 所述G步驟保存頁面屬性中,還可以將信息標(biāo)題的前兩個(gè)字轉(zhuǎn)換為拼音,存入 到數(shù)據(jù)庫中,作為搜索鍵。
全文摘要
本發(fā)明公開了一種網(wǎng)絡(luò)信息自動(dòng)下載和處理方法,它包括計(jì)算機(jī),其方法如下設(shè)定要下載網(wǎng)址URL,本方法通過計(jì)算機(jī)就可以獲取網(wǎng)址URL所指定網(wǎng)頁的信息,包括文本和圖片,根據(jù)事先設(shè)定頁面屬性,可以提取網(wǎng)頁的標(biāo)題,發(fā)布時(shí)間、正文等信息。根據(jù)指定的網(wǎng)址URL獲取返回信息流、判斷編碼方式、保存信息流到文件、提取頁面屬性、分析下載圖片、遞歸分析和下載、保存頁面屬性。本發(fā)明具有如下優(yōu)點(diǎn)實(shí)時(shí)性用戶可實(shí)時(shí)地從互聯(lián)網(wǎng)上下載、分析處理網(wǎng)絡(luò)信息;實(shí)用性通過此方法用戶快速方便獲取自己需要的網(wǎng)絡(luò)信息,適用于個(gè)人信息搜索和建立商業(yè)化的信息搜索分類中心。
文檔編號(hào)G06F17/30GK101192213SQ200610128290
公開日2008年6月4日 申請(qǐng)日期2006年11月28日 優(yōu)先權(quán)日2006年11月28日
發(fā)明者任永奎, 朱建永, 王明恩, 賈小波 申請(qǐng)人:鄭州威科姆技術(shù)開發(fā)有限公司