本發(fā)明涉及一種個(gè)性化的分布式數(shù)據(jù)抽取系統(tǒng),可以用于對(duì)互聯(lián)網(wǎng)上網(wǎng)站進(jìn)行個(gè)性化挖掘。
背景技術(shù):
::MicrosoftOffice系列已經(jīng)成為大眾通用的產(chǎn)品,用戶對(duì)其有著良好的用戶體驗(yàn),同時(shí)html文件格式成為所有網(wǎng)絡(luò)瀏覽器接受的格式,Java語(yǔ)言作為一種普遍的網(wǎng)絡(luò)編程語(yǔ)言為大眾所接受,所以本系統(tǒng)融合了以上三種
背景技術(shù):
:,創(chuàng)造出了該個(gè)性化的數(shù)據(jù)挖掘系統(tǒng)。技術(shù)實(shí)現(xiàn)要素:本發(fā)明包括五個(gè)模塊:中央控制模塊,目標(biāo)網(wǎng)站名單讀取模塊,結(jié)果文件生成模塊,目標(biāo)網(wǎng)站抽取并寫入結(jié)果文件模塊,數(shù)據(jù)清洗模塊。中央控制模塊,該模塊主要是生成一個(gè)類,用于存儲(chǔ)該系統(tǒng)運(yùn)行的一些關(guān)鍵的參數(shù),比如Excel文件的存儲(chǔ)位置,結(jié)果文件的存儲(chǔ)位置等。目標(biāo)網(wǎng)站名單讀取模塊,該模塊主要是系統(tǒng)使用Java從excel文件中讀取需要進(jìn)行抽取的目標(biāo)網(wǎng)站的名單以及采用的過(guò)濾詞。結(jié)果文件生成模塊,主要將結(jié)果頁(yè)面生成一個(gè)html文件并且存儲(chǔ)主要包括結(jié)果文件前端生成和結(jié)果文件后端生成兩個(gè)方法。目標(biāo)網(wǎng)站抽取并寫入結(jié)果文件模塊,該模塊主要是系統(tǒng)根據(jù)之前的目標(biāo)網(wǎng)站的抽取情況,得到目標(biāo)網(wǎng)站的名單列表,然后根據(jù)該列表對(duì)網(wǎng)站進(jìn)行抽取。數(shù)據(jù)清洗模塊,主要是對(duì)抽取出來(lái)的數(shù)據(jù)進(jìn)行清洗,以獲得所需要的結(jié)果。說(shuō)明書附圖:圖1為系統(tǒng)整個(gè)結(jié)構(gòu)圖圖2為目標(biāo)網(wǎng)站名單讀取模塊結(jié)構(gòu)圖圖3為目標(biāo)網(wǎng)站名單讀取模塊并寫入結(jié)果文件模塊結(jié)構(gòu)圖圖4為JPOI方法中g(shù)et_urls_poi流程圖圖5為JPOI方法中g(shù)et_keyword_poi流程圖圖6為JExcel方法中g(shù)et_urls_jexcel流程圖圖7位JExcel方法中g(shù)et_keywords_jexcel流程圖。具體實(shí)施方式:中央控制模塊主要包括以下部分,控制文件construct.xml,控制類Constructure??刂莆募onstruct.xml主要是使用xml文件存儲(chǔ)關(guān)鍵信息,包括Excel文件的存儲(chǔ)位置和結(jié)果文件的存儲(chǔ)位置,包括以下幾個(gè)節(jié)點(diǎn):1,excel:excel文件的路徑,2,output:結(jié)果文件out.html的存放路徑??刂祁怌onstructure是一個(gè)類,該類用于存儲(chǔ)之前Excel文件的地址,結(jié)果文件out.html的存放位置,該類實(shí)例化之后包含以下幾個(gè)方法:1,getExcel_file:取得Excel文件的存儲(chǔ)位置2,setExcel_file:更改Excel文件的存儲(chǔ)位置3,getOutput_file:取得結(jié)果文件out.html的存儲(chǔ)位置4,setOutput_file:更改結(jié)果文件out.html的存儲(chǔ)位置。目標(biāo)網(wǎng)站名單讀取模塊,表格文件Excel主要包含兩列。一列是website,主要是需要進(jìn)行抽取的網(wǎng)站名單,都是其網(wǎng)址格式,比如www.xundata.com等等,該列的第一個(gè)名稱為website,下面的每一行都是需要抽取的網(wǎng)站url格式,可以有許多個(gè)。另一列,即第二列,是keyword,主要是系統(tǒng)用來(lái)進(jìn)行過(guò)濾所采用的關(guān)鍵詞,用戶可以自己設(shè)定,可以是友情,愛(ài)情等,每一行都是一個(gè)新的關(guān)鍵詞,可以有許多個(gè)。對(duì)該excel文件的讀取,采用的是Java讀取Excel的API,本系統(tǒng)提出了兩種方法JPOI和JExcel兩種。對(duì)JPOI方式,包含獲得urls方式和獲得keywords的方式。方法名:get_urls_poi,獲得urls的方式:1.系統(tǒng)輸入Excel的文件名,生成POIFSFileSystemfs,2.根據(jù)該fs生成HSSFWorkbookwb,3.根據(jù)wb,生成HSSFSheetsheet,取得sheet的物理行數(shù),rows,4.對(duì)rows做一次循環(huán),4.1.從sheet中取得每一行,4.2.然后從該行中取得第一列的元素,4.2.1當(dāng)其不包含website的關(guān)鍵字后,將其加入urls中4.2.2當(dāng)其包含website,則不加入urls中。方法名:get_keywords_poi,獲得keywords的方式:1.系統(tǒng)輸入Excel的文件名,生成POIFSFileSystemfs,2.根據(jù)該fs生成HSSFWorkbookwb,3.根據(jù)wb,生成HSSFSheetsheet,取得sheet的物理行數(shù),rows,4.對(duì)rows做一次循環(huán),4.1.從sheet中取得每一行,4.2.然后從該行中取得第二列的元素,4.2.1當(dāng)其不包含keyword的關(guān)鍵字后,將其加入keywords中4.2.2當(dāng)其包含keyword,則不加入keywords中。對(duì)于JExcel方式,包含獲得urls和keywords的方式。方法名:get_urls_jexcel,獲得urls的方法:1,生成urls列表2,使用提供的excel文件,生成實(shí)例jxl.workbook:workbook3,使用workbook,生成sheet4,定義列col為05,取得sheet中的行數(shù)rows,并且做一次循環(huán)5.1,對(duì)每一行,通過(guò)sheet,取得一個(gè)實(shí)例jxl.cell:cell,其列數(shù)為05.2,對(duì)該cell,取得其內(nèi)容content_local,5.3,當(dāng)內(nèi)容不包含website字樣時(shí),將content_local加入urls列表6,返還urls列。方法名:get_keywords_jexcel,獲得keywords的方法:1,生成keywords列表2,使用提供的excel文件,生成實(shí)例jxl.workbook:workbook3,使用workbook,生成sheet4,定義列col為15,取得sheet中的行數(shù)rows,并且做一次循環(huán)5.1,對(duì)每一行,通過(guò)sheet,生成一個(gè)jxl.cell:cell,其列數(shù)為15.2,對(duì)該cell,取得其內(nèi)容content_local,5.3,當(dāng)內(nèi)容不包含keyword字樣時(shí),將content_local加入urls列中6,返還keywords列。結(jié)果文件生成模塊,主要包括結(jié)果文件前端生成方法和結(jié)果文件后端生成方法。結(jié)果文件前端生成方法,主要是采用Java寫入文件的FileWriter方法,將結(jié)果文件寫成out.html,并且寫入生成目標(biāo)文件的前端,采用的方法名稱為Write_Header,寫入內(nèi)容如下:1,從結(jié)果文件的位置生成FileWriterfstream2,從fstream生成bufferedwriterout3,使用out寫入結(jié)果文件一下內(nèi)容:<!DOCTYPEhtml><html><head><metahttp-equiv="Content-Type"content="text/html;charset=utf-8"><title>Theresultpage</title></head><body>4,關(guān)閉out。結(jié)果文件后端生成模塊:該模塊主要是對(duì)結(jié)果文件out.html的底部生成html文檔。主要采用名為Write_Botton方法,主要步驟如下:1,生成bufferedWriterout2,從結(jié)果文件的地址生成FileWriter文件流fstream,3,將fstream放入BufferedWriter文件中4,out寫入</body>5,out寫入</html>6,out關(guān)閉。目標(biāo)網(wǎng)站抽取并寫入結(jié)果文件模塊,包括以下幾個(gè)步驟:1,打開之前寫好的結(jié)果文件out.html2,寫入<tablestyle="width=100%">3,根據(jù)之前獲得的url列表,urls,對(duì)其做一個(gè)循環(huán),3.1從urls中獲得一個(gè)url3.2針對(duì)該url進(jìn)行一次掃描,獲取其中的鏈接3.2.1針對(duì)每個(gè)獲取的鏈接,對(duì)其進(jìn)行下一層次的掃描3.2.2針對(duì)掃描回來(lái)的結(jié)果,抽取其中含有html的文檔內(nèi)容的那一部分3.2.3針對(duì)抽取的html文檔的內(nèi)容這一部分,采用循環(huán)的方式,確認(rèn)其是否包含keyword關(guān)鍵詞,3.2.3.1采用循環(huán)機(jī)制,從keywords中選取一個(gè)keyword3.2.3.2將該keyword和抽取的html文檔內(nèi)容做匹配,看html文檔內(nèi)容是否包含該keyword3.2.3.3如果html文檔包含keyword,則返回該鏈接link_local,鏈接的title內(nèi)容title_local.3.2.3.4如果html文檔不包含keyword,則不返回該鏈接3.2.4對(duì)包含keyword的,返回的鏈接,進(jìn)行數(shù)據(jù)清洗,具體如何清洗的見第五模塊數(shù)據(jù)清洗模塊,3.2.5對(duì)數(shù)據(jù)清洗之后的,返回的鏈接link_local,和它所對(duì)應(yīng)的標(biāo)題title_local,將其寫入結(jié)果文件中out.html,寫入內(nèi)容如下:<tr><td><ahref=link_local>title_local</a></td></tr>4,在結(jié)果文件out.html中寫入</table>5,關(guān)閉out.html。數(shù)據(jù)清洗模塊主要采用DataCleaning_Wrapper類作為總類,采用的方法是remove方法,主要步驟如下:1,生成需要清洗的內(nèi)容列表filter_list2,對(duì)每一個(gè)屬于該內(nèi)容列表的filter_keyword,2.1,將輸入的文件和該列表進(jìn)行匹配,2.2,如果符合該,則將其清除2.3,如果不符合,則無(wú)所謂2.4,將處理之后的字符串返回。當(dāng)前第1頁(yè)1 2 3 當(dāng)前第1頁(yè)1 2 3