個(gè)性化分布式數(shù)據(jù)挖掘系統(tǒng)的制作方法

文檔序號(hào)：12271337閱讀：315來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種個(gè)性化的分布式數(shù)據(jù)抽取系統(tǒng)，可以用于對(duì)互聯(lián)網(wǎng)上網(wǎng)站進(jìn)行個(gè)性化挖掘。
背景技術(shù)：
：：MicrosoftOffice系列已經(jīng)成為大眾通用的產(chǎn)品，用戶對(duì)其有著良好的用戶體驗(yàn)，同時(shí)html文件格式成為所有網(wǎng)絡(luò)瀏覽器接受的格式，Java語(yǔ)言作為一種普遍的網(wǎng)絡(luò)編程語(yǔ)言為大眾所接受，所以本系統(tǒng)融合了以上三種
背景技術(shù)：
：，創(chuàng)造出了該個(gè)性化的數(shù)據(jù)挖掘系統(tǒng)。技術(shù)實(shí)現(xiàn)要素：本發(fā)明包括五個(gè)模塊:中央控制模塊，目標(biāo)網(wǎng)站名單讀取模塊，結(jié)果文件生成模塊，目標(biāo)網(wǎng)站抽取并寫入結(jié)果文件模塊，數(shù)據(jù)清洗模塊。中央控制模塊，該模塊主要是生成一個(gè)類，用于存儲(chǔ)該系統(tǒng)運(yùn)行的一些關(guān)鍵的參數(shù)，比如Excel文件的存儲(chǔ)位置，結(jié)果文件的存儲(chǔ)位置等。目標(biāo)網(wǎng)站名單讀取模塊，該模塊主要是系統(tǒng)使用Java從excel文件中讀取需要進(jìn)行抽取的目標(biāo)網(wǎng)站的名單以及采用的過(guò)濾詞。結(jié)果文件生成模塊，主要將結(jié)果頁(yè)面生成一個(gè)html文件并且存儲(chǔ)主要包括結(jié)果文件前端生成和結(jié)果文件后端生成兩個(gè)方法。目標(biāo)網(wǎng)站抽取并寫入結(jié)果文件模塊，該模塊主要是系統(tǒng)根據(jù)之前的目標(biāo)網(wǎng)站的抽取情況，得到目標(biāo)網(wǎng)站的名單列表，然后根據(jù)該列表對(duì)網(wǎng)站進(jìn)行抽取。數(shù)據(jù)清洗模塊，主要是對(duì)抽取出來(lái)的數(shù)據(jù)進(jìn)行清洗，以獲得所需要的結(jié)果。說(shuō)明書附圖：圖1為系統(tǒng)整個(gè)結(jié)構(gòu)圖圖2為目標(biāo)網(wǎng)站名單讀取模塊結(jié)構(gòu)圖圖3為目標(biāo)網(wǎng)站名單讀取模塊并寫入結(jié)果文件模塊結(jié)構(gòu)圖圖4為JPOI方法中g(shù)et_urls_poi流程圖圖5為JPOI方法中g(shù)et_keyword_poi流程圖圖6為JExcel方法中g(shù)et_urls_jexcel流程圖圖7位JExcel方法中g(shù)et_keywords_jexcel流程圖。具體實(shí)施方式：中央控制模塊主要包括以下部分，控制文件construct.xml，控制類Constructure?？刂莆募onstruct.xml主要是使用xml文件存儲(chǔ)關(guān)鍵信息，包括Excel文件的存儲(chǔ)位置和結(jié)果文件的存儲(chǔ)位置，包括以下幾個(gè)節(jié)點(diǎn)：1，excel:excel文件的路徑，2，output:結(jié)果文件out.html的存放路徑?？刂祁怌onstructure是一個(gè)類，該類用于存儲(chǔ)之前Excel文件的地址，結(jié)果文件out.html的存放位置，該類實(shí)例化之后包含以下幾個(gè)方法：1，getExcel_file:取得Excel文件的存儲(chǔ)位置2，setExcel_file:更改Excel文件的存儲(chǔ)位置3，getOutput_file：取得結(jié)果文件out.html的存儲(chǔ)位置4，setOutput_file：更改結(jié)果文件out.html的存儲(chǔ)位置。目標(biāo)網(wǎng)站名單讀取模塊，表格文件Excel主要包含兩列。一列是website，主要是需要進(jìn)行抽取的網(wǎng)站名單，都是其網(wǎng)址格式，比如www.xundata.com等等，該列的第一個(gè)名稱為website，下面的每一行都是需要抽取的網(wǎng)站url格式，可以有許多個(gè)。另一列，即第二列，是keyword，主要是系統(tǒng)用來(lái)進(jìn)行過(guò)濾所采用的關(guān)鍵詞，用戶可以自己設(shè)定，可以是友情，愛(ài)情等，每一行都是一個(gè)新的關(guān)鍵詞，可以有許多個(gè)。對(duì)該excel文件的讀取，采用的是Java讀取Excel的API，本系統(tǒng)提出了兩種方法JPOI和JExcel兩種。對(duì)JPOI方式，包含獲得urls方式和獲得keywords的方式。方法名：get_urls_poi,獲得urls的方式：1.系統(tǒng)輸入Excel的文件名，生成POIFSFileSystemfs，2.根據(jù)該fs生成HSSFWorkbookwb，3.根據(jù)wb，生成HSSFSheetsheet，取得sheet的物理行數(shù)，rows，4.對(duì)rows做一次循環(huán)，4.1.從sheet中取得每一行，4.2.然后從該行中取得第一列的元素，4.2.1當(dāng)其不包含website的關(guān)鍵字后，將其加入urls中4.2.2當(dāng)其包含website，則不加入urls中。方法名：get_keywords_poi,獲得keywords的方式：1.系統(tǒng)輸入Excel的文件名，生成POIFSFileSystemfs，2.根據(jù)該fs生成HSSFWorkbookwb，3.根據(jù)wb，生成HSSFSheetsheet，取得sheet的物理行數(shù)，rows，4.對(duì)rows做一次循環(huán)，4.1.從sheet中取得每一行，4.2.然后從該行中取得第二列的元素，4.2.1當(dāng)其不包含keyword的關(guān)鍵字后，將其加入keywords中4.2.2當(dāng)其包含keyword，則不加入keywords中。對(duì)于JExcel方式，包含獲得urls和keywords的方式。方法名：get_urls_jexcel，獲得urls的方法：1，生成urls列表2，使用提供的excel文件，生成實(shí)例jxl.workbook:workbook3，使用workbook,生成sheet4，定義列col為05，取得sheet中的行數(shù)rows,并且做一次循環(huán)5.1，對(duì)每一行，通過(guò)sheet，取得一個(gè)實(shí)例jxl.cell:cell，其列數(shù)為05.2，對(duì)該cell，取得其內(nèi)容content_local，5.3，當(dāng)內(nèi)容不包含website字樣時(shí)，將content_local加入urls列表6，返還urls列。方法名：get_keywords_jexcel，獲得keywords的方法：1，生成keywords列表2，使用提供的excel文件，生成實(shí)例jxl.workbook:workbook3，使用workbook,生成sheet4，定義列col為15，取得sheet中的行數(shù)rows,并且做一次循環(huán)5.1，對(duì)每一行，通過(guò)sheet，生成一個(gè)jxl.cell:cell，其列數(shù)為15.2，對(duì)該cell，取得其內(nèi)容content_local，5.3，當(dāng)內(nèi)容不包含keyword字樣時(shí)，將content_local加入urls列中6，返還keywords列。結(jié)果文件生成模塊，主要包括結(jié)果文件前端生成方法和結(jié)果文件后端生成方法。結(jié)果文件前端生成方法，主要是采用Java寫入文件的FileWriter方法，將結(jié)果文件寫成out.html，并且寫入生成目標(biāo)文件的前端，采用的方法名稱為Write_Header，寫入內(nèi)容如下：1，從結(jié)果文件的位置生成FileWriterfstream2，從fstream生成bufferedwriterout3，使用out寫入結(jié)果文件一下內(nèi)容：<！DOCTYPEhtml><html><head><metahttp-equiv="Content-Type"content="text/html;charset=utf-8"><title>Theresultpage</title></head><body>4，關(guān)閉out。結(jié)果文件后端生成模塊：該模塊主要是對(duì)結(jié)果文件out.html的底部生成html文檔。主要采用名為Write_Botton方法，主要步驟如下：1，生成bufferedWriterout2,從結(jié)果文件的地址生成FileWriter文件流fstream，3，將fstream放入BufferedWriter文件中4，out寫入</body>5，out寫入</html>6，out關(guān)閉。目標(biāo)網(wǎng)站抽取并寫入結(jié)果文件模塊，包括以下幾個(gè)步驟：1，打開之前寫好的結(jié)果文件out.html2，寫入<tablestyle="width=100%">3，根據(jù)之前獲得的url列表，urls,對(duì)其做一個(gè)循環(huán)，3.1從urls中獲得一個(gè)url3.2針對(duì)該url進(jìn)行一次掃描，獲取其中的鏈接3.2.1針對(duì)每個(gè)獲取的鏈接，對(duì)其進(jìn)行下一層次的掃描3.2.2針對(duì)掃描回來(lái)的結(jié)果，抽取其中含有html的文檔內(nèi)容的那一部分3.2.3針對(duì)抽取的html文檔的內(nèi)容這一部分，采用循環(huán)的方式，確認(rèn)其是否包含keyword關(guān)鍵詞，3.2.3.1采用循環(huán)機(jī)制，從keywords中選取一個(gè)keyword3.2.3.2將該keyword和抽取的html文檔內(nèi)容做匹配，看html文檔內(nèi)容是否包含該keyword3.2.3.3如果html文檔包含keyword，則返回該鏈接link_local，鏈接的title內(nèi)容title_local.3.2.3.4如果html文檔不包含keyword，則不返回該鏈接3.2.4對(duì)包含keyword的，返回的鏈接，進(jìn)行數(shù)據(jù)清洗，具體如何清洗的見第五模塊數(shù)據(jù)清洗模塊，3.2.5對(duì)數(shù)據(jù)清洗之后的，返回的鏈接link_local，和它所對(duì)應(yīng)的標(biāo)題title_local，將其寫入結(jié)果文件中out.html,寫入內(nèi)容如下：<tr><td><ahref=link_local>title_local</a></td></tr>4，在結(jié)果文件out.html中寫入</table>5,關(guān)閉out.html。數(shù)據(jù)清洗模塊主要采用DataCleaning_Wrapper類作為總類，采用的方法是remove方法，主要步驟如下：1，生成需要清洗的內(nèi)容列表filter_list2，對(duì)每一個(gè)屬于該內(nèi)容列表的filter_keyword，2.1，將輸入的文件和該列表進(jìn)行匹配，2.2，如果符合該，則將其清除2.3，如果不符合，則無(wú)所謂2.4，將處理之后的字符串返回。當(dāng)前第1頁(yè)1 2 3 當(dāng)前第1頁(yè)1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉挺;
技術(shù)所有人：劉挺;
我是此專利的發(fā)明人

上一篇：一種文件傳輸方法和裝置與流程
上一篇：檢測(cè)數(shù)據(jù)表中數(shù)據(jù)變化的方法和裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

分布式數(shù)據(jù)挖掘相關(guān)技術(shù)

數(shù)據(jù)挖掘系統(tǒng)包括相關(guān)技術(shù)

中國(guó)數(shù)據(jù)挖掘系統(tǒng)相關(guān)技術(shù)

數(shù)據(jù)挖掘系統(tǒng)需求相關(guān)技術(shù)

數(shù)據(jù)挖掘分析系統(tǒng)相關(guān)技術(shù)

智能系統(tǒng)與數(shù)據(jù)挖掘相關(guān)技術(shù)

數(shù)據(jù)挖掘系統(tǒng)包括什么相關(guān)技術(shù)

數(shù)據(jù)挖掘無(wú)線通信系統(tǒng)相關(guān)技術(shù)

數(shù)據(jù)挖掘在公安系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

個(gè)性化分布式數(shù)據(jù)挖掘系統(tǒng)的制作方法