1.個性化分布式數(shù)據(jù)挖掘系統(tǒng)主要是提供了一種基于Excel,Java,html的數(shù)據(jù)挖掘系統(tǒng),該系統(tǒng)包括以下幾個模塊:
中央控制模塊:中央控制類constructure保存系統(tǒng)運行的一些關(guān)鍵參數(shù),
目標網(wǎng)站名單讀取模塊:采用excel表格存儲目標網(wǎng)站列表和關(guān)鍵詞,并且使用java語言讀取信息,
結(jié)果文件生成模塊:使用html格式的文件用來存儲結(jié)果信息,使用html_writer_wrapper類保存寫結(jié)果文件前端和后端兩個方法,
目標網(wǎng)站抽取并寫入結(jié)果文件模塊:將excel表格中獲得的目標網(wǎng)站列表和關(guān)鍵詞列表信息,對目標網(wǎng)站群進行數(shù)據(jù)抽取并且按照關(guān)鍵詞列表進行比對和過濾,將過濾之后的結(jié)果寫入結(jié)果文件之中,
數(shù)據(jù)清洗模塊:將抽取的數(shù)據(jù)信息進行清洗整合之后存入結(jié)果文件之中。
2.根據(jù)權(quán)利一中要求的,該系統(tǒng)中采用使用Excel表格保存目標網(wǎng)站列表,關(guān)鍵詞列表的信息,Java語言分析并且處理,得到信息,并且采用html文件存儲結(jié)果的運行模式申請保護。
3.根據(jù)權(quán)利一中要求的,采用中央控制模塊申請保護,對其采用construct.xml作為配置文件,其包含excel文件存儲路徑,結(jié)果文件out.html存儲路徑信息申請保護。
4.根據(jù)權(quán)利一中要求的,對中央控制模塊采用construture作為控制模塊類,其getExcel_file, setExcel_file, getOutput_file, setOutput_file的方法及其內(nèi)容進行保護。
5.根據(jù)權(quán)利一中要求的,對目標網(wǎng)站讀取模塊使用excel表格保存目標網(wǎng)站內(nèi)容和關(guān)鍵詞,excel表格分為兩列,第一列是website,下面每一行都是目標網(wǎng)站的網(wǎng)址,第二列是keywords,下面每一行都是一個keyword。
6.根據(jù)權(quán)利一中要求的,對目標網(wǎng)站讀取模塊中提到的Java讀取Excel表格中信息的兩種方法,JPOI和JExcel, JPOI包含的get_urls_poi, get_keywords_poi, JExcel中包含的get_urls_jexcel, get_keywords_jexcel方法及其步驟。
7.根據(jù)權(quán)利六中提出的與JPOI和JExcel類似的或者衍生出來的方法,主要是用來讀取Excel表格中的信息,申請保護。
8.根據(jù)權(quán)利一中要求的,結(jié)果文件生成模塊采用的結(jié)果文件前端生成方法的內(nèi)容,Write_Header方法及其內(nèi)容。
9.根據(jù)權(quán)利一中要求的,結(jié)果文件申請模塊采用的結(jié)果文件后端生成方法及其內(nèi)容,Write_Bottom方法及其內(nèi)容。
10.根據(jù)權(quán)利一中要求的,目標網(wǎng)站抽取并寫入結(jié)果文件模塊使用Java對目標網(wǎng)站群進行定向挖掘,得到了第一層鏈接,同時在第一層鏈接的基礎(chǔ)之上,對該層鏈接進行第二層次搜索,將獲得的內(nèi)容與過濾詞進行比對匹配的方法申請保護。
11.根據(jù)權(quán)利十中提到的一種數(shù)據(jù)挖掘方法的衍生方法申請保護,主要表現(xiàn)形式為在搜索到第一層鏈接的基礎(chǔ)之上,進行第二層,第三層乃至第n層鏈接的進一步搜索并且將其中任何一層鏈接的內(nèi)容和關(guān)鍵詞進行比對并且篩選,最終獲得結(jié)果的方法申請保護。
12.根據(jù)權(quán)利一中要求的,對數(shù)據(jù)清洗模塊采用DataCleaning_Wrapper作為總類,對系統(tǒng)抽取出來的信息之后進行remove的數(shù)據(jù)清洗的方法及其內(nèi)容申請保護。
13. 根據(jù)權(quán)利一中提出的,基于各個模塊衍生出來的或者相似度很高的一些方法和內(nèi)容,申請保護。