欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)站頻道自動挖掘方法_3

文檔序號:9396902閱讀:來源:國知局
om.cn/w/2014-04-23/052429991412.shtml, http://video, sina.com.cn/l/pl/sportstv/1683448.html, http://tech.sina.com.cn/it/2014-04-17/09559326842, shtml等。
[0036]步驟二,對URL數(shù)據(jù)進行分解,分解成多種URL模式,得到了 video, sina.com.cn, news.sina.com.cn, tech.sina.com.cn, tech.sina.com.cn/it, tech.sina.com.cn/it/2014-04-17 等多種 URL 模式;
步驟三,對分解獲得的多種URL模式進行過濾,去除重復包含的URL模式,得到候選URL模式;例如:tech.sina.com.cn/it/2014-04-17被過濾了,剩余幾百個候選URL模式。
[0037]步驟四,對過濾后的候選URL模式中所包含的URL數(shù)據(jù)進行抽樣處理;例如:每個URL模式抽樣500個URL ;
步驟五,對抽樣留下的URL數(shù)據(jù)進行抓取網(wǎng)頁內(nèi)容,并對網(wǎng)頁進行分類;
步驟六,統(tǒng)計各個URL模式中所包含的URL數(shù)據(jù),設置分類相同的比例閾值,留下包含的URL數(shù)據(jù)分類超過比例閾值的模式;例如video, sina.com.cn URL模式被過濾了 ;步驟七,合并URL模式中存在包含關(guān)系的模式,得到頻道列表;例如,由于tech.sina.com.cn/it跟上級模式tech.sina.com.cn的分類都是科技,因此被過濾了 ;
最終從新浪網(wǎng)中得到了 49個頻道;例如sports, sina.com.cn/cba的類別是籃球,sports, sina.com.cn/nba 類別也是籃球,finance, sina.com.cn/money 的類別是投資理財,baby.sina.com.cn的類別是母嬰。
[0038]本發(fā)明能夠自動發(fā)現(xiàn)各個網(wǎng)站的頻道以及對頻道進行分類,提高抓取和分類效率,占用磁盤空間小,省時省力,分類更加準確。
[0039]本發(fā)明通過過濾需要存儲的頻道列表比抓取的URL數(shù)量少很多,更加節(jié)省資源。
[0040]即使某個抓取的URL網(wǎng)頁內(nèi)容很少,但是通過本發(fā)明的URL模式把它劃到一個頻道,仍舊可以得到可靠的類別,大大降低分類的錯誤率。
[0041]以上顯示和描述了本發(fā)明的基本原理、主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術(shù)人員應該了解,本發(fā)明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下本發(fā)明還會有各種變化和改進,這些變化和改進都落入要求保護的本發(fā)明范圍內(nèi)。本發(fā)明要求保護范圍由所附的權(quán)利要求書及其等同物界定。
【主權(quán)項】
1.網(wǎng)站頻道自動挖掘方法,其特征在于,包括如下步驟: 步驟一,從互聯(lián)網(wǎng)數(shù)據(jù)中抓取各個網(wǎng)站的URL數(shù)據(jù); 步驟二,對所述URL數(shù)據(jù)進行分解,分解成多種URL模式; 步驟三,對分解獲得的多種所述URL模式進行過濾,去除重復包含的URL模式,得到候選URL模式; 步驟四,對過濾后的所述候選URL模式中所包含的URL數(shù)據(jù)進行抽樣處理; 步驟五,對抽樣留下的所述URL數(shù)據(jù)進行抓取網(wǎng)頁內(nèi)容,并對網(wǎng)頁進行分類; 步驟六,統(tǒng)計各個所述URL模式中所包含的URL數(shù)據(jù),設置分類相同的比例閾值,留下包含的URL數(shù)據(jù)分類超過比例閾值的模式; 步驟七,合并所述URL模式中存在包含關(guān)系的模式,得到頻道列表。2.根據(jù)權(quán)利要求1所述的網(wǎng)站頻道自動挖掘方法,其特征在于,所述步驟一是通過定制的網(wǎng)絡爬蟲,或者/和從互聯(lián)網(wǎng)廣告網(wǎng)絡的廣播數(shù)據(jù)中,收集互聯(lián)網(wǎng)上各個網(wǎng)站的URL數(shù)據(jù)的。3.根據(jù)權(quán)利要求2所述的網(wǎng)站頻道自動挖掘方法,其特征在于,所述步驟一中通過定制的網(wǎng)絡爬蟲收集互聯(lián)網(wǎng)上各個網(wǎng)站的URL數(shù)據(jù)的具體步驟為: 所述定制的網(wǎng)絡爬蟲是指從幾個大的門戶網(wǎng)站開始抓取網(wǎng)頁,并收集網(wǎng)頁中的URL,將URL加到候選隊列之中;進一步地繼續(xù)抓取候選隊列中的URL,從網(wǎng)頁中收集URL,仍舊加到候選隊列中,去除重復的URL,如此循環(huán),直至收集上億的URL數(shù)據(jù)。4.根據(jù)權(quán)利要求2所述的網(wǎng)站頻道自動挖掘方法,其特征在于,所述步驟一中從互聯(lián)網(wǎng)廣告網(wǎng)絡的廣播數(shù)據(jù)中收集互聯(lián)網(wǎng)上各個網(wǎng)站的URL數(shù)據(jù)的具體步驟為: 各個所述互聯(lián)網(wǎng)廣告網(wǎng)絡會將用戶訪問的URL全部廣播給互聯(lián)網(wǎng)廣告代理公司;互聯(lián)網(wǎng)廣告代理公司再將所述URL搜集起來,進行積攢,即得到上億的URL數(shù)據(jù)。5.根據(jù)權(quán)利要求1所述的網(wǎng)站頻道自動挖掘方法,其特征在于,所述步驟二中對URL數(shù)據(jù)進行分解,分解成多種URL模式的具體步驟為: 首先,URL為統(tǒng)一資源定位符,通常包括子域名、域名、目錄多個組成部分; 進一步地,對所述URL數(shù)據(jù)進行分解是指,提取URL中包括子域名、域名、頂級域名、目錄的多個組成部分,并按照相應的分隔符對子域名和目錄進行分隔; 進一步地,舍棄所述URL中的部分子域名或者目錄,重新拼裝,得到的即為URL模式。6.根據(jù)權(quán)利要求1所述的網(wǎng)站頻道自動挖掘方法,其特征在于,所述步驟三中對分解獲得的多種URL模式進行過濾,去除重復包含的URL,得到候選URL模式的具體步驟為: 首先,通過聚合所述步驟二中的URL模式,可以得到每個所述URL模式中包含的URL,并計算URL的數(shù)目; 進一步地,設置URL閾值,保留URL數(shù)據(jù)大于URL閾值的URL模式,對不滿足條件的URL模式進行刪除,即得到候選URL模式。7.根據(jù)權(quán)利要求1所述的網(wǎng)站頻道自動挖掘方法,其特征在于,所述步驟四中對過濾后的候選URL模式中所包含的URL數(shù)據(jù)進行抽樣處理的具體步驟為: 所述候選URL模式中包含有多個URL數(shù)據(jù),需要對每種候選URL模式下所包含的URL數(shù)據(jù)進行抽樣處理,抽樣是隨機抽樣,抽樣結(jié)束后,每個URL模式包含的URL數(shù)量相等。8.根據(jù)權(quán)利要求1所述的網(wǎng)站頻道自動挖掘方法,其特征在于,所述步驟五中對抽樣留下的URL數(shù)據(jù)進行抓取網(wǎng)頁內(nèi)容,并對網(wǎng)頁進行分類的具體步驟為: 首先,采用通用的網(wǎng)絡爬蟲,抓取每個所述URL所對應的網(wǎng)頁內(nèi)容; 進一步地,人工對每個網(wǎng)頁進行分類,尋找一些訓練樣本,訓練出一個通用的網(wǎng)頁分類器; 進一步地,利用訓練好的所述網(wǎng)頁分類器,提取網(wǎng)頁的標題和正文; 進一步地,對提取的網(wǎng)頁標題和正文進行分類,得到每個URL數(shù)據(jù)的分類標簽。9.根據(jù)權(quán)利要求1所述的網(wǎng)站頻道自動挖掘方法,其特征在于,所述步驟六中統(tǒng)計各個URL模式中所包含的URL數(shù)據(jù),設置分類相同的比例閾值,留下包含的URL數(shù)據(jù)分類超過比例閾值的模式的具體步驟為: 首先,所述URL模式下包含的URL數(shù)據(jù)的分類是比較一致的,而不是雜亂無章的; 進一步地,根據(jù)統(tǒng)計的每個URL模式下所包含的URL分類標簽,計算每個分類標簽所占的比例;與預先設置的分類標簽比例閾值進行比較,如果分類標簽所占的比例大于比例閾值,則所述URL模式所屬的URL分類是比較一致的,進行保留;過濾所屬的URL分類不一致的模式,即得到符合條件的URL模式和對應的分類標簽。10.根據(jù)權(quán)利要求1所述的網(wǎng)站頻道自動挖掘方法,其特征在于,所述步驟七中合并URL模式中存在包含關(guān)系的模式,得到頻道列表的具體步驟為: 首先,將上級所述URL模式與當前所述URL模式進行比較,上級所述URL模式是指組成模式的成分與當前URL模式相似,但是要比當前URL模式中的內(nèi)容要少; 進一步地,當前所述URL模式對應的分類,與上級模式一致,則舍棄當前所述URL模式; 進一步地,被保留的所述URL模式和對應的分類,即構(gòu)成了頻道列表。
【專利摘要】本發(fā)明屬于網(wǎng)站頻道挖掘技術(shù)領(lǐng)域,提供了網(wǎng)站頻道自動挖掘方法,包括:步驟從互聯(lián)網(wǎng)數(shù)據(jù)中抓取各個網(wǎng)站的URL數(shù)據(jù);對URL數(shù)據(jù)進行分解,分解成多種URL模式;對分解獲得的多種URL模式進行過濾,去除重復包含的URL模式,得到候選URL模式;對過濾后的候選URL模式中所包含的URL數(shù)據(jù)進行抽樣處理;對抽樣留下的URL數(shù)據(jù)進行抓取網(wǎng)頁內(nèi)容,并對網(wǎng)頁進行分類;統(tǒng)計各個URL模式中所包含的URL數(shù)據(jù),設置分類相同的比例閾值,留下包含的URL數(shù)據(jù)分類超過比例閾值的模式;合并URL模式中存在包含關(guān)系的模式,得到頻道列表。本發(fā)明能夠自動發(fā)現(xiàn)各個網(wǎng)站的頻道以及對頻道進行分類,提高了URL數(shù)據(jù)的抓取和分類效率,占用磁盤空間小,省時省力,分類更加準確。
【IPC分類】G06F17/30
【公開號】CN105117436
【申請?zhí)枴緾N201510485686
【發(fā)明人】湯奇峰, 劉作濤
【申請人】上海晶贊科技發(fā)展有限公司
【公開日】2015年12月2日
【申請日】2015年8月10日
當前第3頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
江达县| 晴隆县| 临澧县| 阿拉善右旗| 思南县| 伊金霍洛旗| 玛多县| 桂阳县| 名山县| 同心县| 天水市| 治多县| 河源市| 柏乡县| 沁水县| 当雄县| 南宁市| 大同市| 仁怀市| 那曲县| 玉树县| 庆云县| 遂宁市| 文安县| 晴隆县| 乌兰县| 洛隆县| 驻马店市| 藁城市| 瑞安市| 濮阳市| 洞口县| 如皋市| 茶陵县| 绥江县| 新宁县| 津市市| 江华| 弥勒县| 文昌市| 聊城市|