欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)站頻道自動挖掘方法

文檔序號:9396902閱讀:426來源:國知局
網(wǎng)站頻道自動挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)站頻道挖掘技術(shù)領(lǐng)域,特別涉及一種對大規(guī)模的網(wǎng)頁URL進(jìn)行分析處理、自動發(fā)現(xiàn)各個網(wǎng)站的頻道以及對頻道進(jìn)行分類的網(wǎng)站頻道自動挖掘方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展以及信息的不斷膨脹,人們對于網(wǎng)絡(luò)信息的使用需求也越來越高,如何對海量的網(wǎng)絡(luò)URL進(jìn)行分析和管理是許多網(wǎng)絡(luò)應(yīng)用都需要面臨的難題。網(wǎng)站頻道自動挖掘方法是對大規(guī)模的網(wǎng)頁URL進(jìn)行分析處理,自動發(fā)現(xiàn)各個網(wǎng)站的頻道以及對頻道進(jìn)行分類,進(jìn)一步地實現(xiàn)對URL進(jìn)行分類。
[0003]隨著互聯(lián)網(wǎng)廣告行業(yè)的發(fā)展,主流廣告投放方式已經(jīng)由包斷網(wǎng)站流量對所有用戶投放同樣的廣告,轉(zhuǎn)變?yōu)楦鶕?jù)具體的網(wǎng)頁內(nèi)容和不同用戶的特征,分別投放不同的廣告內(nèi)容,來精準(zhǔn)的迎合用戶的興趣愛好,達(dá)到提高廣告點擊率和轉(zhuǎn)化率的目的。
[0004]對廣告投放系統(tǒng)來說,需要區(qū)分大量不同網(wǎng)頁的類別,也需要根據(jù)用戶歷史上的訪問記錄來分析其興趣愛好。針對互聯(lián)網(wǎng)的海量的,且在快速增長的網(wǎng)頁規(guī)模,需要一個有效地對網(wǎng)頁內(nèi)容進(jìn)行分類的系統(tǒng)。
[0005]現(xiàn)有的網(wǎng)頁分類方法主要有以下幾種:(I)采用人工對各個站點的URL進(jìn)行標(biāo)注,費(fèi)時費(fèi)力,且人工知識很難覆蓋到大量站點。(2)從網(wǎng)絡(luò)上把大量URL的網(wǎng)頁內(nèi)容都抓取下來,對每一個網(wǎng)頁用一個網(wǎng)頁分類系統(tǒng)分好類,并存到一個緩存系統(tǒng)中。這樣當(dāng)處理到一個網(wǎng)頁時,從緩存系統(tǒng)中獲取預(yù)先得到的分類結(jié)果。此種方法的問題在于:需要預(yù)先對所有網(wǎng)頁進(jìn)行抓取和分類,占用磁盤空間非常大;每當(dāng)遇到一個未預(yù)先處理的網(wǎng)頁時,就需要啟動抓取和分類的過程,耗時較長;并且很多網(wǎng)頁上的文本內(nèi)容很少,比較難準(zhǔn)確的分類,錯誤率很高。(3)借助于各個網(wǎng)站的頻道體系。由于多數(shù)大型網(wǎng)站,通常會整理一個特有的頻道體系,來方便用戶快速訪問,因此可以得到各個URL對應(yīng)的網(wǎng)站頻道,人工將這個頻道映射到網(wǎng)頁分類體系中。此種方法的問題在于:人工整理這些頻道列表,不僅費(fèi)時費(fèi)力,而且在頻道列表更新之后,很難及時發(fā)現(xiàn)。
[0006]因此,網(wǎng)站頻道挖掘技術(shù)領(lǐng)域急需一種網(wǎng)站頻道自動挖掘方法,能夠自動發(fā)現(xiàn)各個網(wǎng)站的頻道以及對頻道進(jìn)行分類,提高了 URL數(shù)據(jù)的抓取和分類效率,占用磁盤空間小,省時省力,分類更加準(zhǔn)確。

【發(fā)明內(nèi)容】

[0007]本發(fā)明為了解決抓取和分類耗時長、占用空間大,費(fèi)時費(fèi)力的問題,提供了一種網(wǎng)站頻道自動挖掘方法,技術(shù)方案如下:
網(wǎng)站頻道自動挖掘方法,包括如下步驟:
步驟一,從互聯(lián)網(wǎng)數(shù)據(jù)中抓取各個網(wǎng)站的URL數(shù)據(jù);
步驟二,對URL數(shù)據(jù)進(jìn)行分解,分解成多種URL模式;
步驟三,對分解獲得的多種URL模式進(jìn)行過濾,去除重復(fù)包含的URL模式,得到候選URL模式;
步驟四,對過濾后的候選URL模式中所包含的URL數(shù)據(jù)進(jìn)行抽樣處理;
步驟五,對抽樣留下的URL數(shù)據(jù)進(jìn)行抓取網(wǎng)頁內(nèi)容,并對網(wǎng)頁進(jìn)行分類;
步驟六,統(tǒng)計各個URL模式中所包含的URL數(shù)據(jù),設(shè)置分類相同的比例閾值,留下包含的URL數(shù)據(jù)分類超過比例閾值的模式;
步驟七,合并URL模式中存在包含關(guān)系的模式,得到頻道列表。
[0008]優(yōu)選的,在上述網(wǎng)站頻道自動挖掘方法中,步驟一是通過定制的網(wǎng)絡(luò)爬蟲,或者/和從互聯(lián)網(wǎng)廣告網(wǎng)絡(luò)的廣播數(shù)據(jù)中,收集互聯(lián)網(wǎng)上各個網(wǎng)站的URL數(shù)據(jù)的。
[0009]優(yōu)選的,在上述網(wǎng)站頻道自動挖掘方法中,步驟一中通過定制的網(wǎng)絡(luò)爬蟲收集互聯(lián)網(wǎng)上各個網(wǎng)站的URL數(shù)據(jù)的具體步驟為:
定制的網(wǎng)絡(luò)爬蟲是指從幾個大的門戶網(wǎng)站開始抓取網(wǎng)頁,并收集網(wǎng)頁中的URL,將URL加到候選隊列之中;進(jìn)一步地繼續(xù)抓取候選隊列中的URL,從網(wǎng)頁中收集URL,仍舊加到候選隊列中,去除重復(fù)的URL,如此循環(huán),直至收集上億的URL數(shù)據(jù);
優(yōu)選的,在上述網(wǎng)站頻道自動挖掘方法中,步驟一中從互聯(lián)網(wǎng)廣告網(wǎng)絡(luò)的廣播數(shù)據(jù)中收集互聯(lián)網(wǎng)上各個網(wǎng)站的URL數(shù)據(jù)的具體步驟為:各個互聯(lián)網(wǎng)廣告網(wǎng)絡(luò)會將用戶訪問的URL全部廣播給互聯(lián)網(wǎng)廣告代理公司;互聯(lián)網(wǎng)廣告代理公司再將所述URL搜集起來,進(jìn)行積攢,即得到上億的URL數(shù)據(jù)。
[0010]優(yōu)選的,在上述網(wǎng)站頻道自動挖掘方法中,步驟二中對URL數(shù)據(jù)進(jìn)行分解,分解成多種URL模式的具體步驟為:
首先,URL為統(tǒng)一資源定位符,通常包括子域名、域名、目錄多個組成部分;
進(jìn)一步地,對URL數(shù)據(jù)進(jìn)行分解是指,提取URL中包括子域名、域名、頂級域名、目錄的多個組成部分,并按照相應(yīng)的分隔符對子域名和目錄進(jìn)行分隔;
進(jìn)一步地,舍棄URL中的部分子域名或者目錄,重新拼裝,得到的即為URL模式。
[0011 ] 優(yōu)選的,在上述網(wǎng)站頻道自動挖掘方法中,步驟三中對分解獲得的多種URL模式進(jìn)行過濾,去除重復(fù)包含的URL,得到候選URL模式的具體步驟為:
首先,通過聚合步驟二中的URL模式,可以得到每個URL模式中包含的URL,并計算URL的數(shù)目;
進(jìn)一步地,設(shè)置URL閾值,保留URL數(shù)據(jù)大于URL閾值的URL模式,對不滿足條件的URL模式進(jìn)行刪除,即得到候選URL模式。
[0012]優(yōu)選的,在上述網(wǎng)站頻道自動挖掘方法中,步驟四中對過濾后的候選URL模式中所包含的URL數(shù)據(jù)進(jìn)行抽樣處理的具體步驟為:
候選URL模式中包含有多個URL數(shù)據(jù),需要對每種候選URL模式下所包含的URL數(shù)據(jù)進(jìn)行抽樣處理,抽樣是隨機(jī)抽樣,抽樣結(jié)束后,每個URL模式包含的URL數(shù)量相等。
[0013]優(yōu)選的,在上述網(wǎng)站頻道自動挖掘方法中,步驟五中對抽樣留下的URL數(shù)據(jù)進(jìn)行抓取網(wǎng)頁內(nèi)容,并對網(wǎng)頁進(jìn)行分類的具體步驟為:
首先,采用通用的網(wǎng)絡(luò)爬蟲,抓取每個URL所對應(yīng)的網(wǎng)頁內(nèi)容;
進(jìn)一步地,人工對每個網(wǎng)頁進(jìn)行分類,尋找一些訓(xùn)練樣本,訓(xùn)練出一個通用的網(wǎng)頁分類器;
進(jìn)一步地,利用訓(xùn)練好的網(wǎng)頁分類器,提取網(wǎng)頁的標(biāo)題和正文; 進(jìn)一步地,對提取的網(wǎng)頁標(biāo)題和正文進(jìn)行分類,得到每個URL數(shù)據(jù)的分類標(biāo)簽。
[0014]優(yōu)選的,在上述網(wǎng)站頻道自動挖掘方法中,步驟五中的網(wǎng)頁分類器是利用詞組在各個分類下出現(xiàn)的頻率不同來計算訓(xùn)練分類的。
[0015]優(yōu)選的,在上述網(wǎng)站頻道自動挖掘方法中,步驟六中統(tǒng)計各個URL模式中所包含的URL數(shù)據(jù),設(shè)置分類相同的比例閾值,留下包含的URL數(shù)據(jù)分類超過比例閾值的模式的具體步驟為:
首先,URL模式下包含的URL數(shù)據(jù)的分類是比較一致的,而不是雜亂無章的;
進(jìn)一步地,根據(jù)統(tǒng)計的每個URL模式下所包含的URL分類標(biāo)簽,計算每個分類標(biāo)簽所占的比例;與預(yù)先設(shè)置的分類標(biāo)簽比例閾值進(jìn)行比較,如果分類標(biāo)簽所占的比例大于比例閾值,則該URL模式所屬的URL分類是比較一致的,進(jìn)行保留;過濾所屬的URL分類不一致的模式,即得到符合條件的URL模式和對應(yīng)的分類標(biāo)簽。
[0016]優(yōu)選的,在上述網(wǎng)站頻道自動挖掘方法中,步驟七中合并URL模式中存在包含關(guān)系的模式,得到頻道列表的具體步驟為:
首先,將上級URL模式與當(dāng)前URL模式進(jìn)行比較,上級URL模式是指組成模式的成分與當(dāng)前URL模式相似,但是要比當(dāng)前URL模式中的內(nèi)容要少;
進(jìn)一步地,當(dāng)前URL模式對應(yīng)的分類,與上級模式一致,則舍棄當(dāng)前URL模式;
進(jìn)一步地,被保留的URL模式和對應(yīng)的分類,即構(gòu)成了頻道列表。
[0017]本發(fā)明的有益效果:
1.本發(fā)明能夠自動發(fā)現(xiàn)各個網(wǎng)站的頻道以及對頻道進(jìn)行分類,提高抓取和分類效率,占用磁盤空間小,省時省力,分類更加準(zhǔn)確。
[0018]2.本發(fā)明通過過濾需要存儲的頻道列表比抓取的URL數(shù)量少很多,更加節(jié)省資源。
[0019]3.即使某個抓取的URL網(wǎng)頁內(nèi)容很少,但是通過本發(fā)明的URL模式把它劃到一個頻道,仍舊可以得到可靠的類別,大大降低分類的錯誤率。
【附圖說明】
[0020]下面結(jié)合附圖和【具體實施方式】來詳細(xì)說明本發(fā)明:
圖1是網(wǎng)站頻道自動挖掘方法的流程圖。
【具體實施方式】
[0021]為了使本發(fā)明技術(shù)實現(xiàn)的措施、創(chuàng)作特征、達(dá)成目的與功效易于明白了解,下面結(jié)合具體圖示,進(jìn)一步闡述本發(fā)明。
[0022]實施例1:
圖1是網(wǎng)站頻道自動挖掘方法的流程圖。
[0023]如圖1所示,網(wǎng)站頻道自動挖掘方法,包括如下步驟:
步驟一,從互聯(lián)網(wǎng)數(shù)據(jù)中抓取各個網(wǎng)站的URL數(shù)據(jù);
步驟二,對URL數(shù)據(jù)進(jìn)行分解,分解成多種URL模式;
步驟
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
敦煌市| 全椒县| 岳阳县| 建水县| 太保市| 上栗县| 喜德县| 大足县| 平乡县| 阜平县| 重庆市| 宁武县| 南充市| 浪卡子县| 陵川县| 新余市| 博白县| 嘉荫县| 略阳县| 宿州市| 曲靖市| 丰顺县| 曲松县| 岳普湖县| 嘉定区| 灯塔市| 龙海市| 朝阳市| 岳普湖县| 武安市| 红河县| 虞城县| 庆城县| 含山县| 井研县| 镇宁| 安岳县| 运城市| 武定县| 庐江县| 镇雄县|