一種基于url分析的營(yíng)銷關(guān)鍵詞提取的方法
【專利摘要】本發(fā)明揭示了一種基于url分析的營(yíng)銷關(guān)鍵詞提取的方法,包括:(1)預(yù)設(shè)一個(gè)數(shù)據(jù)庫(kù),所述數(shù)據(jù)庫(kù)內(nèi)包括多個(gè)結(jié)構(gòu)化文本以及建立多個(gè)網(wǎng)站統(tǒng)一資源定位符結(jié)構(gòu)與所述數(shù)據(jù)庫(kù)的中結(jié)構(gòu)化文本的對(duì)應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營(yíng)銷關(guān)鍵詞;(2)分析至少一個(gè)網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑;(3)根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫(kù)中索引,是否有與之匹配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及(4)獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。本發(fā)明可以快速的對(duì)大量的url進(jìn)行分析,并提取和保存相應(yīng)的營(yíng)銷關(guān)鍵詞。
【專利說(shuō)明】-種基于ur I分析的營(yíng)銷關(guān)鍵詞提取的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,特別涉及一種基于url分析的營(yíng)銷關(guān)鍵詞提取的方 法。
【背景技術(shù)】
[0002] url就是統(tǒng)一資源定位符(Uniform Resource Locator,縮寫為URL),是對(duì)可以從 互聯(lián)網(wǎng)上得到的資源的位置和訪問(wèn)方法的一種簡(jiǎn)潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。 互聯(lián)網(wǎng)上的每個(gè)文件都有一個(gè)唯一的URL,它包含的信息指出文件的位置以及瀏覽器應(yīng)該 怎么處理它 對(duì)大多數(shù)廣告營(yíng)銷活動(dòng)來(lái)說(shuō),如何從茫茫人海中識(shí)別出潛在的目標(biāo)用戶是一件很困難 的事情。為了精準(zhǔn)的定向到目標(biāo)用戶,需要捕獲用戶的歷史行為,并從歷史行為中提煉出用 戶的興趣愛(ài)好,尤其是跟營(yíng)銷活動(dòng)相關(guān)的關(guān)鍵詞信息。
[0003] 例如一個(gè)用戶可能對(duì)價(jià)格8萬(wàn)-10萬(wàn)元的汽車感興趣,也可能對(duì)位于上海浦東地 區(qū)的經(jīng)濟(jì)性酒店感興趣,這里"8-10萬(wàn)元的汽車"、"上海浦東的經(jīng)濟(jì)型酒店"就是2個(gè)不同 的營(yíng)銷關(guān)鍵詞。
[0004] 一旦本發(fā)明利用搜集到的用戶信息和行為記錄進(jìn)行分析,得到了用戶感興趣的營(yíng) 銷關(guān)鍵詞列表,在廣告營(yíng)銷時(shí),本發(fā)明就可以將廣告投放到只對(duì)特定關(guān)鍵詞感興趣的人群, 進(jìn)行精準(zhǔn)定向。與傳統(tǒng)的廣告投放方法相比,精準(zhǔn)定向能用更少的成本,接觸到更多的潛在 客戶,從而為廣告主創(chuàng)造價(jià)值。與此同時(shí),由于精準(zhǔn)定向只對(duì)用戶投放其可能感興趣的廣 告,也可以提升用戶體驗(yàn),減少無(wú)關(guān)廣告對(duì)用戶的干擾。
[0005] 分析營(yíng)銷關(guān)鍵詞,最合適的數(shù)據(jù)便是用戶上網(wǎng)時(shí)的訪問(wèn)記錄,尤其是,在各個(gè)垂直 行業(yè)站點(diǎn)的歷史行為,例如攜程、搜房、淘寶、汽車之家等。對(duì)互聯(lián)網(wǎng)廣告服務(wù)提供商來(lái)說(shuō), 可以在各個(gè)合作的網(wǎng)站上部署JS代碼來(lái)收集用戶的訪問(wèn)記錄。
[0006] 但是用戶訪問(wèn)的url形式多樣,并沒(méi)有一個(gè)統(tǒng)一的規(guī)范,給營(yíng)銷關(guān)鍵詞的提取帶 來(lái)很大的困難。
[0007] 例如,淘寶網(wǎng)上關(guān)于華為手機(jī)的導(dǎo)航頁(yè);或者汽車之家上關(guān)于奧迪A4L的導(dǎo)航頁(yè)。 這兩個(gè)url中并沒(méi)有明確的指出其包含的信息,為了提取營(yíng)銷關(guān)鍵詞信息,就需要對(duì)url做 深入的分析挖掘。
[0008] -種常見(jiàn)的做法是對(duì)url對(duì)應(yīng)的html文本進(jìn)行抓取,再?gòu)淖ト〉玫降膆tml中解 析得到需要的文本信息。這種做法需要爬蟲(chóng)對(duì)大量的url進(jìn)行定向抓取,考慮到很多url 中包含了用戶的驗(yàn)證信息,而且很多站點(diǎn)對(duì)爬蟲(chóng)的無(wú)限制抓取進(jìn)行了屏蔽,導(dǎo)致通過(guò)爬蟲(chóng) 的做法不僅效率很低,而且抓取失敗率非常高;另一方面,由于html頁(yè)面的復(fù)雜性,從抓取 得到的html文本中提取營(yíng)銷關(guān)鍵詞也是一個(gè)很困難的任務(wù)。
[0009] 對(duì)此,本發(fā)明提出一種方法和系統(tǒng),能夠自動(dòng)地從用戶的url訪問(wèn)的歷史記錄中, 提取用戶感興趣的營(yíng)銷關(guān)鍵詞,用于廣告投放系統(tǒng)的精準(zhǔn)定向。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明提供了一種基于url分析的營(yíng)銷關(guān)鍵詞提取的方法,克服了現(xiàn)有技術(shù)的困 難,通過(guò)這種方法,本發(fā)明可以快速的對(duì)大量的url進(jìn)行分析,并提取和保存相應(yīng)的營(yíng)銷關(guān) 鍵詞。
[0011] 本發(fā)明采用如下技術(shù)方案: 本發(fā)明提供了一種基于url分析的營(yíng)銷關(guān)鍵詞提取的方法,包括: (1) 預(yù)設(shè)一個(gè)數(shù)據(jù)庫(kù),所述數(shù)據(jù)庫(kù)內(nèi)包括多個(gè)結(jié)構(gòu)化文本以及建立多個(gè)網(wǎng)站統(tǒng)一資源 定位符結(jié)構(gòu)與所述數(shù)據(jù)庫(kù)的中結(jié)構(gòu)化文本的對(duì)應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營(yíng)銷關(guān)鍵 詞; (2) 分析至少一個(gè)網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱 和路徑; (3) 根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫(kù)中索引,是否有與之匹 配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及 (4) 獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。
[0012] 優(yōu)選地,所述步驟(2)中通過(guò)一個(gè)網(wǎng)站統(tǒng)一資源定位符解析器捕捉該網(wǎng)站統(tǒng)一資 源定位符的網(wǎng)站名稱和路徑。
[0013] 優(yōu)選地,所述步驟(2)中網(wǎng)站統(tǒng)一資源定位符解析器中預(yù)存網(wǎng)站統(tǒng)一資源定位符 結(jié)構(gòu)的樹(shù)狀索引。
[0014] 優(yōu)選地,所述步驟(2)中提取網(wǎng)站統(tǒng)一資源定位符的站點(diǎn)、子域名、統(tǒng)一資源定位 符路徑和統(tǒng)一資源定位符參數(shù)列表。
[0015] 優(yōu)選地,所述步驟(3 )包括: (31) 檢查網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱是否在索引中,若是,則執(zhí)行步驟(32);以及 (32) 檢查網(wǎng)站統(tǒng)一資源定位符的路徑是否在索引中,若是,則執(zhí)行步驟(4)。
[0016] 優(yōu)選地,所述步驟(2)中的網(wǎng)站統(tǒng)一資源定位符是用戶歷史訪問(wèn)記錄中的一個(gè)或 多個(gè)網(wǎng)站統(tǒng)一資源定位符。
[0017] 優(yōu)選地,所述數(shù)據(jù)庫(kù)為Key-Value數(shù)據(jù)庫(kù)。
[0018] 本發(fā)明的基于url分析的營(yíng)銷關(guān)鍵詞提取的方法針對(duì)廣告投放領(lǐng)域中的用戶精 準(zhǔn)定向,提出了一個(gè)基于url分析的、通用的、高效的營(yíng)銷關(guān)鍵詞提取的方法。本發(fā)明的方 法有以下幾個(gè)優(yōu)點(diǎn): (1) 本發(fā)明的方法側(cè)重于對(duì)url本身的結(jié)構(gòu)進(jìn)行自動(dòng)分析,不需要對(duì)url進(jìn)行大規(guī)模的 抓取,因而只占用較少的系統(tǒng)資源; (2) 由于url對(duì)應(yīng)的html頁(yè)面可能會(huì)過(guò)期或失效,導(dǎo)致對(duì)url的抓取會(huì)有一定的概率 失敗,因而與抓取html頁(yè)面并解析的方法相比,本發(fā)明方法具有更高的成功率; (3) 由于百度等大的搜索引擎會(huì)對(duì)經(jīng)常變動(dòng)的url進(jìn)行降權(quán),大多數(shù)網(wǎng)站的url結(jié)構(gòu)長(zhǎng) 期保持不變,因而本發(fā)明提出的基于url分析的方法具有很好的穩(wěn)定性; (4) 本發(fā)明在url分析的過(guò)程中建立了高效的知識(shí)庫(kù)索引和url解析器,使本發(fā)明方法 具有非常高的執(zhí)行效率。
[0019] 以下結(jié)合附圖及實(shí)施例進(jìn)一步說(shuō)明本發(fā)明。
[0020]
【專利附圖】
【附圖說(shuō)明】
[0021] 圖1為本發(fā)明的基于url分析的營(yíng)銷關(guān)鍵詞提取的方法的流程圖。
[0022]
【具體實(shí)施方式】
[0023] 下面通過(guò)圖1來(lái)介紹本發(fā)明的一種具體實(shí)施例 如圖1所示,本發(fā)明的一種基于url分析的營(yíng)銷關(guān)鍵詞提取的方法,包括以下步驟: (1) 預(yù)設(shè)一個(gè)數(shù)據(jù)庫(kù),所述數(shù)據(jù)庫(kù)內(nèi)包括多個(gè)結(jié)構(gòu)化文本以及建立多個(gè)網(wǎng)站統(tǒng)一資源 定位符結(jié)構(gòu)與所述數(shù)據(jù)庫(kù)的中結(jié)構(gòu)化文本的對(duì)應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營(yíng)銷關(guān)鍵 詞; (2) 分析至少一個(gè)網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱 和路徑; (3) 根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫(kù)中索引,是否有與之匹 配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及 (4) 獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。
[0024] 所述步驟(2)中通過(guò)一個(gè)網(wǎng)站統(tǒng)一資源定位符解析器捕捉該網(wǎng)站統(tǒng)一資源定位符 的網(wǎng)站名稱和路徑。
[0025] 所述步驟(2)中網(wǎng)站統(tǒng)一資源定位符解析器中預(yù)存網(wǎng)站統(tǒng)一資源定位符結(jié)構(gòu)的樹(shù) 狀索引。
[0026] 所述步驟(2)中提取網(wǎng)站統(tǒng)一資源定位符的站點(diǎn)、子域名、統(tǒng)一資源定位符路徑和 統(tǒng)一資源定位符參數(shù)列表。
[0027] 所述步驟(3)包括: (31) 檢查網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱是否在索引中,若是,則執(zhí)行步驟(32);以及 (32) 檢查網(wǎng)站統(tǒng)一資源定位符的路徑是否在索引中,若是,則執(zhí)行步驟(4)。
[0028] 所述步驟(2)中的網(wǎng)站統(tǒng)一資源定位符是用戶歷史訪問(wèn)記錄中的一個(gè)或多個(gè)網(wǎng)站 統(tǒng)一資源定位符。
[0029] 所述數(shù)據(jù)庫(kù)為Key-Value數(shù)據(jù)庫(kù)。
[0030] 本發(fā)明需要構(gòu)建一個(gè)行業(yè)相關(guān)的知識(shí)庫(kù),這個(gè)知識(shí)庫(kù)中包含了各個(gè)行業(yè)的結(jié)構(gòu)化 的文本信息。例如,"奧迪A4L"是汽車行業(yè)的一款車型。
[0031] 本發(fā)明需要得到各個(gè)網(wǎng)站的url結(jié)構(gòu)與知識(shí)庫(kù)中的條目的對(duì)應(yīng)關(guān)系。例如,對(duì) www. autohome. com. cn這個(gè)站點(diǎn),以/692/開(kāi)頭的url目錄便是對(duì)應(yīng)的汽車行業(yè)的"奧迪 A4L"相關(guān)的信息。
[0032] 本發(fā)明需要構(gòu)建一個(gè)高效的知識(shí)庫(kù)索引。知識(shí)庫(kù)的規(guī)模可能非常龐大,包含超過(guò) 百萬(wàn)個(gè)具體的條目。在關(guān)鍵詞的提取過(guò)程中,需要一個(gè)高效的索引在減少查找時(shí)間。
[0033] 本發(fā)明需要構(gòu)建一個(gè)url解析器,對(duì)每個(gè)不同的url,解析器能夠快速地捕獲到 url中與知識(shí)庫(kù)相對(duì)應(yīng)的結(jié)構(gòu)。
[0034] 有了以上4個(gè)模塊,本發(fā)明便可以對(duì)每個(gè)url快速的定位和提取營(yíng)銷關(guān)鍵詞。先 獲得url中與知識(shí)庫(kù)對(duì)應(yīng)的結(jié)構(gòu),然后通過(guò)知識(shí)庫(kù)索引獲得相應(yīng)的結(jié)構(gòu)化文本。
[0035] 本發(fā)明的實(shí)施方式如下: 1、構(gòu)建結(jié)構(gòu)化的行業(yè)知識(shí)庫(kù) 我們只希望提取對(duì)廣告投放有幫助的營(yíng)銷關(guān)鍵詞,因而需要營(yíng)銷關(guān)鍵詞可以對(duì)應(yīng)到不 同的行業(yè),并且有明確的語(yǔ)義信息。因而我們需要構(gòu)建一個(gè)行業(yè)相關(guān)的知識(shí)庫(kù),來(lái)表示各個(gè) 行業(yè)的結(jié)構(gòu)化的文本信息。
[0036] 例如,旅游行業(yè)知識(shí)庫(kù)的結(jié)構(gòu)和示例,如下表所示。對(duì)每一個(gè)行業(yè),會(huì)對(duì)應(yīng)多個(gè)不 同的產(chǎn)品,每個(gè)產(chǎn)品會(huì)對(duì)應(yīng)多個(gè)不同的字段。
【權(quán)利要求】
1. 一種基于統(tǒng)一資源定位符分析的營(yíng)銷關(guān)鍵詞提取的方法,其特征在于,包括: (1) 預(yù)設(shè)一個(gè)數(shù)據(jù)庫(kù),所述數(shù)據(jù)庫(kù)內(nèi)包括多個(gè)結(jié)構(gòu)化文本以及建立多個(gè)網(wǎng)站統(tǒng)一資源 定位符結(jié)構(gòu)與所述數(shù)據(jù)庫(kù)的中結(jié)構(gòu)化文本的對(duì)應(yīng)關(guān)系,所述結(jié)構(gòu)化文本至少包括營(yíng)銷關(guān)鍵 詞; (2) 分析至少一個(gè)網(wǎng)站統(tǒng)一資源定位符,至少捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱 和路徑; (3) 根據(jù)所述網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱和路徑在數(shù)據(jù)庫(kù)中索引,是否有與之匹 配的結(jié)構(gòu)化文本,若是,則執(zhí)行步驟(4);以及 (4) 獲得與該網(wǎng)站統(tǒng)一資源定位符匹配的結(jié)構(gòu)化文本。
2. 如權(quán)利要求1所述的基于統(tǒng)一資源定位符分析的營(yíng)銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中通過(guò)一個(gè)網(wǎng)站統(tǒng)一資源定位符解析器捕捉該網(wǎng)站統(tǒng)一資源定位符的網(wǎng) 站名稱和路徑。
3. 如權(quán)利要求2所述的基于統(tǒng)一資源定位符分析的營(yíng)銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中網(wǎng)站統(tǒng)一資源定位符解析器中預(yù)存網(wǎng)站統(tǒng)一資源定位符結(jié)構(gòu)的樹(shù)狀索 引。
4. 如權(quán)利要求3所述的基于統(tǒng)一資源定位符分析的營(yíng)銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中提取網(wǎng)站統(tǒng)一資源定位符的站點(diǎn)、子域名、統(tǒng)一資源定位符路徑和統(tǒng)一 資源定位符參數(shù)列表。
5. 如權(quán)利要求4所述的基于統(tǒng)一資源定位符分析的營(yíng)銷關(guān)鍵詞提取的方法,其特征在 于,所述步驟(3)包括: (31) 檢查網(wǎng)站統(tǒng)一資源定位符的網(wǎng)站名稱是否在索引中,若是,則執(zhí)行步驟(32);以及 (32) 檢查網(wǎng)站統(tǒng)一資源定位符的路徑是否在索引中,若是,則執(zhí)行步驟(4)。
6. 如權(quán)利要求1所述的基于統(tǒng)一資源定位符分析的營(yíng)銷關(guān)鍵詞提取的方法,其特征在 于:所述步驟(2)中的網(wǎng)站統(tǒng)一資源定位符是用戶歷史訪問(wèn)記錄中的一個(gè)或多個(gè)網(wǎng)站統(tǒng)一 資源定位符。
7. 如權(quán)利要求1所述的基于統(tǒng)一資源定位符分析的營(yíng)銷關(guān)鍵詞提取的方法,其特征在 于:所述數(shù)據(jù)庫(kù)為Key-Value數(shù)據(jù)庫(kù)。
【文檔編號(hào)】G06F17/30GK104063453SQ201410285743
【公開(kāi)日】2014年9月24日 申請(qǐng)日期:2014年6月24日 優(yōu)先權(quán)日:2014年6月24日
【發(fā)明者】湯奇峰, 劉作濤 申請(qǐng)人:晶贊廣告(上海)有限公司