本發(fā)明涉及互聯(lián)網(wǎng)網(wǎng)頁搜索領(lǐng)域,特別是獲取互聯(lián)網(wǎng)中特定內(nèi)容的網(wǎng)頁的主題爬行方法,尤其是一種顧及時(shí)間意圖的主題網(wǎng)絡(luò)信息采集方法。
背景技術(shù):
:主題爬行是獲取互聯(lián)網(wǎng)中特定領(lǐng)域網(wǎng)頁的一種關(guān)鍵技術(shù)方法,旨在盡可能多地下載與指定主題相關(guān)的網(wǎng)頁。它主要是根據(jù)用戶指定的主題,通過以主題相關(guān)度計(jì)算、URL優(yōu)先級(jí)分配等為主的爬行策略,不斷地從泛在網(wǎng)絡(luò)資源中獲取相關(guān)網(wǎng)頁的信息?;诰W(wǎng)頁內(nèi)容的URL優(yōu)先級(jí)分配方法是傳統(tǒng)主題爬行常用的方法。其主要是根據(jù)兩類相關(guān)度值計(jì)算得到的,具體為:(1)父網(wǎng)頁內(nèi)容主題相關(guān)度:其值越高,父網(wǎng)頁所包含的URL優(yōu)先級(jí)就越高;(2)錨文本主題相關(guān)度:其是指主題與錨文本、錨文本上下文和URL字符串等信息的相關(guān)度值,其中錨文本往往是對(duì)URL所指向頁面內(nèi)容的概括性描述。在基于網(wǎng)頁內(nèi)容的URL優(yōu)先級(jí)分配方法中,父網(wǎng)頁內(nèi)容主題相關(guān)度和錨文本主題相關(guān)度常采用余弦公式計(jì)算,例如:某URL的父網(wǎng)頁內(nèi)容主題相關(guān)度為sim(VDk,VTk),錨文本主題相關(guān)度為sim(VAk,VTk),則該URL的優(yōu)先級(jí)Priority(URL)可按如下公式計(jì)算:Priority(URL)=θ×sim(VDk,VTk)+γ×sim(VAk,VTk)(1-1)上式中,θ和γ分別表示父網(wǎng)頁內(nèi)容主題相關(guān)度和錨文本主題相關(guān)度的衰減因子,且滿足θ+γ=1。在利用主題爬行方法收集時(shí)間敏感的突發(fā)事件信息時(shí),時(shí)間意圖常常會(huì)作為主題的一種限定要素。根據(jù)ISO19100系列標(biāo)準(zhǔn)的規(guī)定(2002),時(shí)間對(duì)象可被劃分為“時(shí)刻”和“時(shí)段”,其中“時(shí)刻”表示時(shí)間空間中的一個(gè)點(diǎn);“時(shí)段”相當(dāng)于時(shí)間空間中的一條線,有起點(diǎn)、終點(diǎn)和長度等屬性。一般來說,網(wǎng)絡(luò)上關(guān)于某一突發(fā)事件的信息報(bào)道主要出現(xiàn)在事件發(fā)生之后,即報(bào)道的發(fā)布時(shí)間應(yīng)晚于突發(fā)事件的起始時(shí)間;另一方面,突發(fā)事件存在產(chǎn)生、發(fā)展、變化和消亡的演化過程,在不同的演化階段,人們關(guān)注該事件的熱度也不一樣,優(yōu)先下載關(guān)注度較高時(shí)段的信息,可滿足大多數(shù)人的需求,這在一定程度上反映了該事件的時(shí)間分布。也就是說,在利用主題進(jìn)行網(wǎng)絡(luò)信息采集時(shí),時(shí)間意圖(如起始時(shí)間和時(shí)間分布)在信息相關(guān)度判斷和信息發(fā)現(xiàn)優(yōu)先次序分配方面具有顯著的作用。盡管在利用主題爬行方法收集網(wǎng)絡(luò)信息時(shí)通過設(shè)定起始時(shí)間可單獨(dú)用于過濾部分不相關(guān)的信息,且其時(shí)間分布會(huì)影響信息發(fā)現(xiàn)的優(yōu)先次序,但是傳統(tǒng)網(wǎng)絡(luò)信息采集方法仍只是關(guān)注主題的普通語義,并沒有分析利用主題的時(shí)間意圖,存在時(shí)間分布平等化的問題,導(dǎo)致其查準(zhǔn)率低。具體表現(xiàn)為:(1)缺乏時(shí)間意圖的表示方法:傳統(tǒng)單向量主題表示方法只是表示主題的關(guān)鍵詞,沒有提供其時(shí)間意圖的表示方法;(2)弱化主題起始時(shí)間的作用:傳統(tǒng)主題相關(guān)度計(jì)算策略僅依靠網(wǎng)頁內(nèi)容來判斷其與主題的相關(guān)性,弱化了主題起始時(shí)間的作用;(3)忽略主題時(shí)間分布影響信息發(fā)現(xiàn)優(yōu)先次序的影響:傳統(tǒng)URL優(yōu)先級(jí)分配方法目前主要利用網(wǎng)頁內(nèi)容、錨文本及其上下文、URL字符串、鏈接關(guān)系甚至網(wǎng)頁的更新時(shí)間,但卻忽略了主題時(shí)間分布的影響。技術(shù)實(shí)現(xiàn)要素:本發(fā)明要解決的技術(shù)問題是提供一種顧及時(shí)間意圖的主題網(wǎng)絡(luò)信息采集方法,以減少或避免前面所提到的問題。為解決上述技術(shù)問題,本發(fā)明提供了一種顧及時(shí)間意圖的主題網(wǎng)絡(luò)信息采集方法,其用于針對(duì)主題事件進(jìn)行互聯(lián)網(wǎng)網(wǎng)頁信息收集排序,其包括如下步驟:步驟A,利用先驗(yàn)數(shù)據(jù)確定主題事件的起始時(shí)間,并量化其時(shí)間分布,得到一個(gè)時(shí)間分布的量化值;步驟B,采用不同的表示方法對(duì)主題中的時(shí)間意圖和普通關(guān)鍵詞分別進(jìn)行表示,并分別計(jì)算時(shí)間相關(guān)度和普通關(guān)鍵詞相關(guān)度;步驟C,根據(jù)步驟B所計(jì)算的時(shí)間相關(guān)度和普通關(guān)鍵詞相關(guān)度,構(gòu)建以步驟A獲得的所述時(shí)間分布的量化值為變量的遞增函數(shù),并將其融入到基于網(wǎng)頁內(nèi)容的URL優(yōu)先級(jí)分配方法,從而獲得基于時(shí)間分布量化值的URL優(yōu)先級(jí)分配計(jì)算公式,計(jì)算出最終的URL優(yōu)先級(jí),也就使得受關(guān)注時(shí)刻的URL獲得較高的優(yōu)先級(jí)。優(yōu)選地,步驟A中的所述先驗(yàn)數(shù)據(jù)為Google趨勢(shì)數(shù)據(jù)。優(yōu)選地,步驟B中,主題中的時(shí)間意圖的表達(dá)方式如下;主題和網(wǎng)頁內(nèi)容總體上的形式化表達(dá):給定主題T和網(wǎng)頁內(nèi)容D,其按如下公式表示。T=〈VTk,TST,TTD>D=<VDk,TPT>其中,VTk,TST和TTD分別表示主題普通向量,主題的起止時(shí)間及其時(shí)間分布;VDk和TPT分別表示網(wǎng)頁內(nèi)容的普通向量及其發(fā)布時(shí)間。主題的形式化表達(dá):其普通向量VTk,起止時(shí)間TST和時(shí)間分布TTD按照如下公式表達(dá)。VTk={(k1,wTk1),(k2,wTk2),...,(ks,wTks)}TST=[tSTs,tSTe]TTD={<[tTDs1,tTDe1],λ1>,...,<[tTDsr,tTDer],λr>}其中,ki表示主題中的第i個(gè)普通關(guān)鍵詞;wTki表示普通關(guān)鍵詞ki的權(quán)重;s表示主題中普通關(guān)鍵詞的個(gè)數(shù);tSTs表示主題的起始時(shí)間,tSTe表示主題的結(jié)束時(shí)間,<[tTDsi,tTDei],λi>表示時(shí)間分布中第i個(gè)<時(shí)段,搜索量指數(shù)>對(duì);tTDsi和tTDei分別為第i個(gè)時(shí)段的起始時(shí)間和結(jié)束時(shí)間,λi為第i個(gè)時(shí)段的搜索量指數(shù)值;網(wǎng)頁內(nèi)容的形式化表達(dá):其普通向量VDk和發(fā)布時(shí)間TPT按照如下公式表示。VDk={(k1,wDk1),(k2,wDk2),...,(ks,wDks)}TPT=tPT其中,ki表示網(wǎng)頁內(nèi)容中的第i個(gè)普通關(guān)鍵詞;wDki表示其普通關(guān)鍵詞ki的權(quán)重;tPT表示網(wǎng)頁的發(fā)布時(shí)間。優(yōu)選地,步驟B中,計(jì)算時(shí)間相關(guān)度和普通關(guān)鍵詞相關(guān)度的公式分別如下;計(jì)算主題和網(wǎng)頁內(nèi)容的時(shí)間相關(guān)度按如下公式所示:sim(TPT,TST)=0tPT<tSTs1tSTs≤tPT≥tSTe]]>其中,sim(TPT,TST)表示主題和網(wǎng)頁內(nèi)容的時(shí)間相關(guān)度值;計(jì)算主題和網(wǎng)頁內(nèi)容的普通主題相關(guān)度按如下公式所示:sim(VDk,VTk)=Σi=1swTki×wDkiΣi=1swTki2×Σi=1swDki2]]>式中,sim(VDk,VTk)表示主題T和網(wǎng)頁內(nèi)容D的普通主題相關(guān)度值。優(yōu)選地,步驟C中的所述URL優(yōu)先級(jí)分配計(jì)算公式為:其中,PriorityT(URL)表示最終的URL優(yōu)先級(jí),Priority(URL)是現(xiàn)有的基于網(wǎng)頁內(nèi)容的URL優(yōu)先級(jí)分配方法得到的優(yōu)先級(jí),Pr(t/T)是時(shí)間分布量化值的標(biāo)準(zhǔn)化值,也表示發(fā)布時(shí)間為t的網(wǎng)頁與主題T相關(guān)的概率;所述閾值在0到1區(qū)間取值。優(yōu)選地,所述閾值設(shè)置為0.4。優(yōu)選地,基于網(wǎng)頁內(nèi)容的URL優(yōu)先級(jí)分配方法得到的優(yōu)先級(jí)Priority(URL)的計(jì)算公式為:Priority(URL)=θ×sim(VDk,VTk)+γ×sim(VAk,VTk)其中,θ和γ分別表示父網(wǎng)頁內(nèi)容主題相關(guān)度和錨文本主題相關(guān)度的衰減因子,且滿足θ+γ=1。優(yōu)選地,所述衰減因子θ設(shè)置為0.4,γ設(shè)置為0.6。本發(fā)明所提供的一種顧及時(shí)間意圖的主題網(wǎng)絡(luò)信息采集方法,通過量化主題的起始時(shí)間和時(shí)間分布,基于時(shí)間的國際標(biāo)準(zhǔn)來形式化表達(dá)時(shí)間意圖,形成由時(shí)間意圖和普通關(guān)鍵詞(非時(shí)間詞語)獨(dú)立組成的多元化表示方法,接著分步計(jì)算時(shí)間相關(guān)度和普通關(guān)鍵詞相關(guān)度,最后將量化的時(shí)間分布作為某遞增函數(shù)的變量融入到URL優(yōu)先級(jí)分配方法中計(jì)算出URL優(yōu)先級(jí),大大提高了網(wǎng)頁發(fā)現(xiàn)數(shù)量和查準(zhǔn)率。具體實(shí)施方式為了對(duì)本發(fā)明的技術(shù)特征、目的和效果有更加清楚的理解,現(xiàn)說明本發(fā)明的具體實(shí)施方式。本發(fā)明提供了一種顧及時(shí)間意圖的主題網(wǎng)絡(luò)信息采集方法,其用于針對(duì)主題事件進(jìn)行互聯(lián)網(wǎng)網(wǎng)頁信息收集排序,其包括如下步驟:步驟A,利用先驗(yàn)數(shù)據(jù)確定主題事件的起始時(shí)間,并量化其時(shí)間分布,得到一個(gè)時(shí)間分布的量化值;主題的時(shí)間意圖是指主題中包含的時(shí)間特征。本發(fā)明將主題的時(shí)間意圖分為明確的時(shí)間意圖和潛在的時(shí)間意圖。其中,明確的時(shí)間意圖是指主題中已明確給出時(shí)間界限,如主題“2008年地震”明確指出需要發(fā)現(xiàn)2008年的地震信息;潛在的時(shí)間意圖是指主題中沒有明確限定時(shí)間特征,但是主題所描述事件本身卻暗含時(shí)間特征,如主題“汶川地震”暗含汶川地震的起始時(shí)間2008年5月21日。在主題網(wǎng)絡(luò)信息采集發(fā)現(xiàn)過程中,主題事件的起始時(shí)間和時(shí)間分布起著不同的作用,因此,本發(fā)明的時(shí)間意圖識(shí)別主要包括兩部分:主題事件起始時(shí)間的識(shí)別及其時(shí)間分布的識(shí)別。在現(xiàn)有的時(shí)間信息檢索中,查詢?cè)~時(shí)間意圖的識(shí)別主要是借助于某些先驗(yàn)數(shù)據(jù),如用戶搜索日志和經(jīng)過標(biāo)注的新聞?wù)Z料。在此基礎(chǔ)上,本發(fā)明也將借助先驗(yàn)數(shù)據(jù)進(jìn)行主題時(shí)間意圖的識(shí)別。在一個(gè)具體實(shí)施例中,本發(fā)明借助的先驗(yàn)數(shù)據(jù)是Google趨勢(shì)(GoogleTrends)數(shù)據(jù)。Google趨勢(shì)數(shù)據(jù)是指在過去一段時(shí)間內(nèi)某一查詢?cè)~的搜索量指數(shù)。Google趨勢(shì)數(shù)據(jù)并不是原始的搜索量,而是相對(duì)于總搜索量的一個(gè)標(biāo)準(zhǔn)化值。經(jīng)過標(biāo)準(zhǔn)化后,Google趨勢(shì)數(shù)據(jù)在0到100之間取值,值越大表明搜索量越大。目前,Google趨勢(shì)數(shù)據(jù)已經(jīng)廣泛應(yīng)用于疾病預(yù)測(cè)、保護(hù)生物學(xué)及網(wǎng)絡(luò)輿情等方面。究其原因,主要是Google趨勢(shì)數(shù)據(jù)反映了用戶對(duì)該查詢?cè)~所涉及內(nèi)容的關(guān)注程度,搜索量越大,表明關(guān)注的人越多,而關(guān)注的人越多,越表明發(fā)生了與該內(nèi)容相關(guān)的事件。本發(fā)明也正是基于Google趨勢(shì)數(shù)據(jù)的這一特點(diǎn)來識(shí)別地表覆蓋主題事件的時(shí)間意圖,主要分為兩步:(1)識(shí)別主題事件的起始時(shí)間:其主要是依據(jù)Google趨勢(shì)數(shù)據(jù)中搜索量指數(shù)從無到有的變化。因?yàn)楦鶕?jù)事件產(chǎn)生、發(fā)展、變化和消亡的演化過程,主題事件產(chǎn)生之前,關(guān)注此主題的用戶較少,其搜索量達(dá)不到Google趨勢(shì)數(shù)據(jù)統(tǒng)計(jì)的標(biāo)準(zhǔn)。在實(shí)際計(jì)算中,基于Google趨勢(shì)數(shù)據(jù)的主題起始時(shí)間識(shí)別方法只識(shí)別其起始時(shí)段搜索量指數(shù)為0的主題。究其原因,一方面,并不是每一個(gè)主題都有明確的起始時(shí)間(如主題“地震”并不特指某一具體事件,它沒有特定的起始時(shí)間),這部分主題的起始搜索量指數(shù)并不為0;另一方面則源自Google趨勢(shì)數(shù)據(jù)本身的限制,Google趨勢(shì)數(shù)據(jù)是從2004年1月開始統(tǒng)計(jì)的,發(fā)生在2004年以前并延續(xù)到2004年的主題的起始搜索量指數(shù)不為0。最終,識(shí)別的主題起始時(shí)間是Google趨勢(shì)數(shù)據(jù)中首次出現(xiàn)搜索量指數(shù)大于0的時(shí)刻。(2)量化主題事件的時(shí)間分布:其直接利用Google趨勢(shì)數(shù)據(jù)中搜索量指數(shù)的變化來表示,即采用搜索量指數(shù)來量化時(shí)間分布。因?yàn)镚oogle趨勢(shì)數(shù)據(jù)本身就反映了互聯(lián)網(wǎng)中不同時(shí)段內(nèi)關(guān)注該主題的熱度變化,即主題事件的時(shí)間分布。首先,按照起始時(shí)間識(shí)別方法可以識(shí)別出相應(yīng)的起始時(shí)間,基于Google趨勢(shì)數(shù)據(jù)的時(shí)間意圖識(shí)別,可以粗略的識(shí)別出主題事件的起始時(shí)間。例如主題“汶川地震”在2008年5月至2008年12月非常受用戶關(guān)注,并且在2009年5月紀(jì)念月又重新受到關(guān)注,與其演化過程是相符的。這說明直接利用Google趨勢(shì)數(shù)據(jù)量化主題事件的時(shí)間分布是合理的。此外,百度指數(shù)也可作為識(shí)別時(shí)間意圖的先驗(yàn)數(shù)據(jù)。其與Google趨勢(shì)數(shù)據(jù)類似,是以通用搜索引擎百度的查詢?nèi)罩緸榛A(chǔ),反映不同的主題查詢?cè)~在過去一段時(shí)間里的用戶關(guān)注度和媒體關(guān)注度?;诎俣戎笖?shù)的主題時(shí)間意圖識(shí)別方法與基于Google趨勢(shì)數(shù)據(jù)的主題時(shí)間意圖識(shí)別方法類似,在此不再贅述。步驟B,顧及時(shí)間意圖的主題表示和相關(guān)度計(jì)算:采用不同的表示方法對(duì)主題中的時(shí)間意圖和普通關(guān)鍵詞分別進(jìn)行表示,并分別計(jì)算時(shí)間相關(guān)度和普通關(guān)鍵詞相關(guān)度;在現(xiàn)有的主題網(wǎng)絡(luò)信息采集過程中,通常采用傳統(tǒng)單向量表示蘊(yùn)含時(shí)間意圖的主題,這樣就無法體現(xiàn)起始時(shí)間和時(shí)間分布。因此,在本發(fā)明所提供的方法中,采用不同的形式表示主題的普通關(guān)鍵詞、主題的起止時(shí)間、主題的時(shí)間分布特征以及網(wǎng)頁內(nèi)容的普通關(guān)鍵詞和其發(fā)布時(shí)間。具體為:(1)基于單向量方法表示普通關(guān)鍵詞:主題和網(wǎng)頁內(nèi)容的普通關(guān)鍵詞采用<關(guān)鍵詞,權(quán)重>對(duì)表示;其維數(shù)取決于主題中關(guān)鍵詞的個(gè)數(shù),在主題不變的情況下,其維數(shù)是固定不變的。(2)基于時(shí)間國際標(biāo)準(zhǔn)表示時(shí)間意圖:在國際標(biāo)準(zhǔn)中,時(shí)間分為時(shí)刻和時(shí)段。主題的起始時(shí)間和網(wǎng)頁內(nèi)容的發(fā)布時(shí)間通常是一個(gè)時(shí)間點(diǎn),采用時(shí)刻表示;為了便于計(jì)算,本發(fā)明利用時(shí)段來表示主題的起始時(shí)間和結(jié)束時(shí)間(即起止時(shí)間);其時(shí)間分布反映的是不同時(shí)間范圍內(nèi)關(guān)注該事件的熱度變化。因此,時(shí)間分布由<時(shí)段,搜索量指數(shù)>對(duì)表示,其中時(shí)段對(duì)應(yīng)時(shí)間范圍,搜索量指數(shù)對(duì)應(yīng)主題事件的熱度值。特別的,為節(jié)約存儲(chǔ)空間,不表示搜索量指數(shù)為0的時(shí)刻。它們的形式化表達(dá)如下所示:(1)主題和網(wǎng)頁內(nèi)容總體上的形式化表達(dá):給定主題T和網(wǎng)頁內(nèi)容D,其可以按如下公式表示。T=<VTk,TST,TTD>(1-2)D=<VDk,TPT>(1-3)式中,VTk,TST和TTD分別表示主題普通向量,主題的起止時(shí)間及其時(shí)間分布;VDk和TPT分別表示網(wǎng)頁內(nèi)容的普通向量及其發(fā)布時(shí)間。(2)主題的形式化表達(dá):其普通向量VTk,起止時(shí)間TST和時(shí)間分布TTD可按照如下公式表達(dá)。VTk={(k1,wTk1),(k2,wTk2),...,(ks,wTks)}(1-4)TST=[tSTs,tSTe](1-5)TTD={<[tTDs1,tTDe1],λ1>,...,<[tTDsr,tTDer],λr>}(1-6)式中,ki表示主題中的第i個(gè)普通關(guān)鍵詞;wTki表示普通關(guān)鍵詞ki的權(quán)重;s表示主題中普通關(guān)鍵詞的個(gè)數(shù);tSTs表示主題的起始時(shí)間,由用戶指定或根據(jù)步驟A中的方法識(shí)別;tSTe表示主題的結(jié)束時(shí)間,由用戶指定或默認(rèn)為無窮大;<[tTDsi,tTDei],λi>表示時(shí)間分布中第i個(gè)<時(shí)段,搜索量指數(shù)>對(duì);tTDsi和tTDei分別為第i個(gè)時(shí)段的起始時(shí)間和結(jié)束時(shí)間,λi為第i個(gè)時(shí)段的搜索量指數(shù)值,這幾個(gè)參數(shù)可根據(jù)步驟A所采用的先驗(yàn)數(shù)據(jù)(例如Google趨勢(shì)數(shù)據(jù))獲得,并省略搜索量指數(shù)為0的時(shí)段;(3)網(wǎng)頁內(nèi)容的形式化表達(dá):其普通向量VDk和發(fā)布時(shí)間TPT按照如下公式表示。VDk={(k1,wDk1),(k2,wDk2),...,(ks,wDks)}(1-7)TPT=tPT(1-8)式中,ki表示網(wǎng)頁內(nèi)容中的第i個(gè)普通關(guān)鍵詞;wDki表示其普通關(guān)鍵詞ki的權(quán)重;tPT表示網(wǎng)頁的發(fā)布時(shí)間。主題和網(wǎng)頁內(nèi)容中普通關(guān)鍵詞的權(quán)重計(jì)算方法可利用現(xiàn)有技術(shù)獲得,例如可參考現(xiàn)有文獻(xiàn)“WuH,ChenJ,etal.AFocusedCrawlerforBorderlandsSituationInformationwithGeographicalPropertiesofPlaceNames[J].Sustainability,2014,6(10):6529-6552.”所提供的方法獲得。正如
背景技術(shù):
中所述,傳統(tǒng)的主題相關(guān)度計(jì)算方法僅利用網(wǎng)頁內(nèi)容來判斷其是否與主題相關(guān),弱化了主題起始時(shí)間可單獨(dú)過濾部分不相關(guān)信息的作用,容易導(dǎo)致某些信息的錯(cuò)判,影響主題爬行的查準(zhǔn)率。本發(fā)明以傳統(tǒng)向量空間模型為基礎(chǔ),從起始時(shí)間和普通關(guān)鍵詞兩個(gè)方面出發(fā),采用二步法判斷網(wǎng)頁內(nèi)容和主題之間的相關(guān)度,從而提供了一種新的顧及起始時(shí)間的主題相關(guān)度計(jì)算策略。其計(jì)算流程主要分為以下兩步:(1)計(jì)算主題和網(wǎng)頁內(nèi)容的時(shí)間相關(guān)度。因?yàn)橹黝}起始時(shí)間可單獨(dú)用于過濾部分不相關(guān)的信息,因此,只需比較網(wǎng)頁內(nèi)容的發(fā)布時(shí)間和主題起止時(shí)間即可初步判定其是否與主題相關(guān)。因此,時(shí)間相關(guān)度的計(jì)算可如下公式所示。sim(TPT,TST)=0tPT<tSTs1tSTs≤tPT≥tSTe---(1-9)]]>式中,sim(TPT,TST)表示主題和網(wǎng)頁內(nèi)容的時(shí)間相關(guān)度值;其它參數(shù)如前所述。時(shí)間相關(guān)度值為0,表示網(wǎng)頁內(nèi)容與主題不相關(guān),在爬行中應(yīng)丟棄該網(wǎng)頁;時(shí)間相關(guān)度值為1,表示網(wǎng)頁內(nèi)容與主題可能相關(guān),其最終的相關(guān)性需要通過網(wǎng)頁內(nèi)容來進(jìn)一步確定。因此時(shí)間相關(guān)度值為1時(shí)就繼續(xù)計(jì)算普通主題相關(guān)度。(2)計(jì)算主題和網(wǎng)頁內(nèi)容的普通主題相關(guān)度。主題和網(wǎng)頁內(nèi)容的普通關(guān)鍵詞仍然采用單向量表示,其相關(guān)度值可采用傳統(tǒng)的余弦公式計(jì)算,如下列公式所示。sim(VDk,VTk)=Σi=1swTki×wDkiΣi=1swTki2×Σi=1swDki2---(1-10)]]>式中,sim(VDk,VTk)表示主題T和網(wǎng)頁內(nèi)容D的普通主題相關(guān)度值;其它參數(shù)如前所述。如果sim(VDk,VTk)大于等于給定的閾值時(shí),則判定該網(wǎng)頁內(nèi)容與主題相關(guān);否則,判定網(wǎng)頁內(nèi)容與主題不相關(guān),并丟棄該網(wǎng)頁。在顧及起始時(shí)間的主題相關(guān)度計(jì)算策略中,優(yōu)先計(jì)算時(shí)間相關(guān)度的原因是時(shí)間相關(guān)度值的計(jì)算比較簡(jiǎn)單。步驟C,根據(jù)步驟B所計(jì)算的時(shí)間相關(guān)度和普通關(guān)鍵詞相關(guān)度,構(gòu)建以步驟A中的獲得的所述時(shí)間分布的量化值為變量的遞增函數(shù),并將其融入到基于網(wǎng)頁內(nèi)容的URL優(yōu)先級(jí)分配方法,從而獲得基于時(shí)間分布量化值的URL優(yōu)先級(jí)分配計(jì)算公式,使得受關(guān)注時(shí)刻的URL獲得較高的優(yōu)先級(jí),從而解決時(shí)間分布平等化問題。在主題網(wǎng)絡(luò)信息采集過程中,主題的時(shí)間分布會(huì)影響信息發(fā)現(xiàn)的優(yōu)先次序。具體表現(xiàn)為:如果某一URL所對(duì)應(yīng)網(wǎng)頁內(nèi)容的發(fā)布時(shí)間t存在較多的相關(guān)網(wǎng)頁,則在主題T確定的前提下,發(fā)布時(shí)間為t的網(wǎng)頁內(nèi)容與主題T相關(guān)的概率Pr(t/T)較大,即在該時(shí)刻的URL具有較高的優(yōu)先級(jí)。但是現(xiàn)有URL優(yōu)先級(jí)分配方法并沒有考慮這一特性。為了解決這一問題,本發(fā)明以時(shí)間分布的量化值(即前述Google趨勢(shì)數(shù)據(jù)中的搜索量指數(shù))為基礎(chǔ),提供了一種基于時(shí)間分布量化值的URL優(yōu)先級(jí)分配方法。其過程是:首先,構(gòu)建以量化值為自變量的遞增函數(shù):由于時(shí)間分布的量化值在某種程度上反映了某一時(shí)段內(nèi)發(fā)布其相關(guān)網(wǎng)頁的數(shù)量,且量化值與相關(guān)網(wǎng)頁數(shù)呈現(xiàn)正比的趨勢(shì),即量化值越大,表明發(fā)布的相關(guān)網(wǎng)頁越多,而遞增函數(shù)恰恰可以呈現(xiàn)這一特性。因此本發(fā)明選擇構(gòu)建以時(shí)間分布量化值為指數(shù),以自然常數(shù)e為底的指數(shù)函數(shù)(自然指數(shù)函數(shù))。然后,融合遞增函數(shù)和基于網(wǎng)頁內(nèi)容的URL優(yōu)先級(jí)分配方法:融合前,本方法先基于網(wǎng)頁內(nèi)容的URL優(yōu)先級(jí)分配方法計(jì)算出其內(nèi)容優(yōu)先級(jí),其值大于等于給定的某一閾值時(shí),才進(jìn)行融合。這主要是為了確保時(shí)間分布只影響相關(guān)網(wǎng)頁對(duì)應(yīng)URL的發(fā)現(xiàn)次序,防止提高不相關(guān)網(wǎng)頁對(duì)應(yīng)URL的發(fā)現(xiàn)次序。在融合時(shí),本發(fā)明中主要是將遞增函數(shù)乘以其內(nèi)容優(yōu)先級(jí)。最終,基于時(shí)間分布量化值的URL優(yōu)先級(jí)分配的公式如下所示。式中,PriorityT(URL)表示最終的URL優(yōu)先級(jí);Priority(URL)是現(xiàn)有的基于網(wǎng)頁內(nèi)容的URL優(yōu)先級(jí)分配方法得到的優(yōu)先級(jí),其計(jì)算公式可為
背景技術(shù):
所提供的公式(1-1);Pr(t/T)是時(shí)間分布量化值的標(biāo)準(zhǔn)化值,也表示發(fā)布時(shí)間為t的網(wǎng)頁與主題T相關(guān)的概率;該公式中的閾值在0到1區(qū)間取值,當(dāng)其為1時(shí),表示URL優(yōu)先級(jí)一直按傳統(tǒng)方法計(jì)算;當(dāng)其為0時(shí),表示URL優(yōu)先級(jí)一直按照融入時(shí)間分布的方法計(jì)算。在一個(gè)優(yōu)選實(shí)施例中,基于時(shí)間分布量化值的URL優(yōu)先級(jí)分配方法的計(jì)算過程主要分為六步,具體如下:(1)量化主題的時(shí)間分布。主題的時(shí)間分布可以通過Google趨勢(shì)數(shù)據(jù)獲得,其量化值為Google趨勢(shì)數(shù)據(jù)中搜索量指數(shù)。(2)估算待下載URL所對(duì)應(yīng)網(wǎng)頁內(nèi)容的發(fā)布時(shí)間t。在信息發(fā)現(xiàn)過程中,待下載URL所對(duì)應(yīng)網(wǎng)頁內(nèi)容的發(fā)布時(shí)間是未知的。在本發(fā)明中,其計(jì)算方法主要有兩種:1)基于URL字符串信息的計(jì)算方法:當(dāng)待下載URL字符串本身包含時(shí)間信息時(shí)(如“http://news.sohu.com/20080905/n259388056.shtml”中的“20080905”為待下載URL所對(duì)應(yīng)網(wǎng)頁的發(fā)布時(shí)間),利用相應(yīng)的時(shí)間正則表達(dá)式抽取該時(shí)間,并將其作為待下載URL所對(duì)應(yīng)網(wǎng)頁內(nèi)容的發(fā)布時(shí)間;2)基于父網(wǎng)頁內(nèi)容時(shí)間的計(jì)算方法:當(dāng)待下載URL字符串本身不包含時(shí)間信息時(shí),將待下載URL父網(wǎng)頁內(nèi)容的發(fā)布時(shí)間作為其所對(duì)應(yīng)網(wǎng)頁內(nèi)容的發(fā)布時(shí)間。因?yàn)?,一方面待下載URL父網(wǎng)頁內(nèi)容的發(fā)布時(shí)間通常都稍微大于或等于待下載URL所對(duì)應(yīng)網(wǎng)頁內(nèi)容的發(fā)布時(shí)間,并且Google趨勢(shì)數(shù)據(jù)每一個(gè)時(shí)段的間隔較大。另一方面,這一假設(shè)并不影響待下載URL所對(duì)應(yīng)網(wǎng)頁與主題的相關(guān)度值,只是影響該URL的發(fā)現(xiàn)順序。(3)標(biāo)準(zhǔn)化時(shí)間分布的量化值Pr(t/T)。如上所述,只需取得時(shí)間t所對(duì)應(yīng)時(shí)段的搜索量指數(shù)并標(biāo)準(zhǔn)化即可,如以下公式所示。公式中的參數(shù)如前所述。(4)計(jì)算待下載URL的錨文本主題相關(guān)度值sim(VAk,VTk)。其中,錨文本向量(由錨文本及其上下文和URL字符串信息組成)如以下公式所示,VAk={(k1,wAk1),(k2,wAk2),...,(ks,wAks)}(1-13)錨文本主題相關(guān)度值如以下公式所示。sim(VAk,VTk)=Σi=1swTki×wAkiΣi=1swTki2×Σi=1swAki2---(1-14)]]>式中,VAk表示錨文本向量;wAki表示錨文本中普通關(guān)鍵詞ki的權(quán)重;其它參數(shù)同前所述。(5)計(jì)算待下載URL的內(nèi)容優(yōu)先級(jí)Priority(URL):其計(jì)算公式如
背景技術(shù):
所述。因?yàn)殄^文本是網(wǎng)頁對(duì)待下載URL的直接描述,相對(duì)于父網(wǎng)頁的內(nèi)容而言,錨文本更重要,所以在本發(fā)明中將公式中的衰減因子θ和γ分別設(shè)置為0.4和0.6。(6)計(jì)算待下載URL的最終優(yōu)先級(jí):其計(jì)算公式如(1-11)所示,經(jīng)實(shí)驗(yàn)分析,本發(fā)明將公式(1-11)中的閾值設(shè)置為0.4。在一個(gè)具體實(shí)施例中,本發(fā)明旨在盡可能多的從網(wǎng)絡(luò)中發(fā)現(xiàn)具有時(shí)間特征的網(wǎng)絡(luò)化信息,同時(shí)盡可能少的下載不相關(guān)的信息。其基本流程可包括如下五步:(1)準(zhǔn)備工作:用戶需要指定內(nèi)容主題和與主題相關(guān)的初始URL。然后,利用基于Google趨勢(shì)數(shù)據(jù)的時(shí)間意圖識(shí)別方法來確定主題的起始時(shí)間,并量化其時(shí)間分布。(2)請(qǐng)求和解析網(wǎng)頁:利用HTTP協(xié)議向互聯(lián)網(wǎng)請(qǐng)求初始URL或URL優(yōu)先級(jí)隊(duì)列中優(yōu)先級(jí)最高的URL,以便獲取該URL相對(duì)應(yīng)的網(wǎng)頁內(nèi)容。其次,根據(jù)網(wǎng)頁的文檔對(duì)象模型(DocumentObjectModel,DOM),解析出網(wǎng)頁相應(yīng)的標(biāo)題、正文、發(fā)布時(shí)間、待下載URL及其錨文本信息。(3)主題相關(guān)度計(jì)算:首先,根據(jù)步驟(1)和(2)中獲取的主題起始時(shí)間和網(wǎng)頁內(nèi)容發(fā)布時(shí)間,利用公式(1-2)到(1-6)表示主題的起止時(shí)間、普通關(guān)鍵詞、時(shí)間分布及網(wǎng)頁內(nèi)容的普通關(guān)鍵詞和發(fā)布時(shí)間;然后利用公式(1-9)計(jì)算它們的時(shí)間相關(guān)度,過濾掉與主題具有Before時(shí)序關(guān)系的網(wǎng)頁內(nèi)容;接著,利用公式(1-10)計(jì)算普通主題相關(guān)度值。當(dāng)相關(guān)度值大于等于某一閾值時(shí),則將該網(wǎng)頁保存到網(wǎng)頁資源庫;否則,判定該網(wǎng)頁與主題不相關(guān),并丟棄該網(wǎng)頁。(4)URL優(yōu)先級(jí)分配:根據(jù)公式(1-11)到(1-14)計(jì)算URL優(yōu)先級(jí),然后按照該優(yōu)先級(jí)值將其存入U(xiǎn)RL優(yōu)先級(jí)隊(duì)列中。(5)重復(fù)步驟(2)、(3)和(4)直到URL優(yōu)先級(jí)隊(duì)列為空或達(dá)到某一循環(huán)條件時(shí)為止。在硬件條件和網(wǎng)絡(luò)帶寬相同的情況下,本發(fā)明所提供的方法可比現(xiàn)有主題網(wǎng)絡(luò)信息采集方法提高10%-30%的網(wǎng)頁抓取數(shù)量,并能提高10%左右的查準(zhǔn)率。本發(fā)明所提供的一種顧及時(shí)間意圖的主題網(wǎng)絡(luò)信息采集方法,通過量化主題的起始時(shí)間和時(shí)間分布,基于時(shí)間的國際標(biāo)準(zhǔn)來形式化表達(dá)時(shí)間意圖,形成由時(shí)間意圖和普通關(guān)鍵詞(非時(shí)間詞語)獨(dú)立組成的多元化表示方法,接著分步計(jì)算時(shí)間相關(guān)度和普通關(guān)鍵詞相關(guān)度,最后將量化的時(shí)間分布作為某遞增函數(shù)的變量融入到URL優(yōu)先級(jí)分配方法中計(jì)算出URL優(yōu)先級(jí),大大提高了網(wǎng)頁發(fā)現(xiàn)數(shù)量和查準(zhǔn)率。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,雖然本發(fā)明是按照多個(gè)實(shí)施例的方式進(jìn)行描述的,但是并非每個(gè)實(shí)施例僅包含一個(gè)獨(dú)立的技術(shù)方案。說明書中如此敘述僅僅是為了清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說明書作為一個(gè)整體加以理解,并將各實(shí)施例中所涉及的技術(shù)方案看作是可以相互組合成不同實(shí)施例的方式來理解本發(fā)明的保護(hù)范圍。以上所述僅為本發(fā)明示意性的具體實(shí)施方式,并非用以限定本發(fā)明的范圍。任何本領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明的構(gòu)思和原則的前提下所作的等同變化、修改與結(jié)合,均應(yīng)屬于本發(fā)明保護(hù)的范圍。當(dāng)前第1頁1 2 3