于所述優(yōu)先級(jí)建立六條啟發(fā)式規(guī)則,所述啟發(fā)式規(guī)則分別如以下公式表 示:
[0035] LrW1 = {Pt> Pa-S};
[0036] Lrw2 = {Pt> Pa-S > P-S};
[0037] Lrw3 = {Pt> P a-S > P-S > P^S};
[0038] Lrw4 = {Pt> P a-S > P-S > Pj-S > Pa-U};
[0039] Lrw5 = {Pt> P a-S > P-S > Pj-S > Pa-U > P-U};
[0040] L,w6 = {Pt> P a-S > P^S > PfS > Pa-U > Ρ「υ > P「U};
[0041] 其中,Lw' 1至Lw' 6分別表示六條啟發(fā)式規(guī)則優(yōu)化后的語(yǔ)義實(shí)體,Pt表示頁(yè)面 標(biāo)題,Pa表示首段落,S表示所述頁(yè)面集合的信息己存在于所述用戶生成數(shù)據(jù)中,Pi表示信 息盒,P1表示剩余部分,U表示所述頁(yè)面集合的信息未存在于所述用戶生成數(shù)據(jù)中。
[0042] 本發(fā)明的有益效果在于:
[0043] 本發(fā)明對(duì)低質(zhì)量的語(yǔ)義實(shí)體進(jìn)行優(yōu)化擴(kuò)展。在現(xiàn)有信息抽取方法如單遍掃描, SVM等進(jìn)行分詞及聚類處理的基礎(chǔ)之上,再使用信息量大且數(shù)據(jù)格式規(guī)范的外部資源,如 Wikipedia,Amazon等進(jìn)行優(yōu)化擴(kuò)展,從而得到高質(zhì)量的語(yǔ)義實(shí)體。
【附圖說明】
[0044] 圖1是本發(fā)明基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法
[0045] 圖2是實(shí)施例中遵循apriori原則生成查詢語(yǔ)句的示意圖。
[0046] 圖3是實(shí)施例中使用本發(fā)明方法進(jìn)行語(yǔ)義標(biāo)注的示意圖。
[0047] 圖4是實(shí)施例中蘺色論壇precision·!值的示意圖。
[0048] 圖5是實(shí)施例中新浪微博precision·!值的示意圖。
[0049] 圖6是實(shí)施例中α = 〇. 3時(shí)蘺笆論壇F-MEASURE值的示意圖。
[0050] 圖7是實(shí)施例中α = 〇. 5蘺笆論壇F-MEASURE值的示意圖。
[0051 ] 圖8是實(shí)施例中α =〇· 7蘺笆論壇F-MEASURE值的示意圖。
[0052] 圖9是實(shí)施例中α = 〇. 3新浪微博F-MEASURE值的示意圖。
[0053] 圖10是實(shí)施例中α = 〇. 5新浪微博F-MEASURE值的示意圖。
[0054] 圖11是實(shí)施例中α = 〇. 7新浪微博F-MEASURE值的示意圖。
【具體實(shí)施方式】
[0055] 結(jié)合以下具體實(shí)施例和附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。實(shí)施本發(fā)明的過程、 條件、實(shí)驗(yàn)方法等,除以下專門提及的內(nèi)容之外,均為本領(lǐng)域的普遍知識(shí)和公知常識(shí),本發(fā) 明沒有特別限制內(nèi)容。
[0056] 參閱圖1,本發(fā)明基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法,包括如下 步驟:
[0057] 預(yù)處理步驟:對(duì)用戶生成內(nèi)容進(jìn)行聚類,得到一個(gè)以上語(yǔ)義實(shí)體;
[0058] 配置步驟:根據(jù)語(yǔ)義實(shí)體中的關(guān)鍵詞生成查詢語(yǔ)句,根據(jù)查詢語(yǔ)句搜索外部資源, 從中定位抓取與語(yǔ)義實(shí)體相關(guān)的頁(yè)面集合,并根據(jù)相關(guān)程度對(duì)頁(yè)面集合中的各頁(yè)面賦予權(quán) 重值;
[0059] 語(yǔ)義標(biāo)注步驟:對(duì)頁(yè)面賦予權(quán)值是用來衡量頁(yè)面與語(yǔ)義實(shí)體的相關(guān)程度,權(quán)值越 高表明該頁(yè)面與所述語(yǔ)義實(shí)體的相關(guān)性越高。在頁(yè)面集合中抽取出與語(yǔ)義實(shí)體相關(guān)的信 息,用于對(duì)語(yǔ)義實(shí)體進(jìn)行補(bǔ)充標(biāo)注,得到擴(kuò)展優(yōu)化的語(yǔ)義實(shí)體。
[0060] (1)預(yù)處理步驟,生成語(yǔ)義實(shí)體的關(guān)鍵詞
[0061] 目前來說,對(duì)于數(shù)據(jù)聚類算法的難點(diǎn)主要分為以下兩點(diǎn):
[0062] 1)隨著數(shù)據(jù)量的急速增長(zhǎng),已經(jīng)不能完全掌握數(shù)據(jù)的分布情況,也不能確定數(shù)據(jù) 可以具體的分為哪幾個(gè)類別。傳統(tǒng)的聚類算法已經(jīng)不能適應(yīng)這樣急速增長(zhǎng)的數(shù)據(jù),傳統(tǒng)的 聚類算法包括如k-meanse。
[0063] 2)高維數(shù)據(jù)的出現(xiàn)突破了各種度量標(biāo)準(zhǔn)的限制。特別對(duì)于長(zhǎng)文本的出現(xiàn),高維的 特點(diǎn)使的一般的相似度計(jì)算方法失效,很多低維能判斷的距離在高維空間中就會(huì)變成不可 分,導(dǎo)致最終不能區(qū)分不同模式的數(shù)據(jù)樣本。
[0064] 在預(yù)處理步驟中,本發(fā)明使用單遍掃描聚類算法(SinglePassClustering)。單遍 掃描聚類算法是一種非監(jiān)督式的算法,在網(wǎng)絡(luò)信息抽取中使用非常廣泛,該算法在于設(shè)定 相似度閾值。對(duì)于η個(gè)數(shù)據(jù)樣本,其計(jì)算代價(jià)為0(η*η)。文本通常是一種非結(jié)構(gòu)化的數(shù)據(jù), 在現(xiàn)今的網(wǎng)絡(luò)時(shí)代擁有的大部分?jǐn)?shù)據(jù)都是以文本數(shù)據(jù)的形式存儲(chǔ)的。而理解文本數(shù)據(jù)并使 用文本數(shù)據(jù)是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)技術(shù)難題。在數(shù)據(jù)挖掘領(lǐng)域,聚類算法是一類適用于具 有特定模式且可度量相似性的數(shù)據(jù)。在文本聚類中,較通用的一種模式表達(dá)方法是特征向 量,并通過計(jì)算特征向量之間的相似度把數(shù)據(jù)中的實(shí)體判定為某一個(gè)類別。聚類結(jié)果,也就 是一個(gè)個(gè)的語(yǔ)義實(shí)體,每一個(gè)都是由一串關(guān)鍵詞 Lw表示。
[0065] (2)生成查詢語(yǔ)句及搜索外部資源
[0066] 有以上實(shí)施例可得語(yǔ)義實(shí)體由一個(gè)以上關(guān)鍵詞組成,將關(guān)鍵詞經(jīng)相互組合生成查 詢語(yǔ)句并作為搜索外部資源包括如下步驟:
[0067] 步驟al :根據(jù)apriori算法從語(yǔ)義實(shí)體的單個(gè)關(guān)鍵詞分別作為查詢語(yǔ)句進(jìn)行搜 索;
[0068] 步驟a2 :將搜索后得到返回結(jié)果的單個(gè)關(guān)鍵詞組成臨時(shí)集合,將臨時(shí)結(jié)合內(nèi)的關(guān) 鍵詞依次與另一個(gè)單個(gè)關(guān)鍵詞組合作為查詢語(yǔ)句進(jìn)行搜索;
[0069] 步驟a3 :重復(fù)上述步驟a2,直至臨時(shí)集合中所有關(guān)鍵詞的組合均沒有返回結(jié)果或 者所有關(guān)鍵詞均已組合作為查詢語(yǔ)句進(jìn)行搜索。
[0070] 例如,步驟al中通過關(guān)鍵詞Lw中不同詞的組合來產(chǎn)生查詢語(yǔ)句。Lw = {wl, w2, w3, w4},生成一組查詢語(yǔ)句{{wl},{w2},{w3},{w4},{wlw2},{wlw3},{wlw4},{w2w3 },{w2w4},{w3w4},{wlw2w3},{wlw2w4},{wlw3w4},{w2w3w4},{wlw2w3w4}}。此外,為了減少 查詢次數(shù),在查詢的時(shí)候,本發(fā)明從個(gè)數(shù)少的組合開始查詢,并且遵循apriori原則。參見 圖2標(biāo)記部分,遵循apriori原則,如果{wl, w2}搜索沒有返回結(jié)果,那么{wl, w2, w3},{wl ,w2,w4},{wl,w2,w3,w4}將不會(huì)再進(jìn)行搜索。
[0071] 生成查詢語(yǔ)句并搜索外部資源的過程為:
[0072] 1)從Lw中的單個(gè)關(guān)鍵詞wi開始作為查詢語(yǔ)句進(jìn)行搜索。
[0073] 2)記錄有返回集的關(guān)鍵詞為臨時(shí)集合Ltemp {wi, wj, . . . wk},每個(gè)查詢的關(guān)鍵詞 的個(gè)數(shù)為N(單個(gè)關(guān)鍵詞時(shí)N = 1),從臨時(shí)集合Ltemp中構(gòu)造 N+1個(gè)關(guān)鍵詞的查詢,進(jìn)行搜 索。
[0074] 3)重復(fù)2)的步驟,直到Ltemp中的所有組合都沒有返回結(jié)果或者Lw中的所有關(guān) 鍵詞被作為一個(gè)查詢進(jìn)行搜索。
[0075] 根據(jù)上述生成規(guī)則,如果本發(fā)明只需要瀏覽搜索引擎返回結(jié)果的第一頁(yè),也就是 最相關(guān)的內(nèi)容,那么總共訪問的次數(shù)為[0,2n_l]次。實(shí)際上,在百科全書上搜索超過三個(gè) 不同領(lǐng)域的詞時(shí),有返回結(jié)果的概率非常低。
[0076] (3)獲取外部數(shù)據(jù)源
[0077] 目前有許多外部資源都主動(dòng)提供了一些免費(fèi)的供使用的數(shù)據(jù)備份用于研究。然 而,對(duì)于社交網(wǎng)絡(luò)上UGC的挖掘需要實(shí)時(shí)性,例如:時(shí)下熱門的政治事件等,使用那些備份 數(shù)據(jù)通常會(huì)遺漏許多重要信息。為了得到更好的優(yōu)化結(jié)果,本發(fā)明選擇主動(dòng)地實(shí)時(shí)地去爬 取外部資源上的數(shù)據(jù),從而得到最新的版本。因此,如果使用爬蟲去爬取這些數(shù)據(jù),一個(gè)重 要的問題就是,如果在準(zhǔn)確度和效率上得到一個(gè)平衡。通常來說,爬取有兩種方法。第一種 是離線模式,它會(huì)事先爬取盡可能多的頁(yè)面,存儲(chǔ)在本地,用作之后處理計(jì)算?,F(xiàn)在多數(shù)的 網(wǎng)絡(luò)爬蟲就是如此。第二種是在線模式,它會(huì)在處理計(jì)算的時(shí)候,根據(jù)不同的需求再?gòu)耐獠?資源上進(jìn)行爬取。
[0078]
[0079] 以上為在線模式的偽代碼實(shí)現(xiàn)方式,在線模式算法描述如下:給定搜索詞 searchWord,相關(guān)頁(yè)面集合P,排好序的關(guān)鍵詞詞組Lw ;searchWord = searchWord+Lw中的 每一個(gè)詞,將searchWord在外部資源進(jìn)行搜索,有相關(guān)頁(yè)面P'返回時(shí),把該頁(yè)面爬取下來 添加至頁(yè)面集合,即P = P U P' ;最后對(duì)P中的每一個(gè)頁(yè)面賦予權(quán)重值,并排序。
[0080] 本發(fā)明中選擇在線模式來進(jìn)行語(yǔ)義實(shí)體優(yōu)化,以更好地適應(yīng)于掌握UGC的熱門事 件,其由時(shí)間觸發(fā),具有較強(qiáng)的時(shí)效性,所以離線數(shù)據(jù)源的早期數(shù)據(jù)對(duì)于本發(fā)明分析的貢獻(xiàn) 并不大。此外,離線數(shù)據(jù)源需要不斷地更新本地?cái)?shù)據(jù),同時(shí)需要維護(hù)大數(shù)據(jù)集索引,不便于 頁(yè)面搜索,而外部資源在線能更簡(jiǎn)單地找到相關(guān)頁(yè)面。在線模式只需要根據(jù)Lw來決定爬 取的頁(yè)面,雖然爬取頁(yè)面的時(shí)間加入到計(jì)算的時(shí)間中,但是,對(duì)于一個(gè)語(yǔ)義實(shí)體需要爬取頁(yè) 面的數(shù)量Nsp(SEi)是可控制的,Nsp(SEi) e [0,2NL-l]當(dāng)NL增加的時(shí)候,Nsp(SEi)并 不會(huì)線性增加,而是會(huì)規(guī)約到一點(diǎn)。假設(shè)對(duì)于語(yǔ)義實(shí)體SEi所花費(fèi)的搜索外部資源時(shí)間為 Ts(SEi),并且爬取一張頁(yè)面所需要的時(shí)間為μ,那么Ts(SEi) = y*Nsp(SEi),詳細(xì)過程如 下:
[0081] 本例中選擇兩個(gè)數(shù)據(jù)集進(jìn)行測(cè)試統(tǒng)計(jì)信息,參見表1 :
[0082] 表1蘺笆論壇與新浪微博數(shù)據(jù)集介紹
[0083]
[0084] 首先將事先標(biāo)注好的語(yǔ)義實(shí)體分為訓(xùn)練集和測(cè)試集,然后調(diào)整參數(shù)以得到最高的 準(zhǔn)確率。此外,本例中給出了 precision·!衡量指標(biāo),該衡量指標(biāo)表示在使用不同個(gè)數(shù)的關(guān) 鍵詞來構(gòu)造查詢語(yǔ)句時(shí),能夠在外部資源中定位相關(guān)頁(yè)面的準(zhǔn)確性,N為在備選頁(yè)面池中, 前N個(gè)頁(yè)面。
[0085] 為了得到較高的準(zhǔn)確率,本例對(duì)參數(shù)a,b,c進(jìn)行調(diào)整設(shè)置。最終,對(duì)于蘺笆論壇所 選取三個(gè)特征值,設(shè)置為a w = 〇. 9, α 〇 = 〇. 1,a m = 〇. 3。對(duì)于新浪微博,所選取四個(gè)特 征值,設(shè)定為 α w = 0· 2,α 〇