一種基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法_2

文檔序號(hào)：9911051閱讀：來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>一種基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法

于所述優(yōu)先級(jí)建立六條啟發(fā)式規(guī)則，所述啟發(fā)式規(guī)則分別如以下公式表示：
[0035] LrW1 = {Pt> Pa-S}；
[0036] Lrw2 = {Pt> Pa-S > P-S}；
[0037] Lrw3 = {Pt> P a-S > P-S > P^S}；
[0038] Lrw4 = {Pt> P a-S > P-S > Pj-S > Pa-U}；
[0039] Lrw5 = {Pt> P a-S > P-S > Pj-S > Pa-U > P-U}；
[0040] L，w6 = {Pt> P a-S > P^S > PfS > Pa-U > Ρ「υ > P「U};
[0041] 其中，Lw' 1至Lw' 6分別表示六條啟發(fā)式規(guī)則優(yōu)化后的語(yǔ)義實(shí)體，Pt表示頁(yè)面標(biāo)題，Pa表示首段落，S表示所述頁(yè)面集合的信息己存在于所述用戶生成數(shù)據(jù)中，Pi表示信息盒，P1表示剩余部分，U表示所述頁(yè)面集合的信息未存在于所述用戶生成數(shù)據(jù)中。
[0042] 本發(fā)明的有益效果在于：
[0043] 本發(fā)明對(duì)低質(zhì)量的語(yǔ)義實(shí)體進(jìn)行優(yōu)化擴(kuò)展。在現(xiàn)有信息抽取方法如單遍掃描， SVM等進(jìn)行分詞及聚類處理的基礎(chǔ)之上，再使用信息量大且數(shù)據(jù)格式規(guī)范的外部資源，如 Wikipedia，Amazon等進(jìn)行優(yōu)化擴(kuò)展，從而得到高質(zhì)量的語(yǔ)義實(shí)體。
【附圖說明】
[0044] 圖1是本發(fā)明基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法
[0045] 圖2是實(shí)施例中遵循apriori原則生成查詢語(yǔ)句的示意圖。
[0046] 圖3是實(shí)施例中使用本發(fā)明方法進(jìn)行語(yǔ)義標(biāo)注的示意圖。
[0047] 圖4是實(shí)施例中蘺色論壇precision·!值的示意圖。
[0048] 圖5是實(shí)施例中新浪微博precision·!值的示意圖。
[0049] 圖6是實(shí)施例中α = 〇. 3時(shí)蘺笆論壇F-MEASURE值的示意圖。
[0050] 圖7是實(shí)施例中α = 〇. 5蘺笆論壇F-MEASURE值的示意圖。
[0051 ] 圖8是實(shí)施例中α =〇· 7蘺笆論壇F-MEASURE值的示意圖。
[0052] 圖9是實(shí)施例中α = 〇. 3新浪微博F-MEASURE值的示意圖。
[0053] 圖10是實(shí)施例中α = 〇. 5新浪微博F-MEASURE值的示意圖。
[0054] 圖11是實(shí)施例中α = 〇. 7新浪微博F-MEASURE值的示意圖。
【具體實(shí)施方式】
[0055] 結(jié)合以下具體實(shí)施例和附圖，對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。實(shí)施本發(fā)明的過程、條件、實(shí)驗(yàn)方法等，除以下專門提及的內(nèi)容之外，均為本領(lǐng)域的普遍知識(shí)和公知常識(shí)，本發(fā) 明沒有特別限制內(nèi)容。
[0056] 參閱圖1，本發(fā)明基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法，包括如下步驟：
[0057] 預(yù)處理步驟：對(duì)用戶生成內(nèi)容進(jìn)行聚類，得到一個(gè)以上語(yǔ)義實(shí)體；
[0058] 配置步驟：根據(jù)語(yǔ)義實(shí)體中的關(guān)鍵詞生成查詢語(yǔ)句，根據(jù)查詢語(yǔ)句搜索外部資源，從中定位抓取與語(yǔ)義實(shí)體相關(guān)的頁(yè)面集合，并根據(jù)相關(guān)程度對(duì)頁(yè)面集合中的各頁(yè)面賦予權(quán) 重值；
[0059] 語(yǔ)義標(biāo)注步驟：對(duì)頁(yè)面賦予權(quán)值是用來衡量頁(yè)面與語(yǔ)義實(shí)體的相關(guān)程度，權(quán)值越高表明該頁(yè)面與所述語(yǔ)義實(shí)體的相關(guān)性越高。在頁(yè)面集合中抽取出與語(yǔ)義實(shí)體相關(guān)的信息，用于對(duì)語(yǔ)義實(shí)體進(jìn)行補(bǔ)充標(biāo)注，得到擴(kuò)展優(yōu)化的語(yǔ)義實(shí)體。
[0060] (1)預(yù)處理步驟，生成語(yǔ)義實(shí)體的關(guān)鍵詞
[0061] 目前來說，對(duì)于數(shù)據(jù)聚類算法的難點(diǎn)主要分為以下兩點(diǎn)：
[0062] 1)隨著數(shù)據(jù)量的急速增長(zhǎng)，已經(jīng)不能完全掌握數(shù)據(jù)的分布情況，也不能確定數(shù)據(jù) 可以具體的分為哪幾個(gè)類別。傳統(tǒng)的聚類算法已經(jīng)不能適應(yīng)這樣急速增長(zhǎng)的數(shù)據(jù)，傳統(tǒng)的聚類算法包括如k-meanse。
[0063] 2)高維數(shù)據(jù)的出現(xiàn)突破了各種度量標(biāo)準(zhǔn)的限制。特別對(duì)于長(zhǎng)文本的出現(xiàn)，高維的特點(diǎn)使的一般的相似度計(jì)算方法失效，很多低維能判斷的距離在高維空間中就會(huì)變成不可分，導(dǎo)致最終不能區(qū)分不同模式的數(shù)據(jù)樣本。
[0064] 在預(yù)處理步驟中，本發(fā)明使用單遍掃描聚類算法（SinglePassClustering)。單遍掃描聚類算法是一種非監(jiān)督式的算法，在網(wǎng)絡(luò)信息抽取中使用非常廣泛，該算法在于設(shè)定相似度閾值。對(duì)于η個(gè)數(shù)據(jù)樣本，其計(jì)算代價(jià)為0(η*η)。文本通常是一種非結(jié)構(gòu)化的數(shù)據(jù)，在現(xiàn)今的網(wǎng)絡(luò)時(shí)代擁有的大部分?jǐn)?shù)據(jù)都是以文本數(shù)據(jù)的形式存儲(chǔ)的。而理解文本數(shù)據(jù)并使用文本數(shù)據(jù)是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)技術(shù)難題。在數(shù)據(jù)挖掘領(lǐng)域，聚類算法是一類適用于具有特定模式且可度量相似性的數(shù)據(jù)。在文本聚類中，較通用的一種模式表達(dá)方法是特征向量，并通過計(jì)算特征向量之間的相似度把數(shù)據(jù)中的實(shí)體判定為某一個(gè)類別。聚類結(jié)果，也就是一個(gè)個(gè)的語(yǔ)義實(shí)體，每一個(gè)都是由一串關(guān)鍵詞 Lw表示。
[0065] (2)生成查詢語(yǔ)句及搜索外部資源
[0066] 有以上實(shí)施例可得語(yǔ)義實(shí)體由一個(gè)以上關(guān)鍵詞組成，將關(guān)鍵詞經(jīng)相互組合生成查詢語(yǔ)句并作為搜索外部資源包括如下步驟：
[0067] 步驟al :根據(jù)apriori算法從語(yǔ)義實(shí)體的單個(gè)關(guān)鍵詞分別作為查詢語(yǔ)句進(jìn)行搜索；
[0068] 步驟a2 :將搜索后得到返回結(jié)果的單個(gè)關(guān)鍵詞組成臨時(shí)集合，將臨時(shí)結(jié)合內(nèi)的關(guān) 鍵詞依次與另一個(gè)單個(gè)關(guān)鍵詞組合作為查詢語(yǔ)句進(jìn)行搜索；
[0069] 步驟a3 :重復(fù)上述步驟a2,直至臨時(shí)集合中所有關(guān)鍵詞的組合均沒有返回結(jié)果或者所有關(guān)鍵詞均已組合作為查詢語(yǔ)句進(jìn)行搜索。
[0070] 例如，步驟al中通過關(guān)鍵詞Lw中不同詞的組合來產(chǎn)生查詢語(yǔ)句。Lw = {wl, w2, w3, w4}，生成一組查詢語(yǔ)句{{wl}，{w2}，{w3}，{w4}，{wlw2}，{wlw3}，{wlw4}，{w2w3 }，{w2w4}，{w3w4}，{wlw2w3}，{wlw2w4}，{wlw3w4}，{w2w3w4}，{wlw2w3w4}}。此外，為了減少查詢次數(shù)，在查詢的時(shí)候，本發(fā)明從個(gè)數(shù)少的組合開始查詢，并且遵循apriori原則。參見圖2標(biāo)記部分，遵循apriori原則，如果{wl, w2}搜索沒有返回結(jié)果，那么{wl, w2, w3}，{wl ，w2，w4}，{wl，w2，w3，w4}將不會(huì)再進(jìn)行搜索。
[0071] 生成查詢語(yǔ)句并搜索外部資源的過程為：
[0072] 1)從Lw中的單個(gè)關(guān)鍵詞wi開始作為查詢語(yǔ)句進(jìn)行搜索。
[0073] 2)記錄有返回集的關(guān)鍵詞為臨時(shí)集合Ltemp {wi, wj, . . . wk}，每個(gè)查詢的關(guān)鍵詞的個(gè)數(shù)為N(單個(gè)關(guān)鍵詞時(shí)N = 1)，從臨時(shí)集合Ltemp中構(gòu)造 N+1個(gè)關(guān)鍵詞的查詢，進(jìn)行搜索。
[0074] 3)重復(fù)2)的步驟，直到Ltemp中的所有組合都沒有返回結(jié)果或者Lw中的所有關(guān) 鍵詞被作為一個(gè)查詢進(jìn)行搜索。
[0075] 根據(jù)上述生成規(guī)則，如果本發(fā)明只需要瀏覽搜索引擎返回結(jié)果的第一頁(yè)，也就是最相關(guān)的內(nèi)容，那么總共訪問的次數(shù)為[0,2n_l]次。實(shí)際上，在百科全書上搜索超過三個(gè) 不同領(lǐng)域的詞時(shí)，有返回結(jié)果的概率非常低。
[0076] (3)獲取外部數(shù)據(jù)源
[0077] 目前有許多外部資源都主動(dòng)提供了一些免費(fèi)的供使用的數(shù)據(jù)備份用于研究。然而，對(duì)于社交網(wǎng)絡(luò)上UGC的挖掘需要實(shí)時(shí)性，例如：時(shí)下熱門的政治事件等，使用那些備份數(shù)據(jù)通常會(huì)遺漏許多重要信息。為了得到更好的優(yōu)化結(jié)果，本發(fā)明選擇主動(dòng)地實(shí)時(shí)地去爬取外部資源上的數(shù)據(jù)，從而得到最新的版本。因此，如果使用爬蟲去爬取這些數(shù)據(jù)，一個(gè)重要的問題就是，如果在準(zhǔn)確度和效率上得到一個(gè)平衡。通常來說，爬取有兩種方法。第一種是離線模式，它會(huì)事先爬取盡可能多的頁(yè)面，存儲(chǔ)在本地，用作之后處理計(jì)算?，F(xiàn)在多數(shù)的網(wǎng)絡(luò)爬蟲就是如此。第二種是在線模式，它會(huì)在處理計(jì)算的時(shí)候，根據(jù)不同的需求再?gòu)耐獠?資源上進(jìn)行爬取。
[0078]
[0079] 以上為在線模式的偽代碼實(shí)現(xiàn)方式，在線模式算法描述如下：給定搜索詞 searchWord，相關(guān)頁(yè)面集合P，排好序的關(guān)鍵詞詞組Lw ;searchWord = searchWord+Lw中的每一個(gè)詞，將searchWord在外部資源進(jìn)行搜索，有相關(guān)頁(yè)面P'返回時(shí)，把該頁(yè)面爬取下來添加至頁(yè)面集合，即P = P U P' ；最后對(duì)P中的每一個(gè)頁(yè)面賦予權(quán)重值，并排序。
[0080] 本發(fā)明中選擇在線模式來進(jìn)行語(yǔ)義實(shí)體優(yōu)化，以更好地適應(yīng)于掌握UGC的熱門事件，其由時(shí)間觸發(fā)，具有較強(qiáng)的時(shí)效性，所以離線數(shù)據(jù)源的早期數(shù)據(jù)對(duì)于本發(fā)明分析的貢獻(xiàn) 并不大。此外，離線數(shù)據(jù)源需要不斷地更新本地?cái)?shù)據(jù)，同時(shí)需要維護(hù)大數(shù)據(jù)集索引，不便于頁(yè)面搜索，而外部資源在線能更簡(jiǎn)單地找到相關(guān)頁(yè)面。在線模式只需要根據(jù)Lw來決定爬取的頁(yè)面，雖然爬取頁(yè)面的時(shí)間加入到計(jì)算的時(shí)間中，但是，對(duì)于一個(gè)語(yǔ)義實(shí)體需要爬取頁(yè) 面的數(shù)量Nsp(SEi)是可控制的，Nsp(SEi) e [0,2NL-l]當(dāng)NL增加的時(shí)候，Nsp(SEi)并不會(huì)線性增加，而是會(huì)規(guī)約到一點(diǎn)。假設(shè)對(duì)于語(yǔ)義實(shí)體SEi所花費(fèi)的搜索外部資源時(shí)間為 Ts(SEi)，并且爬取一張頁(yè)面所需要的時(shí)間為μ，那么Ts(SEi) = y*Nsp(SEi)，詳細(xì)過程如下：
[0081] 本例中選擇兩個(gè)數(shù)據(jù)集進(jìn)行測(cè)試統(tǒng)計(jì)信息，參見表1 :
[0082] 表1蘺笆論壇與新浪微博數(shù)據(jù)集介紹
[0083]
[0084] 首先將事先標(biāo)注好的語(yǔ)義實(shí)體分為訓(xùn)練集和測(cè)試集，然后調(diào)整參數(shù)以得到最高的準(zhǔn)確率。此外，本例中給出了 precision·!衡量指標(biāo)，該衡量指標(biāo)表示在使用不同個(gè)數(shù)的關(guān) 鍵詞來構(gòu)造查詢語(yǔ)句時(shí)，能夠在外部資源中定位相關(guān)頁(yè)面的準(zhǔn)確性，N為在備選頁(yè)面池中，前N個(gè)頁(yè)面。
[0085] 為了得到較高的準(zhǔn)確率，本例對(duì)參數(shù)a，b，c進(jìn)行調(diào)整設(shè)置。最終，對(duì)于蘺笆論壇所選取三個(gè)特征值，設(shè)置為a w = 〇. 9, α 〇 = 〇. 1，a m = 〇. 3。對(duì)于新浪微博，所選取四個(gè)特征值，設(shè)定為 α w = 0· 2，α 〇

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法_2