欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法_4

文檔序號(hào):9911051閱讀:來(lái)源:國(guó)知局
些UGC中未出現(xiàn)的關(guān)鍵詞。 Lw'4在啟發(fā)式規(guī)則3的基礎(chǔ)上,加入了外部資源的摘要中出現(xiàn)的所有關(guān)鍵詞,這些關(guān)鍵詞 可能沒(méi)有在UGC中出現(xiàn),然而,對(duì)于表達(dá)該語(yǔ)義實(shí)體而言,卻是非常重要的。
[0135] 啟發(fā)式規(guī)則5:
[0136] Lrw5 = {Pt> P a-S > P-S > Pj-S > Pa-U > P-U}
[0137] 與啟發(fā)式規(guī)則4相比,啟發(fā)式規(guī)則5所得到的結(jié)果Lw' 5包含更多UGC中未出現(xiàn)的 詞,并且Lw' 5的長(zhǎng)度比之前的幾種啟發(fā)式規(guī)則的結(jié)果都長(zhǎng),它可能會(huì)包含許多重要度較低 的關(guān)鍵詞。
[0138] 啟發(fā)式規(guī)則6:
[0139] Lrw6 = {Pt> P a-S > P-S > Pj-S > Pa-U > P-U > Pj-U}
[0140] 啟發(fā)式規(guī)則6所得到的結(jié)果Lw' 6包含了所有外部資源中的關(guān)鍵詞,因此,它的長(zhǎng) 度是最大的,也是最冗余的一條。它是所有上述規(guī)則的超集。
[0141] 上述6條啟發(fā)式規(guī)則依次為前一條啟發(fā)式規(guī)則的超集,包含的關(guān)鍵詞個(gè)數(shù)也比前 一條所包含的關(guān)鍵詞個(gè)數(shù)多,同時(shí),這些關(guān)鍵詞的重要度平均值越來(lái)越低。通過(guò)這六條啟發(fā) 式規(guī)則,Lw'會(huì)得到不同的查全-查準(zhǔn)率。并且,針對(duì)不同的外部資源,哪條啟發(fā)式規(guī)則最 適合也是不同的。
[0142] 具體的算法如下所示,首先輸入?yún)?shù)為相關(guān)頁(yè)面P及控制語(yǔ)義實(shí)體關(guān)鍵詞個(gè)數(shù)的 閾值n,輸出為優(yōu)化后的語(yǔ)義實(shí)體Lw',從啟發(fā)式規(guī)則1開(kāi)始,依次將啟發(fā)式規(guī)則應(yīng)用到頁(yè)面 P上,抽取關(guān)鍵詞,進(jìn)行冗余處理,抽取信息量最大的關(guān)鍵詞加入到Lw'中。
[0143] 對(duì)于優(yōu)化階段的實(shí)驗(yàn),使用蘺笆論壇Lw中的前三個(gè)關(guān)鍵詞組合查詢語(yǔ)句進(jìn)行搜 索,并且得到五個(gè)備選頁(yè)面。新浪微博Lw中的前五個(gè)關(guān)鍵詞組合查詢語(yǔ)句進(jìn)行搜索,并且 得到三個(gè)備選頁(yè)面。構(gòu)成Lw'時(shí),將UGC與相關(guān)頁(yè)面結(jié)合進(jìn)行考慮。根據(jù)六條啟發(fā)式規(guī)則, 可以得到7條不同的語(yǔ)義實(shí)體表達(dá),包括優(yōu)化前的語(yǔ)義實(shí)體,其中Lw表示優(yōu)化前的,即使用 傳統(tǒng)方法所得到的結(jié)果,Lw' l,Lw' 2,. . .,Lw' 6分別表示六條啟發(fā)式規(guī)則對(duì)應(yīng)產(chǎn)生的語(yǔ)義實(shí) 體。
[0144] 圖6至圖11中,顯示了蘺笆論壇和新浪微博這兩個(gè)數(shù)據(jù)集在不同α設(shè)置下,對(duì)應(yīng) 的F-MEASURE值。從這六張圖中,可以得出以下結(jié)論:
[0145]
[0146] 1)使用外部資源優(yōu)化后的結(jié)果在三種α的設(shè)置下都比原始方法所得到的結(jié)果準(zhǔn) 確。并且,最優(yōu)值比原始語(yǔ)義實(shí)體高出近三至四倍。
[0147] 2)平均而言,在這六張圖中,Lw' 4, Lw' 5, Lw' 6的F-MEASURE值都比Lw高,因此利 用本發(fā)明進(jìn)行優(yōu)化是有必要的。因?yàn)閱l(fā)式規(guī)則4-6會(huì)包含UGC之外的關(guān)鍵詞,換言之,僅 僅根據(jù)目標(biāo)數(shù)據(jù)集進(jìn)行語(yǔ)義實(shí)體抽取對(duì)于低質(zhì)量的UGC是不適用的。
[0148] 3)蘺笆論壇最高值出現(xiàn)在Lw' 4,基本上是Lw的兩倍,因此,本文方法很大程度上 提高了語(yǔ)義實(shí)體表達(dá)的準(zhǔn)確性。新浪微博最高值出現(xiàn)在Lw' 5與Lw' 2之間。這說(shuō)明,不同 的數(shù)據(jù)集,使用外部資源進(jìn)行優(yōu)化時(shí)應(yīng)該選用不同的優(yōu)化策略。
[0149] 4)對(duì)于Lw'4, Lw'5的值相當(dāng)接近,也就是說(shuō),事實(shí)上,在維基百科這個(gè)外部資源 上,與語(yǔ)義實(shí)體最相關(guān)的關(guān)鍵詞出現(xiàn)在摘要中。因此,在之后的處理過(guò)程中,可以僅僅抽取 標(biāo)題和摘要中的關(guān)鍵詞,從而提高使用外部資源進(jìn)行優(yōu)化的效率。
[0150] 5)在蘺笆論壇中,Lw' 1和Lw' 2的值反而比Lw低,原因是,啟發(fā)式規(guī)則1和2僅僅 抽取UGC和外部資源的摘要以及信息盒中同時(shí)出現(xiàn)的關(guān)鍵詞。由于(l)UGC短而且不正規(guī); (2)摘要和信息盒短。因此,對(duì)于一個(gè)關(guān)鍵詞,同時(shí)出現(xiàn)在UGC和外部資源的摘要信息盒的 概率很低。在6條啟發(fā)式規(guī)則中,啟發(fā)式規(guī)則1和2是最嚴(yán)格的,它所產(chǎn)生的語(yǔ)義實(shí)體中的 關(guān)鍵詞個(gè)數(shù)也是最少的,所以,它的結(jié)果反而比優(yōu)化前的語(yǔ)義實(shí)體更差。相反,在新浪微博 中,并沒(méi)有出現(xiàn)這種情況,原因是新浪微博相比較于蘺笆論壇質(zhì)量更加低。
[0151] 6)在強(qiáng)調(diào)查準(zhǔn)性的情況下,啟發(fā)式規(guī)則3與優(yōu)化前的語(yǔ)義實(shí)體Lw所達(dá)到的 F-MEASURE值相近。也就是說(shuō),在表達(dá)UGC中的某個(gè)語(yǔ)義實(shí)體時(shí),外部資源基本上覆蓋了 UGC 中的關(guān)鍵詞,因此,使用外部資源進(jìn)行拓展,不會(huì)丟失UGC中的內(nèi)容。
[0152] 本發(fā)明的保護(hù)內(nèi)容不局限于以上實(shí)施例。在不背離發(fā)明構(gòu)思的精神和范圍下,本 領(lǐng)域技術(shù)人員能夠想到的變化和優(yōu)點(diǎn)都被包括在本發(fā)明中,并且以所附的權(quán)利要求書(shū)為保 護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法,其特征在于,包括如下 步驟: 預(yù)處理步驟:對(duì)用戶生成內(nèi)容進(jìn)行聚類(lèi),得到一個(gè)以上語(yǔ)義實(shí)體; 配置步驟:根據(jù)所述語(yǔ)義實(shí)體中的關(guān)鍵詞生成查詢語(yǔ)句,根據(jù)所述查詢語(yǔ)句搜索外部 資源,從中定位抓取與所述語(yǔ)義實(shí)體相關(guān)的頁(yè)面集合,并根據(jù)相關(guān)程度對(duì)所述頁(yè)面集合中 的各頁(yè)面賦予權(quán)重值,所述權(quán)重值用于頁(yè)面與語(yǔ)義實(shí)體的相關(guān)程度; 語(yǔ)義標(biāo)注步驟:按所述權(quán)重值在所述頁(yè)面集合中抽取出與所述語(yǔ)義實(shí)體相關(guān)的信息, 用于對(duì)所述語(yǔ)義實(shí)體進(jìn)行補(bǔ)充標(biāo)注,得到擴(kuò)展優(yōu)化的語(yǔ)義實(shí)體。2. 如權(quán)利要求1所述的基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法,其特征 在于,在所述預(yù)處理步驟中,利用神經(jīng)語(yǔ)言程序?qū)W和信息抽取技術(shù)對(duì)所述用戶生成內(nèi)容進(jìn) 行聚類(lèi)得到所述語(yǔ)義實(shí)體,所述信息抽取技術(shù)包括單邊掃描聚類(lèi)算法和支持向量機(jī)。3. 如權(quán)利要求1所述的基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法,其特征 在于,在所述配置步驟中,所述語(yǔ)義實(shí)體由一個(gè)以上關(guān)鍵詞組成,將關(guān)鍵詞經(jīng)相互組合生成 查詢語(yǔ)句搜索外部資源的過(guò)程包括如下步驟: 步驟al :根據(jù)apriori算法從所述語(yǔ)義實(shí)體的單個(gè)關(guān)鍵詞分別作為查詢語(yǔ)句進(jìn)行搜 索; 步驟a2 :將搜索后得到返回結(jié)果的單個(gè)關(guān)鍵詞組成臨時(shí)集合,將所述臨時(shí)結(jié)合內(nèi)的關(guān) 鍵詞依次與另一個(gè)單個(gè)關(guān)鍵詞組合作為查詢語(yǔ)句進(jìn)行搜索; 步驟a3:重復(fù)上述步驟a2,直至所述臨時(shí)集合中所有關(guān)鍵詞的組合均沒(méi)有返回結(jié)果或 者所有關(guān)鍵詞均已組合作為查詢語(yǔ)句進(jìn)行搜索。4. 如權(quán)利要求1所述的基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法,其特 征在于,所述外部資源為通過(guò)網(wǎng)絡(luò)共享的在線數(shù)據(jù)源或者是已存儲(chǔ)在本地設(shè)備的離線數(shù)據(jù) 源。5. 如權(quán)利要求4所述的基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法,其特征 在于,若所述外部資源為在線數(shù)據(jù)源,則搜索所述在線數(shù)據(jù)源抓取頁(yè)面集合的過(guò)程包括如 下步驟: 步驟bl :設(shè)置搜索詞、相關(guān)頁(yè)面集合和關(guān)鍵詞詞組,所述關(guān)鍵詞詞組已按降序或升序 排序; 步驟b2 :將所述搜索詞與所述關(guān)鍵詞詞組中的每一個(gè)詞組合,按照組合后的搜索詞 在外部資源進(jìn)行搜索,若搜索得到相關(guān)的頁(yè)面時(shí),爬取所述頁(yè)面添加至所述相關(guān)頁(yè)面集合 中; 步驟b3 :對(duì)所述相關(guān)頁(yè)面集合中的每一個(gè)頁(yè)面賦予權(quán)重值,并按所述權(quán)重值以降序或 升序排序。6. 如權(quán)利要求1所述的基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法,其特征 在于,所述頁(yè)面的權(quán)重值的配置過(guò)程包括如下步驟: 步驟cl :計(jì)算所述關(guān)鍵詞位于所述查詢語(yǔ)句中的位置權(quán)重參數(shù); 步驟c2 :計(jì)算所述頁(yè)面在所述頁(yè)面集合中被抓取次數(shù)的次數(shù)權(quán)重參數(shù); 步驟c3 :計(jì)算所述頁(yè)面中與關(guān)鍵詞匹配程度的匹配權(quán)重參數(shù); 步驟c4 :計(jì)算所述頁(yè)面中特殊詞組出現(xiàn)次數(shù)的特殊權(quán)重參數(shù); 步驟c5 :分別對(duì)所述位置權(quán)重參數(shù)、所述次數(shù)權(quán)重參數(shù)、所述匹配權(quán)重參數(shù)和所述特 殊權(quán)重參數(shù)進(jìn)行正規(guī)化處理后相乘得到所述頁(yè)面的權(quán)重值。7. 如權(quán)利要求1所述的基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法,其特征 在于,在所述預(yù)處理步驟中,從所述頁(yè)面集合中抽取相關(guān)的信息的優(yōu)先級(jí)如以下所示: Pt> P a-S > Pt-S > Pt-S > Pa-U > Pt-U > Pt-U ; 其中,Pt表示頁(yè)面標(biāo)題,Pa表示首段落,S表示所述頁(yè)面集合的信息已存在于所述用戶 生成數(shù)據(jù)中,Pi表示信息盒,P1表示剩余部分,U表示所述頁(yè)面集合的信息未存在于所述用 戶生成數(shù)據(jù)中。8. 如權(quán)利要求7所述的基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法,其特征 在于,在所述預(yù)處理步驟中,基于所述優(yōu)先級(jí)建立六條啟發(fā)式規(guī)則,所述啟發(fā)式規(guī)則分別如 以下公式表示: L,W1 = {Pt>Pa-S}; L,w2={Pt>Pa-S>Pt-S}; L,w3={Pt>Pa-S>Pt-S>P t-S}; L,w4 = {Pt> P a-S > Pt-S > Pt-S > Pa-U}; L,w5 = {Pt> P a-S > Pt-S > Pt-S > Pa-U > Pt-U}; L,w6 = {Pt> P a-S > Pt-S > Pt-S > Pa-U > Pt-U > Pt-U}; 其中,Lw' 1至Lw' 6分別表示六條啟發(fā)式規(guī)則優(yōu)化后的語(yǔ)義實(shí)體,Pt表示頁(yè)面標(biāo)題,Pa 表示首段落,S表示所述頁(yè)面集合的信息已存在于所述用戶生成數(shù)據(jù)中,Pi表示信息盒,P1 表示剩余部分,U表示所述頁(yè)面集合的信息未存在于所述用戶生成數(shù)據(jù)中。
【專利摘要】本發(fā)明公開(kāi)了一種基于外部數(shù)據(jù)源對(duì)用戶生成內(nèi)容進(jìn)行語(yǔ)義標(biāo)注的方法,包括如下步驟:預(yù)處理步驟:對(duì)用戶生成內(nèi)容進(jìn)行聚類(lèi),得到一個(gè)以上語(yǔ)義實(shí)體;配置步驟:根據(jù)語(yǔ)義實(shí)體中的關(guān)鍵詞生成查詢語(yǔ)句,根據(jù)查詢語(yǔ)句搜索外部資源,從中定位抓取與語(yǔ)義實(shí)體相關(guān)的頁(yè)面集合,并根據(jù)相關(guān)程度對(duì)頁(yè)面集合中的各頁(yè)面賦予權(quán)重值;語(yǔ)義標(biāo)注步驟:按所述權(quán)重值在頁(yè)面集合中抽取出與語(yǔ)義實(shí)體相關(guān)的信息,用于對(duì)語(yǔ)義實(shí)體進(jìn)行補(bǔ)充標(biāo)注,得到擴(kuò)展優(yōu)化的語(yǔ)義實(shí)體。本發(fā)明對(duì)低質(zhì)量的語(yǔ)義實(shí)體進(jìn)行優(yōu)化擴(kuò)展。本發(fā)明在現(xiàn)有信息抽取方法進(jìn)行分詞及聚類(lèi)處理的基礎(chǔ)之上,再使用信息量大且數(shù)據(jù)格式規(guī)范的外部資源進(jìn)行優(yōu)化擴(kuò)展,從而得到高質(zhì)量的語(yǔ)義實(shí)體。
【IPC分類(lèi)】G06F17/30, G06F17/27
【公開(kāi)號(hào)】CN105677684
【申請(qǐng)?zhí)枴?br>【發(fā)明人】錢(qián)衛(wèi)寧, 杜鵑, 章群燕, 周傲英
【申請(qǐng)人】華東師范大學(xué)
【公開(kāi)日】2016年6月15日
【申請(qǐng)日】2014年11月21日
當(dāng)前第4頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
新余市| 邵武市| 鲜城| 沾化县| 神池县| 丹凤县| 特克斯县| 溆浦县| 元谋县| 临沧市| 新兴县| 天柱县| 龙里县| 大宁县| 南岸区| 滦平县| 江永县| 贵南县| 前郭尔| 禹城市| 岳阳县| 乐业县| 寻乌县| 巴林左旗| 封开县| 寿光市| 永泰县| 陵川县| 周至县| 舞钢市| 龙江县| 娱乐| 桂东县| 阳山县| 呈贡县| 来凤县| 东源县| 普陀区| 沁水县| 讷河市| 建湖县|