一種基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法_3

文檔序號：9911051閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>一種基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法

= 〇· 1，a m = 0· 5，a s = 0· 6。
[0086] 圖4為蘺笆論壇獲取外部資源階段，分別使用1、2、3、5個關(guān)鍵詞組合構(gòu)成查詢語句所得到的對應(yīng)precision·!值，圖中所示：
[0087] 1)最高的precisionON出現(xiàn)在使用三個關(guān)鍵詞進(jìn)行組合搜索且N為5的時候，為 85%。最高值出現(xiàn)在使用三個關(guān)鍵詞，而不是五個關(guān)鍵詞的時候，其原因恰巧是因?yàn)閭鹘y(tǒng)方法抽取出來的語義實(shí)體并不能夠很好的表達(dá)該語義實(shí)體，如果Lw中的詞都是表示的同一個語義實(shí)體，那么，搜索的關(guān)鍵詞越多，出來的結(jié)果應(yīng)該越準(zhǔn)確。然而，結(jié)果卻恰恰相反，因此，這也正好證明了，通過外部資源進(jìn)行優(yōu)化的必要性。
[0088] 2)剩余的15%錯誤的部分中，其中一部分是因?yàn)橥獠抠Y源中提供的不同領(lǐng)域中的同名語義實(shí)體區(qū)別頁面。
[0089] 圖5為新浪微博獲取外部資源階段所達(dá)到的precisionON值，不同于蘺笆論壇，圖中最高值出現(xiàn)在使用五個關(guān)鍵詞進(jìn)行組合搜索的時候，分析原始數(shù)據(jù)后發(fā)現(xiàn)，主要原因是一些關(guān)鍵詞的排序被排在后面的位置上，因此，使用前三個詞進(jìn)行搜索，并不是核心詞匯，與事件并不是完全相關(guān)。這也正是使用傳統(tǒng)方法抽取所產(chǎn)生的問題之一。
[0090] 表2蘺笆論壇在線搜索性能分析
[0091]
[0093] 以上偽代碼展示了在搜索過程中，需要爬取的頁面?zhèn)€數(shù)。在使用三個關(guān)鍵詞組合搜索的情況下，對于一個語義實(shí)體而言，平均需要爬取6. 29個頁面；而當(dāng)關(guān)鍵詞的個數(shù)為五個時，每個語義實(shí)體平均需要爬取20. 361-24. 536個頁面。同時，不同的數(shù)據(jù)集，使用相同關(guān)鍵詞搜索，需要搜索的實(shí)際頁面?zhèn)€數(shù)相似。此外，該表顯示，當(dāng)搜索用的關(guān)鍵詞個數(shù)增加時，每個語義實(shí)體需要爬取的頁面并沒有隨之線性增加，同時，實(shí)際值都比最大值小很多。使用搜索的關(guān)鍵詞越多，在實(shí)際搜索頁面與最大值之間的差值越大。設(shè)置μ = 1.43 秒，也就是平均爬取一張頁面需要的時間。μ的值是由十張隨機(jī)頁面產(chǎn)生的算術(shù)平均值。表中Ttotal表示過程中花費(fèi)的全部時間，包括搜索頁面，分析及獲取頁面。為了簡化Ttotal，僅計算搜索頁面和獲取頁面所花費(fèi)的時間，當(dāng)N = 5的時候，precisionON達(dá)到最高值。因此
[0094] Ttotal=
[0095] 表2與表3中同樣展現(xiàn)了 Ttotal值，對于蘺笆論壇，處理224個語義實(shí)體，使用三個關(guān)鍵詞進(jìn)行組合查詢語句，搜索頁面和獲取頁面所花費(fèi)的總時間大約是30分鐘，平均每個語義實(shí)體花費(fèi)8秒。對于新浪微博，處理41個語義實(shí)體，使用五個關(guān)鍵詞進(jìn)行組合查詢語句，搜索頁面和獲取頁面所花費(fèi)的總時間大約是23分鐘，平均每個語義實(shí)體花費(fèi)36秒。
[0096] 表3新浪微博在線搜索性能分析
[0097]
[0098] (4)配置權(quán)重值
[0099] 在使用生成的查詢語句搜索之后，本發(fā)明可以建立一個備選頁面池。這個備選頁面池中的頁面，都是或多或少與某語義實(shí)體相關(guān)的。本發(fā)明需要從這個頁面池中發(fā)現(xiàn)那個與語義實(shí)體最相關(guān)的頁面。在發(fā)現(xiàn)過程中，不少特征參數(shù)可以作為配置該頁面權(quán)重值的依據(jù)。
[0100] 1)關(guān)鍵詞在Lw中的位置權(quán)重參數(shù)δ W ;
[0101] 針對于不同的聚類結(jié)果，Lw中關(guān)鍵詞的權(quán)重值計算方式不同，根據(jù)其排序位置。 (也可以由預(yù)處理過程中，產(chǎn)生Lw中關(guān)鍵詞所使用的權(quán)重值進(jìn)行計算。）Lw中權(quán)重值高的關(guān)鍵詞搜索得到的頁面相關(guān)度更高。本發(fā)明使用組合關(guān)鍵詞的方式進(jìn)行搜索，因此，若使用多個關(guān)鍵詞進(jìn)行搜索，則得到的頁面性由這幾個關(guān)鍵詞的權(quán)重值累加所得。假設(shè)查詢語句由{wl, w2,. . . wi}構(gòu)成，其中1 < i < N(Lw)，對于關(guān)鍵詞wi的權(quán)重值表示為S(wi)。
[0102] S(wi) = Len(Lw)_Pos(wi)，其中 Len(Lw)表示 Lw 的長度，Pos(wi)表示關(guān)鍵詞 wi 在Lw中的位子。那么，對于該搜索語句的權(quán)重值為：w = Σ S(wx)
[0103] 2)頁面在備選頁面池中出現(xiàn)次數(shù)的次數(shù)權(quán)重參數(shù)δ 〇 ;
[0104] 使用不同語義實(shí)體中的關(guān)鍵詞組合查詢進(jìn)行搜索，得到由若干張頁面構(gòu)成的備選頁面池，在該備選頁面池中，對于一張頁面而言，如果該頁面出現(xiàn)的次數(shù)越多，就說明其與該語義實(shí)體越相關(guān)。因?yàn)樵谔幚磉^程中，每個語義實(shí)體的相關(guān)頁面都是獨(dú)立的，因此，每個語義實(shí)體的備選頁面池也是獨(dú)立的，在選取該特征值時，不需要考慮備選頁面池的整體容量，僅需要考慮某特定頁面在備選頁面池中出現(xiàn)的次數(shù)即可。
[0105] 3)是否該頁面的名稱匹配上Lw中關(guān)鍵詞的匹配權(quán)重參數(shù)δ m ;
[0106] 在外部資源中，一張頁面用來描述一個語義實(shí)體，如Wikipedia，Amazon，Youtube，如果頁面名稱正好與該語義實(shí)體匹配，參閱圖3,如："里約大冒險"，{ "里約大冒險"，"電影"，"鸚鵡"，......}，那么，該頁面的相關(guān)度應(yīng)該更高。如果它們相似，如："里約大冒險"， { "里約"，"大冒險"，"電影"，......}，那么相關(guān)度略高。根據(jù)這個規(guī)則，本發(fā)明給出以下 S m值的計算方式，對應(yīng)不同的語義實(shí)體及其相關(guān)頁面：
[0107]
[0108] 式中，Name (pagex)表示語義實(shí)體。
[0109] 4)是否包含一些特殊詞的特殊權(quán)重參數(shù)δ s ;
[0110] 如果是對事件進(jìn)行語義實(shí)體抽取，那么，一些特殊詞例如："***事件"，"***事故"，包含這些特殊詞的頁面權(quán)重值將增高。因此，對于不同領(lǐng)域的語義實(shí)體抽取，特殊詞的定義有所不同。
[0111]
[0112] 每個參數(shù)，δ￥，δ〇, δπι，5S都被各自正規(guī)化映射到區(qū)間[α￥，1]，[α0，1]， [a m, 1]，[ a s, 1]上，其中1表示最優(yōu)值，a w，a 〇, a m，a s是被用戶定義的。備選頁面池中每個頁面的權(quán)重值被計算為：
[0113]
[0114] 其中，a w*，a 〇*，a m*，a s*是正規(guī)化后的權(quán)重值，Scoreitem_page表示頁面配置的權(quán)重值。進(jìn)一步地，除了上述所提到的四個權(quán)重參數(shù)之外，還包括其他特征值，例如：頁面在外部資源搜索返回集合中的排序位置；頁面在外部資源中創(chuàng)建或最后編輯的時間；外部資源的可信度等。在實(shí)際操作中發(fā)現(xiàn)，S W，δ 〇, δ m，δ s這幾個權(quán)重值對于找到最相關(guān)頁面的貢獻(xiàn)度最大，值得注意的是，對于不同的UGC數(shù)據(jù)及外部資源組合，特征值的選取會有所差異。
[0115] (5)優(yōu)化語義標(biāo)注
[0116] 在優(yōu)化階段，外部資源中相關(guān)頁面上的信息被抽取以用來標(biāo)識語義實(shí)體。在抽取關(guān)鍵詞的時候，根據(jù)上文觀察所得，那些對于語義實(shí)體的描述重要的詞都會有不同的表現(xiàn) 形式，例如：超鏈接，黑體，這些詞都能比較清晰的表達(dá)該語義實(shí)體。比較于使用傳統(tǒng)的分詞技術(shù)，選擇直接抽取這些關(guān)鍵詞的原因是：
[0117] 1)傳統(tǒng)的分詞技術(shù)需要對文本進(jìn)行遍歷，例如正向最大匹配，反向最大匹配等，考慮越多的因素，對于分詞的結(jié)果越精確，然而，算法的復(fù)雜度卻會提高。尤其是運(yùn)用到中文文本集上，分詞的結(jié)果不會完全正確。對于優(yōu)化工作來說，引入錯誤是需要避免的。
[0118] 2)如表1所示，對于某個語義實(shí)體，那些標(biāo)注為有超鏈接或者黑體的，都是一些重要的名詞，如時間，地點(diǎn)，人物，這些對于清晰的表達(dá)一個語義實(shí)體都是必要的。由于它們的特殊表現(xiàn)形式，它們可以被直接抽取，不需要進(jìn)行分詞。
[0119] 因此，在處理中文情況更加復(fù)雜的用戶產(chǎn)生數(shù)據(jù)的時候，選擇不在外部資源抽取的時候使用分詞對語句進(jìn)行分割。同時，為了防止抽取出的關(guān)鍵詞有冗余，在抽取的時候，會做一步檢查。當(dāng)兩個詞有重復(fù)，并且長度差小于2時，僅挑選長的那個詞，例如："里約大冒險"與"大冒險"，會選擇"里約大冒險"。這將直接減少Lw的長度，并且盡可能少的丟失表達(dá)語義實(shí)體所需要的相關(guān)信息。以維基百科為例，通過上文中得出的觀察，對于一張頁面來說，它是被很好地組織的，同時，它的組成由表4外部資源頁面屬性所示。通常來說，對于頁面中出現(xiàn)的關(guān)鍵詞，它的排序應(yīng)遵循以下規(guī)則：
[0120] 規(guī)則 1 :
[0121] Pt> P a-s > P-s > Pj-S > Pa-u > P-u > Pj-U
[0122] 其中"S"表示該關(guān)鍵詞在UGC數(shù)據(jù)中出現(xiàn)過，而"U"表示在UGC數(shù)據(jù)中未出現(xiàn)過。因?yàn)長w'的長度應(yīng)該受到控制，因此，外部資源中的關(guān)鍵詞被抽取出來的時候需要參照規(guī) 則1進(jìn)行排序。選擇表達(dá)一個語義實(shí)體時，最重要的關(guān)鍵詞進(jìn)行優(yōu)化并且加入到Lw'中。根據(jù)頁面構(gòu)成的特性，當(dāng)抽取關(guān)鍵詞的時候，本發(fā)明提供了以下六條啟發(fā)式規(guī)則。
[0123] 啟發(fā)式規(guī)則1 :
[0124] Lrwl={Pt>Pa-S}
[0125] Lw' 1包含的關(guān)鍵詞為同時在外部資源及UGC中出現(xiàn)的關(guān)鍵詞，并且它出現(xiàn)在頁面的標(biāo)題和摘要中。在六條啟發(fā)式規(guī)則中，這條規(guī)則最為嚴(yán)格，因此，它抽取出來的詞是最少的。
[0126] 啟發(fā)式規(guī)則2:
[0127] Lrw2 = {Pt> Pa-S > P-S}
[0128] Lw' 2在Lw' 1的基礎(chǔ)上加入了 infobox中所包含的，同時出現(xiàn)在外部資源及UGC中的關(guān)鍵詞。Infobox中，包含了較多語義實(shí)體相關(guān)的重要關(guān)鍵詞，但是，根據(jù)觀察，這些關(guān)鍵詞通常有一部分與摘要中的關(guān)鍵詞有所重復(fù)。
[0129] 啟發(fā)式規(guī)則3:
[0130] Lrw3 = {Pt> P a-S > P-S > Pj-S}
[0131] Lw'3包含所有同時出現(xiàn)在外部資源及UGC中的關(guān)鍵詞。可見，lw'l，lw'2, lw'3并不包含UGC中未出現(xiàn)的重要關(guān)鍵詞。也就是說，前三種啟發(fā)式規(guī)則只能對語義實(shí)體中的關(guān) 鍵詞進(jìn)行更正，不能進(jìn)行補(bǔ)充。
[0132] 啟發(fā)式規(guī)則4:
[0133] Lrw4 = {Pt> P a-S > P-S > Pj-S > Pa-U}
[0134] 相比較于前三種啟發(fā)式規(guī)則產(chǎn)生的結(jié)果，Lw' 4包含一

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法_3