= 〇· 1,a m = 0· 5,a s = 0· 6。
[0086] 圖4為蘺笆論壇獲取外部資源階段,分別使用1、2、3、5個關(guān)鍵詞組合構(gòu)成查詢語 句所得到的對應(yīng)precision·!值,圖中所示:
[0087] 1)最高的precisionON出現(xiàn)在使用三個關(guān)鍵詞進(jìn)行組合搜索且N為5的時候,為 85%。最高值出現(xiàn)在使用三個關(guān)鍵詞,而不是五個關(guān)鍵詞的時候,其原因恰巧是因?yàn)閭鹘y(tǒng)方 法抽取出來的語義實(shí)體并不能夠很好的表達(dá)該語義實(shí)體,如果Lw中的詞都是表示的同一 個語義實(shí)體,那么,搜索的關(guān)鍵詞越多,出來的結(jié)果應(yīng)該越準(zhǔn)確。然而,結(jié)果卻恰恰相反,因 此,這也正好證明了,通過外部資源進(jìn)行優(yōu)化的必要性。
[0088] 2)剩余的15%錯誤的部分中,其中一部分是因?yàn)橥獠抠Y源中提供的不同領(lǐng)域中 的同名語義實(shí)體區(qū)別頁面。
[0089] 圖5為新浪微博獲取外部資源階段所達(dá)到的precisionON值,不同于蘺笆論壇,圖 中最高值出現(xiàn)在使用五個關(guān)鍵詞進(jìn)行組合搜索的時候,分析原始數(shù)據(jù)后發(fā)現(xiàn),主要原因是 一些關(guān)鍵詞的排序被排在后面的位置上,因此,使用前三個詞進(jìn)行搜索,并不是核心詞匯, 與事件并不是完全相關(guān)。這也正是使用傳統(tǒng)方法抽取所產(chǎn)生的問題之一。
[0090] 表2蘺笆論壇在線搜索性能分析
[0091]
[0093] 以上偽代碼展示了在搜索過程中,需要爬取的頁面?zhèn)€數(shù)。在使用三個關(guān)鍵詞組合 搜索的情況下,對于一個語義實(shí)體而言,平均需要爬取6. 29個頁面;而當(dāng)關(guān)鍵詞的個數(shù)為 五個時,每個語義實(shí)體平均需要爬取20. 361-24. 536個頁面。同時,不同的數(shù)據(jù)集,使用相 同關(guān)鍵詞搜索,需要搜索的實(shí)際頁面?zhèn)€數(shù)相似。此外,該表顯示,當(dāng)搜索用的關(guān)鍵詞個數(shù)增 加時,每個語義實(shí)體需要爬取的頁面并沒有隨之線性增加,同時,實(shí)際值都比最大值小很 多。使用搜索的關(guān)鍵詞越多,在實(shí)際搜索頁面與最大值之間的差值越大。設(shè)置μ = 1.43 秒,也就是平均爬取一張頁面需要的時間。μ的值是由十張隨機(jī)頁面產(chǎn)生的算術(shù)平均值。表 中Ttotal表示過程中花費(fèi)的全部時間,包括搜索頁面,分析及獲取頁面。為了簡化Ttotal, 僅計算搜索頁面和獲取頁面所花費(fèi)的時間,當(dāng)N = 5的時候,precisionON達(dá)到最高值。因 此
[0094] Ttotal=
[0095] 表2與表3中同樣展現(xiàn)了 Ttotal值,對于蘺笆論壇,處理224個語義實(shí)體,使用三 個關(guān)鍵詞進(jìn)行組合查詢語句,搜索頁面和獲取頁面所花費(fèi)的總時間大約是30分鐘,平均每 個語義實(shí)體花費(fèi)8秒。對于新浪微博,處理41個語義實(shí)體,使用五個關(guān)鍵詞進(jìn)行組合查詢 語句,搜索頁面和獲取頁面所花費(fèi)的總時間大約是23分鐘,平均每個語義實(shí)體花費(fèi)36秒。
[0096] 表3新浪微博在線搜索性能分析
[0097]
[0098] (4)配置權(quán)重值
[0099] 在使用生成的查詢語句搜索之后,本發(fā)明可以建立一個備選頁面池。這個備選頁 面池中的頁面,都是或多或少與某語義實(shí)體相關(guān)的。本發(fā)明需要從這個頁面池中發(fā)現(xiàn)那個 與語義實(shí)體最相關(guān)的頁面。在發(fā)現(xiàn)過程中,不少特征參數(shù)可以作為配置該頁面權(quán)重值的依 據(jù)。
[0100] 1)關(guān)鍵詞在Lw中的位置權(quán)重參數(shù)δ W ;
[0101] 針對于不同的聚類結(jié)果,Lw中關(guān)鍵詞的權(quán)重值計算方式不同,根據(jù)其排序位置。 (也可以由預(yù)處理過程中,產(chǎn)生Lw中關(guān)鍵詞所使用的權(quán)重值進(jìn)行計算。)Lw中權(quán)重值高的 關(guān)鍵詞搜索得到的頁面相關(guān)度更高。本發(fā)明使用組合關(guān)鍵詞的方式進(jìn)行搜索,因此,若使用 多個關(guān)鍵詞進(jìn)行搜索,則得到的頁面性由這幾個關(guān)鍵詞的權(quán)重值累加所得。假設(shè)查詢語句 由{wl, w2,. . . wi}構(gòu)成,其中1 < i < N(Lw),對于關(guān)鍵詞wi的權(quán)重值表示為S(wi)。
[0102] S(wi) = Len(Lw)_Pos(wi),其中 Len(Lw)表示 Lw 的長度,Pos(wi)表示關(guān)鍵詞 wi 在Lw中的位子。那么,對于該搜索語句的權(quán)重值為:w = Σ S(wx)
[0103] 2)頁面在備選頁面池中出現(xiàn)次數(shù)的次數(shù)權(quán)重參數(shù)δ 〇 ;
[0104] 使用不同語義實(shí)體中的關(guān)鍵詞組合查詢進(jìn)行搜索,得到由若干張頁面構(gòu)成的備選 頁面池,在該備選頁面池中,對于一張頁面而言,如果該頁面出現(xiàn)的次數(shù)越多,就說明其與 該語義實(shí)體越相關(guān)。因?yàn)樵谔幚磉^程中,每個語義實(shí)體的相關(guān)頁面都是獨(dú)立的,因此,每個 語義實(shí)體的備選頁面池也是獨(dú)立的,在選取該特征值時,不需要考慮備選頁面池的整體容 量,僅需要考慮某特定頁面在備選頁面池中出現(xiàn)的次數(shù)即可。
[0105] 3)是否該頁面的名稱匹配上Lw中關(guān)鍵詞的匹配權(quán)重參數(shù)δ m ;
[0106] 在外部資源中,一張頁面用來描述一個語義實(shí)體,如Wikipedia,Amazon,Youtube, 如果頁面名稱正好與該語義實(shí)體匹配,參閱圖3,如:"里約大冒險",{ "里約大冒險","電 影","鸚鵡",......},那么,該頁面的相關(guān)度應(yīng)該更高。如果它們相似,如:"里約大冒險", { "里約","大冒險","電影",......},那么相關(guān)度略高。根據(jù)這個規(guī)則,本發(fā)明給出以下 S m值的計算方式,對應(yīng)不同的語義實(shí)體及其相關(guān)頁面:
[0107]
[0108] 式中,Name (pagex)表示語義實(shí)體。
[0109] 4)是否包含一些特殊詞的特殊權(quán)重參數(shù)δ s ;
[0110] 如果是對事件進(jìn)行語義實(shí)體抽取,那么,一些特殊詞例如:"***事件","***事 故",包含這些特殊詞的頁面權(quán)重值將增高。因此,對于不同領(lǐng)域的語義實(shí)體抽取,特殊詞的 定義有所不同。
[0111]
[0112] 每個參數(shù),δ¥,δ〇, δπι,5S都被各自正規(guī)化映射到區(qū)間[α¥,1],[α0,1], [a m, 1],[ a s, 1]上,其中1表示最優(yōu)值,a w,a 〇, a m,a s是被用戶定義的。備選頁面池 中每個頁面的權(quán)重值被計算為:
[0113]
[0114] 其中,a w*,a 〇*,a m*,a s*是正規(guī)化后的權(quán)重值,Scoreitem_page表示頁面配置的 權(quán)重值。進(jìn)一步地,除了上述所提到的四個權(quán)重參數(shù)之外,還包括其他特征值,例如:頁面在 外部資源搜索返回集合中的排序位置;頁面在外部資源中創(chuàng)建或最后編輯的時間;外部資 源的可信度等。在實(shí)際操作中發(fā)現(xiàn),S W,δ 〇, δ m,δ s這幾個權(quán)重值對于找到最相關(guān)頁面 的貢獻(xiàn)度最大,值得注意的是,對于不同的UGC數(shù)據(jù)及外部資源組合,特征值的選取會有所 差異。
[0115] (5)優(yōu)化語義標(biāo)注
[0116] 在優(yōu)化階段,外部資源中相關(guān)頁面上的信息被抽取以用來標(biāo)識語義實(shí)體。在抽取 關(guān)鍵詞的時候,根據(jù)上文觀察所得,那些對于語義實(shí)體的描述重要的詞都會有不同的表現(xiàn) 形式,例如:超鏈接,黑體,這些詞都能比較清晰的表達(dá)該語義實(shí)體。比較于使用傳統(tǒng)的分詞 技術(shù),選擇直接抽取這些關(guān)鍵詞的原因是:
[0117] 1)傳統(tǒng)的分詞技術(shù)需要對文本進(jìn)行遍歷,例如正向最大匹配,反向最大匹配等,考 慮越多的因素,對于分詞的結(jié)果越精確,然而,算法的復(fù)雜度卻會提高。尤其是運(yùn)用到中文 文本集上,分詞的結(jié)果不會完全正確。對于優(yōu)化工作來說,引入錯誤是需要避免的。
[0118] 2)如表1所示,對于某個語義實(shí)體,那些標(biāo)注為有超鏈接或者黑體的,都是一些重 要的名詞,如時間,地點(diǎn),人物,這些對于清晰的表達(dá)一個語義實(shí)體都是必要的。由于它們的 特殊表現(xiàn)形式,它們可以被直接抽取,不需要進(jìn)行分詞。
[0119] 因此,在處理中文情況更加復(fù)雜的用戶產(chǎn)生數(shù)據(jù)的時候,選擇不在外部資源抽取 的時候使用分詞對語句進(jìn)行分割。同時,為了防止抽取出的關(guān)鍵詞有冗余,在抽取的時候, 會做一步檢查。當(dāng)兩個詞有重復(fù),并且長度差小于2時,僅挑選長的那個詞,例如:"里約大 冒險"與"大冒險",會選擇"里約大冒險"。這將直接減少Lw的長度,并且盡可能少的丟失 表達(dá)語義實(shí)體所需要的相關(guān)信息。以維基百科為例,通過上文中得出的觀察,對于一張頁面 來說,它是被很好地組織的,同時,它的組成由表4外部資源頁面屬性所示。通常來說,對于 頁面中出現(xiàn)的關(guān)鍵詞,它的排序應(yīng)遵循以下規(guī)則:
[0120] 規(guī)則 1 :
[0121] Pt> P a-s > P-s > Pj-S > Pa-u > P-u > Pj-U
[0122] 其中"S"表示該關(guān)鍵詞在UGC數(shù)據(jù)中出現(xiàn)過,而"U"表示在UGC數(shù)據(jù)中未出現(xiàn)過。 因?yàn)長w'的長度應(yīng)該受到控制,因此,外部資源中的關(guān)鍵詞被抽取出來的時候需要參照規(guī) 則1進(jìn)行排序。選擇表達(dá)一個語義實(shí)體時,最重要的關(guān)鍵詞進(jìn)行優(yōu)化并且加入到Lw'中。根 據(jù)頁面構(gòu)成的特性,當(dāng)抽取關(guān)鍵詞的時候,本發(fā)明提供了以下六條啟發(fā)式規(guī)則。
[0123] 啟發(fā)式規(guī)則1 :
[0124] Lrwl={Pt>Pa-S}
[0125] Lw' 1包含的關(guān)鍵詞為同時在外部資源及UGC中出現(xiàn)的關(guān)鍵詞,并且它出現(xiàn)在頁面 的標(biāo)題和摘要中。在六條啟發(fā)式規(guī)則中,這條規(guī)則最為嚴(yán)格,因此,它抽取出來的詞是最少 的。
[0126] 啟發(fā)式規(guī)則2:
[0127] Lrw2 = {Pt> Pa-S > P-S}
[0128] Lw' 2在Lw' 1的基礎(chǔ)上加入了 infobox中所包含的,同時出現(xiàn)在外部資源及UGC中 的關(guān)鍵詞。Infobox中,包含了較多語義實(shí)體相關(guān)的重要關(guān)鍵詞,但是,根據(jù)觀察,這些關(guān)鍵 詞通常有一部分與摘要中的關(guān)鍵詞有所重復(fù)。
[0129] 啟發(fā)式規(guī)則3:
[0130] Lrw3 = {Pt> P a-S > P-S > Pj-S}
[0131] Lw'3包含所有同時出現(xiàn)在外部資源及UGC中的關(guān)鍵詞。可見,lw'l,lw'2, lw'3并 不包含UGC中未出現(xiàn)的重要關(guān)鍵詞。也就是說,前三種啟發(fā)式規(guī)則只能對語義實(shí)體中的關(guān) 鍵詞進(jìn)行更正,不能進(jìn)行補(bǔ)充。
[0132] 啟發(fā)式規(guī)則4:
[0133] Lrw4 = {Pt> P a-S > P-S > Pj-S > Pa-U}
[0134] 相比較于前三種啟發(fā)式規(guī)則產(chǎn)生的結(jié)果,Lw' 4包含一