一種基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語 義標(biāo)注的方法。
【背景技術(shù)】
[0002] 隨著Web2.0的發(fā)展,互聯(lián)網(wǎng)上越來越多的應(yīng)用包含用戶產(chǎn)生的數(shù)據(jù),例如微 博,在線論壇,視頻網(wǎng)站等;這些用戶產(chǎn)生的數(shù)據(jù)被稱之為用戶生成內(nèi)容UGC(即User -GeneratedContent),這些數(shù)據(jù)不同于傳統(tǒng)的Web數(shù)據(jù),它們是由用戶自由提交的,能夠直 接的體現(xiàn)用戶討論的事件話題?;赨GC進(jìn)行語義提取能夠更準(zhǔn)確的把握用戶正在討論的 話題以及對話題的態(tài)度,對輿情分析,熱門事件追蹤具有重大作用。
[0003] 在研究UGC的過程中,掌握理解UGC的語義是至關(guān)重要的一點(diǎn)。例如:UGC中的一 個(gè)內(nèi)容為"RI0"(里約大冒險(xiǎn))的詞,對于不知道這部電影的用戶而言,根本不知道這是什 么,此外,有的人會(huì)把它當(dāng)做是里約這個(gè)地方而不是里約大冒險(xiǎn)這部電影。可見,對UGC中 數(shù)據(jù)建立語義對于理解UGC而言是必要的。如果能夠?qū)?RI0"這個(gè)實(shí)體建立語義信息,如 { "里約大冒險(xiǎn)","電影","3D","2011年","動(dòng)畫","CarlosSaldanha"......},那么,無論 是計(jì)算機(jī)還是用戶,都能夠?qū)?RI0"這個(gè)實(shí)體有更加正確的理解。其實(shí),語義網(wǎng)絡(luò)這個(gè)概念 早就提出,它的主要思想是將網(wǎng)絡(luò)中的信息用一些元數(shù)據(jù)進(jìn)行描述,使用戶或者應(yīng)用程序 能夠更好的處理它。那么,仿效語義網(wǎng)絡(luò),針對UGC而言,如果能夠建立UGC的語義實(shí)體,對 于分析用戶行為,掌握社會(huì)動(dòng)態(tài)的研究將會(huì)得到顯著提高。
[0004] 因?yàn)閁GC是由用戶直接生成的,它體現(xiàn)了用戶的個(gè)性,具有重大意義;然而,也正 因?yàn)槿绱?,UGC的質(zhì)量不高。它沒有固定的格式,可能包含一些錯(cuò)誤信息,這給分析研究UGC 帶來了巨大挑戰(zhàn)??偨Y(jié)來說,UGC與互聯(lián)網(wǎng)上普通的新聞數(shù)據(jù)不同,其低質(zhì)量特性主要表現(xiàn) 在:1)對于一條信息而言,用戶產(chǎn)生的數(shù)據(jù)通常是間斷的,用幾句話甚至是一句話來表達(dá) 用戶的想法或事件。2)用戶在互聯(lián)網(wǎng)上輸入信息的時(shí)候,通常會(huì)使用一些非正規(guī)的表達(dá), 例如:縮寫、別名、符號(hào)、表情等。3)用戶產(chǎn)生的數(shù)據(jù)通常會(huì)包含很多人為錯(cuò)誤,例如拼寫錯(cuò) 誤。4)用戶產(chǎn)生的數(shù)據(jù)可能會(huì)夾雜多種語言。因此,與傳統(tǒng)的信息抽取數(shù)據(jù)集如新聞數(shù)據(jù) 不同,UGC質(zhì)量低,在應(yīng)用傳統(tǒng)的信息抽取方法例如SVM對其進(jìn)行實(shí)體抽取的過程中,會(huì)因 為數(shù)據(jù)質(zhì)量噪音高而造成抽取結(jié)果不理想。對于UGC的處理也成為信息抽取問題中較為棘 手的一個(gè)問題。針對新聞數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)挖掘和實(shí)體抽取方法在UGC上使用并不能完全適 用,需要發(fā)現(xiàn)一種新的方法去分析和處理UGC數(shù)據(jù)。
[0005] 在自然語言處理過程中,旨在使計(jì)算機(jī)了解人類的語言。而處理的過程中,通常從 文本語料庫中學(xué)習(xí)詞匯和結(jié)構(gòu)的偏向性信息,對句法進(jìn)行分析。這些學(xué)習(xí)是基于上下文及 統(tǒng)計(jì)信息的,如使用詞頻,互信息等,進(jìn)行詞法分析,使用馬爾科夫模型,概率上下文無關(guān)文 法,概率句法分析等進(jìn)行語法分析。這些方法都依賴于高質(zhì)量的規(guī)范化的數(shù)據(jù)集。對于UGC 而言,語法結(jié)構(gòu)隨意,人們在表達(dá)時(shí),通常不會(huì)特別注意語法結(jié)構(gòu),想到什么說什么,并且會(huì) 引入一些新詞及通假字,這對自然語言處理來說,會(huì)將這些詞視為不同的詞對待,結(jié)果不甚 理想。
[0006] 在中文自然語言處理中,分詞是一個(gè)難題。因?yàn)橛⒄Z的詞之間,是由空格進(jìn)行分割 的,而中文中,只有句與句之間,由標(biāo)點(diǎn)符號(hào)進(jìn)行分割,詞與詞之間是沒有明確界限的,若要 對中文自然語言進(jìn)行處理,必須要得到高質(zhì)量的分詞結(jié)果?,F(xiàn)有的中文分詞技術(shù)有:字符串 匹配進(jìn)行分析,如1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(由右到左 的方向);3)最少切分(使每一句中切出的詞數(shù)最小);4)雙向最大匹配法(進(jìn)行由左到 右、由右到左兩次掃描)。理解分詞方法,模仿人類對語法的理解,同時(shí)使用句法和語法分 析,來處理歧義。同樣,對于低質(zhì)量的UGC而言,語法的隨意性使得這些方法都沒有辦法得 到理想的處理結(jié)果。
[0007] 在信息抽取中,基于已經(jīng)分詞好的文本集合,抽取出相關(guān)的話題事件。常用的方法 有:監(jiān)督式的學(xué)習(xí)方法,半監(jiān)督式的學(xué)習(xí)方法,非監(jiān)督式的學(xué)習(xí)方法。監(jiān)督式的學(xué)習(xí)方法基 于已經(jīng)標(biāo)注好的訓(xùn)練集合,學(xué)習(xí)建模,主要有:支持向量機(jī)、最近鄰居法、高斯混合模型、貝 葉斯算法、決策樹等。然而,通常情況下,已經(jīng)標(biāo)注好的訓(xùn)練集合較難得到,半監(jiān)督式的學(xué)習(xí) 方法就是通過少量的標(biāo)注信息開始,迭代的處理建模,處理的結(jié)果作為下一次訓(xùn)練模型的 訓(xùn)練數(shù)據(jù)集。非監(jiān)督式的學(xué)習(xí)方法不需要事先標(biāo)注好的信息,常見的一種非監(jiān)督式學(xué)習(xí)為 聚類,如單遍掃描。
[0008] 至此,通過自然語言處理及信息抽取方法,可以從UGC中抽取出話題,然而,如上 文所提,UGC的低質(zhì)量特性對自然語言處理及信息抽取所產(chǎn)生的噪音較大,結(jié)果不甚理想, 需要對其進(jìn)行優(yōu)化改進(jìn)?,F(xiàn)有的研究中,在處理UGC數(shù)據(jù)的過程中,有的方法選擇過濾掉質(zhì) 量低下的數(shù)據(jù)。例如利用內(nèi)容中的鏈接信息以及用戶間的評分,從而給出數(shù)據(jù)的質(zhì)量評分。 通過質(zhì)量的評分,在進(jìn)行抽取時(shí),就可以過濾質(zhì)量低的數(shù)據(jù),直接在高質(zhì)量的數(shù)據(jù)集上進(jìn)行 工作。這種方法一定程度上繞過了 UGC質(zhì)量低的問題,對處理一些知識(shí)問答類的社交網(wǎng)絡(luò) 系統(tǒng),如"Yahoo問答"有所貢獻(xiàn)。然而,這種回避的方式卻容易丟失許多重要信息。對于如 論壇,微博等UGC信息而言,它們短而隨意,用戶在不同時(shí)間心情不同所發(fā)表的內(nèi)容質(zhì)量也 不同,甚至于用不同工具發(fā)表的內(nèi)容質(zhì)量也有所差異:如電腦發(fā)布的質(zhì)量稍高,手機(jī)發(fā)布的 質(zhì)量稍低。因此,很難將數(shù)據(jù)按照用戶劃分進(jìn)行質(zhì)量打分。
[0009] 如今,使用外部資源的現(xiàn)狀是,不少研究基于外部資源進(jìn)行處理,如利用外部資源 建立詞典,但主要是基于離線處理,使用一些外部資源的結(jié)構(gòu)化信息形成訓(xùn)練數(shù)據(jù)集和訓(xùn) 練模型,并不涉及利用在線數(shù)據(jù)源對用戶生成數(shù)據(jù)進(jìn)行語義標(biāo)注的研究。
[0010] 為了克服現(xiàn)有技術(shù)中中文分詞結(jié)果的影響、過濾低質(zhì)量數(shù)據(jù)而丟失重要信息以及 不支持在線數(shù)據(jù)源搜索等缺陷,本發(fā)明提出了一種基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語 義標(biāo)注的方法。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明提出了一種基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法,包括如 下步驟:
[0012] 預(yù)處理步驟:對用戶生成內(nèi)容進(jìn)行聚類,得到一個(gè)以上語義實(shí)體;
[0013] 配置步驟:根據(jù)所述語義實(shí)體中的關(guān)鍵詞生成查詢語句,根據(jù)所述查詢語句搜索 外部資源,從中定位抓取與所述語義實(shí)體相關(guān)的頁面集合,并根據(jù)相關(guān)程度對所述頁面集 合中的各頁面賦予權(quán)重值,所述權(quán)重值用于頁面與語義實(shí)體的相關(guān)程度;權(quán)重值越高表示 其與語義實(shí)體的相關(guān)程度越高;
[0014] 語義標(biāo)注步驟:按所述權(quán)重值在所述頁面集合中抽取出與所述語義實(shí)體相關(guān)的信 息,用于對所述語義實(shí)體進(jìn)行補(bǔ)充標(biāo)注,得到擴(kuò)展優(yōu)化的語義實(shí)體。
[0015] 本發(fā)明提出的基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法中,在所述預(yù) 處理步驟中,利用神經(jīng)語言程序?qū)W和信息抽取對所述用戶生成內(nèi)容進(jìn)行聚類得到所述語義 實(shí)體,所述信息抽取技術(shù)包括單邊掃描聚類算法和支持向量機(jī)。
[0016] 本發(fā)明提出的基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法中,所述語義 實(shí)體由一個(gè)以上關(guān)鍵詞組成,將關(guān)鍵詞經(jīng)相互組合生成查詢語句搜索外部資源的過程包括 如下步驟:
[0017] 步驟al :根據(jù)apriori算法從所述語義實(shí)體的單個(gè)關(guān)鍵詞分別作為查詢語句進(jìn)行 搜索;
[0018] 步驟a2 :將搜索后得到返回結(jié)果的單個(gè)關(guān)鍵詞組成臨時(shí)集合,將所述臨時(shí)結(jié)合內(nèi) 的關(guān)鍵詞依次與另一個(gè)單個(gè)關(guān)鍵詞組合作為查詢語句進(jìn)行搜索;
[0019] 步驟a3 :重復(fù)上述步驟a2,直至所述臨時(shí)集合中所有關(guān)鍵詞的組合均沒有返回結(jié) 果或者所有關(guān)鍵詞均已組合作為查詢語句進(jìn)行搜索。
[0020] 本發(fā)明提出的基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法中,所述外部 資源為通過網(wǎng)絡(luò)共享的在線數(shù)據(jù)源或者是已存儲(chǔ)在本地設(shè)備的離線數(shù)據(jù)源。
[0021] 本發(fā)明提出的基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法中,若所述外 部資源為在線數(shù)據(jù)源,則搜索所述在線數(shù)據(jù)源抓取頁面集合的過程包括如下步驟:
[0022] 步驟bl :設(shè)置搜索詞、相關(guān)頁面集合和關(guān)鍵詞詞組,所述關(guān)鍵詞詞組已按降序或 升序排序;
[0023] 步驟b2:將所述搜索詞與所述關(guān)鍵詞詞組中的每一個(gè)詞組合,按照組合后的搜索 詞在外部資源進(jìn)行搜索,若搜索得到相關(guān)的頁面時(shí),爬取所述頁面添加至所述相關(guān)頁面集 合中;
[0024] 步驟b3:對所述相關(guān)頁面集合中的每一個(gè)頁面賦予權(quán)重值,并按所述權(quán)重值以降 序或升序排序。
[0025] 本發(fā)明提出的基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法中,所述頁面 的權(quán)重值的配置過程包括如下步驟:
[0026] 步驟cl :計(jì)算所述關(guān)鍵詞位于所述查詢語句中的位置權(quán)重參數(shù);
[0027] 步驟c2 :計(jì)算所述頁面在所述頁面集合中被抓取次數(shù)的次數(shù)權(quán)重參數(shù);
[0028] 步驟c3 :計(jì)算所述頁面中與關(guān)鍵詞匹配程度的匹配權(quán)重參數(shù);
[0029] 步驟c4 :計(jì)算所述頁面中特殊詞組出現(xiàn)次數(shù)的特殊權(quán)重參數(shù);
[0030] 步驟c5 :分別對所述位置權(quán)重參數(shù)、所述次數(shù)權(quán)重參數(shù)、所述匹配權(quán)重參數(shù)和所 述特殊權(quán)重參數(shù)進(jìn)行正規(guī)化處理后相乘得到所述頁面的權(quán)重值。
[0031] 本發(fā)明提出的基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法中,在所述預(yù) 處理步驟中,從所述頁面集合中抽取相關(guān)的信息的優(yōu)先級如以下所示:
[0032] Pt> P a-S > P-S > Pj-S > Pa-U > P-U > PrU ;
[0033] 其中,Pt表示頁面標(biāo)題(頁面描述的語義實(shí)體的名字),Pa表示首段落(對語義實(shí) 體簡短的介紹,類似于摘要),S表示所述頁面集合的信息已存在于所述用戶生成數(shù)據(jù)中, Pi表示信息盒(語義實(shí)體相關(guān)屬性),P1表示剩余部分(除以上部分外的頁面中對于語義 實(shí)體的描述),U表示所述頁面集合的信息未存在于所述用戶生成數(shù)據(jù)中。
[0034] 本發(fā)明提出的基于外部數(shù)據(jù)源對用戶生成內(nèi)容進(jìn)行語義標(biāo)注的方法中,在所述 預(yù)處理步驟中,基