專利名稱:一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)科學(xué)與應(yīng)用技術(shù)領(lǐng)域,具體地說,一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,應(yīng)用于各種開放知識(shí)社區(qū)的資源建設(shè)與管理。
背景技術(shù):
近年來,以維基百科(Wikipedia)為代表的開放知識(shí)社區(qū)越來越流行,國(guó)外的有Google Knol、Cloudworks、Freebase等,國(guó)內(nèi)的有百度知道、百度百科、互動(dòng)百科、學(xué)習(xí)兀平臺(tái)等。開放的知識(shí)平臺(tái)固然有其獨(dú)特的優(yōu)勢(shì),可以吸引大量用戶參與、發(fā)揮集體智慧、促進(jìn)知識(shí)流通與分享。然而,開放的同時(shí)也帶來了不可回避的麻煩。維基百科完全開放式的編輯與組織方式使開放知識(shí)社區(qū)中資源的質(zhì)量和可靠性問題成為關(guān)注的焦點(diǎn)。Web2. 0時(shí)代人人可以生產(chǎn)、消費(fèi)、傳播資源,用戶群體的復(fù)雜性和生產(chǎn)的自由化直接導(dǎo)致開放知識(shí)社區(qū)中資源數(shù)量的爆炸式增長(zhǎng)和資源質(zhì)量的良莠不齊。 為了保證開放知識(shí)社區(qū)中的資源質(zhì)量的可靠性,當(dāng)前各種開放知識(shí)社區(qū)主要采用人工決策與手動(dòng)內(nèi)容編輯審核的方式來實(shí)現(xiàn)對(duì)資源內(nèi)容質(zhì)量的控制。維基百科采用的是一套基于人工協(xié)作的協(xié)調(diào)機(jī)制和一系列的約束規(guī)則(3R規(guī)則、事實(shí)校驗(yàn)和實(shí)時(shí)同級(jí)評(píng)審規(guī)則等)來實(shí)現(xiàn)信息的有序進(jìn)化。其它各種開放知識(shí)社區(qū)(百度百科、GoogleKnol, Freebase等)也基本上沿用維基百科的控制模式,在反饋、交流的基礎(chǔ)上最終通過人工審核的方式實(shí)現(xiàn)內(nèi)容版本的不斷更迭和進(jìn)化。近年來,有研究者(Javanmardi etal.,2010;Moturu&Liu, 2009)開始嘗試構(gòu)建維基百科中的信任評(píng)估模型,來幫助用戶篩選高質(zhì)量的資源。但是,這些信任評(píng)估模型大都是基于編輯歷史數(shù)據(jù)構(gòu)建的,忽視了其他更加豐富的有助于判斷用戶和資源信任度的交互性信息,比如收藏、訂閱、分享等操作數(shù)據(jù)。隨著資源群體和用戶群體規(guī)模的不斷擴(kuò)大,內(nèi)容編輯審核的工作量將急速增加,必然給知識(shí)的創(chuàng)作者、管理者帶來巨大的工作負(fù)擔(dān)。當(dāng)前的人工決策與內(nèi)容審核技術(shù)已經(jīng)無法適應(yīng)開放知識(shí)社區(qū)發(fā)展的需要,因此,急需探索一種可以有效減輕開放知識(shí)社區(qū)中用戶進(jìn)行內(nèi)容編輯審核負(fù)擔(dān)和壓力的智能化方法。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是克服現(xiàn)有人工審核內(nèi)容編輯的不足,提供一種智能化的內(nèi)容編輯審核方法,該方法可以有效減輕開放知識(shí)社區(qū)中人工審核內(nèi)容編輯的負(fù)擔(dān),且具有較高的準(zhǔn)確率。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,其特征在于包括以下步驟(I)抽取資源內(nèi)容的語義特征信息(語義基因),計(jì)算新添加內(nèi)容的特征項(xiàng)與語義基因的語義相似度;(2)基于用戶的交互操作數(shù)據(jù),應(yīng)用信任評(píng)估模型計(jì)算用戶的信任度;(3)綜合語義相似度和用戶信任度兩個(gè)指標(biāo),判斷是否接受此次內(nèi)容編輯。
上述步驟(I)中的語義基因是指學(xué)習(xí)資源背后的內(nèi)在知識(shí)結(jié)構(gòu),能夠反映資源所要表達(dá)的核心內(nèi)容,可以形式化表示為基于本體描述的帶有權(quán)重的概念集合以及概念間的語義關(guān)系。語義基因提取方法為基于領(lǐng)域本體提取資源內(nèi)容的特征項(xiàng);根據(jù)特征評(píng)價(jià)函數(shù)計(jì)算特征項(xiàng)的權(quán)重;將特征項(xiàng)映射為領(lǐng)域本體中的概念;基于JENA框架提取概念在本體庫中存在的語義關(guān)系。所述的特征評(píng)價(jià)函數(shù)采用詞頻統(tǒng)計(jì)TF(Term Frequency)法。上述步驟(I)中的新添加內(nèi)容的特征項(xiàng)集與語義基因的語義相似度計(jì)算方法為應(yīng)用哈工大擴(kuò)展版的同義詞詞林將特征項(xiàng)集和語義基因中的同義詞進(jìn)行替換;采用余弦系數(shù)法計(jì)算語義相似度。上述步驟(2)中的信任評(píng)估模型核心設(shè)計(jì)思路是包含資源信任度和用戶信任度兩個(gè)核心部件;資源信任度依據(jù)直接信任度評(píng)價(jià)數(shù)據(jù)(用戶直接對(duì)資源信任度進(jìn)行打分)和 間接信任度評(píng)價(jià)數(shù)據(jù)(用戶對(duì)資源的交互操作信息,如訂閱、收藏等)采用加權(quán)平均的方法計(jì)算得出;用戶信任度依據(jù)用戶之間的交互信息和其創(chuàng)作知識(shí)的可信度采用加權(quán)平均的方法計(jì)算得出;資源信任度和用戶信任度之間相互影響,采用迭代逼近法交叉計(jì)算二者的信任度。迭代逼近法核心思想是通過設(shè)定一個(gè)最大誤差值maX_eiT0r,通過多次的迭代計(jì)算,至到前后兩次計(jì)算結(jié)果中對(duì)應(yīng)的所有信任度之差的絕對(duì)值都小于maX_eiT0r,才結(jié)束運(yùn)算,生成逼近真實(shí)的資源信任度和用戶信任度。上述步驟(3)中的內(nèi)容編輯是否接受的判斷方法為設(shè)定一個(gè)內(nèi)容編輯可以被接受的最低閾值A(chǔ)T ;對(duì)語義相似度和用戶信任度兩個(gè)指標(biāo)采用加權(quán)求和法;若計(jì)算結(jié)果大于或等于AT,則接受此次內(nèi)容編輯;否則,拒絕此次內(nèi)容編輯。本發(fā)明與現(xiàn)有技術(shù)相比的有益效果(I)本發(fā)明方法通過綜合應(yīng)用語義基因和信任評(píng)估模型,可以實(shí)現(xiàn)對(duì)開放知識(shí)社區(qū)中內(nèi)容編輯的自動(dòng)審核,大大減輕人工審核的負(fù)擔(dān)和壓力,同時(shí)具有較高的準(zhǔn)確性。(2)本發(fā)明基于領(lǐng)域本體提取資源內(nèi)容的語義特征信息(語義基因),較之常規(guī)的文本特征提取技術(shù),能達(dá)到更好的提取效果。(3)本發(fā)明提出的信任評(píng)估模型,可以有效評(píng)價(jià)開放知識(shí)社區(qū)中用戶信任度和資源信任度,具有計(jì)算數(shù)據(jù)豐富、考慮到用戶信任和資源信任間的聯(lián)動(dòng)關(guān)系、更加接近現(xiàn)實(shí)社會(huì)中的信任關(guān)系等特點(diǎn)。
圖I為本發(fā)明的語義基因的提取過程;圖2為本發(fā)明的基于領(lǐng)域本體的特征項(xiàng)提取過程;圖3為本發(fā)明提出的信任評(píng)估模型;圖4為本發(fā)明提出的迭代逼近法解決交叉計(jì)算問題的過程;圖5為本發(fā)明的內(nèi)容編輯智能審核過程。
具體實(shí)施例方式下面結(jié)合附圖及具體實(shí)施方式
詳細(xì)介紹本發(fā)明。本發(fā)明的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,采用如下步驟(I)抽取語義基因,計(jì)算語義相似度
語義基因的概念是指學(xué)習(xí)資源背后的內(nèi)在知識(shí)結(jié)構(gòu),能夠反映資源所要表達(dá)的核心內(nèi)容。區(qū)別于文本相似度比較中的文檔特征項(xiàng),語義基因不是簡(jiǎn)單的關(guān)鍵詞集合,而是資源背后所隱藏的語義概念網(wǎng)絡(luò)。語義基因可以被形式化地表示為有序三元組,即SG=〈CS,WS, RS>,其中CS是核心概念集合,集合大小不超過10,CS={C1,C2,C3, - ,Cn},l ^ n ^ 10,;WS是概念項(xiàng)的權(quán)重集合,WS={ffl,ff2,W3, ...,Wn},其中Wi為Ci的權(quán)重,I ( i ( n,且所有權(quán)重之和為I ;RS為核心概念間的關(guān)系集,RS= {Rl, R2, R3, - ,Rn},每個(gè)關(guān)系采用領(lǐng)域本體中的RDF三元組〈Subject, Predicate, Object〉表不,Rl=<Conceptl, Relationship, Concept2>,這里的Conceptl和Concept2不一定包含在CS中,可以是領(lǐng)域本體庫的其他概念,Relationship是從領(lǐng)域本體庫中提取的概念關(guān)系。 語義基因提取的過程如圖I所示,包含四個(gè)關(guān)鍵性步驟基于領(lǐng)域本體的特征項(xiàng)提??;根據(jù)特征評(píng)價(jià)函數(shù)計(jì)算特征項(xiàng)的權(quán)重;特征詞到本體概念的映射;基于語義網(wǎng)開源框架一JENA提取特征項(xiàng)(概念)在本體庫中存在的語義關(guān)系?;陬I(lǐng)域本體的特征項(xiàng)提取流程見圖2,特征評(píng)價(jià)函數(shù)采用詞頻統(tǒng)計(jì)TF(Term Frequency)法。算法I基于JENA的特征詞到本體概念的映射算法(Term Mapping to Concept,TM2C)輸入資源的特征項(xiàng)集合TS = Iti I i = 1,2,3, ,n}輸出資源的概念集合CS = ICjI j = 1,2,3,..., n}算法的偽代碼如下
List<OntClass> CS; //定義返回的本體概念集合 String uri; //定義臨時(shí)本體類的uri字符串 Outclass concept; //定義臨時(shí)本體類
OntModel model = getModeiF'romDB ( ontology ); //獲収 ontology 的 JENA 本.體投噴-用于操作本體
for( ini i= I to n ) {
uri = getClassURI ( TS[ i ], model); //木體庫中查找名字為TS[i]的類是否存在,獲取
uri
if(uri is null)丨//不存在,自動(dòng)生成本體概念,加入本體庫 concept = model.createClass ( uri);
}else{ //存在則獲取本體概念
concept = model.getOntClass ( uri);
}
CS.add ( concept); //添加到 CS 集fV }
return CS; //返冋本體概念集fV算法I使用語義Web領(lǐng)域流行的JENA框架,將資源內(nèi)容中提取的特征項(xiàng)逐個(gè)映射為領(lǐng)域本體中對(duì)應(yīng)的概念。算法2 基于 JENA 的概念關(guān)系抽取(Concept Relationship Extraction, CRE)輸入資源的概念詞集合CS = {C」|j = 1,2,3, ,n}細(xì)出概念關(guān)系集合RS = {Rj |j = I, 2, 3, . . . , m}算法的偽代碼如下
List<>RS; //定義返冋的關(guān)系集合,Statement為JENA中的內(nèi)置對(duì)象,表示一
個(gè)三元組描述的陳述
I.isi> tmpList; //定義臨時(shí)RDF三兀組集合
OntModel model = getModelFromDB (ontology ); //獲収 ontology 的 Jena 本作投.喂,用于操作本體
while ( c in CS){ //循環(huán)讀取CS中的元素
If ( c exits in OntModel) {//如果c在本體庫中存在tmpList = OntModeLlistStatementsC c ); HM 出 Subject 為 c 的所有 RDF 三兀組 W hile (Statement s in tmpList) {
if ( s.object is concept){ //將三兀組中 Object 是概念的 Statement 加入到 RS
中 RS. add (s);
}
}
}
}
return RS; //返冋概念關(guān)系集合算法2使用語義Web領(lǐng)域流行的JENA框架,將算法I獲取到的概念集合在領(lǐng)域本體中存在的概念關(guān)系提取出來。算法3語義基因提取算法輸入資源的Title、Tag、Content 和 SemanticData輸出資源的語義基因SG=〈CS,WS, RS>關(guān)鍵步驟步驟I調(diào)用ICTCLAS將Title進(jìn)行分詞處理和噪音過濾步驟2調(diào)用ICTCLAS將Tag進(jìn)行切割和噪音過濾步驟3調(diào)用ICTCLAS對(duì)Content進(jìn)行html標(biāo)簽過濾,分詞處理,噪音過濾(去除虛詞)步驟4獲取語義描述信息中的本體類步驟5對(duì)St印2到St印5中得到的特征詞集合,結(jié)合領(lǐng)域本體進(jìn)行詞語組合,識(shí)別新的特征詞步驟6調(diào)用停用詞表,將St印6得到的詞語集合進(jìn)行停用詞過濾步驟7結(jié)合哈工大的擴(kuò)展版同義詞詞林和領(lǐng)域本體進(jìn)行同義詞替換,得到特征詞集TS步驟8應(yīng)用特征評(píng)價(jià)函數(shù)計(jì)算各特征詞的權(quán)重,得到特征詞的權(quán)重集合WS步驟9應(yīng)用TM2C算法得到概念集合CS步驟10應(yīng)用CRE算法提取概念關(guān)系集合RS步驟11算法結(jié)束,輸出CS、WS和RS采用余弦系數(shù)法計(jì)算當(dāng)前學(xué)習(xí)資源的語義基因和用戶新添加內(nèi)容的文本特征項(xiàng)集的語義相似度。用X表示資源的語義基因=X=IWC1AWC2;- ;Cn,WCn),其中Ck是語義基因中的概念項(xiàng),WCk是Ck的權(quán)重,I彡k彡n ;用Y表示新內(nèi)容的文本特征向量Y= (T1, WTliT11WT1;- ; Tm, WTm),其中Tk是特征向量中的特征詞,WTk是Tk的權(quán)重,I彡k彡m。進(jìn)行余弦相似度計(jì)算之前,需要將X和Y中的元素進(jìn)行同義詞替換。同義詞替換一方面基于LCS中內(nèi)置的哈工大擴(kuò)展版的同義詞詞林,另一方面,可以從資源語義基因中包含的概念關(guān)系三元組中查找X和Y中的同義詞,并進(jìn)行替換。語義相似度計(jì)算公式如下
權(quán)利要求
1.一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,其特征在于包括以下步驟 (1)抽取資源內(nèi)容的語義特征信息,計(jì)算新添加內(nèi)容的特征項(xiàng)與語義基因的語義相似度; (2)基于用戶的交互操作數(shù)據(jù),應(yīng)用信任評(píng)估模型計(jì)算用戶的信任度; (3 )綜合語義相似度和用戶信任度兩個(gè)指標(biāo),判斷是否接受此次內(nèi)容編輯。
2.根據(jù)權(quán)利要求I所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,其特征在于在所述步驟(I)中的語義基因是指學(xué)習(xí)資源背后的內(nèi)在知識(shí)結(jié)構(gòu),能夠反映資源所要表達(dá)的核心內(nèi)容,形式化表示為基于本體描述的帶有權(quán)重的概念集合以及概念間的語義關(guān)系。
3.根據(jù)權(quán)利要求I所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,其特征在于在所述步驟(I)中的語義基因提取方法為基于領(lǐng)域本體提取資源內(nèi)容的特征項(xiàng);根據(jù)特征評(píng)價(jià)函數(shù)計(jì)算特征項(xiàng)的權(quán)重;將特征項(xiàng)映射為領(lǐng)域本體中的概念;基于語義網(wǎng)開源框架一 JENA框架提取概念在本體庫中存在的語義關(guān)系。
4.根據(jù)權(quán)利要求I所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,其特征在于在所述步驟(I)中的新添加內(nèi)容的特征項(xiàng)集與語義基因的語義相似度計(jì)算方法為應(yīng)用同義詞詞林將特征項(xiàng)集和語義基因中的同義詞進(jìn)行替換;采用余弦系數(shù)法計(jì)算語義相似度。
5.根據(jù)權(quán)利要求I所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,其特征在于在所述步驟(2)中的信任評(píng)估模型包含資源信任度和用戶信任度兩個(gè)核心部件;資源信任度依據(jù)直接信任度評(píng)價(jià)數(shù)據(jù)和間接信任度評(píng)價(jià)數(shù)據(jù)采用加權(quán)求和的方法計(jì)算得出,所述直接信任度評(píng)價(jià)數(shù)據(jù)是用戶直接對(duì)資源信任度進(jìn)行打分,所述間接信任度評(píng)價(jià)數(shù)據(jù)是用戶對(duì)資源的交互操作信息;用戶信任度依據(jù)用戶之間的交互信息和其創(chuàng)作知識(shí)的可信度采用加權(quán)求和的方法計(jì)算得出;資源信任度和用戶信任度之間相互影響,采用迭代逼近法交叉計(jì)算二者的彳目任度。
6.根據(jù)權(quán)利要求5所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,其特征在于所述的迭代逼近法是通過設(shè)定一個(gè)最大誤差值maX_eiT0r,通過多次的迭代計(jì)算,至到前后兩次計(jì)算結(jié)果中對(duì)應(yīng)的所有信任度之差的絕對(duì)值都小于maX_eir0r,才結(jié)束運(yùn)算,生成逼近真實(shí)的資源信任度和用戶信任度。
7.根據(jù)權(quán)利要求I所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,其特征在于在所述步驟(3)中的判斷是否接受此次內(nèi)容編輯的方法為設(shè)定一個(gè)內(nèi)容編輯能夠被接受的最低閾值A(chǔ)T ;對(duì)語義相似度和用戶信任度兩個(gè)指標(biāo)采用加權(quán)求和法;若計(jì)算結(jié)果大于或等于AT,則接受此次內(nèi)容編輯;否則,拒絕此次內(nèi)容編輯。
8.根據(jù)權(quán)利要求4所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,其特征在于所述同義詞詞林為哈工大擴(kuò)展版的同義詞詞林。
全文摘要
一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法,包括以下步驟(1)抽取資源內(nèi)容的語義特征信息,計(jì)算新添加內(nèi)容的特征項(xiàng)集與語義基因的語義相似度;(2)基于用戶在開放知識(shí)社區(qū)中的交互操作數(shù)據(jù),應(yīng)用信任評(píng)估模型計(jì)算用戶的信任度;(3)綜合語義相似度和用戶信任度兩個(gè)指標(biāo),判斷是否自動(dòng)接受或拒絕此次內(nèi)容編輯。本發(fā)明的內(nèi)容編輯智能審核方法,可以有效減輕開放知識(shí)社區(qū)中人工審核內(nèi)容編輯的負(fù)擔(dān),且具有較高的準(zhǔn)確率。
文檔編號(hào)G06F17/24GK102681979SQ201210150808
公開日2012年9月19日 申請(qǐng)日期2012年5月15日 優(yōu)先權(quán)日2012年5月15日
發(fā)明者余勝泉, 楊現(xiàn)民 申請(qǐng)人:北京師范大學(xué)