一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法

文檔序號(hào)：6369699閱讀：220來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計(jì)算機(jī)科學(xué)與應(yīng)用技術(shù)領(lǐng)域，具體地說，一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，應(yīng)用于各種開放知識(shí)社區(qū)的資源建設(shè)與管理。
背景技術(shù)：
近年來，以維基百科(Wikipedia)為代表的開放知識(shí)社區(qū)越來越流行，國(guó)外的有Google Knol、Cloudworks、Freebase等，國(guó)內(nèi)的有百度知道、百度百科、互動(dòng)百科、學(xué)習(xí)兀平臺(tái)等。開放的知識(shí)平臺(tái)固然有其獨(dú)特的優(yōu)勢(shì)，可以吸引大量用戶參與、發(fā)揮集體智慧、促進(jìn)知識(shí)流通與分享。然而，開放的同時(shí)也帶來了不可回避的麻煩。維基百科完全開放式的編輯與組織方式使開放知識(shí)社區(qū)中資源的質(zhì)量和可靠性問題成為關(guān)注的焦點(diǎn)。Web2. 0時(shí)代人人可以生產(chǎn)、消費(fèi)、傳播資源，用戶群體的復(fù)雜性和生產(chǎn)的自由化直接導(dǎo)致開放知識(shí)社區(qū)中資源數(shù)量的爆炸式增長(zhǎng)和資源質(zhì)量的良莠不齊。為了保證開放知識(shí)社區(qū)中的資源質(zhì)量的可靠性，當(dāng)前各種開放知識(shí)社區(qū)主要采用人工決策與手動(dòng)內(nèi)容編輯審核的方式來實(shí)現(xiàn)對(duì)資源內(nèi)容質(zhì)量的控制。維基百科采用的是一套基于人工協(xié)作的協(xié)調(diào)機(jī)制和一系列的約束規(guī)則(3R規(guī)則、事實(shí)校驗(yàn)和實(shí)時(shí)同級(jí)評(píng)審規(guī)則等)來實(shí)現(xiàn)信息的有序進(jìn)化。其它各種開放知識(shí)社區(qū)(百度百科、GoogleKnol, Freebase等)也基本上沿用維基百科的控制模式，在反饋、交流的基礎(chǔ)上最終通過人工審核的方式實(shí)現(xiàn)內(nèi)容版本的不斷更迭和進(jìn)化。近年來,有研究者(Javanmardi etal.，2010;Moturu&Liu, 2009)開始嘗試構(gòu)建維基百科中的信任評(píng)估模型，來幫助用戶篩選高質(zhì)量的資源。但是，這些信任評(píng)估模型大都是基于編輯歷史數(shù)據(jù)構(gòu)建的，忽視了其他更加豐富的有助于判斷用戶和資源信任度的交互性信息，比如收藏、訂閱、分享等操作數(shù)據(jù)。隨著資源群體和用戶群體規(guī)模的不斷擴(kuò)大，內(nèi)容編輯審核的工作量將急速增加，必然給知識(shí)的創(chuàng)作者、管理者帶來巨大的工作負(fù)擔(dān)。當(dāng)前的人工決策與內(nèi)容審核技術(shù)已經(jīng)無法適應(yīng)開放知識(shí)社區(qū)發(fā)展的需要，因此，急需探索一種可以有效減輕開放知識(shí)社區(qū)中用戶進(jìn)行內(nèi)容編輯審核負(fù)擔(dān)和壓力的智能化方法。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是克服現(xiàn)有人工審核內(nèi)容編輯的不足，提供一種智能化的內(nèi)容編輯審核方法，該方法可以有效減輕開放知識(shí)社區(qū)中人工審核內(nèi)容編輯的負(fù)擔(dān)，且具有較高的準(zhǔn)確率。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，其特征在于包括以下步驟(I)抽取資源內(nèi)容的語義特征信息(語義基因)，計(jì)算新添加內(nèi)容的特征項(xiàng)與語義基因的語義相似度；(2)基于用戶的交互操作數(shù)據(jù)，應(yīng)用信任評(píng)估模型計(jì)算用戶的信任度；(3)綜合語義相似度和用戶信任度兩個(gè)指標(biāo)，判斷是否接受此次內(nèi)容編輯。
上述步驟(I)中的語義基因是指學(xué)習(xí)資源背后的內(nèi)在知識(shí)結(jié)構(gòu)，能夠反映資源所要表達(dá)的核心內(nèi)容，可以形式化表示為基于本體描述的帶有權(quán)重的概念集合以及概念間的語義關(guān)系。語義基因提取方法為基于領(lǐng)域本體提取資源內(nèi)容的特征項(xiàng)；根據(jù)特征評(píng)價(jià)函數(shù)計(jì)算特征項(xiàng)的權(quán)重；將特征項(xiàng)映射為領(lǐng)域本體中的概念；基于JENA框架提取概念在本體庫中存在的語義關(guān)系。所述的特征評(píng)價(jià)函數(shù)采用詞頻統(tǒng)計(jì)TF(Term Frequency)法。上述步驟(I)中的新添加內(nèi)容的特征項(xiàng)集與語義基因的語義相似度計(jì)算方法為應(yīng)用哈工大擴(kuò)展版的同義詞詞林將特征項(xiàng)集和語義基因中的同義詞進(jìn)行替換；采用余弦系數(shù)法計(jì)算語義相似度。上述步驟(2)中的信任評(píng)估模型核心設(shè)計(jì)思路是包含資源信任度和用戶信任度兩個(gè)核心部件；資源信任度依據(jù)直接信任度評(píng)價(jià)數(shù)據(jù)(用戶直接對(duì)資源信任度進(jìn)行打分)和間接信任度評(píng)價(jià)數(shù)據(jù)(用戶對(duì)資源的交互操作信息，如訂閱、收藏等)采用加權(quán)平均的方法計(jì)算得出；用戶信任度依據(jù)用戶之間的交互信息和其創(chuàng)作知識(shí)的可信度采用加權(quán)平均的方法計(jì)算得出；資源信任度和用戶信任度之間相互影響，采用迭代逼近法交叉計(jì)算二者的信任度。迭代逼近法核心思想是通過設(shè)定一個(gè)最大誤差值maX_eiT0r，通過多次的迭代計(jì)算，至到前后兩次計(jì)算結(jié)果中對(duì)應(yīng)的所有信任度之差的絕對(duì)值都小于maX_eiT0r，才結(jié)束運(yùn)算，生成逼近真實(shí)的資源信任度和用戶信任度。上述步驟(3)中的內(nèi)容編輯是否接受的判斷方法為設(shè)定一個(gè)內(nèi)容編輯可以被接受的最低閾值A(chǔ)T ;對(duì)語義相似度和用戶信任度兩個(gè)指標(biāo)采用加權(quán)求和法；若計(jì)算結(jié)果大于或等于AT，則接受此次內(nèi)容編輯；否則，拒絕此次內(nèi)容編輯。本發(fā)明與現(xiàn)有技術(shù)相比的有益效果(I)本發(fā)明方法通過綜合應(yīng)用語義基因和信任評(píng)估模型，可以實(shí)現(xiàn)對(duì)開放知識(shí)社區(qū)中內(nèi)容編輯的自動(dòng)審核，大大減輕人工審核的負(fù)擔(dān)和壓力，同時(shí)具有較高的準(zhǔn)確性。(2)本發(fā)明基于領(lǐng)域本體提取資源內(nèi)容的語義特征信息(語義基因)，較之常規(guī)的文本特征提取技術(shù)，能達(dá)到更好的提取效果。(3)本發(fā)明提出的信任評(píng)估模型，可以有效評(píng)價(jià)開放知識(shí)社區(qū)中用戶信任度和資源信任度，具有計(jì)算數(shù)據(jù)豐富、考慮到用戶信任和資源信任間的聯(lián)動(dòng)關(guān)系、更加接近現(xiàn)實(shí)社會(huì)中的信任關(guān)系等特點(diǎn)。

圖I為本發(fā)明的語義基因的提取過程；圖2為本發(fā)明的基于領(lǐng)域本體的特征項(xiàng)提取過程；圖3為本發(fā)明提出的信任評(píng)估模型；圖4為本發(fā)明提出的迭代逼近法解決交叉計(jì)算問題的過程；圖5為本發(fā)明的內(nèi)容編輯智能審核過程。
具體實(shí)施例方式下面結(jié)合附圖及具體實(shí)施方式
詳細(xì)介紹本發(fā)明。本發(fā)明的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，采用如下步驟(I)抽取語義基因，計(jì)算語義相似度
語義基因的概念是指學(xué)習(xí)資源背后的內(nèi)在知識(shí)結(jié)構(gòu)，能夠反映資源所要表達(dá)的核心內(nèi)容。區(qū)別于文本相似度比較中的文檔特征項(xiàng)，語義基因不是簡(jiǎn)單的關(guān)鍵詞集合，而是資源背后所隱藏的語義概念網(wǎng)絡(luò)。語義基因可以被形式化地表示為有序三元組，即SG=〈CS，WS, RS>，其中CS是核心概念集合，集合大小不超過10，CS={C1,C2,C3, - ,Cn},l ^ n ^ 10，；WS是概念項(xiàng)的權(quán)重集合，WS={ffl,ff2,W3, ...，Wn}，其中Wi為Ci的權(quán)重，I ( i ( n，且所有權(quán)重之和為I ;RS為核心概念間的關(guān)系集，RS= {Rl, R2, R3, - ,Rn}，每個(gè)關(guān)系采用領(lǐng)域本體中的RDF三元組〈Subject, Predicate, Object〉表不，Rl=<Conceptl, Relationship, Concept2>,這里的Conceptl和Concept2不一定包含在CS中，可以是領(lǐng)域本體庫的其他概念，Relationship是從領(lǐng)域本體庫中提取的概念關(guān)系。語義基因提取的過程如圖I所示，包含四個(gè)關(guān)鍵性步驟基于領(lǐng)域本體的特征項(xiàng)提??；根據(jù)特征評(píng)價(jià)函數(shù)計(jì)算特征項(xiàng)的權(quán)重；特征詞到本體概念的映射；基于語義網(wǎng)開源框架一JENA提取特征項(xiàng)(概念)在本體庫中存在的語義關(guān)系?；陬I(lǐng)域本體的特征項(xiàng)提取流程見圖2,特征評(píng)價(jià)函數(shù)采用詞頻統(tǒng)計(jì)TF(Term Frequency)法。算法I基于JENA的特征詞到本體概念的映射算法(Term Mapping to Concept,TM2C)輸入資源的特征項(xiàng)集合TS = Iti I i = 1，2，3，，n}輸出資源的概念集合CS = ICjI j = 1,2,3,..., n}算法的偽代碼如下
List<OntClass> CS; //定義返回的本體概念集合 String uri; //定義臨時(shí)本體類的uri字符串 Outclass concept; //定義臨時(shí)本體類
OntModel model = getModeiF'romDB ( ontology ); //獲収 ontology 的 JENA 本.體投噴-用于操作本體
for( ini i= I to n ) {
uri = getClassURI ( TS[ i ], model); //木體庫中查找名字為TS[i]的類是否存在，獲取
uri
if(uri is null)丨//不存在，自動(dòng)生成本體概念，加入本體庫 concept = model.createClass ( uri);
}else{ //存在則獲取本體概念
concept = model.getOntClass ( uri);
}
CS.add ( concept); //添加到 CS 集fV }
return CS; //返冋本體概念集fV算法I使用語義Web領(lǐng)域流行的JENA框架，將資源內(nèi)容中提取的特征項(xiàng)逐個(gè)映射為領(lǐng)域本體中對(duì)應(yīng)的概念。算法2 基于 JENA 的概念關(guān)系抽取(Concept Relationship Extraction, CRE)輸入資源的概念詞集合CS = {C」|j = 1，2，3，，n}細(xì)出概念關(guān)系集合RS = {Rj |j = I, 2, 3, . . . , m}算法的偽代碼如下
List<>RS; //定義返冋的關(guān)系集合，Statement為JENA中的內(nèi)置對(duì)象，表示一
個(gè)三元組描述的陳述
I.isi> tmpList; //定義臨時(shí)RDF三兀組集合
OntModel model = getModelFromDB (ontology ); //獲収 ontology 的 Jena 本作投.喂，用于操作本體
while ( c in CS){ //循環(huán)讀取CS中的元素
If ( c exits in OntModel) {//如果c在本體庫中存在tmpList = OntModeLlistStatementsC c ); HM 出 Subject 為 c 的所有 RDF 三兀組 W hile (Statement s in tmpList) {
if ( s.object is concept){ //將三兀組中 Object 是概念的 Statement 加入到 RS
中 RS. add (s);
}
}
}
}
return RS; //返冋概念關(guān)系集合算法2使用語義Web領(lǐng)域流行的JENA框架，將算法I獲取到的概念集合在領(lǐng)域本體中存在的概念關(guān)系提取出來。算法3語義基因提取算法輸入資源的Title、Tag、Content 和 SemanticData輸出資源的語義基因SG=〈CS，WS, RS>關(guān)鍵步驟步驟I調(diào)用ICTCLAS將Title進(jìn)行分詞處理和噪音過濾步驟2調(diào)用ICTCLAS將Tag進(jìn)行切割和噪音過濾步驟3調(diào)用ICTCLAS對(duì)Content進(jìn)行html標(biāo)簽過濾,分詞處理,噪音過濾(去除虛詞)步驟4獲取語義描述信息中的本體類步驟5對(duì)St印2到St印5中得到的特征詞集合，結(jié)合領(lǐng)域本體進(jìn)行詞語組合，識(shí)別新的特征詞步驟6調(diào)用停用詞表，將St印6得到的詞語集合進(jìn)行停用詞過濾步驟7結(jié)合哈工大的擴(kuò)展版同義詞詞林和領(lǐng)域本體進(jìn)行同義詞替換，得到特征詞集TS步驟8應(yīng)用特征評(píng)價(jià)函數(shù)計(jì)算各特征詞的權(quán)重，得到特征詞的權(quán)重集合WS步驟9應(yīng)用TM2C算法得到概念集合CS步驟10應(yīng)用CRE算法提取概念關(guān)系集合RS步驟11算法結(jié)束，輸出CS、WS和RS采用余弦系數(shù)法計(jì)算當(dāng)前學(xué)習(xí)資源的語義基因和用戶新添加內(nèi)容的文本特征項(xiàng)集的語義相似度。用X表示資源的語義基因=X=IWC1AWC2;- ;Cn，WCn)，其中Ck是語義基因中的概念項(xiàng)，WCk是Ck的權(quán)重，I彡k彡n ;用Y表示新內(nèi)容的文本特征向量Y= (T1, WTliT11WT1;- ; Tm, WTm)，其中Tk是特征向量中的特征詞，WTk是Tk的權(quán)重，I彡k彡m。進(jìn)行余弦相似度計(jì)算之前，需要將X和Y中的元素進(jìn)行同義詞替換。同義詞替換一方面基于LCS中內(nèi)置的哈工大擴(kuò)展版的同義詞詞林，另一方面，可以從資源語義基因中包含的概念關(guān)系三元組中查找X和Y中的同義詞，并進(jìn)行替換。語義相似度計(jì)算公式如下
權(quán)利要求
1.一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，其特征在于包括以下步驟 (1)抽取資源內(nèi)容的語義特征信息，計(jì)算新添加內(nèi)容的特征項(xiàng)與語義基因的語義相似度； (2)基于用戶的交互操作數(shù)據(jù)，應(yīng)用信任評(píng)估模型計(jì)算用戶的信任度； (3 )綜合語義相似度和用戶信任度兩個(gè)指標(biāo)，判斷是否接受此次內(nèi)容編輯。
2.根據(jù)權(quán)利要求I所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，其特征在于在所述步驟(I)中的語義基因是指學(xué)習(xí)資源背后的內(nèi)在知識(shí)結(jié)構(gòu)，能夠反映資源所要表達(dá)的核心內(nèi)容，形式化表示為基于本體描述的帶有權(quán)重的概念集合以及概念間的語義關(guān)系。
3.根據(jù)權(quán)利要求I所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，其特征在于在所述步驟(I)中的語義基因提取方法為基于領(lǐng)域本體提取資源內(nèi)容的特征項(xiàng)；根據(jù)特征評(píng)價(jià)函數(shù)計(jì)算特征項(xiàng)的權(quán)重；將特征項(xiàng)映射為領(lǐng)域本體中的概念；基于語義網(wǎng)開源框架一 JENA框架提取概念在本體庫中存在的語義關(guān)系。
4.根據(jù)權(quán)利要求I所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，其特征在于在所述步驟(I)中的新添加內(nèi)容的特征項(xiàng)集與語義基因的語義相似度計(jì)算方法為應(yīng)用同義詞詞林將特征項(xiàng)集和語義基因中的同義詞進(jìn)行替換；采用余弦系數(shù)法計(jì)算語義相似度。
5.根據(jù)權(quán)利要求I所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，其特征在于在所述步驟(2)中的信任評(píng)估模型包含資源信任度和用戶信任度兩個(gè)核心部件；資源信任度依據(jù)直接信任度評(píng)價(jià)數(shù)據(jù)和間接信任度評(píng)價(jià)數(shù)據(jù)采用加權(quán)求和的方法計(jì)算得出，所述直接信任度評(píng)價(jià)數(shù)據(jù)是用戶直接對(duì)資源信任度進(jìn)行打分，所述間接信任度評(píng)價(jià)數(shù)據(jù)是用戶對(duì)資源的交互操作信息；用戶信任度依據(jù)用戶之間的交互信息和其創(chuàng)作知識(shí)的可信度采用加權(quán)求和的方法計(jì)算得出；資源信任度和用戶信任度之間相互影響，采用迭代逼近法交叉計(jì)算二者的彳目任度。
6.根據(jù)權(quán)利要求5所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，其特征在于所述的迭代逼近法是通過設(shè)定一個(gè)最大誤差值maX_eiT0r，通過多次的迭代計(jì)算，至到前后兩次計(jì)算結(jié)果中對(duì)應(yīng)的所有信任度之差的絕對(duì)值都小于maX_eir0r，才結(jié)束運(yùn)算，生成逼近真實(shí)的資源信任度和用戶信任度。
7.根據(jù)權(quán)利要求I所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，其特征在于在所述步驟(3)中的判斷是否接受此次內(nèi)容編輯的方法為設(shè)定一個(gè)內(nèi)容編輯能夠被接受的最低閾值A(chǔ)T ;對(duì)語義相似度和用戶信任度兩個(gè)指標(biāo)采用加權(quán)求和法；若計(jì)算結(jié)果大于或等于AT，則接受此次內(nèi)容編輯；否則，拒絕此次內(nèi)容編輯。
8.根據(jù)權(quán)利要求4所述的一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，其特征在于所述同義詞詞林為哈工大擴(kuò)展版的同義詞詞林。
全文摘要
一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法，包括以下步驟(1)抽取資源內(nèi)容的語義特征信息，計(jì)算新添加內(nèi)容的特征項(xiàng)集與語義基因的語義相似度；(2)基于用戶在開放知識(shí)社區(qū)中的交互操作數(shù)據(jù)，應(yīng)用信任評(píng)估模型計(jì)算用戶的信任度；(3)綜合語義相似度和用戶信任度兩個(gè)指標(biāo)，判斷是否自動(dòng)接受或拒絕此次內(nèi)容編輯。本發(fā)明的內(nèi)容編輯智能審核方法，可以有效減輕開放知識(shí)社區(qū)中人工審核內(nèi)容編輯的負(fù)擔(dān)，且具有較高的準(zhǔn)確率。
文檔編號(hào)G06F17/24GK102681979SQ201210150808
公開日2012年9月19日申請(qǐng)日期2012年5月15日優(yōu)先權(quán)日2012年5月15日
發(fā)明者余勝泉, 楊現(xiàn)民申請(qǐng)人:北京師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊現(xiàn)民;余勝泉
技術(shù)所有人：北京師范大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

愛迪幫智能編輯器相關(guān)技術(shù)

智能編輯器相關(guān)技術(shù)

智能圖像不能直接編輯相關(guān)技術(shù)

無法編輯原始智能對(duì)象相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向開放知識(shí)社區(qū)的內(nèi)容編輯智能審核方法