基于人工智能的新聞質(zhì)量判斷方法、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：11199334閱讀：935來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于人工智能的新聞質(zhì)量判斷方法、設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明實(shí)施例涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，尤其涉及一種基于人工智能的新聞質(zhì)量判斷方法、設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

人工智能(artificialintelligence)，英文縮寫為ai。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支，它企圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器，該領(lǐng)域的研究包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等。

近期百度借助自然語言處理技術(shù)帶來了“交互新聞”，實(shí)現(xiàn)了更加智能和自然的內(nèi)容組織及閱讀體驗(yàn)。推出交互新聞的目的是向用戶推薦高質(zhì)量的有價(jià)值的新聞，因此就需要對(duì)新聞進(jìn)行質(zhì)量判斷，從而過濾掉低質(zhì)量的新聞(例如，廣告、色情或軟文等)。

目前，主要是通過對(duì)大量的新聞進(jìn)行人工規(guī)則提取，然后采用規(guī)則匹配的方法來過濾掉低質(zhì)量的新聞。而低質(zhì)量新聞的表現(xiàn)各不相同，例如軟文，是由企業(yè)的市場策劃人員或廣告公司的文案人員來負(fù)責(zé)撰寫的“文字廣告”。使宣傳內(nèi)容和文章內(nèi)容完美結(jié)合在一起，讓用戶在閱讀文章時(shí)候能夠了解策劃人所要宣傳的東西。對(duì)于軟文這種高質(zhì)量的廣告，從簡單的規(guī)則匹配是很難進(jìn)行區(qū)分的。因此單純的人工規(guī)則提取，不僅消耗大量的人力，而且提取的規(guī)則很難覆蓋到所有的低質(zhì)量新聞，從而導(dǎo)致新聞質(zhì)量判斷效率較低，且準(zhǔn)確性較低。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明實(shí)施例提供一種基于人工智能的新聞質(zhì)量判斷方法、設(shè)備及存儲(chǔ)介質(zhì)，可以提高新聞質(zhì)量判斷效率和準(zhǔn)確性。

第一方面，本發(fā)明實(shí)施例提供了一種基于人工智能的新聞質(zhì)量判斷方法，該方法包括：

根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型；

采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。

第二方面，本發(fā)明實(shí)施例還提供了一種基于人工智能的新聞質(zhì)量判斷裝置，該裝置包括：

模型構(gòu)建模塊，用于根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型；

質(zhì)量判斷模塊，用于采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。

第三方面，本發(fā)明實(shí)施例還提供了一種設(shè)備，包括：

一個(gè)或多個(gè)處理器；

存儲(chǔ)裝置，用于存儲(chǔ)一個(gè)或多個(gè)程序，

當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行，使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)本發(fā)明實(shí)施例任一所述的基于人工智能的新聞質(zhì)量判斷方法。

第四方面，本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明實(shí)施例任一所述的基于人工智能的新聞質(zhì)量判斷方法。

本發(fā)明實(shí)施例通過根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型，并采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷，使新聞質(zhì)量判斷過程更加智能化，可以提高新聞質(zhì)量判斷效率和準(zhǔn)確性。

附圖說明

圖1是本發(fā)明實(shí)施例一提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖；

圖2是本發(fā)明實(shí)施例二提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖；

圖3是本發(fā)明實(shí)施例三提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖；

圖4是本發(fā)明實(shí)施例四提供的一種基于人工智能的新聞質(zhì)量判斷裝置的結(jié)構(gòu)圖；

圖5是本發(fā)明實(shí)施例五提供的一種計(jì)算機(jī)設(shè)備的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖對(duì)本發(fā)明具體實(shí)施例作進(jìn)一步的詳細(xì)描述?？梢岳斫獾氖?，此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明，而非對(duì)本發(fā)明的限定。

另外還需要說明的是，為了便于描述，附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是，一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理，但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外，各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止，但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。

實(shí)施例一

圖1為本發(fā)明實(shí)施例一提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖，本實(shí)施例可適用于新聞質(zhì)量判斷的情況，該方法可以由本發(fā)明實(shí)施例提供的基于人工智能的新聞質(zhì)量判斷裝置來執(zhí)行，該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn)，該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中，終端設(shè)備可以為但不限于為移動(dòng)終端(平板電腦或智能手機(jī))、固定終端(臺(tái)式電腦或筆記本)。

其中，應(yīng)用端可以為內(nèi)嵌于終端設(shè)備中的某個(gè)客戶端的插件，或者為所述終端設(shè)備的操作系統(tǒng)的插件，與內(nèi)嵌于終端設(shè)備中的基于人工智能的新聞質(zhì)量判斷的客戶端或者終端設(shè)備的操作系統(tǒng)中的基于人工智能的新聞質(zhì)量判斷應(yīng)用程序配合使用；應(yīng)用端也可以為所述終端設(shè)備中一個(gè)獨(dú)立的可提供基于人工智能的新聞質(zhì)量判斷的客戶端，本實(shí)施例對(duì)此不進(jìn)行限制。

如圖1所述，本實(shí)施例的方法具體包括：

s101、根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型。

其中，已知高質(zhì)量新聞為未包含廣告、色情、黃反等內(nèi)容的新聞，低質(zhì)量新聞為包含廣告、色情、黃反等內(nèi)容的新聞。具體的，可通過人工判斷的方式獲取至少一個(gè)高質(zhì)量新聞作為已知高質(zhì)量新聞，和/或獲取至少一個(gè)低質(zhì)量新聞作為已知低質(zhì)量新聞。

其中，新聞特征可以包含以下至少一項(xiàng)信息：詞頻信息、詞性信息、專有名稱信息和情感特征。其中，詞頻信息為單詞在整篇新聞的標(biāo)題和/或內(nèi)容中出現(xiàn)的次數(shù)，詞性信息為整篇新聞的詞性標(biāo)注，例如，形容詞、名稱、動(dòng)詞和副詞等，專有名稱為出現(xiàn)在新聞中的品牌、人名、公司名稱或產(chǎn)品名稱等，情感特征是新聞撰寫者所表達(dá)出的情感傾向，例如對(duì)某個(gè)品牌的贊美或詆毀等。

針對(duì)高質(zhì)量新聞，必然對(duì)應(yīng)有獨(dú)特的新聞特征，對(duì)于低質(zhì)量新聞，也必然對(duì)應(yīng)有獨(dú)特的新聞特征，因此，根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型，可以更厚的區(qū)分新聞質(zhì)量。

s102、采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。

具體的，可將待檢測新聞或提取的待檢測新聞的新聞特征輸入新聞質(zhì)量分類模型中進(jìn)行訓(xùn)練學(xué)習(xí)，所述新聞質(zhì)量分類模型會(huì)直接輸出分類結(jié)果，根據(jù)該分類結(jié)果即可確定待檢測新聞是高質(zhì)量新聞還是低質(zhì)量新聞。

本實(shí)施例通過根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型，并采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷，使新聞質(zhì)量判斷過程更加智能化，可以提高新聞質(zhì)量判斷效率和準(zhǔn)確性。

實(shí)施例二

圖2是本發(fā)明實(shí)施例二提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化，在本實(shí)施例中，將所述根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型進(jìn)一步優(yōu)化為：根據(jù)預(yù)先設(shè)定的新聞質(zhì)量判斷規(guī)則，從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取候選新聞特征；從所述候選新聞特征中選取具有表征新聞質(zhì)量區(qū)分度的新聞特征作為訓(xùn)練數(shù)據(jù)，并根據(jù)已知的新聞質(zhì)量等級(jí)對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記；采用機(jī)器學(xué)習(xí)分類算法對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)，得到所述新聞質(zhì)量分類模型。

相應(yīng)的，本實(shí)施例的方法具體包括：

s201、根據(jù)預(yù)先設(shè)定的新聞質(zhì)量判斷規(guī)則，從已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取候選新聞特征。

其中，所述新聞質(zhì)量判斷規(guī)則可包括一下至少一項(xiàng)：是否包含品牌信息、是否包含產(chǎn)品信息、新聞宣傳意圖、品牌名稱和/或產(chǎn)品名稱在文章中出現(xiàn)的頻率、用詞表意是否積極正面、用詞風(fēng)格是否夸張。

可預(yù)先根據(jù)編輯標(biāo)注的高質(zhì)量新聞和低質(zhì)量新聞各500篇進(jìn)行分析統(tǒng)計(jì)，主要是判斷新聞中出現(xiàn)的品牌或產(chǎn)品宣傳意圖，如果某個(gè)品牌或產(chǎn)品名在文章中的出現(xiàn)頻率很高，一般會(huì)高于正規(guī)的新聞報(bào)道，那么就判斷該新聞為低質(zhì)量新聞。或者，某新聞內(nèi)容用詞上形容詞稍多，動(dòng)詞和形容詞的表意很積極正面，風(fēng)格略顯夸張，比如軟文就很喜歡用創(chuàng)新、突破、卓越、超級(jí)、全面、顛覆這類詞匯，那么該新聞也確定為低質(zhì)量新聞。以上兩點(diǎn)是能夠進(jìn)行比較機(jī)械判斷新聞質(zhì)量的規(guī)則?；蛘撸钞a(chǎn)品軟文還可能在文章中同時(shí)打擊一下別的競品，回避自己產(chǎn)品眾所周知的問題與質(zhì)疑，甚至在宣傳中為了突出自家產(chǎn)品而表達(dá)了悖公眾常識(shí)的信息，那么該新聞也確定為低質(zhì)量新聞。反之，則為高質(zhì)量新聞?；谏鲜雠袛嘁?guī)則，從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取候選新聞特征。

s202、從所述候選新聞特征中選取具有表征新聞質(zhì)量區(qū)分度的新聞特征作為訓(xùn)練數(shù)據(jù)，并根據(jù)已知的新聞質(zhì)量等級(jí)對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記。

其中，實(shí)現(xiàn)本步驟的一種實(shí)施方式是，計(jì)算各候選新聞特征的熵；根據(jù)所述各候選新聞特征的熵，從所述候選新聞特征中選取具有表征新聞質(zhì)量區(qū)分度的新聞特征作為訓(xùn)練數(shù)據(jù)。

例如，采用公式計(jì)算各候選新聞特征的熵，其中，n取值為已知高質(zhì)量新聞和/或已知低質(zhì)量新聞，i取值為n，pi為單詞或詞組p在已知高質(zhì)量新聞的所有候選新聞特征中的概率或在已知低質(zhì)量新聞的所有候選新聞特征中的概率。由于熵是描述客觀事物無序性的參數(shù)，熵越大，事件的不確定性越大。所以相對(duì)于表征能力來說，熵越大，則表征能力越差，區(qū)分度越小。所以按照各個(gè)新聞特征個(gè)數(shù)可以分別選取出每個(gè)新聞特征中最具有區(qū)分度(熵最小)的詞。

s203、采用機(jī)器學(xué)習(xí)分類算法對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)，得到所述新聞質(zhì)量分類模型。

其中，可采用的機(jī)器學(xué)習(xí)分類算法為支持向量機(jī)(supportvectormachine，svm)學(xué)習(xí)模型。

s204、采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。

本實(shí)施例通過根據(jù)大量的已知新聞質(zhì)量的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)來構(gòu)建新聞質(zhì)量分類模型，并采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷，可以有效的識(shí)別出軟文等這些高質(zhì)量的廣告新聞，使新聞質(zhì)量判斷過程更加智能化，可以進(jìn)一步提高新聞質(zhì)量判斷效率和準(zhǔn)確性。

實(shí)施例三

圖3是本發(fā)明實(shí)施例三提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化，在本實(shí)施例中，將所述從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取候選新聞特征進(jìn)一步優(yōu)化為：從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取以下至少一項(xiàng)特性信息作為所述候選新聞特征：詞頻信息、詞性信息、專有名稱信息和情感特征。

相應(yīng)的，本實(shí)施例的方法具體包括：

s301、從已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取以下至少一項(xiàng)特性信息作為候選新聞特征：詞頻信息、詞性信息、專有名稱信息和情感特征。

具體的，可從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取詞語和/或詞組，并統(tǒng)計(jì)所述詞語和/或詞組在標(biāo)題域中的詞頻信息。例如，由于一篇新聞中詞數(shù)太多，為了節(jié)省計(jì)算量，可只選擇標(biāo)題title域來統(tǒng)計(jì)詞頻，因?yàn)閠itle域有些已經(jīng)涵蓋了要宣傳的產(chǎn)品的名稱和宣傳意圖。為了避免漏掉有些冷門具有表意能力的詞語被切散，所以對(duì)單詞和詞組一起進(jìn)行統(tǒng)計(jì)，得到詞頻信息。

和/或，可從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞的內(nèi)容域提取具有表意能力的詞語或詞組；對(duì)所述詞語或詞組中包含的詞語進(jìn)行詞性標(biāo)注，得到所述詞性信息。例如，由于軟文在用詞上形容詞稍多，動(dòng)詞和形容詞的表意很積極正面，所以對(duì)內(nèi)容content域進(jìn)行詞性標(biāo)注，然后選取出能有表意能力的形容詞、名詞、動(dòng)詞等詞組成詞性信息，例如為(a，ad，an，n，nr，nt，nx，nz，ag)。其中，a為形容詞、ad為副詞、an為名形詞(具有名詞功能的形容詞)，n為名詞、nr為人名，nt為機(jī)構(gòu)團(tuán)體名、nx為外文專名、nz為其他專名、ag為形容詞語素。如果兩個(gè)名詞或者形容詞相連，則使兩個(gè)相連的單詞組成一個(gè)詞組。最后根據(jù)選出的所有單詞和詞組計(jì)算詞性信息。

和/或，對(duì)所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞的內(nèi)容域進(jìn)行專有名稱識(shí)別，由識(shí)別出的專有名稱組成專有名稱信息。例如，由于專有名詞可以識(shí)別出一篇新聞中所有的公司名和產(chǎn)品名，所以對(duì)content域進(jìn)行專有名詞進(jìn)行識(shí)別。

和/或，對(duì)所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中包含的語句進(jìn)行識(shí)別，統(tǒng)計(jì)出正向情感句子的個(gè)數(shù)、中立情感句子的個(gè)數(shù)和負(fù)向情感句子的個(gè)數(shù)中的至少一項(xiàng)作為情感特征。例如，由于軟文中會(huì)著重宣傳自己產(chǎn)品，所以新聞中會(huì)包含的正向情感的句子會(huì)比負(fù)向的情感的句子多。所以優(yōu)選把一篇新聞中的正向、中立和負(fù)向的句子的個(gè)數(shù)作為三維特征作為情感偏好的特征。

s302、從所述候選新聞特征中選取具有表征新聞質(zhì)量區(qū)分度的新聞特征作為訓(xùn)練數(shù)據(jù)，并根據(jù)已知的新聞質(zhì)量等級(jí)對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記。

s303、采用機(jī)器學(xué)習(xí)分類算法對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)，得到所述新聞質(zhì)量分類模型。

s304、采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。

本實(shí)施例通過提取已知新聞質(zhì)量的詞頻信息、詞性信息、專有名稱信息和情感特征，并訓(xùn)練得到新聞質(zhì)量分類模型，采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷，可以有效的識(shí)別出軟文等這些高質(zhì)量的廣告新聞，使新聞質(zhì)量判斷過程更加智能化，可以進(jìn)一步提高新聞質(zhì)量判斷效率和準(zhǔn)確性。

實(shí)施例四

圖4為本發(fā)明實(shí)施例四提供的一種基于人工智能的新聞質(zhì)量判斷裝置的結(jié)構(gòu)圖，本實(shí)施例可適用于新聞質(zhì)量判斷的情況，該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn)，該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中，終端設(shè)備可以為但不限于為移動(dòng)終端(平板電腦或智能手機(jī))、固定終端(臺(tái)式電腦或筆記本)。

如圖4所示，所述裝置包括：模型構(gòu)建模塊401和質(zhì)量判斷模塊402，其中：

模型構(gòu)建模塊401用于根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型；

質(zhì)量判斷模塊402用于采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。

本實(shí)施例的基于人工智能的新聞質(zhì)量判斷裝置用于執(zhí)行上述各實(shí)施例的基于人工智能的新聞質(zhì)量判斷方法，其技術(shù)原理和產(chǎn)生的技術(shù)效果類似，這里不再贅述。

在上述各實(shí)施例的基礎(chǔ)上，所述模型構(gòu)建模塊401包括：特征提取單元4011、訓(xùn)練數(shù)據(jù)選擇單元4012和模型訓(xùn)練單元4013；

特征提取單元4011用于根據(jù)預(yù)先設(shè)定的新聞質(zhì)量判斷規(guī)則，從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取候選新聞特征；

訓(xùn)練數(shù)據(jù)選擇單元4012用于從所述候選新聞特征中選取具有表征新聞質(zhì)量區(qū)分度的新聞特征作為訓(xùn)練數(shù)據(jù)，并根據(jù)已知的新聞質(zhì)量等級(jí)對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記；

模型訓(xùn)練單元4013用于采用機(jī)器學(xué)習(xí)分類算法對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)，得到所述新聞質(zhì)量分類模型。