本發(fā)明實(shí)施例涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的新聞質(zhì)量判斷方法、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
人工智能(artificialintelligence),英文縮寫為ai。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等。
近期百度借助自然語言處理技術(shù)帶來了“交互新聞”,實(shí)現(xiàn)了更加智能和自然的內(nèi)容組織及閱讀體驗(yàn)。推出交互新聞的目的是向用戶推薦高質(zhì)量的有價(jià)值的新聞,因此就需要對(duì)新聞進(jìn)行質(zhì)量判斷,從而過濾掉低質(zhì)量的新聞(例如,廣告、色情或軟文等)。
目前,主要是通過對(duì)大量的新聞進(jìn)行人工規(guī)則提取,然后采用規(guī)則匹配的方法來過濾掉低質(zhì)量的新聞。而低質(zhì)量新聞的表現(xiàn)各不相同,例如軟文,是由企業(yè)的市場策劃人員或廣告公司的文案人員來負(fù)責(zé)撰寫的“文字廣告”。使宣傳內(nèi)容和文章內(nèi)容完美結(jié)合在一起,讓用戶在閱讀文章時(shí)候能夠了解策劃人所要宣傳的東西。對(duì)于軟文這種高質(zhì)量的廣告,從簡單的規(guī)則匹配是很難進(jìn)行區(qū)分的。因此單純的人工規(guī)則提取,不僅消耗大量的人力,而且提取的規(guī)則很難覆蓋到所有的低質(zhì)量新聞,從而導(dǎo)致新聞質(zhì)量判斷效率較低,且準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種基于人工智能的新聞質(zhì)量判斷方法、設(shè)備及存儲(chǔ)介質(zhì),可以提高新聞質(zhì)量判斷效率和準(zhǔn)確性。
第一方面,本發(fā)明實(shí)施例提供了一種基于人工智能的新聞質(zhì)量判斷方法,該方法包括:
根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型;
采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。
第二方面,本發(fā)明實(shí)施例還提供了一種基于人工智能的新聞質(zhì)量判斷裝置,該裝置包括:
模型構(gòu)建模塊,用于根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型;
質(zhì)量判斷模塊,用于采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。
第三方面,本發(fā)明實(shí)施例還提供了一種設(shè)備,包括:
一個(gè)或多個(gè)處理器;
存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,
當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)本發(fā)明實(shí)施例任一所述的基于人工智能的新聞質(zhì)量判斷方法。
第四方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明實(shí)施例任一所述的基于人工智能的新聞質(zhì)量判斷方法。
本發(fā)明實(shí)施例通過根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型,并采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷,使新聞質(zhì)量判斷過程更加智能化,可以提高新聞質(zhì)量判斷效率和準(zhǔn)確性。
附圖說明
圖1是本發(fā)明實(shí)施例一提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖;
圖2是本發(fā)明實(shí)施例二提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖;
圖3是本發(fā)明實(shí)施例三提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖;
圖4是本發(fā)明實(shí)施例四提供的一種基于人工智能的新聞質(zhì)量判斷裝置的結(jié)構(gòu)圖;
圖5是本發(fā)明實(shí)施例五提供的一種計(jì)算機(jī)設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明具體實(shí)施例作進(jìn)一步的詳細(xì)描述??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。
另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
實(shí)施例一
圖1為本發(fā)明實(shí)施例一提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖,本實(shí)施例可適用于新聞質(zhì)量判斷的情況,該方法可以由本發(fā)明實(shí)施例提供的基于人工智能的新聞質(zhì)量判斷裝置來執(zhí)行,該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn),該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中,終端設(shè)備可以為但不限于為移動(dòng)終端(平板電腦或智能手機(jī))、固定終端(臺(tái)式電腦或筆記本)。
其中,應(yīng)用端可以為內(nèi)嵌于終端設(shè)備中的某個(gè)客戶端的插件,或者為所述終端設(shè)備的操作系統(tǒng)的插件,與內(nèi)嵌于終端設(shè)備中的基于人工智能的新聞質(zhì)量判斷的客戶端或者終端設(shè)備的操作系統(tǒng)中的基于人工智能的新聞質(zhì)量判斷應(yīng)用程序配合使用;應(yīng)用端也可以為所述終端設(shè)備中一個(gè)獨(dú)立的可提供基于人工智能的新聞質(zhì)量判斷的客戶端,本實(shí)施例對(duì)此不進(jìn)行限制。
如圖1所述,本實(shí)施例的方法具體包括:
s101、根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型。
其中,已知高質(zhì)量新聞為未包含廣告、色情、黃反等內(nèi)容的新聞,低質(zhì)量新聞為包含廣告、色情、黃反等內(nèi)容的新聞。具體的,可通過人工判斷的方式獲取至少一個(gè)高質(zhì)量新聞作為已知高質(zhì)量新聞,和/或獲取至少一個(gè)低質(zhì)量新聞作為已知低質(zhì)量新聞。
其中,新聞特征可以包含以下至少一項(xiàng)信息:詞頻信息、詞性信息、專有名稱信息和情感特征。其中,詞頻信息為單詞在整篇新聞的標(biāo)題和/或內(nèi)容中出現(xiàn)的次數(shù),詞性信息為整篇新聞的詞性標(biāo)注,例如,形容詞、名稱、動(dòng)詞和副詞等,專有名稱為出現(xiàn)在新聞中的品牌、人名、公司名稱或產(chǎn)品名稱等,情感特征是新聞撰寫者所表達(dá)出的情感傾向,例如對(duì)某個(gè)品牌的贊美或詆毀等。
針對(duì)高質(zhì)量新聞,必然對(duì)應(yīng)有獨(dú)特的新聞特征,對(duì)于低質(zhì)量新聞,也必然對(duì)應(yīng)有獨(dú)特的新聞特征,因此,根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型,可以更厚的區(qū)分新聞質(zhì)量。
s102、采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。
具體的,可將待檢測新聞或提取的待檢測新聞的新聞特征輸入新聞質(zhì)量分類模型中進(jìn)行訓(xùn)練學(xué)習(xí),所述新聞質(zhì)量分類模型會(huì)直接輸出分類結(jié)果,根據(jù)該分類結(jié)果即可確定待檢測新聞是高質(zhì)量新聞還是低質(zhì)量新聞。
本實(shí)施例通過根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型,并采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷,使新聞質(zhì)量判斷過程更加智能化,可以提高新聞質(zhì)量判斷效率和準(zhǔn)確性。
實(shí)施例二
圖2是本發(fā)明實(shí)施例二提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,將所述根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型進(jìn)一步優(yōu)化為:根據(jù)預(yù)先設(shè)定的新聞質(zhì)量判斷規(guī)則,從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取候選新聞特征;從所述候選新聞特征中選取具有表征新聞質(zhì)量區(qū)分度的新聞特征作為訓(xùn)練數(shù)據(jù),并根據(jù)已知的新聞質(zhì)量等級(jí)對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記;采用機(jī)器學(xué)習(xí)分類算法對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),得到所述新聞質(zhì)量分類模型。
相應(yīng)的,本實(shí)施例的方法具體包括:
s201、根據(jù)預(yù)先設(shè)定的新聞質(zhì)量判斷規(guī)則,從已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取候選新聞特征。
其中,所述新聞質(zhì)量判斷規(guī)則可包括一下至少一項(xiàng):是否包含品牌信息、是否包含產(chǎn)品信息、新聞宣傳意圖、品牌名稱和/或產(chǎn)品名稱在文章中出現(xiàn)的頻率、用詞表意是否積極正面、用詞風(fēng)格是否夸張。
可預(yù)先根據(jù)編輯標(biāo)注的高質(zhì)量新聞和低質(zhì)量新聞各500篇進(jìn)行分析統(tǒng)計(jì),主要是判斷新聞中出現(xiàn)的品牌或產(chǎn)品宣傳意圖,如果某個(gè)品牌或產(chǎn)品名在文章中的出現(xiàn)頻率很高,一般會(huì)高于正規(guī)的新聞報(bào)道,那么就判斷該新聞為低質(zhì)量新聞。或者,某新聞內(nèi)容用詞上形容詞稍多,動(dòng)詞和形容詞的表意很積極正面,風(fēng)格略顯夸張,比如軟文就很喜歡用創(chuàng)新、突破、卓越、超級(jí)、全面、顛覆這類詞匯,那么該新聞也確定為低質(zhì)量新聞。以上兩點(diǎn)是能夠進(jìn)行比較機(jī)械判斷新聞質(zhì)量的規(guī)則?;蛘撸钞a(chǎn)品軟文還可能在文章中同時(shí)打擊一下別的競品,回避自己產(chǎn)品眾所周知的問題與質(zhì)疑,甚至在宣傳中為了突出自家產(chǎn)品而表達(dá)了悖公眾常識(shí)的信息,那么該新聞也確定為低質(zhì)量新聞。反之,則為高質(zhì)量新聞?;谏鲜雠袛嘁?guī)則,從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取候選新聞特征。
s202、從所述候選新聞特征中選取具有表征新聞質(zhì)量區(qū)分度的新聞特征作為訓(xùn)練數(shù)據(jù),并根據(jù)已知的新聞質(zhì)量等級(jí)對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記。
其中,實(shí)現(xiàn)本步驟的一種實(shí)施方式是,計(jì)算各候選新聞特征的熵;根據(jù)所述各候選新聞特征的熵,從所述候選新聞特征中選取具有表征新聞質(zhì)量區(qū)分度的新聞特征作為訓(xùn)練數(shù)據(jù)。
例如,采用公式
s203、采用機(jī)器學(xué)習(xí)分類算法對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),得到所述新聞質(zhì)量分類模型。
其中,可采用的機(jī)器學(xué)習(xí)分類算法為支持向量機(jī)(supportvectormachine,svm)學(xué)習(xí)模型。
s204、采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。
本實(shí)施例通過根據(jù)大量的已知新聞質(zhì)量的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)來構(gòu)建新聞質(zhì)量分類模型,并采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷,可以有效的識(shí)別出軟文等這些高質(zhì)量的廣告新聞,使新聞質(zhì)量判斷過程更加智能化,可以進(jìn)一步提高新聞質(zhì)量判斷效率和準(zhǔn)確性。
實(shí)施例三
圖3是本發(fā)明實(shí)施例三提供的一種基于人工智能的新聞質(zhì)量判斷方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,將所述從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取候選新聞特征進(jìn)一步優(yōu)化為:從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取以下至少一項(xiàng)特性信息作為所述候選新聞特征:詞頻信息、詞性信息、專有名稱信息和情感特征。
相應(yīng)的,本實(shí)施例的方法具體包括:
s301、從已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取以下至少一項(xiàng)特性信息作為候選新聞特征:詞頻信息、詞性信息、專有名稱信息和情感特征。
具體的,可從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取詞語和/或詞組,并統(tǒng)計(jì)所述詞語和/或詞組在標(biāo)題域中的詞頻信息。例如,由于一篇新聞中詞數(shù)太多,為了節(jié)省計(jì)算量,可只選擇標(biāo)題title域來統(tǒng)計(jì)詞頻,因?yàn)閠itle域有些已經(jīng)涵蓋了要宣傳的產(chǎn)品的名稱和宣傳意圖。為了避免漏掉有些冷門具有表意能力的詞語被切散,所以對(duì)單詞和詞組一起進(jìn)行統(tǒng)計(jì),得到詞頻信息。
和/或,可從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞的內(nèi)容域提取具有表意能力的詞語或詞組;對(duì)所述詞語或詞組中包含的詞語進(jìn)行詞性標(biāo)注,得到所述詞性信息。例如,由于軟文在用詞上形容詞稍多,動(dòng)詞和形容詞的表意很積極正面,所以對(duì)內(nèi)容content域進(jìn)行詞性標(biāo)注,然后選取出能有表意能力的形容詞、名詞、動(dòng)詞等詞組成詞性信息,例如為(a,ad,an,n,nr,nt,nx,nz,ag)。其中,a為形容詞、ad為副詞、an為名形詞(具有名詞功能的形容詞),n為名詞、nr為人名,nt為機(jī)構(gòu)團(tuán)體名、nx為外文專名、nz為其他專名、ag為形容詞語素。如果兩個(gè)名詞或者形容詞相連,則使兩個(gè)相連的單詞組成一個(gè)詞組。最后根據(jù)選出的所有單詞和詞組計(jì)算詞性信息。
和/或,對(duì)所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞的內(nèi)容域進(jìn)行專有名稱識(shí)別,由識(shí)別出的專有名稱組成專有名稱信息。例如,由于專有名詞可以識(shí)別出一篇新聞中所有的公司名和產(chǎn)品名,所以對(duì)content域進(jìn)行專有名詞進(jìn)行識(shí)別。
和/或,對(duì)所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中包含的語句進(jìn)行識(shí)別,統(tǒng)計(jì)出正向情感句子的個(gè)數(shù)、中立情感句子的個(gè)數(shù)和負(fù)向情感句子的個(gè)數(shù)中的至少一項(xiàng)作為情感特征。例如,由于軟文中會(huì)著重宣傳自己產(chǎn)品,所以新聞中會(huì)包含的正向情感的句子會(huì)比負(fù)向的情感的句子多。所以優(yōu)選把一篇新聞中的正向、中立和負(fù)向的句子的個(gè)數(shù)作為三維特征作為情感偏好的特征。
s302、從所述候選新聞特征中選取具有表征新聞質(zhì)量區(qū)分度的新聞特征作為訓(xùn)練數(shù)據(jù),并根據(jù)已知的新聞質(zhì)量等級(jí)對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記。
s303、采用機(jī)器學(xué)習(xí)分類算法對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),得到所述新聞質(zhì)量分類模型。
s304、采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。
本實(shí)施例通過提取已知新聞質(zhì)量的詞頻信息、詞性信息、專有名稱信息和情感特征,并訓(xùn)練得到新聞質(zhì)量分類模型,采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷,可以有效的識(shí)別出軟文等這些高質(zhì)量的廣告新聞,使新聞質(zhì)量判斷過程更加智能化,可以進(jìn)一步提高新聞質(zhì)量判斷效率和準(zhǔn)確性。
實(shí)施例四
圖4為本發(fā)明實(shí)施例四提供的一種基于人工智能的新聞質(zhì)量判斷裝置的結(jié)構(gòu)圖,本實(shí)施例可適用于新聞質(zhì)量判斷的情況,該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn),該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中,終端設(shè)備可以為但不限于為移動(dòng)終端(平板電腦或智能手機(jī))、固定終端(臺(tái)式電腦或筆記本)。
其中,應(yīng)用端可以為內(nèi)嵌于終端設(shè)備中的某個(gè)客戶端的插件,或者為所述終端設(shè)備的操作系統(tǒng)的插件,與內(nèi)嵌于終端設(shè)備中的基于人工智能的新聞質(zhì)量判斷的客戶端或者終端設(shè)備的操作系統(tǒng)中的基于人工智能的新聞質(zhì)量判斷應(yīng)用程序配合使用;應(yīng)用端也可以為所述終端設(shè)備中一個(gè)獨(dú)立的可提供基于人工智能的新聞質(zhì)量判斷的客戶端,本實(shí)施例對(duì)此不進(jìn)行限制。
如圖4所示,所述裝置包括:模型構(gòu)建模塊401和質(zhì)量判斷模塊402,其中:
模型構(gòu)建模塊401用于根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型;
質(zhì)量判斷模塊402用于采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。
本實(shí)施例的基于人工智能的新聞質(zhì)量判斷裝置用于執(zhí)行上述各實(shí)施例的基于人工智能的新聞質(zhì)量判斷方法,其技術(shù)原理和產(chǎn)生的技術(shù)效果類似,這里不再贅述。
在上述各實(shí)施例的基礎(chǔ)上,所述模型構(gòu)建模塊401包括:特征提取單元4011、訓(xùn)練數(shù)據(jù)選擇單元4012和模型訓(xùn)練單元4013;
特征提取單元4011用于根據(jù)預(yù)先設(shè)定的新聞質(zhì)量判斷規(guī)則,從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取候選新聞特征;
訓(xùn)練數(shù)據(jù)選擇單元4012用于從所述候選新聞特征中選取具有表征新聞質(zhì)量區(qū)分度的新聞特征作為訓(xùn)練數(shù)據(jù),并根據(jù)已知的新聞質(zhì)量等級(jí)對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記;
模型訓(xùn)練單元4013用于采用機(jī)器學(xué)習(xí)分類算法對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),得到所述新聞質(zhì)量分類模型。
在上述各實(shí)施例的基礎(chǔ)上,所述特征提取單元4011具體用于:
從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取以下至少一項(xiàng)特性信息作為所述候選新聞特征:詞頻信息、詞性信息、專有名稱信息和情感特征。
在上述各實(shí)施例的基礎(chǔ)上,所述特征提取單元4011具體用于:
從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中提取詞語和/或詞組,并統(tǒng)計(jì)所述詞語和/或詞組在標(biāo)題域中的詞頻信息。
在上述各實(shí)施例的基礎(chǔ)上,所述特征提取單元4011具體用于:
從所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞的內(nèi)容域提取具有表意能力的詞語或詞組;對(duì)所述詞語或詞組中包含的詞語進(jìn)行詞性標(biāo)注,得到所述詞性信息。
在上述各實(shí)施例的基礎(chǔ)上,所述特征提取單元4011具體用于:
對(duì)所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞的內(nèi)容域進(jìn)行專有名稱識(shí)別,由識(shí)別出的專有名稱組成專有名稱信息。
在上述各實(shí)施例的基礎(chǔ)上,所述特征提取單元4011具體用于:
對(duì)所述已知高質(zhì)量新聞和/或已知低質(zhì)量新聞中包含的語句進(jìn)行識(shí)別,統(tǒng)計(jì)出正向情感句子的個(gè)數(shù)、中立情感句子的個(gè)數(shù)和負(fù)向情感句子的個(gè)數(shù)中的至少一項(xiàng)作為情感特征。
在上述各實(shí)施例的基礎(chǔ)上,所述訓(xùn)練數(shù)據(jù)選擇單元4012具體用于:
計(jì)算各候選新聞特征的熵;根據(jù)所述各候選新聞特征的熵,從所述候選新聞特征中選取具有表征新聞質(zhì)量區(qū)分度的新聞特征作為訓(xùn)練數(shù)據(jù)。
在上述各實(shí)施例的基礎(chǔ)上,所述新聞質(zhì)量判斷規(guī)則包括一下至少一項(xiàng):
是否包含品牌信息、是否包含產(chǎn)品信息、新聞宣傳意圖、品牌名稱和/或產(chǎn)品名稱在文章中出現(xiàn)的頻率、用詞表意是否積極正面、用詞風(fēng)格是否夸張。
上述各實(shí)施例所提供的基于人工智能的新聞質(zhì)量判斷裝置可執(zhí)行本發(fā)明任意實(shí)施例所提供的基于人工智能的新聞質(zhì)量判斷方法,具備執(zhí)行基于人工智能的新聞質(zhì)量判斷方法相應(yīng)的功能模塊和有益效果。
實(shí)施例五
圖5為本發(fā)明實(shí)施例五提供的一種設(shè)備的結(jié)構(gòu)示意圖。圖5示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)設(shè)備12的框圖。圖5顯示的計(jì)算機(jī)設(shè)備12僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
如圖5所示,計(jì)算機(jī)設(shè)備12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)設(shè)備12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器或者處理單元16,系統(tǒng)存儲(chǔ)器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器28和處理單元16)的總線18。
總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(vesa)局域總線以及外圍組件互連(pci)總線。
計(jì)算機(jī)設(shè)備12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)設(shè)備12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。
系統(tǒng)存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(ram)30和/或高速緩存存儲(chǔ)器32。計(jì)算機(jī)設(shè)備12可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖5未顯示,通常稱為“硬盤驅(qū)動(dòng)器”)。盡管圖5中未示出,可以提供用于對(duì)可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器,以及對(duì)可移動(dòng)非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲(chǔ)在例如存儲(chǔ)器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
計(jì)算機(jī)設(shè)備12也可以與一個(gè)或多個(gè)外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)設(shè)備12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)設(shè)備12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進(jìn)行。并且,計(jì)算機(jī)設(shè)備12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)設(shè)備12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)設(shè)備12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。
處理單元16通過運(yùn)行存儲(chǔ)在系統(tǒng)存儲(chǔ)器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的基于人工智能的新聞質(zhì)量判斷方法:
根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型;
采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。
實(shí)施例六
本發(fā)明實(shí)施例6還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本申請(qǐng)所有發(fā)明實(shí)施例提供的基于人工智能的新聞質(zhì)量判斷方法:
根據(jù)已知高質(zhì)量新聞的新聞特征和/或已知低質(zhì)量新聞的新聞特征構(gòu)建新聞質(zhì)量分類模型;
采用所述新聞質(zhì)量分類模型對(duì)待檢測新聞進(jìn)行質(zhì)量判斷。
本發(fā)明實(shí)施例的計(jì)算機(jī)存儲(chǔ)介質(zhì),可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于無線、電線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如“c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。