欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法與流程

文檔序號:11950232閱讀:581來源:國知局
基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法與流程

本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別涉及一種基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法。



背景技術(shù):

新詞發(fā)現(xiàn)作為自然語言處理領(lǐng)域的一項(xiàng)基礎(chǔ)研究,深受學(xué)術(shù)界乃至企業(yè)界的關(guān)注。隨著互聯(lián)網(wǎng)以及各種社交媒體的發(fā)展,涌現(xiàn)了大量的新詞,大量新詞的出現(xiàn)使得現(xiàn)有的分詞工具準(zhǔn)確率下降,據(jù)統(tǒng)計(jì),大約60%的分詞錯(cuò)誤是由于新詞導(dǎo)致的。相比傳統(tǒng)媒體,互聯(lián)網(wǎng)媒體成為人們關(guān)注時(shí)事熱點(diǎn),發(fā)表觀點(diǎn)的主要平臺,互聯(lián)網(wǎng)媒體(比如微博)傳播速度迅速,傳播群體廣泛,與之涌現(xiàn)的新詞也呈病毒傳染的態(tài)勢傳播,其中如“馬航”,“敬業(yè)?!?,“微信收費(fèi)”等,反映了民眾的態(tài)度與看法。通過有效地發(fā)現(xiàn)新詞,及時(shí)把握熱點(diǎn)事件的關(guān)鍵詞,對于熱點(diǎn)事件發(fā)現(xiàn)以及熱點(diǎn)事件預(yù)警監(jiān)控具有重大的意義。

P2P借貸是新興的一個(gè)金融服務(wù)行業(yè),在美國,LeadingClub成立于2007年,目前已經(jīng)是世界第一大借貸平臺。P2P借貸行業(yè)作為新興的行業(yè),包含大量新詞,同時(shí)更新頻率快,其中如“羊毛黨”,“微眾銀行”,“e租寶”,“跑路”等,這些新詞反映了P2P借貸行業(yè)的發(fā)展,在該領(lǐng)域進(jìn)行新詞發(fā)現(xiàn)具有一定的挑戰(zhàn)性。

在學(xué)術(shù)界,對于新詞還沒有一個(gè)明確的概念,在中文分詞領(lǐng)域,有新詞和未登錄詞兩種概念,未登錄詞就是當(dāng)前詞庫中“未登錄”的詞,新詞屬于未登錄詞的一種。目前新詞發(fā)現(xiàn)的研究大體可以分為三種,其一是基于規(guī)則的方法,其二是基于統(tǒng)計(jì)的方法,其三是基于規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。基于規(guī)則的方法準(zhǔn)確率比較高,針對性強(qiáng),但是維護(hù)規(guī)則的工作量比較大。基于統(tǒng)計(jì)的方法通過現(xiàn)有的分詞工具對語料進(jìn)行分詞,根據(jù)分詞結(jié)果進(jìn)行統(tǒng)計(jì)從而發(fā)現(xiàn)新詞,對語料的依賴性小,適應(yīng)性比較強(qiáng),然而準(zhǔn)確率不高?;谝?guī)則與統(tǒng)計(jì)相結(jié)合的方法發(fā)揮了組合優(yōu)勢,目前大部分研究人員都采用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法來發(fā)現(xiàn)新詞。

綜上,新詞的涌現(xiàn)一般與事件熱點(diǎn)的趨勢是相適應(yīng)的,有效地發(fā)現(xiàn)新詞可以正確分析事件發(fā)展的脈絡(luò),以及有效地把握事件輿情動(dòng)態(tài),對于輿情預(yù)警監(jiān)控具有重大的意義。新詞發(fā)現(xiàn)一直是自然語言處理領(lǐng)域一項(xiàng)基礎(chǔ)研究,目前對于新詞發(fā)現(xiàn)已經(jīng)有大量的研究。本發(fā)明根據(jù)P2P借貸資訊的內(nèi)容,準(zhǔn)確有效地發(fā)現(xiàn)新詞,有效地把握P2P行業(yè)的熱點(diǎn),具有很好的可用性。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明要解決的技術(shù)問題在于,提供一種基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,使更加準(zhǔn)確地發(fā)現(xiàn)語料中的新詞。

為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一種基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,包括以下步驟:

S1、獲取語料,且采用分詞開源工具對語料進(jìn)行分詞,過濾停用詞;

S2、根據(jù)過濾后的分詞結(jié)果,對滑動(dòng)窗口范圍內(nèi)的詞項(xiàng)建立有向邊以及權(quán)重,根據(jù)有向邊以及權(quán)重生成有向有權(quán)圖;

S3、采用邊權(quán)重門限閥值對有向有權(quán)圖的邊進(jìn)行過濾,且保留語料中同現(xiàn)頻率較高的詞項(xiàng)搭配;

S4、根據(jù)過濾后的有向有權(quán)圖,篩選有向有權(quán)圖中的孤立點(diǎn)以及自環(huán),生成有向有權(quán)圖的子圖;

S5、根據(jù)子圖中相鄰節(jié)點(diǎn)之間的邊權(quán)重以及節(jié)點(diǎn)強(qiáng)度,驗(yàn)證該相鄰節(jié)點(diǎn)是否屬于新詞搭配;

S6、根據(jù)詞性標(biāo)注規(guī)則對新詞搭配進(jìn)行篩選,生成最終的新詞。

進(jìn)一步地,所述步驟S1中的停用詞包括語氣詞和標(biāo)點(diǎn)符號。

進(jìn)一步地,所述步驟S1中的分詞結(jié)果,其表現(xiàn)形式為W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示詞項(xiàng)集合,T表示詞性集合。

進(jìn)一步地,所述步驟S2中的有向有權(quán)圖,其表現(xiàn)形式為G=<V,E>,其中V表示節(jié)點(diǎn)vi集合,所述詞項(xiàng)搭配對應(yīng)節(jié)點(diǎn)vi的標(biāo)簽屬性,E表示有向邊集合,所述詞項(xiàng)搭配之間的同現(xiàn)關(guān)系組成所述有向邊集合。

進(jìn)一步地,所述步驟S2的具體方式為:

(5a)遍歷有向有權(quán)圖G=<V,E>,在集合V中查詢是否存在節(jié)點(diǎn)vi的標(biāo)簽為Wi,如果存在節(jié)點(diǎn)vi的標(biāo)簽為Wi,返回節(jié)點(diǎn)vi,否則在有向圖中創(chuàng)建節(jié)點(diǎn)vi,并標(biāo)注其標(biāo)簽為Wi,返回節(jié)點(diǎn)vi;

(5b)設(shè)置滑動(dòng)窗口長度l,或默認(rèn)長度l設(shè)為1,重復(fù)步驟(5a),依次查詢Wi+1、Wi+2、...、Wi+l是否存在于有向圖中,若存在,返回有向有權(quán)圖中對應(yīng)的節(jié)點(diǎn)vi+1、vi+2、...、vi+l

(5c)建立節(jié)點(diǎn)vi與節(jié)點(diǎn)vi+1、vi+2、...、vi+k、...、vi+l的有向邊,若節(jié)點(diǎn)vi與節(jié)點(diǎn)vi+k在有向有權(quán)圖中存在有向邊,則節(jié)點(diǎn)vi與節(jié)點(diǎn)vi+k的邊權(quán)重加1,否則,建立節(jié)點(diǎn)vi與節(jié)點(diǎn)vi+k的有向邊,權(quán)重為1。

進(jìn)一步地,所述步驟S4中的孤立點(diǎn)是指在有向有權(quán)圖中度數(shù)為零時(shí)的節(jié)點(diǎn),若有向有權(quán)圖中存在某些邊的權(quán)重低于門限閥值,則這些邊在被過濾后產(chǎn)生孤立點(diǎn)。

進(jìn)一步地,所述步驟S4中的自環(huán)是指所述有向有權(quán)圖中一條邊的起始節(jié)點(diǎn)和終止節(jié)點(diǎn)是同一個(gè)節(jié)點(diǎn),所述自環(huán)由所述語料中的疊詞產(chǎn)生。

進(jìn)一步地,所述步驟S5的具體過程為:

(8a)計(jì)算相鄰節(jié)點(diǎn)vi、節(jié)點(diǎn)vj的分布均值μ,計(jì)算方法如下:

μ=sisj/S2

式中,si為所述子圖中節(jié)點(diǎn)vi的強(qiáng)度,sj為所述子圖中節(jié)點(diǎn)vj的強(qiáng)度,S為所述子圖中的節(jié)點(diǎn)總強(qiáng)度;

(8b)計(jì)算節(jié)點(diǎn)vi和節(jié)點(diǎn)vj的樣本均值和樣本方差s2,計(jì)算方法如下:

<mrow> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mi>S</mi> </mrow>

<mrow> <msup> <mi>s</mi> <mn>2</mn> </msup> <mo>=</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>&times;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow>

其中,wij為子圖中節(jié)點(diǎn)vi和節(jié)點(diǎn)vj的邊權(quán)重;

(8c)做零假設(shè)H0,

(8d)計(jì)算t檢驗(yàn)值,具體計(jì)算方法如下:

<mrow> <mi>t</mi> <mo>=</mo> <mrow> <mo>(</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mi>&mu;</mi> <mo>)</mo> </mrow> <mo>/</mo> <msqrt> <mrow> <msup> <mi>s</mi> <mn>2</mn> </msup> <mo>/</mo> <mi>S</mi> </mrow> </msqrt> <mo>;</mo> </mrow>

(8e)檢驗(yàn)零假設(shè)H0,具體檢驗(yàn)過程如下:判斷t檢驗(yàn)值的絕對值是否大于t分布α的臨界值,若大于,則接受零假設(shè)H0,即節(jié)點(diǎn)vi和節(jié)點(diǎn)vj對應(yīng)的標(biāo)簽屬性屬于新詞搭配;否則,則拒絕零假設(shè)H0,即節(jié)點(diǎn)vi和節(jié)點(diǎn)vj對應(yīng)的標(biāo)簽屬性不屬于新詞搭配。

進(jìn)一步地,所述α=0.005,所述臨界值設(shè)為2.576。

進(jìn)一步地,所述步驟S6中的詞性標(biāo)注規(guī)則是指句法結(jié)構(gòu)中的詞性搭配規(guī)則,包括ANN、NN、ANN以及NPN,其中A表示形容詞,N表示名詞,P表示前置詞。

采用上述技術(shù)方案后,本發(fā)明至少具有如下有益效果:

1、本發(fā)明在開源工具分詞結(jié)果的基礎(chǔ)上,對停用詞進(jìn)行過濾,降低了有向有權(quán)圖的耦合度,提高了新詞發(fā)現(xiàn)的準(zhǔn)確性,同時(shí)提高了效率。

2、本發(fā)明設(shè)置滑動(dòng)窗口長度,對固定滑動(dòng)窗口范圍內(nèi)的詞項(xiàng)建立關(guān)聯(lián)關(guān)系,考慮了中文詞項(xiàng)搭配的特征。

3、本發(fā)明采用邊權(quán)重門限閥值對有向有權(quán)圖的邊進(jìn)行過濾,降低了有向有權(quán)圖的耦合度,提高了效率,同時(shí)減少次要詞項(xiàng)搭配對新詞發(fā)現(xiàn)的噪聲影響,提高了新詞發(fā)現(xiàn)的準(zhǔn)確性。

4、本發(fā)明根據(jù)子圖中相鄰節(jié)點(diǎn)之間的邊權(quán)重以及節(jié)點(diǎn)度數(shù),采用統(tǒng)計(jì)學(xué)的t分布來檢驗(yàn)相鄰節(jié)點(diǎn)是否屬于新詞搭配,充分考慮有向有權(quán)圖的節(jié)點(diǎn)特征,提高了新詞發(fā)現(xiàn)的準(zhǔn)確率。

5、本發(fā)明詞性標(biāo)注規(guī)則對全部新詞搭配進(jìn)行篩選,基于規(guī)則的方式進(jìn)一步提高了新詞發(fā)現(xiàn)的準(zhǔn)確率。

6、本發(fā)明能夠有效地,準(zhǔn)確地發(fā)現(xiàn)P2P借貸行業(yè)的新詞,把握P2P借貸行業(yè)的口碑以及走勢,幫助民眾理性投資,具有很好的可用性。

附圖說明

圖1為本發(fā)明基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法的流程圖。

圖2為依照本發(fā)明基于有向有權(quán)圖發(fā)現(xiàn)新詞的一個(gè)實(shí)例。

具體實(shí)施方式

需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實(shí)施例對本申請作進(jìn)一步詳細(xì)說明。

實(shí)施例

如圖1-圖2所示,圖1是本實(shí)施例一中公開的基于有向有權(quán)圖的發(fā)現(xiàn)新詞方法及各個(gè)相應(yīng)步驟的流程圖,所述方法包括以下步驟:

S1、獲取語料,采用分詞開源工具對語料進(jìn)行分詞,對分詞的結(jié)果進(jìn)行停用詞過濾,如圖2所述,分詞結(jié)果包括“E”、“租寶”、“APPLE”、“PAY”、“螞蟻”“金服”等;

S2、根據(jù)分詞結(jié)果,對滑動(dòng)窗口范圍內(nèi)的詞項(xiàng)建立有向邊以及權(quán)重,生成有向有權(quán)圖,“E”和“租寶”、“APPLE”和“PAY”以及“螞蟻”和“金服”各自生成帶有權(quán)重的有向邊;

S3、采用邊權(quán)重門限閥值對有向有權(quán)圖的邊進(jìn)行過濾,保留語料中的同現(xiàn)頻率比較高的詞項(xiàng)搭配;

S4、篩選有向權(quán)重圖中的孤立點(diǎn)以及自環(huán),生成有向有權(quán)圖的子圖;

S5、根據(jù)子圖中相鄰節(jié)點(diǎn)之間的邊權(quán)重以及節(jié)點(diǎn)強(qiáng)度,驗(yàn)證該相鄰節(jié)點(diǎn)是否屬于新詞搭配,通過假設(shè)檢驗(yàn),驗(yàn)證“E”和“租寶”屬于新詞搭配,“APPLE”和“PAY”以及“螞蟻”和“金服”亦然;

S6、根據(jù)詞性標(biāo)注規(guī)則對新詞搭配進(jìn)行篩選,“E”和“租寶”“APPLE”和“PAY”以及“螞蟻”和“金服”符合詞性標(biāo)注規(guī)則,生成最終的新詞E租寶、APPLEPAY以及螞蟻金服等。

其中,所述分詞結(jié)果,表現(xiàn)形式為W=(W1,W2,...Wi...,Wn),T=(T1,T2,...Ti...,Tn)其中W表示詞項(xiàng)集合,T表示詞性集合。

進(jìn)一步地,所述停用詞是指在語料中應(yīng)用非常廣泛然而沒有實(shí)際意義的詞項(xiàng),比如語氣詞,標(biāo)點(diǎn)符號等。

進(jìn)一步地,所述有向有權(quán)圖,表現(xiàn)形式為G=<V,E>,其中V表示節(jié)點(diǎn)集合,語料分詞結(jié)果中的詞項(xiàng)對應(yīng)節(jié)點(diǎn)的標(biāo)簽屬性,其中E表示有向邊集合,詞項(xiàng)之間的同現(xiàn)關(guān)系組成有向邊集合。

進(jìn)一步地,所述步驟S2根據(jù)分詞結(jié)果,對滑動(dòng)窗口范圍內(nèi)的詞建立有向邊以及權(quán)重,生成有向有權(quán)圖的具體過程為:

(1)第一步遍歷有向有權(quán)圖G=<V,E>,在集合V中查詢是否存在節(jié)點(diǎn)的標(biāo)簽為Wi,如果存在節(jié)點(diǎn)vi的標(biāo)簽為Wi,返回節(jié)點(diǎn)vi,否則在有向圖中創(chuàng)建節(jié)點(diǎn)vi,并標(biāo)注其標(biāo)簽為Wi,返回節(jié)點(diǎn)vi;

(2)第二步設(shè)置滑動(dòng)窗口長度l(默認(rèn)長度為1),重復(fù)步驟(1),依次查詢Wi+1,Wi+2,...,Wi+l是否存在有向圖中,返回有向圖中對應(yīng)的節(jié)點(diǎn)vi+1,vi+2,...,vi+l;

(3)第三步建立節(jié)點(diǎn)vi與節(jié)點(diǎn)vi+1,vi+2,...,vi+k,...,vi+l的有向邊,如果vi與vi+k在圖中存在有向邊,vi與vi+k的邊權(quán)重加1,否則建立vi與vi+k的有向邊,權(quán)重為1。

進(jìn)一步地,所述孤立點(diǎn)是指在有向有權(quán)圖中度數(shù)為零的節(jié)點(diǎn),某些節(jié)點(diǎn)對的邊權(quán)重低于門限閥值,這些邊被過濾后產(chǎn)生孤立點(diǎn)。

進(jìn)一步地,所述自環(huán)是指有向圖中源節(jié)點(diǎn)以及目標(biāo)節(jié)點(diǎn)屬于同一個(gè)節(jié)點(diǎn),主要是語料中的疊詞會產(chǎn)生自環(huán)。

進(jìn)一步地,所述步驟S5根據(jù)子圖中相鄰節(jié)點(diǎn)之間的邊權(quán)重以及節(jié)點(diǎn)強(qiáng)度,驗(yàn)證該相鄰節(jié)點(diǎn)是否屬于新詞搭配的具體過程為:

(1)第一步是計(jì)算節(jié)點(diǎn)vi和vj的分布均值μ,計(jì)算方法如下:

μ=sisj/S2,其中si為子圖中節(jié)點(diǎn)vi的強(qiáng)度,sj為子圖中節(jié)點(diǎn)vj的強(qiáng)度,S為子圖中的總強(qiáng)度。

(2)第二步計(jì)算節(jié)點(diǎn)vi和vj的樣本均值和樣本方差s2,計(jì)算方法如下:

其中wij為子圖中節(jié)點(diǎn)vi和節(jié)點(diǎn)vj的邊權(quán)重。

<mrow> <msup> <mi>s</mi> <mn>2</mn> </msup> <mo>=</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>&times;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

(3)第二步是做零假設(shè)H0:

(4)第三步計(jì)算t檢驗(yàn)值,具體計(jì)算方法如下:

<mrow> <mi>t</mi> <mo>=</mo> <mrow> <mo>(</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mi>&mu;</mi> <mo>)</mo> </mrow> <mo>/</mo> <msqrt> <mrow> <msup> <mi>s</mi> <mn>2</mn> </msup> <mo>/</mo> <mi>S</mi> </mrow> </msqrt> <mo>.</mo> </mrow>

(5)第四步是檢驗(yàn)零假設(shè)H0,具體檢驗(yàn)過程如下:

判斷t檢驗(yàn)值的絕對值是否大于t分布α=0.005的臨界值(2.576),如果是,則接受零假設(shè)H0,即vi和vj對應(yīng)的標(biāo)簽屬性屬于新詞搭配,否則拒絕零假設(shè)H0,即vi和vj對應(yīng)的標(biāo)簽屬性不屬于新詞搭配。

進(jìn)一步地,所述詞性標(biāo)注規(guī)則是指句法結(jié)構(gòu)中的詞性搭配規(guī)則,包括ANN,NN,ANN,NPN等,其中A表示形容詞,N表示名詞,P表示前置詞。

上述方法可以準(zhǔn)確地發(fā)現(xiàn)語料中的新詞,具有很好的可用性。

盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,對于本領(lǐng)域的普通技術(shù)人員而言,可以理解的是,在不脫離本發(fā)明的原理和精神的情況下可以對這些實(shí)施例進(jìn)行多種等效的變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同范圍限定。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
青冈县| 晋江市| 开江县| 高雄市| 洪湖市| 扎赉特旗| 萍乡市| 莱州市| 鄢陵县| 拉萨市| 东乌珠穆沁旗| 枣阳市| 临沂市| 栾城县| 郯城县| 琼海市| 双柏县| 平邑县| 扎赉特旗| 克什克腾旗| 大石桥市| 安阳县| 托里县| 凤冈县| 雅安市| 宜兰市| 桓仁| 石台县| 镇原县| 长兴县| 新津县| 彰武县| 黑山县| 无为县| 琼结县| 保德县| 原阳县| 恩施市| 平凉市| 贡嘎县| 鱼台县|