欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文檔中無效詞的識(shí)別方法及裝置與流程

文檔序號(hào):12802170閱讀:404來源:國知局
文檔中無效詞的識(shí)別方法及裝置與流程

本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種文檔中無效詞的識(shí)別方法及裝置。



背景技術(shù):

傳統(tǒng)技術(shù)中,一般通過如下兩種方法來識(shí)別文檔中的無效詞,此處,無效詞是指與當(dāng)前文檔內(nèi)容不相關(guān)的詞語,相應(yīng)地,與當(dāng)前文檔的內(nèi)容相關(guān)的詞語可以稱為關(guān)鍵詞。

第一種方法是,基于預(yù)設(shè)的規(guī)則,來識(shí)別文檔中的無效詞,如將“_”、“-”或者其它預(yù)設(shè)字符之前或者之后的詞語識(shí)別為無效詞,而事實(shí)上,文檔內(nèi)容的表現(xiàn)形式變化多端,在部分文檔中,很有可能“_”、“-”或者其它特殊字符之前或者之后均包括了關(guān)鍵詞,而根據(jù)上述方法,直接將“_”、“-”或者其它特殊字符之前或者之后的詞語識(shí)別為無效詞時(shí),會(huì)導(dǎo)致關(guān)鍵詞被識(shí)別為無效詞的問題,也即根據(jù)第一種方法識(shí)別的無效詞往往是不準(zhǔn)確的。

第二種方法是,根據(jù)tf-idf的方法,來識(shí)別文檔中的無效詞。具體地,首先計(jì)算文檔中各個(gè)詞語的詞頻(termfrequency,tf)和逆文檔頻率(inversedocumentfrequency,idf),其中,詞頻是指某一詞語在某一文檔中出現(xiàn)的次數(shù),而idf可以根據(jù)公式1計(jì)算:

其中,idf(w)為詞語w的逆文檔頻率,n為預(yù)設(shè)的語料庫中包含詞語w的文檔的個(gè)數(shù),df(w)為詞語w的詞頻。idf描述的是詞語在文檔中出現(xiàn)的廣度,idf越大,說明詞語出現(xiàn)的越少,只在幾篇文檔中出現(xiàn),idf越小,說明詞語出現(xiàn)的越頻繁,極端情況下,一個(gè)詞語在所有文檔中都出現(xiàn)了,那么這個(gè)詞語的idf為0,說明詞語沒有區(qū)分價(jià)值,如“的”、“是”這類停用詞在大部分文檔中都會(huì)出現(xiàn),因此這類詞語的idf值很小。

在計(jì)算得到文檔中各個(gè)詞語的tf和idf之后,根據(jù)計(jì)算得到的tf和idf,來對(duì)各個(gè)詞語進(jìn)行打分(如,tf*idf);最后根據(jù)各個(gè)詞語的打分結(jié)果,來從文檔中識(shí)別無效詞。然而當(dāng)部分文檔只包括了較少的詞語時(shí),大部分的詞語在文檔中只出現(xiàn)了一次,則上述tf*idf也相當(dāng)于idf;而根據(jù)上述內(nèi)容可知,根據(jù)idf只能從文檔中識(shí)別停用詞,而并不能識(shí)別無效詞。



技術(shù)實(shí)現(xiàn)要素:

本申請(qǐng)描述了一種文檔中無效詞的識(shí)別方法及裝置,可以有效地識(shí)別文檔中的無效詞。

第一方面,提供了一種文檔中無效詞的識(shí)別方法,該方法包括:

對(duì)第一文檔進(jìn)行預(yù)處理,得到與所述第一文檔對(duì)應(yīng)的詞語集合,其中,所述第一文檔為預(yù)設(shè)的語料庫中的任一文檔;

根據(jù)所述預(yù)設(shè)的語料庫,確定所述詞語集合中各個(gè)詞語的平均位置以及逆文檔頻率;

對(duì)所述詞語集合中的每個(gè)詞語,根據(jù)所述詞語的平均位置、逆文檔頻率以及相關(guān)詞語的逆文檔頻率,確定所述詞語的目標(biāo)權(quán)重值;

根據(jù)所述各個(gè)詞語的目標(biāo)權(quán)重值,識(shí)別所述第一文檔中的無效詞。

第二方面,提供了一種文檔中無效詞的識(shí)別裝置,該裝置包括:

預(yù)處理單元,用于對(duì)第一文檔進(jìn)行預(yù)處理,得到與所述第一文檔對(duì)應(yīng)的詞語集合,其中,所述第一文檔為預(yù)設(shè)的語料庫中的任一文檔;

確定單元,用于根據(jù)所述預(yù)設(shè)的語料庫,確定所述詞語集合中各個(gè)詞語的平均位置以及逆文檔頻率;

所述確定單元,還用于對(duì)所述詞語集合中的每個(gè)詞語,根據(jù)所述詞語的平均位置、逆文檔頻率以及相關(guān)詞語的逆文檔頻率,確定所述詞語的目標(biāo)權(quán)重值;

識(shí)別單元,用于根據(jù)所述確定單元確定的所述各個(gè)詞語的目標(biāo)權(quán)重值,識(shí)別所述第一文檔中的無效詞。

本申請(qǐng)?zhí)峁┑奈臋n中無效詞的識(shí)別方法及裝置,首先對(duì)識(shí)別無效詞的文檔進(jìn)行預(yù)處理,得到與該文檔對(duì)應(yīng)的詞語集合;然后根據(jù)預(yù)設(shè)的語料庫,確定詞語集合中各個(gè)詞語的平均位置以及逆文檔頻率;之后根各個(gè)詞語的平均位置、逆文檔頻率以及相關(guān)詞語的逆文檔頻率,確定各個(gè)詞語的目標(biāo)權(quán)重值;最后根據(jù)各個(gè)詞語的目標(biāo)權(quán)重值,識(shí)別第一文檔中的無效詞。也即本申請(qǐng)是根據(jù)詞語的平均位置以及逆文檔頻率,來從第一文檔中識(shí)別無效詞,由此,可以提高無效詞識(shí)別的效率。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。

圖1為本申請(qǐng)一種實(shí)施例提供的文檔中無效詞的識(shí)別方法流程圖;

圖2為本申請(qǐng)另一種實(shí)施例提供的文檔中無效詞的識(shí)別裝置示意圖。

具體實(shí)施方式

下面結(jié)合附圖,對(duì)本發(fā)明的實(shí)施例進(jìn)行描述。

本申請(qǐng)實(shí)施例提供的文檔中無效詞的識(shí)別方法及裝置,適用于從文檔中識(shí)別與當(dāng)前文檔內(nèi)容不相關(guān)的詞語的場(chǎng)景,在本說明書中,將與當(dāng)前文檔內(nèi)容不相關(guān)的詞語稱為無效詞。舉例來說,在淘寶網(wǎng)的某網(wǎng)頁頁面中包含了如下內(nèi)容:“淘寶買買買好開心-提供健康|養(yǎng)生|留學(xué)|移民|創(chuàng)業(yè)|汽車等信息-手機(jī)淘網(wǎng)”,在該網(wǎng)頁頁面中,因?yàn)椤笆謾C(jī)淘網(wǎng)”與當(dāng)前網(wǎng)頁頁面的內(nèi)容不相關(guān),所以可以將“手機(jī)”以及“淘網(wǎng)”識(shí)別為無效詞。

需要說明的是,上述文檔可以是指由服務(wù)器或者人工預(yù)先收集的網(wǎng)頁頁面,也可以是指由人工預(yù)先整理的文本;此外,本說明書中的文檔可以是指中文文檔,也可以是指英文文檔,具體地,當(dāng)上述文檔為中文文檔時(shí),識(shí)別的無效詞為中文詞語;當(dāng)上述文檔為英文文檔時(shí),識(shí)別的無效詞為英文詞語。

圖1為本申請(qǐng)一種實(shí)施例提供的文檔中無效詞的識(shí)別方法流程圖。所述方法的執(zhí)行主體可以為具有處理能力的設(shè)備:服務(wù)器或者系統(tǒng)或者裝置,如圖1所示,所述方法具體包括:

步驟110,對(duì)第一文檔進(jìn)行預(yù)處理,得到與第一文檔對(duì)應(yīng)的詞語集合。

其中,第一文檔可以為預(yù)設(shè)的語料庫中的任一文檔,預(yù)設(shè)的語料庫中的文檔可以是由服務(wù)器或者人工預(yù)先收集的網(wǎng)頁頁面,也可以是指由人工預(yù)先整理的文本??梢岳斫獾氖牵擃A(yù)設(shè)的語料庫中可以包括多個(gè)文檔。

需要說明的是,當(dāng)?shù)谝晃臋n為中文文檔時(shí),上述對(duì)第一文檔進(jìn)行預(yù)處理可以包括:對(duì)第一文檔進(jìn)行分詞處理和/或去除停用詞和/或詞語去重處理等;而當(dāng)?shù)谝晃臋n為英文文檔時(shí),上述對(duì)第一文檔進(jìn)行預(yù)處理可以包括:對(duì)第一文檔進(jìn)行詞語去重處理等。在此說明書中,以第一文檔為中文文檔為例來說。

在對(duì)中文文檔進(jìn)行分詞時(shí),常用的分詞方法主要包括:基于詞典的分詞方法、基于統(tǒng)計(jì)的分詞方法以及兩者結(jié)合的方法?;谠~典的分詞方法如下:人工預(yù)先整理一個(gè)詞典,分詞時(shí),以長度從長到短的掃描文檔中的每個(gè)句子,查看每個(gè)分段是否在詞典中,如以文檔的內(nèi)容為“傳說天雷山離天只有三尺三”為例來說,可以先掃描“傳說天雷山離天只有三尺三”發(fā)現(xiàn)不在詞典中,然后掃描“傳說天雷山離天只有三尺”發(fā)現(xiàn)仍然不在詞典中,不斷嘗試,直到最后掃描“傳說”發(fā)現(xiàn)在詞典中,這樣就分成“傳說”和“天雷山離天只有三尺三”這兩個(gè)分段,后面再用這樣的方法繼續(xù)掃描詞典,直至每個(gè)分段都包含在字典中。基于統(tǒng)計(jì)的分詞方法與基于詞典的分詞方法類似,與之不同的是,不是去查詞典,而是看每個(gè)分段在預(yù)設(shè)的語料庫中出現(xiàn)的次數(shù)。如“傳說”這個(gè)分段作為詞語出現(xiàn)的次數(shù)會(huì)遠(yuǎn)遠(yuǎn)大于“傳說天”,則將“傳說”這個(gè)分段作為一個(gè)詞語,基于統(tǒng)計(jì)的分詞方法能夠發(fā)現(xiàn)一些網(wǎng)絡(luò)新詞,比如“逗比”。在實(shí)際應(yīng)用中,可以結(jié)合基于統(tǒng)計(jì)的分詞方法和基于詞典的分詞方法來對(duì)文檔進(jìn)行分詞。

舉例來說,在對(duì)文檔:“傳說天雷山離天只有三尺三”進(jìn)行分詞處理之后,得到的分詞可以為:“傳說”、“天雷山”、“離”、“天”、“只有”、“三尺”以及“三”。

去除停用詞的過程可以為:根據(jù)預(yù)先定義的停用詞,來去除第一文檔中的停用詞,此處的停用詞是指文檔中沒有實(shí)際意義的詞語,如,“我”、“的”、“是”、“等”、“了”以及“么”等。

在本申請(qǐng)中,進(jìn)行詞語去重處理的原因在于:對(duì)于包括較少詞語的文檔,詞頻不能起到很好的作用,且少量出現(xiàn)多次的詞語還會(huì)造成干擾,所以可以統(tǒng)一將文檔中重復(fù)的詞語去掉。需要說明的是,在詞語去重要處理的過程中,要保持原有詞語在文檔中的相對(duì)順序,并從前往后或者從后往前掃描去重。例如,對(duì)于內(nèi)容為:“數(shù)碼相機(jī)銷量減少–數(shù)碼資訊”的文檔進(jìn)行詞語從前往后去重之后,得到的結(jié)果是:“數(shù)碼相機(jī)銷量減少–資訊”,也即將前面的“數(shù)碼”這個(gè)詞語保留。

在一個(gè)例子中,對(duì)第一文檔進(jìn)行預(yù)處理的過程可以為:對(duì)第一文檔進(jìn)行分詞處理,得到第一文檔中包含的各個(gè)詞語;之后查看各個(gè)詞語是否為預(yù)先定義的停用詞,若任一詞語為停用詞,則從上述各個(gè)詞語中過濾該任一詞語,從而得到過濾后的各個(gè)詞語;最后查看過濾后的各個(gè)詞語是否相互重復(fù),若存在相互重復(fù)的詞語,則去除在后的詞語,而保留在先的詞語,由此,就得到了去重處理后的各個(gè)詞語,去重處理后的各個(gè)詞語構(gòu)成了第一文檔對(duì)應(yīng)的詞語集合。如,假設(shè)第一文檔的內(nèi)容為:“編寫一個(gè)程序求解猴子吃桃問題猴子-提供健康養(yǎng)生留學(xué)移民創(chuàng)業(yè)汽車等信息-提供健康養(yǎng)生留學(xué)移民創(chuàng)業(yè)汽車等信息_手機(jī)淘網(wǎng)”,則對(duì)第一文檔進(jìn)行預(yù)處理之后,得到的與第一文檔對(duì)應(yīng)的詞語集合可以為:w={“編寫”、“一個(gè)”、“程序”、“求解”、“猴子”、“吃”、“桃”、“問題”、“提供”、“健康”、“養(yǎng)生”、“留學(xué)”、“移民”、“創(chuàng)業(yè)”、“汽車”、“信息”、“手機(jī)”以及“淘網(wǎng)”}。

需要說明的是,上述只是示例性地說明了第一文檔的預(yù)處理過程,當(dāng)然,在實(shí)際應(yīng)用中,也可以不對(duì)第一文檔進(jìn)行分詞處理和去除停用詞,而只進(jìn)行詞語去重處理;或者,也可以在對(duì)第一文檔進(jìn)行分詞處理之后,不去除停用詞,而直接進(jìn)行詞語去重處理;或者,也可以不進(jìn)行詞語去重處理等,本申請(qǐng)對(duì)此不作限定。

步驟120,根據(jù)預(yù)設(shè)的語料庫,確定詞語集合中各個(gè)詞語的平均位置以及逆文檔頻率。

其中,根據(jù)預(yù)設(shè)的語料庫,確定詞語集合中各個(gè)詞語的平均位置可以包括:

步驟a:對(duì)詞語集合中的每個(gè)詞語,從預(yù)設(shè)的語料庫中篩選出包含該詞語的至少一個(gè)目標(biāo)文檔。

舉例來說,假設(shè)預(yù)設(shè)的語料庫中包括了x個(gè)文檔,其中,y(y≤x)個(gè)文檔包含了該詞語,則可以從x個(gè)文檔中篩選出y個(gè)目標(biāo)文檔。

步驟b:對(duì)至少一個(gè)目標(biāo)文檔進(jìn)行詞語去重處理,得到詞語去重處理后的各個(gè)目標(biāo)文檔。

此處可以是對(duì)至少一個(gè)目標(biāo)文檔中的每個(gè)目標(biāo)文檔進(jìn)行詞語去重處理,其中對(duì)目標(biāo)文檔的詞語去重處理的方法與對(duì)第一文檔進(jìn)行詞語去重處理的方法類似,在此不復(fù)贅述。可選地,在對(duì)目標(biāo)文檔進(jìn)行詞語去重處理之前,可以先對(duì)該目標(biāo)文檔進(jìn)行分詞處理以及去除停用詞等,本申請(qǐng)對(duì)此不作限定。

步驟c:確定該詞語在各個(gè)目標(biāo)文檔中出現(xiàn)的序號(hào),并統(tǒng)計(jì)各個(gè)目標(biāo)文檔所包含詞語的個(gè)數(shù)。

如前述例子,對(duì)篩選出的y個(gè)目標(biāo)文檔,假設(shè)其中一個(gè)目標(biāo)文檔在經(jīng)過預(yù)處理后為“杭州西湖很美”,且假設(shè)該詞語為“西湖”,則該詞語在上述一個(gè)目標(biāo)文檔中出現(xiàn)的序號(hào)為“2”,而該一個(gè)目標(biāo)文檔所包含詞語的個(gè)數(shù)為“3”。依據(jù)該詞語在上述一個(gè)目標(biāo)文檔中出現(xiàn)的序號(hào)以及該一個(gè)目標(biāo)文檔所包含詞語的個(gè)數(shù),確定出該詞語分別在剩余y-1個(gè)目標(biāo)文檔中出現(xiàn)的序號(hào)以及剩余y-1個(gè)目標(biāo)文檔所包含詞語的個(gè)數(shù)。

步驟d:根據(jù)目標(biāo)文檔的個(gè)數(shù)、上述序號(hào)以及各個(gè)目標(biāo)文檔所包含詞語的個(gè)數(shù),確定詞語的平均位置。

在一個(gè)例子中,可以根據(jù)公式2確定該詞語的平均位置:

其中,w為詞語集合中的任一詞語,p(w)為該任一詞語的平均位置,df(w)為目標(biāo)文檔的個(gè)數(shù)(相當(dāng)于前述例子中的y),d(i)為第i個(gè)目標(biāo)文檔,kd(i)為該任一詞語在第i個(gè)目標(biāo)文檔中出現(xiàn)的序號(hào),md(i)為第i個(gè)目標(biāo)文檔所包含詞語的個(gè)數(shù)。

根據(jù)上述公式2可以確定出詞語集合中每個(gè)詞語的平均位置;在確定出詞語集合中各個(gè)詞語的平均位置之后,還可以進(jìn)一步確定各個(gè)詞語的逆文檔頻率。此處,每個(gè)詞語的逆文檔頻率的確定方法可參考背景技術(shù)中的公式1,也即詞語的逆文檔頻率的確定方法屬于傳統(tǒng)常規(guī)技術(shù),本申請(qǐng)?jiān)诖瞬粡?fù)贅述。

需要說明的是,雖然上述以先確定詞語集合中各個(gè)詞語的平均位置,之后再確定各個(gè)詞語的逆文檔頻率為例進(jìn)行了說明,但是在實(shí)際應(yīng)用中,也可以先確定詞語集合中各個(gè)詞語的逆文檔頻率,之后再確定各個(gè)詞語的平均位置,本申請(qǐng)對(duì)此不作限定。

步驟130,對(duì)詞語集合中的每個(gè)詞語,根據(jù)詞語的平均位置、逆文檔頻率以及相關(guān)詞語的逆文檔頻率,確定詞語的目標(biāo)權(quán)重值。

在實(shí)際應(yīng)用中,無效詞在文檔中通常是連續(xù)出現(xiàn)的,在本申請(qǐng)中,將在文檔的開始部分連續(xù)出現(xiàn)的多個(gè)無效詞稱為無效前綴,而將在文檔的結(jié)尾部分連續(xù)出現(xiàn)的多個(gè)無效詞稱為無效后綴。

若本申請(qǐng)用于識(shí)別第一文檔中結(jié)尾部分的無效詞,則上述相關(guān)詞語是指在第一文檔中出現(xiàn)在上述詞語之后的后續(xù)詞語;且步驟130具體可以包括:

根據(jù)公式3確定詞語集合中每個(gè)詞語的目標(biāo)權(quán)重值:

其中,d為第一文檔,w為詞語集合中的任一詞語,pidf(w,d)為w的目標(biāo)權(quán)重值,k(w,d)為w在d中出現(xiàn)的序號(hào),m為d所包含詞語的個(gè)數(shù),wj為d中的第j個(gè)詞語,idf(wj)為第j個(gè)詞語的逆文檔頻率,為w以及在d中出現(xiàn)在該d之后的后續(xù)詞語的最小逆文檔頻率,p(w)為w的平均位置。

需要說明的是,用于將當(dāng)前計(jì)算目標(biāo)權(quán)重值的詞語的逆文檔頻率與該詞語的后續(xù)詞語的逆文檔頻率進(jìn)行比較,然后取最小的逆文檔頻率。舉例來說,假設(shè)第一文檔的內(nèi)容為:“杭州西湖很美”,且假設(shè)當(dāng)前計(jì)算目標(biāo)權(quán)重值的詞語為“西湖”,即第一文檔所包含的詞語的個(gè)數(shù)為“3”,該詞語在第一文檔中出現(xiàn)的序號(hào)為“2”,且該詞語的后續(xù)詞語為“很美”;公式3的分子可以變?yōu)椋?imgfile="bda0001142951550000084.gif"wi="286"he="95"img-content="drawing"img-format="gif"orientation="portrait"inline="no"/>也即將“西湖”的逆文檔頻率與“很美”的逆文檔頻率進(jìn)行比較,若“西湖”的逆文檔頻率小于“很美”的逆文檔頻率,則公式3的分子取值為“西湖”的逆文檔頻率,也即取該詞語以及該詞語的后續(xù)詞語的最小逆文檔頻率。

需要說明的是,上述公式3的設(shè)計(jì)原理如下:

1)一個(gè)詞語越靠后越可能是無效后綴中的無效詞;

2)一個(gè)詞語是無效后綴中的無效詞,那么它會(huì)在多個(gè)文檔中出現(xiàn),因此其逆文檔頻率比較小;

3)一個(gè)詞語是無效后綴中的無效詞,那么它后面的詞都應(yīng)該是無效后綴中的無效詞,反過來說,一個(gè)詞語不是無效后綴中的無效詞,它前面的詞語也應(yīng)該不是無效后綴中的無效詞;

公式3中分母部分、分子中的idf、分子中的min分別體現(xiàn)了1)、2)和3),本申請(qǐng)巧妙的利用了后續(xù)詞語的最小逆文檔頻率,體現(xiàn)了無效后綴中的無效詞的連續(xù)性。

上述內(nèi)容是在說明本申請(qǐng)用于識(shí)別第一文檔中結(jié)尾部分的無效詞時(shí),詞語的目標(biāo)權(quán)重值的確定方法,而當(dāng)本申請(qǐng)用于識(shí)別第一文檔中開始部分的無效詞時(shí),則上述相關(guān)詞語是指在第一文檔中出現(xiàn)在上述詞語之前的前續(xù)詞語;且步驟130具體可以包括:

根據(jù)公式4確定所述詞語的目標(biāo)權(quán)重值:

其中,d為第一文檔,w為詞語集合中的任一詞語,pidf(w,d)為w的目標(biāo)權(quán)重值,k(w,d)為w在d中出現(xiàn)的序號(hào),wj為d中的第j個(gè)詞語,idf(wj)為第j個(gè)詞語的逆文檔頻率,為w以及在d中出現(xiàn)在w之前的前序詞語的最小逆文檔頻率,p(w)為w的平均位置。

需要說明的是,用于將當(dāng)前計(jì)算目標(biāo)權(quán)重值的詞語的逆文檔頻率與該詞語的前序詞語的逆文檔頻率進(jìn)行比較,然后取最小的逆文檔頻率。舉例來說,假設(shè)第一文檔的內(nèi)容為:“杭州西湖很美”,且假設(shè)當(dāng)前計(jì)算目標(biāo)權(quán)重值的詞語為“西湖”,即第一文檔所包含的詞語的個(gè)數(shù)為“3”,該詞語在第一文檔中出現(xiàn)的序號(hào)為“2”,且該詞語的前續(xù)詞語為“杭州”;公式4的分子可以變?yōu)椋?imgfile="bda0001142951550000094.gif"wi="285"he="95"img-content="drawing"img-format="gif"orientation="portrait"inline="no"/>也即將“杭州”的逆文檔頻率與“西湖”的逆文檔頻率進(jìn)行比較,若“杭州”的逆文檔頻率小于“西湖”的逆文檔頻率,則公式4的分子取值為“杭州”的逆文檔頻率,也即取該詞語以及該詞語的前續(xù)詞語的最小逆文檔頻率。

步驟140,根據(jù)各個(gè)詞語的目標(biāo)權(quán)重值,識(shí)別第一文檔中的無效詞。

其中,步驟140具體可以包括:

將各個(gè)詞語的目標(biāo)權(quán)重值與預(yù)設(shè)閾值進(jìn)行比較,將目標(biāo)權(quán)重值不超過預(yù)設(shè)閾值的詞語識(shí)別為第一文檔中的無效詞。

此處的無效詞可以為無效前綴中的無效詞,也可以為無效后綴中的無效詞。以識(shí)別無效后綴中的無效詞為例來說,預(yù)設(shè)閾值可以根據(jù)預(yù)設(shè)的語料庫來確定,在一個(gè)例子中,預(yù)設(shè)閾值可以取值為11.5,取這個(gè)值的原因是,若某個(gè)詞語出現(xiàn)在文檔的后面60%的詞語中,且包含該詞語的文檔數(shù)占總的文檔數(shù)的比例大于1%時(shí),則該詞語極有可能是無效后綴中的無效詞,計(jì)算公式如公式5:

對(duì)前述例子中的詞語集合w={“編寫”、“一個(gè)”、“程序”、“求解”、“猴子”、“吃”、“桃”、“問題”、“提供”、“健康”、“養(yǎng)生”、“留學(xué)”、“移民”、“創(chuàng)業(yè)”、“汽車”、“信息”、“手機(jī)”以及“淘網(wǎng)”},假設(shè)各個(gè)詞語的目標(biāo)權(quán)重值如表1所示。

表1

續(xù)表1

根據(jù)上述表1以及續(xù)表1可知,詞語“提供”、“健康”、“養(yǎng)生”、“留學(xué)”、“移民”、“創(chuàng)業(yè)”、“汽車”、“信息”、“手機(jī)”以及“淘網(wǎng)”的目標(biāo)權(quán)重值均未超過11.5,因此,可以將上述各個(gè)詞語識(shí)別為第一文檔中的無效詞,且該多個(gè)無效詞構(gòu)成了第一文檔的無效后綴。

同上述無效后綴的識(shí)別方法類似地,本申請(qǐng)還可以從第一文檔中識(shí)別出無效前綴,本申請(qǐng)?jiān)诖瞬粡?fù)贅述。

與上述文檔中無效詞的識(shí)別方法對(duì)應(yīng)地,本申請(qǐng)實(shí)施例還提供的一種文檔中無效詞的識(shí)別裝置,如圖2所示,該裝置包括:

預(yù)處理單元201,用于對(duì)第一文檔進(jìn)行預(yù)處理,得到與第一文檔對(duì)應(yīng)的詞語集合,其中,第一文檔為預(yù)設(shè)的語料庫中的任一文檔。

確定單元202,用于根據(jù)預(yù)設(shè)的語料庫,確定詞語集合中各個(gè)詞語的平均位置以及逆文檔頻率。

確定單元202具體用于:

對(duì)詞語集合中的每個(gè)詞語,從預(yù)設(shè)的語料庫中篩選出包含詞語的至少一個(gè)目標(biāo)文檔;

對(duì)至少一個(gè)目標(biāo)文檔進(jìn)行詞語去重處理,得到詞語去重處理后的各個(gè)目標(biāo)文檔;

確定詞語在各個(gè)目標(biāo)文檔中出現(xiàn)的序號(hào),并統(tǒng)計(jì)各個(gè)目標(biāo)文檔所包含詞語的個(gè)數(shù);

根據(jù)目標(biāo)文檔的個(gè)數(shù)、序號(hào)以及各個(gè)目標(biāo)文檔所包含詞語的個(gè)數(shù),確定詞語的平均位置。

確定單元202,還用于對(duì)詞語集合中的每個(gè)詞語,根據(jù)詞語的平均位置、逆文檔頻率以及相關(guān)詞語的逆文檔頻率,確定詞語的目標(biāo)權(quán)重值。

識(shí)別單元203,用于根據(jù)確定單元202確定的各個(gè)詞語的目標(biāo)權(quán)重值,識(shí)別第一文檔中的無效詞。

識(shí)別單元203具體用于:

將各個(gè)詞語的目標(biāo)權(quán)重值與預(yù)設(shè)閾值進(jìn)行比較,將目標(biāo)權(quán)重值不超過預(yù)設(shè)閾值的詞語識(shí)別為第一文檔中的無效詞。

可選地,確定單元202還具體用于:

根據(jù)如下公式確定詞語的平均位置:

其中,w為所述詞語,p(w)為所述詞語的平均位置,df(w)為所述目標(biāo)文檔的個(gè)數(shù),d(i)為第i個(gè)目標(biāo)文檔,kd(i)為所述詞語在所述第i個(gè)目標(biāo)文檔中出現(xiàn)的序號(hào),md(i)為所述第i個(gè)目標(biāo)文檔所包含詞語的個(gè)數(shù)。

可選地,確定單元202還具體用于:

根據(jù)如下公式確定所述詞語的目標(biāo)權(quán)重值:

其中,d為所述第一文檔,w為所述詞語,pidf(w,d)為所述詞語的目標(biāo)權(quán)重值,k(w,d)為所述詞語在所述第一文檔中出現(xiàn)的序號(hào),m為所述第一文檔所包含詞語的個(gè)數(shù),wj為所述第一文檔中的第j個(gè)詞語,idf(wj)為所述第j個(gè)詞語的逆文檔頻率,為所述詞語以及在所述第一文檔中出現(xiàn)在所述詞語之后的后續(xù)詞語的最小逆文檔頻率,p(w)為所述詞語的平均位置。

可選地,確定單元202還具體用于:

根據(jù)如下公式確定所述詞語的目標(biāo)權(quán)重值:

其中,d為所述第一文檔,w為所述詞語,pidf(w,d)為所述詞語的目標(biāo)權(quán)重值,k(w,d)為所述詞語在所述第一文檔中出現(xiàn)的序號(hào),wj為所述第一文檔中的第j個(gè)詞語,idf(wj)為所述第j個(gè)詞語的逆文檔頻率,為所述詞語以及在所述第一文檔中出現(xiàn)在所述詞語之前的前續(xù)詞語的最小逆文檔頻率,p(w)為所述詞語的平均位置。

本申請(qǐng)實(shí)施例裝置的各功能模塊的功能,可以通過上述方法實(shí)施例的各步驟來實(shí)現(xiàn),因此,本申請(qǐng)?zhí)峁┑难b置的具體工作過程,在此不復(fù)贅述。

本申請(qǐng)實(shí)施例提供的文檔中無效詞的識(shí)別裝置,預(yù)處理單元201對(duì)第一文檔進(jìn)行預(yù)處理,得到與第一文檔對(duì)應(yīng)的詞語集合;確定單元202根據(jù)預(yù)設(shè)的語料庫,確定詞語集合中各個(gè)詞語的平均位置以及逆文檔頻率;確定單元202對(duì)詞語集合中的每個(gè)詞語,根據(jù)詞語的平均位置、逆文檔頻率以及相關(guān)詞語的逆文檔頻率,確定詞語的目標(biāo)權(quán)重值;識(shí)別單元203根據(jù)各個(gè)詞語的目標(biāo)權(quán)重值,識(shí)別第一文檔中的無效詞。由此,可以提高無效詞識(shí)別的效率。

本領(lǐng)域技術(shù)人員應(yīng)該可以意識(shí)到,在上述一個(gè)或多個(gè)示例中,本發(fā)明所描述的功能可以用硬件、軟件、固件或它們的任意組合來實(shí)現(xiàn)。當(dāng)使用軟件實(shí)現(xiàn)時(shí),可以將這些功能存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中或者作為計(jì)算機(jī)可讀介質(zhì)上的一個(gè)或多個(gè)指令或代碼進(jìn)行傳輸。

以上所述的具體實(shí)施方式,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的技術(shù)方案的基礎(chǔ)之上,所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包括在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
广东省| 靖江市| 十堰市| 云南省| 伊宁县| 汶川县| 常州市| 昔阳县| 阳城县| 华阴市| 察哈| 南阳市| 临猗县| 长葛市| 玉田县| 博乐市| 天峻县| 万安县| 兖州市| 云阳县| 金秀| 青海省| 南丹县| 鄂州市| 临武县| 南充市| 怀化市| 郧西县| 静宁县| 陇川县| 二手房| 苍溪县| 阳高县| 搜索| 三明市| 原阳县| 宜良县| 樟树市| 榆树市| 锡林郭勒盟| 西畴县|