欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種對(duì)短文本自動(dòng)分類和識(shí)別主題詞的方法與流程

文檔序號(hào):11155003閱讀:2713來(lái)源:國(guó)知局
一種對(duì)短文本自動(dòng)分類和識(shí)別主題詞的方法與制造工藝

本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,以及互聯(lián)網(wǎng)技術(shù)領(lǐng)域。



背景技術(shù):

隨著互聯(lián)網(wǎng)的廣泛滲透,網(wǎng)民深度參與內(nèi)容生產(chǎn),以微博等自媒體為代表的互聯(lián)網(wǎng)信息內(nèi)容中,短文本呈現(xiàn)出活躍性強(qiáng),與現(xiàn)實(shí)緊扣,傳播迅速,社會(huì)影響力重大的特點(diǎn),針對(duì)短文本的自然語(yǔ)言處理(NLP)技術(shù)也越來(lái)越重要。對(duì)短文本內(nèi)容分類和識(shí)別主題詞是最常見(jiàn)的需求之一。但由于文本短小,內(nèi)容較少,基于統(tǒng)計(jì)和向量空間模型的一些算法,如聚類算法,由于數(shù)據(jù)稀疏的原因,處理效果較差。多種聚類算法都需要樣本數(shù)據(jù)達(dá)到一定數(shù)量,樣本可提取的詞語(yǔ)數(shù)也需要達(dá)到一定數(shù)量才能計(jì)算出較為穩(wěn)定的TDIDF詞頻數(shù)據(jù),這是后續(xù)算法處理的基礎(chǔ)。但對(duì)于短文本來(lái)說(shuō),很多樣本在去除“應(yīng)刪除詞”后可能僅有數(shù)個(gè)詞語(yǔ),其TDIDF數(shù)值嚴(yán)重失真,后續(xù)計(jì)算難以進(jìn)行,更遑論識(shí)別其主題內(nèi)容及分類了。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是提供一種針對(duì)短文本進(jìn)行自動(dòng)分類和識(shí)別主題詞的方法。此方法關(guān)鍵在于依賴于一個(gè)大容量預(yù)置的分類詞庫(kù),以此擺脫對(duì)短文本分類時(shí)的聚類算法要求。整個(gè)方法的實(shí)現(xiàn)效果取決于兩部分:一是分類詞庫(kù)的構(gòu)建;二是將短文本與分類詞庫(kù)的比對(duì)計(jì)算。

分類詞庫(kù)具有如下特征:

1、存儲(chǔ)于數(shù)據(jù)庫(kù)或文件中;

2、每條數(shù)據(jù)(詞條)本身是一個(gè)短文本,或更簡(jiǎn)單的是一個(gè)詞語(yǔ);

3、詞條本身可以攜帶若干個(gè)屬性,如按某種分類方式定義的類別,屬于某類別的概率,數(shù)據(jù)的語(yǔ)義特征(動(dòng)詞、名詞等);屬性本身可以表達(dá)一種關(guān)聯(lián)性,將這條數(shù)據(jù)與另一條詞條建立一個(gè)基于概率的關(guān)系;

4、分類詞庫(kù)在運(yùn)行期間是只讀的。分類詞庫(kù)具有多種構(gòu)建方式,不同的構(gòu)建方式可適用不同的目的??梢允鞘褂脴?biāo)注語(yǔ)料使用某種算法訓(xùn)練而來(lái),或是由第三方詞典數(shù)據(jù)適當(dāng)轉(zhuǎn)換而來(lái),或是來(lái)自于互聯(lián)網(wǎng)的可采集數(shù)據(jù)(例如,百度的熱點(diǎn)事件列表),等等。

短文本將通過(guò)與這樣一個(gè)大容量的分類詞庫(kù)的詞條逐一比對(duì)來(lái)獲取有助于分類和識(shí)別主題詞的信息。步驟如下:短文本通過(guò)分詞,切分成若干詞語(yǔ)序列。對(duì)在首句或首個(gè)段落的詞語(yǔ)增加權(quán)重。分類詞庫(kù)詞條也同樣分詞(如由單個(gè)詞語(yǔ)構(gòu)成詞條可以跳過(guò))。這樣將獲得兩對(duì)詞語(yǔ)序列,對(duì)這兩對(duì)詞語(yǔ)序列做交叉比對(duì),如有匹配將按詞語(yǔ)自身的權(quán)重倍率累加命中計(jì)數(shù),對(duì)每個(gè)詞條計(jì)算命中計(jì)數(shù)值。最終返回的分類是計(jì)數(shù)值最高的那個(gè)詞條。同時(shí),短文本中為命中計(jì)數(shù)值貢獻(xiàn)最多的詞語(yǔ)被識(shí)別為(用于表征分類的關(guān)鍵信息的)主題詞。

這種交叉比對(duì)的方法,本質(zhì)上是和TFIDF的思想是一致的,但是將IDF(逆向文件頻率)的計(jì)算歸類到分類詞庫(kù)的詞語(yǔ)權(quán)重中,而分類詞庫(kù)一般是用大量、豐富的文本語(yǔ)料預(yù)先訓(xùn)練好的,從而解決了短文本數(shù)據(jù)稀疏的難題。

附圖說(shuō)明

圖1為分類詞庫(kù)的結(jié)構(gòu)說(shuō)明圖。

圖2為本發(fā)明的工作流程示意圖。

具體實(shí)施方式

基于應(yīng)用目的的不同,如為短文本打標(biāo)簽,或識(shí)別短文本中蘊(yùn)含的事件,分 類詞庫(kù)的構(gòu)建方式是多樣化的,其簡(jiǎn)單與復(fù)雜的差異性也較大。為了說(shuō)明相關(guān)方法的實(shí)現(xiàn),以下內(nèi)容以一種基本應(yīng)用來(lái)說(shuō)明,即分類詞庫(kù)是一系列熱點(diǎn)事件名稱短語(yǔ)的集合,要求將短文本歸類到最準(zhǔn)確的事件詞條并識(shí)別其主題詞。但這只是本發(fā)明的典型實(shí)施例而已,用于幫助理解本發(fā)明的方法和核心思想,對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的方向性敘述,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,以下內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

首先,我們需要準(zhǔn)備一個(gè)熱點(diǎn)事件分類詞庫(kù)的數(shù)據(jù)源。可以通過(guò)實(shí)時(shí)采集互聯(lián)網(wǎng)門戶網(wǎng)站的新聞標(biāo)題、百度實(shí)時(shí)熱點(diǎn)等作為分類詞庫(kù)的詞條。每個(gè)詞條本身也是一條短文本。

其次,對(duì)于分類詞庫(kù)中的每個(gè)詞條,分詞,得到一個(gè)詞語(yǔ)序列。詞語(yǔ)序列應(yīng)做“應(yīng)刪除詞”處理,包含“的”,“是”之類的單字都應(yīng)刪除。

然后,對(duì)所有詞條綜合起來(lái)計(jì)算詞條詞語(yǔ)的權(quán)重值,這實(shí)質(zhì)上是計(jì)算其逆向文件頻率(IDF)。實(shí)際上,以每個(gè)短文本自身作為一個(gè)文檔來(lái)計(jì)算IDF,因?yàn)閿?shù)據(jù)樣本太少,每個(gè)詞條之間可能相互不能覆蓋,實(shí)際計(jì)算出來(lái)的IDF反映不了真實(shí)概率??梢酝ㄟ^(guò)將詞條還原到長(zhǎng)文本來(lái)計(jì)算IDF,例如,將新聞標(biāo)題對(duì)應(yīng)的鏈接中的正文,參與短文本的IDF計(jì)算。但這并不是唯一的途徑,還有其他的方式。例如,將短文本中的詞語(yǔ)詞性綜合考慮進(jìn)來(lái),對(duì)專有名詞賦予額外的權(quán)重。因?yàn)樵谂c短文本做交叉比對(duì)時(shí)還會(huì)進(jìn)一步利用短文本的詞語(yǔ)權(quán)重,作為一種簡(jiǎn)化的方案,對(duì)詞條詞語(yǔ)不做任何權(quán)重處理,實(shí)際使用上也有不錯(cuò)的效果。

分類詞庫(kù)準(zhǔn)備完成后,在運(yùn)行時(shí)需要將所有詞條相關(guān)數(shù)據(jù)加載到內(nèi)存。

最后,使用分類詞庫(kù)對(duì)短文本進(jìn)行識(shí)別處理。對(duì)需要分類的短文本,按如下步驟處理:

1)對(duì)短文本區(qū)分“標(biāo)題”和“正文”?!皹?biāo)題”是文本中的首句,或者首段。

2)對(duì)“標(biāo)題”和“正文”分別分詞。

3)對(duì)“標(biāo)題”和“正文”分詞后的每個(gè)詞語(yǔ),計(jì)算詞頻TF。其中“標(biāo)題”中出現(xiàn)的詞語(yǔ)按較高的倍率計(jì)算詞頻,典型值如10。“正文”中的詞語(yǔ)則每出現(xiàn)一次累加1計(jì)值。

4)對(duì)分類詞庫(kù)中的詞條遍歷。對(duì)每個(gè)詞條Entry,設(shè)置計(jì)數(shù)值(以下簡(jiǎn)記為Count[Entry])為0。做如下操作:

a)對(duì)短文本中的每個(gè)詞語(yǔ)(以下簡(jiǎn)記為word),做如下操作:

b)對(duì)詞條中的每個(gè)詞語(yǔ)(以下簡(jiǎn)記為EntryWord),如果EntryWord包含或等于word,則對(duì)詞條Count[Entry]值累加EntryWord的權(quán)重后,乘以word的權(quán)重值,將結(jié)果賦回Count[Entry];

c)如果短文本全文包含詞條,則對(duì)詞條Count[Entry]值累加1后,乘以固定權(quán)重值如5,將結(jié)果賦回Count[Entry];

5)對(duì)所有詞條的Count[Entry]值排序,其最大最小值之差為delta。詞條總數(shù)為N,所有滿足其Count[Entry]值與最大值之差小于delta/N的詞條,將被選出做下一步處理。

6)將上一步選出的詞條,按其長(zhǎng)度的倒數(shù)對(duì)其Count[Entry]值加權(quán)。對(duì)調(diào)整后的Count[Entry]值結(jié)果,按最大值的詞條作為最終分類結(jié)果返回。這一步將能抑制長(zhǎng)度較長(zhǎng)的詞條不適當(dāng)?shù)睦闷湓~語(yǔ)數(shù)量?jī)?yōu)勢(shì)。

7)在作為結(jié)果的詞條的Count[Entry]值中,以短文本的各個(gè)詞語(yǔ)的貢獻(xiàn)值,按最大的作為主題詞返回結(jié)果。

算法中若干設(shè)定權(quán)重分配的固定值,可以根據(jù)具體的分類詞庫(kù)和識(shí)別短文本的場(chǎng)景,做適當(dāng)優(yōu)化得到,一般可以作為配置參數(shù)提供。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
平阳县| 即墨市| 文水县| 萝北县| 遵化市| 宜兰市| 车致| 和硕县| 开封市| 临清市| 那曲县| 洛南县| 甘谷县| 黄龙县| 贺兰县| 贡嘎县| 霸州市| 商洛市| 新平| 化州市| 北票市| 孟村| 江城| 锦屏县| 怀安县| 金坛市| 白城市| 夹江县| 元阳县| 东源县| 吴江市| 合阳县| 灵川县| 丰镇市| 皋兰县| 山阳县| 高唐县| 桓台县| 兴化市| 朔州市| 施甸县|