欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的方法

文檔序號:10594180閱讀:614來源:國知局
基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的方法
【專利摘要】本發(fā)明提出一種基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的方法,包括:獲取微博文本及微博對應(yīng)的作者標(biāo)識符;建立新詞列表;根據(jù)漢語分析工具對微博文本進行分詞操作,得到分割詞段,分別統(tǒng)計各個分割詞段基于文本和用戶兩個維度的詞頻信息;將新詞列表中詞語頻次小于第一頻次閾值的詞語從新詞列表中刪除;統(tǒng)計微博數(shù)據(jù)中所有的二元組和三元組,并將其作為候選新詞;計算候選新詞的關(guān)聯(lián)性的得分;將候選新詞中詞語頻次大于第二頻次閾值且關(guān)聯(lián)性得分大于得分閾值的詞語添加至新詞列表:迭代執(zhí)行以上過程,直至沒有新的候選新詞產(chǎn)生且新詞列表中沒有候選新詞被刪除。本發(fā)明能夠自動提取網(wǎng)絡(luò)新詞,具有較高的準(zhǔn)確性和較低的時間和空間復(fù)雜度。
【專利說明】
基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別設(shè)及一種基于海量微博文本和用戶信息 的網(wǎng)絡(luò)新詞自動提取的方法。
【背景技術(shù)】
[0002] 新詞發(fā)現(xiàn)是中文自然語言處理研究領(lǐng)域的一個重要部分。新詞指不存在于傳統(tǒng)詞 典中的詞。而在互聯(lián)網(wǎng)中,特別是在社交網(wǎng)絡(luò)中,新詞更是不斷地涌現(xiàn)。社交網(wǎng)絡(luò)用戶出于 想表達強烈的情感,或是表現(xiàn)個人感情色彩,或是使自己發(fā)布的社交網(wǎng)絡(luò)文本更有趣有活 力等原因,會頻繁地使用網(wǎng)絡(luò)新詞。運些新詞可能是由一些較長詞語或句子縮寫構(gòu)成,也可 能是傳統(tǒng)詞的諧音詞,甚至可能是完全和傳統(tǒng)詞語不相關(guān)的詞語。如今社交網(wǎng)絡(luò)是互聯(lián)網(wǎng) 重要的組成部分之一,對社交網(wǎng)絡(luò)媒體數(shù)據(jù)的分析也是眾多數(shù)據(jù)挖掘方向的專家和學(xué)者研 究的熱點領(lǐng)域。一方面,社交媒體數(shù)據(jù)更新非???,因此可W研究的數(shù)據(jù)量也十分豐富;另 一方面由于社交網(wǎng)絡(luò)的用戶非?;钴S,更傾向于使用一些不同于傳統(tǒng)文本語法規(guī)則的新型 用語,運也導(dǎo)致了社交網(wǎng)絡(luò)中新詞的大量涌現(xiàn),給傳統(tǒng)的文本分析技術(shù)帶來了很大的挑戰(zhàn)。
[0003] 不同于英文等語言有天然的空格字符將詞與詞隔開,中文的文本是由中文字符序 列組成的,而且搭載中文文本語義的單元往往是詞語而不是單個字符。運些中文詞語都具 有自己特定的語義和詞性。因此大部分的中文自然語言處理任務(wù)的第一步就是將中文文本 分割成由不同的詞語組成的"詞段",運一步驟稱為"分詞"。分詞操作在很大程度上依賴于 分詞所使用的詞典。據(jù)統(tǒng)計60% W上的分詞錯誤都是由于不能正確劃分新詞導(dǎo)致的,運是 因為新詞不存在于分詞工具的詞典中,導(dǎo)致了分詞工具無法正確的識別運些新詞。
[0004] 傳統(tǒng)的新詞檢測方法,主要有W下幾種方式:將新詞檢測嵌入與分詞任務(wù)中、基于 復(fù)雜的語言學(xué)規(guī)則和知識、將詞檢測轉(zhuǎn)化為分類問題W及統(tǒng)計學(xué)方法。傳統(tǒng)的方法不僅難 W達到較高的準(zhǔn)確率,并且往往由于算法中產(chǎn)生大量候選新詞導(dǎo)致其時間或者空間的復(fù)雜 度較高。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0006] 為此,本發(fā)明的目的在于提出一種基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動 提取的方法,該方法在微博文本的基礎(chǔ)上,綜合考慮了用戶信息,同時建立了一種迭代計算 算法來自動提取網(wǎng)絡(luò)新詞,產(chǎn)生的結(jié)果具有較高的準(zhǔn)確性和較低的時間和空間復(fù)雜度。
[0007] 為了實現(xiàn)上述目的,本發(fā)明的實施例公開了一種基于海量微博文本和用戶信息的 網(wǎng)絡(luò)新詞自動提取的方法,包括W下步驟:Sl:獲取微博數(shù)據(jù),其中,微博數(shù)據(jù)包括微博文本 及微博對應(yīng)的作者標(biāo)識符;S2:建立新詞列表,其中,新詞列表初始化為空集;S3:將新詞列 表加入預(yù)設(shè)的漢語分析工具中,并根據(jù)漢語分析工具對微博文本進行分詞操作,W將微博 文本映射成分割詞段的集合,并分別統(tǒng)計各個分割詞段基于文本和用戶兩個維度的詞頻信 息;S4:根據(jù)得到的詞頻信息更新所述新詞列表中對應(yīng)詞語的詞頻信息,并將詞語頻次小于 第一頻次闊值的詞語從新詞列表中刪除;S5:將分詞操作中n個連續(xù)出現(xiàn)的分割詞段定義為 n元組,統(tǒng)計微博數(shù)據(jù)中所有的二元組和=元組,并將二元組和=元組作為候選新詞;S6:根 據(jù)候選新詞在文本和用戶兩個維度的分布,統(tǒng)計候選新詞基于文本和用戶兩個維度的詞頻 信息,并計算候選新詞的關(guān)聯(lián)性的得分;S7:將候選新詞中詞語頻次大于第二頻次闊值且關(guān) 聯(lián)性得分大于得分闊值的詞語添加至新詞列表;W及S8:迭代執(zhí)行S2至S7,直至微博數(shù)據(jù)中 沒有新的候選新詞產(chǎn)生且新詞列表中沒有候選新詞被刪除。
[0008] 根據(jù)本發(fā)明實施例的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的方法, 利用微博數(shù)據(jù)的特點,在微博文本的基礎(chǔ)上,綜合考慮了用戶信息,同時建立了一種迭代計 算算法來自動提取網(wǎng)絡(luò)新詞;并且相對于傳統(tǒng)方法的結(jié)果,該方法產(chǎn)生的結(jié)果具有較高的 準(zhǔn)確性和較低的時間和空間復(fù)雜度,在社交媒體數(shù)據(jù)的挖掘和分析中具有重要的應(yīng)用。
[0009] 另外,根據(jù)本發(fā)明上述實施例的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提 取的方法還可W具有如下附加的技術(shù)特征:
[0010]在一些示例中,在所述S4中,在微博文本的基礎(chǔ)上,根據(jù)微博數(shù)據(jù)的用戶信息進行 新詞自動提取。
[0011] 在一些示例中,其中,在所述S8中,通過迭代計算算法迭代式地合并分詞結(jié)果中的 分割詞段,其中,在每次迭代過程中僅需查找微博數(shù)據(jù)中的二元組和=元組。
[0012] 在一些示例中,在所述S8中,還包括:在每次迭代完成后,將發(fā)現(xiàn)的新詞加入新詞 列表,并將新詞列表作為預(yù)設(shè)漢語分析工具的用戶自定義詞典,W在下一次分詞操作中,將 上一次迭代過程中發(fā)現(xiàn)的新詞正確地劃分。
[0013] 在一些示例中,所述S6進一步包括:基于強化互信息EMI理論,計算每個詞語基于 文本頻次的EMI得分,具體為:
[0014]
[001引其中,iVwn和W俾分別表示詞語W"和Wf的基于微博文本的頻次,T是微博的總數(shù) 目,n是n元組中的參數(shù)n,n = 2或3;
[0016] 根據(jù)詞語在用戶之間的分布信息計算用戶之間的EMI得分,具體為:
[0017]
[001引其中,和分別表示詞語和昧f的基于用戶使用的頻次,Tu是用戶的總數(shù) 目,n是n元組中的參數(shù)n,n = 2或3;
[0019] 根據(jù)基于文本頻次的EMI得分和用戶之間的EMI得分得到候選新詞的關(guān)聯(lián)性得分, 具體為:
[0020] ascore(w") =EMI (w")+usrEMI (w"),
[0021] 其中,ascore(wn)為候選新詞w"的關(guān)聯(lián)性得分。
[0022] 在一些示例中,在所述Sl中,通過網(wǎng)絡(luò)爬蟲技術(shù)獲取所述微博數(shù)據(jù)。
[0023] 本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0024] 本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得 明顯和容易理解,其中:
[0025] 圖1是根據(jù)本發(fā)明實施例的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的 方法的流程圖;W及
[0026] 圖2是根據(jù)本發(fā)明一個實施例的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提 取的方法的整體流程圖。
【具體實施方式】
[0027] 下面詳細描述本發(fā)明的實施例,實施例的示例在附圖中示出,其中自始至終相同 或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描 述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[002引在本發(fā)明的描述中,需要理解的是,術(shù)語"中屯、"、"縱向橫向上"、"下"、 "前"、"后V'左'、"右V'豎曹'、"水甲V'頂'、"底V'胖V'外"等指示的方位或位置關(guān)系為 基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗 示所指的裝置或元件必須具有特定的方位、W特定的方位構(gòu)造和操作,因此不能理解為對 本發(fā)明的限制。此外,術(shù)語"第一"、"第二"僅用于描述目的,而不能理解為指示或暗示相對 重要性。
[0029] 在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語"安裝"、"相 連"、"連接"應(yīng)做廣義理解,例如,可W是固定連接,也可W是可拆卸連接,或一體地連接;可 W是機械連接,也可W是電連接;可W是直接相連,也可W通過中間媒介間接相連,可W是 兩個元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可W具體情況理解上述術(shù)語在本 發(fā)明中的具體含義。
[0030] W下結(jié)合附圖描述根據(jù)本發(fā)明實施例的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新 詞自動提取的方法。
[0031] 圖1是根據(jù)本發(fā)明實施例的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的 方法。圖2是根據(jù)本發(fā)明一個實施例的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取 的方法的整體流程圖。結(jié)合圖1和圖2所示,根據(jù)本發(fā)明實施例的基于海量微博文本和用戶 信息的網(wǎng)絡(luò)新詞自動提取的方法,包括W下步驟:
[0032] 步驟SI:獲取微博數(shù)據(jù),其中,微博數(shù)據(jù)包括微博文本內(nèi)容及每條微博對應(yīng)的作者 標(biāo)識符。在一些示例中,例如通過網(wǎng)絡(luò)爬蟲技術(shù)獲取大量微博數(shù)據(jù)。例如,得到微博數(shù)據(jù)集 合為D,其中每一項包括微博文本化W及對應(yīng)的用戶標(biāo)識符符Si。
[0033] 步驟S2:建立新詞列表,例如記作W,其中,新詞列表初始化為空集,即新詞列表W初 始為至集。
[0034] 步驟S3:將新詞列表作為用戶自定義詞典加入預(yù)設(shè)的漢語分析工具中,并根據(jù)漢 語分析工具對微博數(shù)據(jù)集合D中的各個微博文本化進行分詞操作,W將微博文本化映射成分 割詞段的集合,并分別統(tǒng)計各個分割詞段基于文本和用戶兩個維度的詞頻信息。換言之,即 將得到的每一個分割詞段作為一個基本單元,記為Wi,分別統(tǒng)計各個基本單元Wi基于微博文 本和用戶信息兩個維度的詞語頻次信息,例如分別記為訴和nf。
[0035] 步驟S4:根據(jù)步驟S3中得到的詞頻信息更新新詞列表中對應(yīng)詞語的詞頻信息并將 詞語頻次小于第一頻次闊值的詞語從新詞列表W中刪除。
[0036] 其中,在步驟S4中,在微博文本的基礎(chǔ)上,綜合利用了微博數(shù)據(jù)的用戶信息進行新 詞自動提取,不同于傳統(tǒng)方法只考慮新詞基于文本內(nèi)容的分布,該方法根據(jù)微博數(shù)據(jù)的特 點,綜合考慮了網(wǎng)絡(luò)新詞在文本和用戶兩個維度的分布信息。
[0037] 步驟S5:在分詞操作得到的分割詞段中,將出現(xiàn)的每個單獨的分割詞段作為一個 基本單元,將n個連續(xù)出現(xiàn)的分割詞段定義為n元組,據(jù)此統(tǒng)計微博數(shù)據(jù)中出現(xiàn)的所有的二 元組和=元組,并將二元組和=元組作為候選新詞。
[0038] 步驟S6:根據(jù)候選新詞在文本和用戶兩個維度的分布,統(tǒng)計候選新詞基于文本和 用戶兩個維度的詞頻信息,并計算候選新詞的關(guān)聯(lián)性得分。
[0039] 在一些示例中,該步驟具體包括:
[0040] 首先,基于強化互信息EMI理論,計算每個詞語基于文本頻次的EMI得分,具體為:
[0041]
[0042] 其中,和Wwf:分別表示詞語W"和郵的基于微博文本的頻次,T是微博的總數(shù) 目,n是n元組中的參數(shù)n,n = 2或3;
[0043] 其次,根據(jù)詞語在用戶之間的分布信息計算用戶之間的EMI得分,具體為:
[0044]
[0045] 其中,和W苗分別表示詞語和Wf的基于用戶使用的頻次,Tu是用戶的總數(shù) 目,n是n元組中的參數(shù)n,n = 2或3;
[0046] 最后,根據(jù)基于文本頻次的EMI得分和用戶之間的EMI得分得到候選新詞的關(guān)聯(lián)性 得分,具體為:
[0047] ascore(w") =EMI (w")+usrEMI (w"),
[004引其中,ascore(wn)為候選新詞的關(guān)聯(lián)性得分。
[0049] 步驟S7:將候選新詞中詞語頻次大于第二頻次闊值且關(guān)聯(lián)性得分大于得分闊值的 詞語添加至新詞列表。
[0050] 步驟S8:迭代執(zhí)行步驟S2至步驟S7,直至微博數(shù)據(jù)中沒有新的候選新詞產(chǎn)生且新 詞列表中沒有候選新詞被刪除。也就是說,在該步驟中,建立了一種迭代計算算法,從而可 W迭代式地合并分詞結(jié)果中的分割詞段。運樣在每次迭代過程中只需要找到低階的n元組 (例如二元組和=元組)即可,而傳統(tǒng)方法為了發(fā)現(xiàn)比較長的新詞需要找到高階的n元組,因 此候選詞的數(shù)量隨著n的增大呈指數(shù)增長。因此本發(fā)明實施例的方法相對于傳統(tǒng)方法,用迭 代的計算算法取代了傳統(tǒng)方法中的直接計算算法,極大減小了方法的空間和時間復(fù)雜度。
[0051] 進一步地,在步驟S8中,在每次迭代完成后,將發(fā)現(xiàn)的新詞加入新詞列表,并將新 詞列表作為預(yù)設(shè)漢語分析工具的用戶自定義詞典,W在下一次分詞操作中,將上一次迭代 過程中發(fā)現(xiàn)的新詞正確地劃分,從而可W不斷優(yōu)化分詞結(jié)果。并且優(yōu)化后的分詞結(jié)果進而 可W提高候選新詞的質(zhì)量。
[0052] 綜上,根據(jù)本發(fā)明實施例的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的 方法,利用微博數(shù)據(jù)的特點,在微博文本的基礎(chǔ)上,綜合考慮了用戶信息,同時建立了一種 迭代計算算法來自動提取網(wǎng)絡(luò)新詞;并且相對于傳統(tǒng)方法的結(jié)果,該方法產(chǎn)生的結(jié)果具有 較高的準(zhǔn)確性和較低的時間和空間復(fù)雜度,在社交媒體數(shù)據(jù)的挖掘和分析中具有重要的應(yīng) 用。
[0053] 為了便于更好地理解本發(fā)明,W下W新浪微博數(shù)據(jù)為例,結(jié)合具體的實施例來對 本發(fā)明上述實施例的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的方法做進一步 詳細地描述。
[0054] 在本實施例中,該方法例如包括W下步驟:
[0055] 步驟1:利用新浪微博對應(yīng)的API(新浪微博提供的應(yīng)用程序編程接口)爬取大量新 浪微博用戶發(fā)布的微博數(shù)據(jù),包括所有微博文本及對應(yīng)用戶的標(biāo)識符符(用戶名或者用戶 ID等能唯一表征用戶的屬性),數(shù)據(jù)集合記為D,其中每一項包括微博文本內(nèi)容DiW及用戶 標(biāo)識符符Si;即D=K化,Si) Ii = I,2,3-'},為后續(xù)的新詞檢測任務(wù)做數(shù)據(jù)準(zhǔn)備。
[0056] 步驟2:定義一個新詞列表W,初始化新詞列表W為空集。該方法會對W持續(xù)更新,W最 終的內(nèi)容就是整個方法的輸出結(jié)果,即提取到的網(wǎng)絡(luò)新詞。
[0057] 步驟3:將新詞列表W作為漢語分析工具的用戶自定義詞典,并利用該漢語分析工 具對微博數(shù)據(jù)集合D中的各個文本內(nèi)容Di進行分詞操作,從而得到每個微博的分割詞段的 集合,記為W,W= Iwi I i = 1,2,},Wi為各個分割詞段。新詞列表W不斷地更新使得新發(fā)現(xiàn)的 網(wǎng)絡(luò)新詞可W不斷優(yōu)化分詞結(jié)果。
[0058] 步驟4:根據(jù)步驟3中得到的分詞結(jié)果中的分割詞段,統(tǒng)計各個詞段的詞頻信息。對 于每一個分割詞段Wi,分別統(tǒng)計其在微博文本和用戶兩個維度的詞頻信息。具體為:對于每 一個詞段Wi,在微博文本內(nèi)容運個維度上,統(tǒng)計有多少篇微博含有詞段Wi,結(jié)果記為nf; W及 基于用戶使用信息的維度上,統(tǒng)計有多少個用戶使用了詞段Wi,結(jié)果記為雌。因此,此步驟 最終完成了從微博文本內(nèi)容W及用戶使用信息到詞段頻次表的映射。最終,將得到的詞段 頻次表記為G:
[0059] 步驟5:在統(tǒng)計得到各個分割詞段的頻次信息之后,利用該信息對新詞列表W進行 更新。對于新詞列表W中每一個詞,根據(jù)詞段頻次表G中的信息,將對應(yīng)的微博文本內(nèi)容詞頻 nf小于第一頻次闊值的詞語從W中濾除。而之所W在每一次分詞之后對W中的詞進行詞頻統(tǒng) 計,之后再進行濾除操作,是因為將新詞列表W作為漢語分析工具的用戶自定義詞典加入了 分詞操作當(dāng)中,可W讓分詞工具根據(jù)W中的各個詞語找到對微博文本更加合適的劃分,從而 優(yōu)化分詞結(jié)果,并且可W根據(jù)優(yōu)化后的分詞結(jié)果再濾除之前發(fā)現(xiàn)的錯誤的新詞。
[0060] 步驟6:利用分割詞段找到海量微博文本中所有的二元組和=元組。二元組由在微 博文本內(nèi)容中相鄰的兩個分割詞段Wi組成,記為W2 = W1W2,而=元組為在微博文本內(nèi)容中相 鄰的立個分割詞段Wi組成,記為W3 = W1W2W3,將二元組和立元組統(tǒng)一記為W%運些二元組和= 元組即構(gòu)成了候選新詞。
[0061] 步驟7:對于每一個候選新詞w%利用與之前統(tǒng)計詞段頻次表相同的方法,分別基 于其所在文本內(nèi)容和對應(yīng)用戶信息兩個維度,統(tǒng)計其詞頻信息,結(jié)果記為F,
。其中,得到的結(jié)果F為包含所有可能候選新詞的集合。進一步 地,基于統(tǒng)計學(xué)習(xí)的方法,根據(jù)其文本詞頻信息和用戶使用情況計算F中的每一個詞是否是 新詞。首先基于強化互信息EMI理論,計算每個詞語基于文本頻次的EMI得分,公式如下:
[0062]
[0063] 其中,Wwn和Wwf分別代表詞語W"和Wf的基于微博文本的頻次,T是微博的總數(shù) 目,n是n元組中的參數(shù)n(n = 2或3)。詞語W"的EMI得到越高,表示組成運個詞語W"的各個分割 詞段有更強的關(guān)聯(lián)性,則運個詞語W"越有可能是網(wǎng)絡(luò)新詞。
[0064] 然后,利用詞語在用戶之間的分布信息計算用戶之間的EMI得分,公式如下:
[00 化]
[0066] 其中,分別代表詞語W"和 < 的基于用戶使用的頻次,Tu是用戶的總數(shù) 目,n是n元組中的參數(shù)n(n = 2或3)。詞語W"的用戶EMI得到越高,表示運個詞語W"可能被更多 的用戶所使用,并且在不同用戶之間有更強的關(guān)聯(lián)性,則運個詞語W"越有可能是流行的網(wǎng) 絡(luò)新詞。
[0067] 最后,將候選新詞W"的關(guān)聯(lián)性得分ascore定義為:
[0068] ascore(w")=EMI(w")+usrEMI(w"),
[0069] 其中,對于一個候選新詞W%其關(guān)聯(lián)性得分越高,說明組成運個詞語的各個分割詞 段在微博文本和用戶使用兩個維度上有更強的關(guān)聯(lián)性。同時由于該詞語W"沒有被分詞工具 正確地檢測到,因此W"很可能就是從微博中發(fā)現(xiàn)的用戶自定義的流行詞匯,即網(wǎng)絡(luò)新詞。
[0070] 根據(jù)先驗知識,"新詞"是大家能接受的新出現(xiàn)的、有一定語義的、并且不存在于傳 統(tǒng)詞典里的詞,因此新詞一定是被很多不同用戶廣泛使用的。詞語的頻次信息和其關(guān)聯(lián)性 得分可W很好的反映上述指標(biāo),因此如果詞語W"的關(guān)聯(lián)性得分大于關(guān)聯(lián)性得分闊值,并且 詞語W"的頻次也大于頻次闊值,則將詞語W"加入候選新詞列表W。
[0071] W上步驟7是該方法的一次迭代,不斷重復(fù)W上步驟,直到某一次迭代最終沒有產(chǎn) 生新的詞語加入新詞列表W,并且也沒有新詞列表中的詞語被刪除,則終止迭代過程,此時 的新詞列表W中的每一項均為本發(fā)明的方法提取的網(wǎng)絡(luò)新詞。
[0072] 綜上,在本實施例中該方法具有如下特點:利用了微博用戶維度上的詞語分布信 息。相對于傳統(tǒng)的方法,該方法利用統(tǒng)計學(xué)方法,基于強化互信息(EMI)理論,不僅對新詞在 文本內(nèi)容維度上的分布做了分析,同時利用微博運個網(wǎng)絡(luò)信息載體的特性,分析了新詞在 不同用戶之間的使用分布情況,運一點可W較明顯地提升該方法發(fā)現(xiàn)的新詞的準(zhǔn)確率。另 夕h本方法建立了一種迭代計算算法進行新詞自動提取步驟,而不同于傳統(tǒng)方法直接進行 計算。首先,運一點能有效地降低該方法的時間和空間復(fù)雜度。原始的基于EMI的新詞檢測 算法中,為了一次找到所有的新詞,需要找到高階的n元組,即找到文本中任意不大于n的連 續(xù)分割詞段的組合。然而隨著n的增大,候選詞的數(shù)量呈現(xiàn)指數(shù)增長,對內(nèi)存和時間的消耗 也急劇增大。而該方法采用迭代的方式,可W在每次迭代過程中只使用二元組和=元組,之 后通過多次的合并操作來發(fā)現(xiàn)更長的詞語組合,因此該方法能有效降低對內(nèi)存的需求,具 有較低的時間和空間復(fù)雜度。另一方面,在每一次迭代的步驟中,可W產(chǎn)生識別到的候選新 詞,該方法利用該候選新詞優(yōu)化下一次的分詞操作,進而利用優(yōu)化后的分詞結(jié)果濾除之前 發(fā)現(xiàn)的新詞集合中不合格的項,運一點可W進一步提升該方法發(fā)現(xiàn)的新詞的準(zhǔn)確率。
[0073] 在本說明書的描述中,參考術(shù)語"一個實施例"、"一些實施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特 點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不 一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可W在任何 的一個或多個實施例或示例中W合適的方式結(jié)合。
[0074] 盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領(lǐng)域的普通技術(shù)人員可W理解:在不 脫離本發(fā)明的原理和宗旨的情況下可W對運些實施例進行多種變化、修改、替換和變型,本 發(fā)明的范圍由權(quán)利要求及其等同限定。
【主權(quán)項】
1. 一種基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的方法,其特征在于,包括 以下步驟: S1:獲取微博數(shù)據(jù),其中,所述微博數(shù)據(jù)包括微博文本及微博對應(yīng)的作者標(biāo)識符; S2:建立新詞列表,其中,所述新詞列表初始化為空集; S3:將所述新詞列表加入預(yù)設(shè)的漢語分析工具中,并根據(jù)所述漢語分析工具對所述微 博文本進行分詞操作,以將所述微博文本映射成分割詞段的集合,并分別統(tǒng)計各個分割詞 段基于文本和用戶兩個維度的詞頻信息; S4:根據(jù)得到的詞頻信息更新所述新詞列表中對應(yīng)詞語的詞頻信息,并將詞語頻次小 于第一頻次閾值的詞語從所述新詞列表中刪除; S5:將分詞操作中η個連續(xù)出現(xiàn)的分割詞段定義為η元組,統(tǒng)計微博數(shù)據(jù)中所有的二元 組和三元組,并將所述二元組和三元組作為候選新詞; S6:根據(jù)所述候選新詞在文本和用戶兩個維度的分布,統(tǒng)計所述候選新詞基于文本和 用戶兩個維度的詞頻信息,并計算所述候選新詞的關(guān)聯(lián)性得分; S7:將所述候選新詞中詞語頻次大于第二頻次閾值且關(guān)聯(lián)性得分大于得分閾值的詞語 添加至所述新詞列表;以及 S8:迭代執(zhí)行所述S2至S7,直至所述微博數(shù)據(jù)中沒有新的候選新詞產(chǎn)生且所述新詞列 表中沒有候選新詞被刪除。2. 根據(jù)權(quán)利要求1所述的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的方法, 其特征在于,在所述S4中,在所述微博文本的基礎(chǔ)上,根據(jù)微博數(shù)據(jù)的用戶信息進行新詞自 動提取。3. 根據(jù)權(quán)利要求1所述的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的方法, 其特征在于,其中,在所述S8中,通過迭代計算算法迭代式地合并分詞結(jié)果中的分割詞段, 其中,在每次迭代過程中僅需查找微博數(shù)據(jù)中的二元組和三元組。4. 根據(jù)權(quán)利要求3所述的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的方法, 其特征在于,在所述S8中,還包括: 在每次迭代完成后,將發(fā)現(xiàn)的新詞加入所述新詞列表,并將所述新詞列表作為預(yù)設(shè)漢 語分析工具的用戶自定義詞典,以在下一次分詞操作中,將上一次迭代過程中發(fā)現(xiàn)的新詞 正確地劃分。5. 根據(jù)權(quán)利要求1所述的基于海量微博文本和用戶信息的網(wǎng)絡(luò)新詞自動提取的方法, 其特征在于,所述S6進一步包括: 基于強化互信息ΕΜΙ理論,計算每個詞語基于文本頻次的ΕΜΙ得分,具體為:其中JVwn和分別表示詞語wn和的基于微博文本的頻次,τ是微博的總數(shù)目, 11是11 元組中的參數(shù)η,η = 2或3; 根據(jù)詞語在用戶之間的分布信息計算用戶之間的EMI得分,具體為:其中,和<;[η分別表示詞語#和Wf的基于用戶使用的頻次,Tu是用戶的總數(shù)目,!!是 η元組中的參數(shù)η,η = 2或3; 根據(jù)所述基于文本頻次的EMI得分和用戶之間的EMI得分得到候選新詞的關(guān)聯(lián)性得分, 具體為: ascore(wn) =EMI(wn)+usrEMI(wn), 其中,ascore (wn)為候選新詞wn的關(guān)聯(lián)性得分。
【文檔編號】G06F17/30GK105956158SQ201610324541
【公開日】2016年9月21日
【申請日】2016年5月17日
【發(fā)明人】黃永峰, 吳方照, 劉佳偉, 袁志剛, 吳思行
【申請人】清華大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
龙口市| 肇庆市| 华亭县| 建宁县| 襄樊市| 滨海县| 南阳市| 通城县| 涟源市| 南川市| 浠水县| 新源县| 桃园县| 长垣县| 顺平县| 双柏县| 郎溪县| 迁安市| 南丰县| 东阳市| 福海县| 林芝县| 轮台县| 高平市| 太湖县| 肇东市| 津南区| 鄂托克前旗| 辽宁省| 兴仁县| 瑞丽市| 凤凰县| 当雄县| 沙洋县| 宜兰市| 民和| 青岛市| 淮滨县| 梅河口市| 赤壁市| 牟定县|