詞匯識別方法和詞匯識別系統(tǒng)與流程

文檔序號：12176961閱讀：553來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計算機技術(shù)領(lǐng)域，具體而言，涉及一種詞匯識別方法和一種詞匯識別系統(tǒng)。

背景技術(shù)：

目前，隨著互聯(lián)網(wǎng)的發(fā)展，網(wǎng)絡(luò)中的流行詞或新詞不斷涌現(xiàn)。一般認(rèn)為，流行詞或新詞是因為某種社會現(xiàn)象在網(wǎng)絡(luò)上出現(xiàn)、流行并融入人們生活的非正式語言。這些流行詞或新詞與當(dāng)前的社會現(xiàn)象密切相關(guān)，反映了社會大眾的心理，甚至可以作為一個時代的縮影。因此，如何發(fā)現(xiàn)網(wǎng)絡(luò)中的流行詞或新詞是網(wǎng)絡(luò)信息處理中的一個重要問題，且流行詞或新詞的發(fā)現(xiàn)在信息檢索、文本挖掘、詞典編纂、中文分詞等領(lǐng)域都有重要應(yīng)用。及時有效地發(fā)現(xiàn)網(wǎng)絡(luò)流行語新詞對把握網(wǎng)絡(luò)輿情、社會發(fā)展也具有重要意義。

相關(guān)技術(shù)中的中文分詞方案很難準(zhǔn)確地對流行詞或新詞做出識別；而中文分詞作為中文信息處理的前提和基礎(chǔ)，流行詞或新詞的識別成為影響分詞性能的重要因素。對于流行詞或新詞的發(fā)現(xiàn)，相關(guān)技術(shù)中的一個方案是重點研究二字詞的提取，通常是基于詞性與獨立詞概率對流行詞或新詞進行提取，但對流行詞或新詞的長度有所限制，導(dǎo)致獲取的流行詞或新詞并不全面。相關(guān)技術(shù)中的另一個方案是具有領(lǐng)域依賴，例如基于規(guī)則的方法，由于不同領(lǐng)域的構(gòu)成規(guī)則可能不同，某些規(guī)則僅適用于部分領(lǐng)域。對于包括人名、地名、機構(gòu)名等命名實體的詞研究較多，但是對于非命名實體的詞，如流行詞或新詞則缺乏有效的識別方法。

因此，如何比較全面且準(zhǔn)確地識別流行詞或新詞等詞，成為亟待解決的問題。

技術(shù)實現(xiàn)要素：

本發(fā)明正是基于上述問題，提出了一種新的技術(shù)方案，可以比較全面地獲取候選關(guān)鍵詞，從而可以從候選關(guān)鍵詞中比較全面且準(zhǔn)確地識別流行詞或新詞等目標(biāo)關(guān)鍵詞，進而可以通過識別出的流行詞或新詞等目標(biāo)關(guān)鍵詞來發(fā)現(xiàn)網(wǎng)絡(luò)熱點和分析輿論走向。

有鑒于此，本發(fā)明的一方面提出了一種詞匯識別方法，包括：根據(jù)接收到的詞匯識別命令，從待處理文本中獲取多個候選關(guān)鍵詞，并將所述多個候選關(guān)鍵詞發(fā)送至統(tǒng)計單元，通過所述統(tǒng)計單元接收所述多個候選關(guān)鍵詞，統(tǒng)計所述多個候選關(guān)鍵詞的參數(shù)信息，并將所述多個候選關(guān)鍵詞的所述參數(shù)信息發(fā)送至識別單元；通過所述識別單元接收所述參數(shù)信息，并根據(jù)所述多個候選關(guān)鍵詞的所述參數(shù)信息，對所述多個候選關(guān)鍵詞進行過濾，以識別目標(biāo)關(guān)鍵詞。

在該技術(shù)方案中，在待處理文本中獲取多個候選關(guān)鍵詞，其中，獲取到的候選關(guān)鍵詞的字?jǐn)?shù)沒有限制，而且該候選關(guān)鍵詞可以是人名、地名、機構(gòu)名等命名實體的詞，還可以是流行語等非實體的詞，這樣，在待處理文本中獲取到的候選關(guān)鍵詞就比較全面，從而根據(jù)統(tǒng)計的參數(shù)信息識別出的目標(biāo)關(guān)鍵詞就更加全面，例如，可以全面地識別出當(dāng)前網(wǎng)絡(luò)中的流行詞等新詞，從而可以通過識別出的流行詞等新詞來發(fā)現(xiàn)網(wǎng)絡(luò)熱點和分析輿論走向。

在上述技術(shù)方案中，優(yōu)選地，所述從待處理文本中獲取多個候選關(guān)鍵詞，具體包括：通過以下至少之一或其組合的方式對所述待處理文本進行預(yù)處理：分詞處理方式、排除普通詞方式、排除停用詞方式、合并近鄰單字方式，以從所述待處理文本中獲取所述多個候選關(guān)鍵詞。

在該技術(shù)方案中，對待處理文本進行預(yù)處理的方式包括但不限于以下至少之一或其組合：分詞處理方式、排除普通詞方式、排除停用詞方式、合并近鄰單字方式，由于通過分詞處理方式對待處理文本進行分詞后，依然很難在候選關(guān)鍵詞中識別出流行詞、新詞等目標(biāo)關(guān)鍵詞，因此，還需要對分詞結(jié)果進一步地分析，例如，通過排除普通詞方式和排除停用詞方式排除字典中已有的普通詞和停用詞，并且，將普通詞或停用詞中的邊界字和與該邊界字近鄰的至少一個近鄰字進行合并，例如，普通詞為“上學(xué)”，“上學(xué)”中的邊界字“上”，將該邊界字“上”與該邊界字左近鄰的至少一個近鄰字為“高大”進行合并，得到候選關(guān)鍵詞“高大上”，從而通過合并近鄰單字方式可以獲取流行語等非實體的詞，這樣，在待處理文本中獲取到的候選關(guān)鍵詞就比較全面，進而可以通過識別出的流行詞等新詞來發(fā)現(xiàn)網(wǎng)絡(luò)熱點和分析輿論走向。

在上述技術(shù)方案中，優(yōu)選地，所述根據(jù)所述多個候選關(guān)鍵詞的所述參數(shù)信息，對所述多個候選關(guān)鍵詞進行過濾，具體包括：確定所述多個候選關(guān)鍵詞中的任一候選關(guān)鍵詞的所述參數(shù)信息是否處于預(yù)定范圍；當(dāng)確定所述任一候選關(guān)鍵詞的所述參數(shù)信息處于所述預(yù)定范圍時，將所述任一候選關(guān)鍵詞識別為所述目標(biāo)關(guān)鍵詞。

在該技術(shù)方案中，當(dāng)確定多個候選關(guān)鍵詞中的任一候選關(guān)鍵詞的參數(shù)信息處于預(yù)定范圍時，將任一候選關(guān)鍵詞識別為目標(biāo)關(guān)鍵詞，從而可以在多個候選關(guān)鍵詞中準(zhǔn)確地過濾出流行詞或新詞等目標(biāo)關(guān)鍵詞，進而可以根據(jù)流行詞或新詞等目標(biāo)關(guān)鍵詞來發(fā)現(xiàn)網(wǎng)絡(luò)熱點和分析輿論走向，例如，參數(shù)信息為詞匯上下文環(huán)境，該詞匯上下文環(huán)境即為與任一候選關(guān)鍵詞左右相鄰的詞，當(dāng)與任一候選關(guān)鍵詞左右相鄰的詞的數(shù)量較少，則說明該任一候選關(guān)鍵詞缺乏語言搭配多樣性，成為流行詞或新詞等目標(biāo)關(guān)鍵詞的概率較小，因此，將任一候選關(guān)鍵詞過濾掉，再例如，參數(shù)信息為詞匯結(jié)合度，如果任一候選關(guān)鍵詞的詞匯結(jié)合度小于或等于預(yù)定范圍的話，說明該任一候選關(guān)鍵詞是流行詞或新詞等目標(biāo)關(guān)鍵詞的概率很小，當(dāng)然，也可以根據(jù)詞或字的特征來確定目標(biāo)關(guān)鍵詞，例如，“子”一般都出現(xiàn)在詞的尾部，如“孩子，兒子，老子”等，如果“子”出現(xiàn)在候選關(guān)鍵詞的首部，則該候選關(guān)鍵詞成為目標(biāo)關(guān)鍵詞的概率就比較小。

在上述技術(shù)方案中，優(yōu)選地，還包括：根據(jù)接收到的設(shè)置命令，設(shè)置所述參數(shù)信息的所述預(yù)定范圍，以供根據(jù)設(shè)置的所述預(yù)定范圍，在所述待處理文本中識別所述目標(biāo)關(guān)鍵詞。

在該技術(shù)方案中，如果在預(yù)定范圍內(nèi)沒有發(fā)現(xiàn)目標(biāo)關(guān)鍵詞，或者在預(yù)定范圍內(nèi)發(fā)現(xiàn)的目標(biāo)關(guān)鍵詞的數(shù)量較少時，則可以根據(jù)調(diào)節(jié)后的預(yù)定范圍在處理文本中識別出目標(biāo)關(guān)鍵詞，從而可以比較全面地識別目標(biāo)關(guān)鍵詞，如果在預(yù)定范圍內(nèi)發(fā)現(xiàn)的目標(biāo)關(guān)鍵詞的數(shù)量較多時，也可以調(diào)節(jié)預(yù)定范圍，因為在一定的時間內(nèi)所出現(xiàn)的流行詞或新詞等目標(biāo)關(guān)鍵詞的數(shù)量是有限的，根據(jù)調(diào)節(jié)后的預(yù)定范圍在處理文本中識別出目標(biāo)關(guān)鍵詞，從而可以比較準(zhǔn)確地識別目標(biāo)關(guān)鍵詞。

在上述技術(shù)方案中，優(yōu)選地，所述參數(shù)信息包括以下至少之一或其組合：詞頻、詞頻增長率、詞匯上下文環(huán)境、詞匯結(jié)合度；其中，所述詞匯結(jié)合度包括：單字成詞率和相鄰字成詞率。

在該技術(shù)方案中，參數(shù)信息包括但不限于以下至少之一或其組合：詞頻、詞頻增長率、詞匯上下文環(huán)境、詞匯結(jié)合度，從而可以根據(jù)多個候選詞的參數(shù)信息在多個候選關(guān)鍵詞中準(zhǔn)確地過濾出流行詞或新詞等目標(biāo)關(guān)鍵詞，進而可以根據(jù)流行詞或新詞等目標(biāo)關(guān)鍵詞來發(fā)現(xiàn)網(wǎng)絡(luò)熱點和分析輿論走向，例如，可以根據(jù)多個候選關(guān)鍵詞中的任一候選關(guān)鍵詞的詞頻來確定任一候選關(guān)鍵詞是否為目標(biāo)關(guān)鍵詞，因為當(dāng)任一候選關(guān)鍵詞的詞頻太低時，說明任一候選關(guān)鍵詞缺乏流通度，或者可能是偶然單字的結(jié)合，還可以根據(jù)多個候選關(guān)鍵詞中的任一候選關(guān)鍵詞的詞頻增長率來確定任一候選關(guān)鍵詞是否為目標(biāo)關(guān)鍵詞，因為流行詞或新詞等目標(biāo)關(guān)鍵詞的出現(xiàn)，在前期往往伴隨詞頻的突增現(xiàn)象，隨后一段時間內(nèi)其詞頻下降并趨于平穩(wěn)。

本發(fā)明的另一方面提出了一種詞匯識別系統(tǒng)，包括：預(yù)處理單元，根據(jù)接收到的詞匯識別命令，從待處理文本中獲取多個候選關(guān)鍵詞，并將所述多個候選關(guān)鍵詞發(fā)送至統(tǒng)計單元；統(tǒng)計單元，通過所述統(tǒng)計單元接收所述多個候選關(guān)鍵詞，統(tǒng)計所述多個候選關(guān)鍵詞的參數(shù)信息，并將所述多個候選關(guān)鍵詞的所述參數(shù)信息發(fā)送至識別單元；識別單元，通過所述識別單元接收所述參數(shù)信息，并根據(jù)所述多個候選關(guān)鍵詞的所述參數(shù)信息，對所述多個候選關(guān)鍵詞進行過濾，以識別目標(biāo)關(guān)鍵詞。

在上述技術(shù)方案中，優(yōu)選地，所述預(yù)處理單元具體用于：通過以下至少之一或其組合的方式對所述待處理文本進行預(yù)處理：分詞處理方式、排除普通詞方式、排除停用詞方式、合并近鄰單字方式，以從所述待處理文本中獲取所述多個候選關(guān)鍵詞。

在上述技術(shù)方案中，優(yōu)選地，所述識別單元用于：確定所述多個候選關(guān)鍵詞中的任一候選關(guān)鍵詞的所述參數(shù)信息是否處于預(yù)定范圍，當(dāng)確定所述任一候選關(guān)鍵詞的所述參數(shù)信息處于所述預(yù)定范圍時，將所述任一候選關(guān)鍵詞識別為所述目標(biāo)關(guān)鍵詞。

在上述技術(shù)方案中，優(yōu)選地，還包括：設(shè)置單元，根據(jù)接收到的設(shè)置命令，設(shè)置所述參數(shù)信息的所述預(yù)定范圍，以供根據(jù)設(shè)置的所述預(yù)定范圍，在所述待處理文本中識別所述目標(biāo)關(guān)鍵詞。

通過本發(fā)明的技術(shù)方案，可以比較全面地獲取候選關(guān)鍵詞，從而可以從候選關(guān)鍵詞中比較全面且準(zhǔn)確地識別流行詞等新詞，進而可以通過識別出的流行詞等新詞來發(fā)現(xiàn)網(wǎng)絡(luò)熱點和分析輿論走向。

附圖說明

圖1示出了根據(jù)本發(fā)明的一個實施例的詞匯識別方法的流程示意圖；

圖2示出了根據(jù)本發(fā)明的一個實施例的詞匯識別系統(tǒng)的結(jié)構(gòu)示意圖；

圖3示出了根據(jù)本發(fā)明的一個實施例的詞匯識別系統(tǒng)的原理示意圖；

圖4示出了根據(jù)本發(fā)明的一個實施例的詞匯上下文環(huán)境的示意圖。

具體實施方式

為了可以更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點，下面結(jié)合附圖和具體實施方式對本發(fā)明進行進一步的詳細(xì)描述。需要說明的是，在不沖突的情況下，本申請的實施例及實施例中的特征可以相互組合。

在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明，但是，本發(fā)明還可以采用其他不同于在此描述的其他方式來實施，因此，本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。

圖1示出了根據(jù)本發(fā)明的一個實施例的詞匯識別方法的流程示意圖。

如圖1所示，根據(jù)本發(fā)明的一個實施例的詞匯識別方法，包括：

步驟102，根據(jù)接收到的詞匯識別命令，從待處理文本中獲取多個候選關(guān)鍵詞，并將多個候選關(guān)鍵詞發(fā)送至統(tǒng)計單元。

步驟104，通過統(tǒng)計單元接收多個候選關(guān)鍵詞，統(tǒng)計多個候選關(guān)鍵詞的參數(shù)信息，并將多個候選關(guān)鍵詞的參數(shù)信息發(fā)送至識別單元。

步驟106，通過識別單元接收參數(shù)信息，并根據(jù)多個候選關(guān)鍵詞的參數(shù)信息，對多個候選關(guān)鍵詞進行過濾，以識別目標(biāo)關(guān)鍵詞。

在上述技術(shù)方案中，優(yōu)選地，步驟102具體包括：通過以下至少之一或其組合的方式對所述待處理文本進行預(yù)處理：分詞處理方式、排除普通詞方式、排除停用詞方式、合并近鄰單字方式，以從所述待處理文本中獲取所述多個候選關(guān)鍵詞。

在上述技術(shù)方案中，優(yōu)選地，步驟106具體包括：確定多個候選關(guān)鍵詞中的任一候選關(guān)鍵詞的參數(shù)信息是否處于預(yù)定范圍；當(dāng)確定任一候選關(guān)鍵詞的參數(shù)信息處于預(yù)定范圍時，將任一候選關(guān)鍵詞識別為目標(biāo)關(guān)鍵詞。

在該技術(shù)方案中，當(dāng)確定多個候選關(guān)鍵詞中的任一候選關(guān)鍵詞的參數(shù)信息處于預(yù)定范圍時，將任一候選關(guān)鍵詞識別為目標(biāo)關(guān)鍵詞，從而可以在多個候選關(guān)鍵詞中準(zhǔn)確地過濾出流行詞或新詞等目標(biāo)關(guān)鍵詞，進而可以根據(jù)流行詞或新詞等目標(biāo)關(guān)鍵詞來發(fā)現(xiàn)網(wǎng)絡(luò)熱點和分析輿論走向，例如，參數(shù)信息為詞匯上下文環(huán)境，該詞匯上下文環(huán)境即為與任一候選關(guān)鍵詞左右相鄰的詞，當(dāng)與任一候選關(guān)鍵詞左右相鄰的詞的數(shù)量較少，則說明該任一候選關(guān)鍵詞缺乏語言搭配多樣性，成為流行詞或新詞等目標(biāo)關(guān)鍵詞的概率較小，因此，將任一候選關(guān)鍵詞過濾掉，再例如，參數(shù)信息為詞匯結(jié)合度，如果任一候選關(guān)鍵詞的詞匯結(jié)合度小于或等于預(yù)定范圍的話，說明該任一候選關(guān)鍵詞是流行詞或新詞等目標(biāo)關(guān)鍵詞的概率很小，當(dāng)然，也可以根據(jù) 詞或字的特征來確定目標(biāo)關(guān)鍵詞，例如，“子”一般都出現(xiàn)在詞的尾部，如“孩子，兒子，老子”等，如果“子”出現(xiàn)在候選關(guān)鍵詞的首部，則該候選關(guān)鍵詞成為目標(biāo)關(guān)鍵詞的概率就比較小。

在上述技術(shù)方案中，優(yōu)選地，還包括：根據(jù)接收到的設(shè)置命令，設(shè)置參數(shù)信息的預(yù)定范圍，以供根據(jù)設(shè)置的預(yù)定范圍，在待處理文本中識別目標(biāo)關(guān)鍵詞。

在上述技術(shù)方案中，優(yōu)選地，參數(shù)信息包括以下至少之一或其組合：詞頻、詞頻增長率、詞匯上下文環(huán)境、詞匯結(jié)合度；其中，詞匯結(jié)合度包括：單字成詞率和相鄰字成詞率。

圖2示出了根據(jù)本發(fā)明的一個實施例的詞匯識別系統(tǒng)的結(jié)構(gòu)示意圖。

如圖2所示，根據(jù)本發(fā)明的一個實施例的詞匯識別系統(tǒng)200，包括：預(yù)處理單元202，根據(jù)接收到的詞匯識別命令，從待處理文本中獲取多個候選關(guān)鍵詞，并將所述多個候選關(guān)鍵詞發(fā)送至統(tǒng)計單元204；統(tǒng)計單元204，通過所述統(tǒng)計單元接收所述多個候選關(guān)鍵詞，統(tǒng)計所述多個候選關(guān)鍵詞的參數(shù)信息，并將所述多個候選關(guān)鍵詞的所述參數(shù)信息發(fā)送至識別單元206；識別單元206，通過所述識別單元接收所述參數(shù)信息，并根據(jù)所述多個候選關(guān)鍵詞的所述參數(shù)信息，對所述多個候選關(guān)鍵詞進行過濾，以識別目標(biāo)關(guān)鍵詞。

在上述技術(shù)方案中，優(yōu)選地，預(yù)處理的方式包括以下至少之一或其組合：分詞處理方式、排除普通詞方式、排除停用詞方式、合并近鄰單字方式。

在上述技術(shù)方案中，優(yōu)選地，識別單元206用于：確定多個候選關(guān)鍵詞中的任一候選關(guān)鍵詞的參數(shù)信息是否處于預(yù)定范圍，當(dāng)確定任一候選關(guān)鍵詞的參數(shù)信息處于預(yù)定范圍時，將任一候選關(guān)鍵詞識別為目標(biāo)關(guān)鍵詞。

在上述技術(shù)方案中，優(yōu)選地，還包括：設(shè)置單元208，根據(jù)接收到的設(shè)置命令，設(shè)置參數(shù)信息的預(yù)定范圍，以供根據(jù)設(shè)置的預(yù)定范圍，在待處理文本中識別目標(biāo)關(guān)鍵詞。

圖3示出了根據(jù)本發(fā)明的一個實施例的詞匯識別系統(tǒng)的原理示意圖，圖4示出了根據(jù)本發(fā)明的一個實施例的詞匯上下文環(huán)境的示意圖。

下面結(jié)合圖3和圖4詳細(xì)說明本發(fā)明的技術(shù)方案：

如圖3所示，根據(jù)本發(fā)明的一個實施例的詞匯識別系統(tǒng)300(相當(dāng)于圖2示出的實施例的詞匯識別系統(tǒng)200)，包括：候選詞生成模塊302、統(tǒng)計模塊304、過濾模塊306，其中：

候選詞生成模塊302用于對待處理文本進行預(yù)處理、分詞、排除字典內(nèi)已有的普通詞、去除停用詞、合并近鄰單字等處理，以形成候選關(guān)鍵詞。該模塊的主要目的是生成候選關(guān)鍵詞以及詞匯上下文環(huán)境。一般地，使用通用分詞工具對待處理文本進行分詞時，由于字典的覆蓋面有限、或者是統(tǒng)計模型訓(xùn)練集過小、或者是語言模型構(gòu)詞規(guī)則有限等原因，很難識別網(wǎng)絡(luò)流行語和新詞。因此，需要對通用分詞結(jié)果進一步分析。

排除字典內(nèi)已有的普通詞，是因為在對目標(biāo)關(guān)鍵詞進行識別時不需要處理字典中已有的詞匯，本發(fā)明技術(shù)方案中的排除字典內(nèi)已有的普通詞不是簡單把普通詞從待處理文本中刪除，而是在合并近鄰單字的時候需要把邊界上的普通詞也合并進來。

如圖4所示，候選關(guān)鍵詞和詞匯上下文環(huán)境可表示為LCR，其中C是候選關(guān)鍵詞，L、R分別是候選關(guān)鍵詞的左近鄰的詞匯上下文環(huán)境、右近鄰的詞匯上下文環(huán)境。C的左近鄰集合{L}是在待處理文本中所有出現(xiàn)在C左側(cè)的詞匯構(gòu)成的集合；C的右近鄰集合{R}是在待處理文本中所有出現(xiàn)在C右側(cè)的詞匯構(gòu)成的集合。

統(tǒng)計模塊304用于統(tǒng)計候選關(guān)鍵詞的詞頻、候選關(guān)鍵詞的上下文環(huán)境詞匯等，也即候選關(guān)鍵詞的左右近鄰的普通詞分布。如果待處理文本是帶有時間戳，則可以統(tǒng)計詞頻增長率。當(dāng)前模塊的目的是統(tǒng)計候選關(guān)鍵詞的詞頻、詞頻增長率和上下文環(huán)境詞匯的數(shù)量，當(dāng)候選關(guān)鍵詞的各項屬性信息處于預(yù)設(shè)范圍時，即認(rèn)為構(gòu)成流行詞或新詞等目標(biāo)關(guān)鍵詞。候選關(guān)鍵詞的各項統(tǒng)計的意義分述如下：

(1)詞頻：候選關(guān)鍵詞在整個文檔集中出現(xiàn)的次數(shù)。流行語新詞在一定時期的網(wǎng)絡(luò)文本中出現(xiàn)較為頻繁；如果候選關(guān)鍵詞的詞頻太低，說明該候選關(guān)鍵詞缺乏流通度，更可能是偶然結(jié)合。

(2)詞頻增長率：對于帶有時間戳的待處理文本，統(tǒng)計一段時間內(nèi)候選關(guān)鍵詞的詞頻，以及在時間窗口內(nèi)的詞頻的變化情況。流行詞或新詞等目標(biāo)關(guān)鍵詞的出現(xiàn)，在前期往往伴隨詞頻的突增現(xiàn)象，隨后一段時間內(nèi)其詞頻下降并趨于平穩(wěn)。

(3)上下文環(huán)境詞匯：候選關(guān)鍵詞的左近鄰集合、右近鄰集合。詞作為語言的一個基本組成單位，詞與詞之間多樣組合搭配是語言的基本形式。因此，如果候選關(guān)鍵詞的左近鄰集合、右近鄰集合的大小太小，說明該候選關(guān)鍵詞缺乏語言搭配多樣性，不太可能是新詞。

(4)詞匯結(jié)合度：由于候選關(guān)鍵詞來源于合并相鄰單字的結(jié)果，因就會難免引入相鄰兩個普通詞的情況，候選關(guān)鍵詞內(nèi)部會出現(xiàn)詞的邊界。因此，如果候選關(guān)鍵詞的詞匯結(jié)合度低于預(yù)設(shè)范圍，也不太可能是流行詞或新詞等目標(biāo)關(guān)鍵詞。

為了描寫詞匯結(jié)合度，可以統(tǒng)計候選關(guān)鍵詞中的每個單字的單字成詞率，以及候選關(guān)鍵詞中的相鄰字之間的相鄰字成詞率。其中，單字成詞率定義為：在待處理文本中的候選關(guān)鍵詞中的單字出現(xiàn)在詞的特定位置(詞首、詞中、詞尾)的次數(shù)與所有包含單字的詞出現(xiàn)的次數(shù)之比。相鄰字成詞率定義為：在待處理文本中，候選關(guān)鍵詞中的相鄰字出現(xiàn)的次數(shù)與相鄰字出現(xiàn)在分詞結(jié)果中的次數(shù)之比。

過濾模塊306用于根據(jù)詞頻、詞頻增長率、詞匯上下文環(huán)境、詞匯結(jié) 合度，過濾掉不能成詞的候選關(guān)鍵詞，得到最終發(fā)現(xiàn)的流行詞或新詞等目標(biāo)關(guān)鍵詞。

下面將結(jié)合具體實施例來說明上述技術(shù)方案：

對收集到的待處理文本進行預(yù)處理，使用通用分詞工具分詞，去停用詞、排除字典內(nèi)已有的普通詞、合并近鄰單字形成候選關(guān)鍵詞；統(tǒng)計候選關(guān)鍵詞在網(wǎng)絡(luò)文本集中的出現(xiàn)頻次，以及隨時間的變化情況、出現(xiàn)的上下文環(huán)境。假設(shè)待處理文本中有如下文本：

1.誰能告訴我怎樣能拍出高大上的照片。

2.非常感謝這些高大上的朋友們前來捧場。

3.教你如何做高大上牛排。

4.當(dāng)我們剛從高大上的革命作品轉(zhuǎn)到傷痕文學(xué)。

5.這么高大上的酒好像喝過。

對分詞結(jié)果合并，可以形成候選關(guān)鍵詞“高大上”，候選關(guān)鍵詞“高大上”的上下文環(huán)境詞匯為：左近鄰集合L{拍出，這些，做，從，這么}，右近鄰集合R{照片，朋友們，牛排，革命作品，酒}。因此，候選關(guān)鍵詞的詞頻是5，左近鄰集合L、右近鄰集合R的大小都是5。

對于帶時間戳的待處理文本，假設(shè)第i天的候選關(guān)鍵詞的詞頻為f_i；為避免噪音干擾，利用3天的時間窗口平滑去噪，定義第i天的候選關(guān)鍵詞的平均詞頻為了進一步比較平均詞頻的隨時間的變化，可以對平均詞頻歸一化。假設(shè)一段時間內(nèi)，候選關(guān)鍵詞的平均詞頻最小值為最大值為那么歸一化之后詞頻：

可以使用Δg_i＝g_i-g_i-1來衡量詞頻增長率。

對于待處理文本，經(jīng)預(yù)處理、分詞、去停用詞，只保留普通詞，然后計算單字成詞率、相鄰字之間的相鄰字成詞率。假設(shè)候選關(guān)鍵詞為c₁c₂c₃，那么它的單字成詞率P(c₁c₂c₃)為：

P(c₁c₂c₃)＝p_b(c₁)p_m(c₂)p_e(c₃)

其中p_b(c)表示單字c出現(xiàn)在詞的首位和在待處理文本出現(xiàn)的次數(shù)之比。p_m(c),p_e(c)分別表示單字c出現(xiàn)在詞的中部、尾部和在待處理文本出現(xiàn)的次數(shù)之比。

候選關(guān)鍵詞為c₁c₂c₃的相鄰字成詞率為：

p(c₁,c₂)p(c₂,c₃)

其中，p(c₁,c₂)表示相鄰單字c₁,c₂的結(jié)合度是待處理文本中兩個字在同一個詞中相鄰出現(xiàn)次數(shù)與待處理文本中兩個字相鄰出現(xiàn)的次數(shù)之比。

有了以上統(tǒng)計信息之后，需要設(shè)定預(yù)設(shè)范圍對候選關(guān)鍵詞進行過濾，從而過濾出目標(biāo)關(guān)鍵詞。其中，在設(shè)置預(yù)定范圍時可以參考如下的普通詞屬性信息和目標(biāo)關(guān)鍵詞的識別結(jié)果。

(1)參考普通詞的屬性信息

將候選關(guān)鍵詞的詞頻、詞頻增長率、上下文環(huán)境詞匯和詞匯結(jié)合度定在待處理文本中的普通詞在各項指標(biāo)上的平均值的量級上，因為目標(biāo)關(guān)鍵詞和普通詞都屬于語言的詞匯層面組成單元。

(2)參考目標(biāo)關(guān)鍵詞的識別結(jié)果

雖然網(wǎng)絡(luò)中的待處理文本的規(guī)模較大，但是在一定時期內(nèi)，網(wǎng)絡(luò)中出現(xiàn)的流行詞或新詞的數(shù)量是有限的。在參考普通詞屬性信息設(shè)置預(yù)設(shè)范圍之后，采取保持其余不變、逐項下調(diào)預(yù)設(shè)范圍的方法，因為流行詞或新詞的數(shù)目有限，可直接觀察新增輸出是否含有流行詞或新詞或是無意義的詞，根據(jù)識別結(jié)果對預(yù)定范圍進行調(diào)節(jié)。

以上結(jié)合附圖詳細(xì)說明了本發(fā)明的技術(shù)方案，可以比較全面地獲取候選關(guān)鍵詞，從而可以從候選關(guān)鍵詞中比較全面地識別流行詞等新詞，進而可以通過識別出的流行詞等新詞來發(fā)現(xiàn)網(wǎng)絡(luò)熱點和分析輿論走向。

以上所述僅為本發(fā)明的優(yōu)選實施例而已，并不用于限制本發(fā)明，對于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉克松;楊建武;
技術(shù)所有人：北大方正集團有限公司;北京大學(xué);北京北大方正電子有限公司;
我是此專利的發(fā)明人

上一篇：一種面向認(rèn)知分析的中文事件表示方法與流程
上一篇：一種全圓形電梯轎廂及電梯轎廂井道的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

品牌識別系統(tǒng)相關(guān)技術(shù)

企業(yè)視覺識別系統(tǒng)相關(guān)技術(shù)

ais船舶識別系統(tǒng)相關(guān)技術(shù)

視覺識別系統(tǒng)相關(guān)技術(shù)

識別系統(tǒng)相關(guān)技術(shù)

身份證識別系統(tǒng)相關(guān)技術(shù)

全能王手寫識別系統(tǒng)相關(guān)技術(shù)

vi識別系統(tǒng)相關(guān)技術(shù)

視覺識別系統(tǒng)設(shè)計相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

詞匯識別方法和詞匯識別系統(tǒng)與流程