欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種提取領(lǐng)域關(guān)鍵詞的方法及裝置制造方法

文檔序號:6541035閱讀:199來源:國知局
一種提取領(lǐng)域關(guān)鍵詞的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種提取領(lǐng)域關(guān)鍵詞的方法及裝置,該方法包括:生成由各領(lǐng)域描述文本分詞的詞頻組成的領(lǐng)域詞頻矩陣;按照設(shè)定算法,將所述領(lǐng)域詞頻矩陣解耦為低秩的背景詞詞頻矩陣和稀疏的關(guān)鍵詞詞頻矩陣的加和;根據(jù)解耦得到的關(guān)鍵詞詞頻矩陣,從所述各領(lǐng)域描述文本分詞中提取相應(yīng)領(lǐng)域的關(guān)鍵詞。本發(fā)明提出的技術(shù)方案能夠基于各領(lǐng)域文本中的分詞在所有領(lǐng)域文本中出現(xiàn)頻次的分布來進行領(lǐng)域關(guān)鍵詞提取,可以準確有效的從各領(lǐng)域文本中提取出相應(yīng)領(lǐng)域內(nèi)有代表性、區(qū)分度的關(guān)鍵詞。
【專利說明】一種提取領(lǐng)域關(guān)鍵詞的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實施例涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種提取領(lǐng)域關(guān)鍵詞的方法及裝置。
【背景技術(shù)】
[0002]目前,在一些應(yīng)用場景下,當(dāng)用戶通過終端設(shè)備上的瀏覽器輸入檢索詞進行資訊檢索后,相應(yīng)的資訊網(wǎng)站服務(wù)器會先根據(jù)預(yù)先設(shè)定好的領(lǐng)域關(guān)鍵詞,識別出該檢索詞所屬的領(lǐng)域,然后將該領(lǐng)域內(nèi)的海量的文本描述內(nèi)容發(fā)送至終端設(shè)備,以便為用戶提供資訊服務(wù)。所謂領(lǐng)域關(guān)鍵詞,指的是一個領(lǐng)域的多個文本中所共現(xiàn)的、最能夠代表該領(lǐng)域的、且與其它領(lǐng)域的區(qū)分度很高的關(guān)鍵詞。領(lǐng)域關(guān)鍵詞在文本自動分類、聚類、資源智能服務(wù)等方面有著廣泛的應(yīng)用,因此如何能夠從大量的領(lǐng)域文本中合理的提取領(lǐng)域關(guān)鍵詞,對后續(xù)的領(lǐng)域識別和檢索至關(guān)重要。
[0003]在現(xiàn)有的技術(shù)中,基于TF_IDF(Term Frequency -1nverse Document Frequency,詞頻-逆向文件頻率)的領(lǐng)域關(guān)鍵詞提取算法,采用TF-1DF評估領(lǐng)域文本中每個分詞對該領(lǐng)域的重要程度,再通過一定的閾值過濾分詞,從而篩選出領(lǐng)域關(guān)鍵詞;基于主題模型的領(lǐng)域關(guān)鍵詞提取算法,則是認為每個領(lǐng)域文本擁有一個在多個潛在主題上的分布,進而每個主題擁有一個在所有分詞上的分布,根據(jù)所述分布來提取領(lǐng)域關(guān)鍵詞。
[0004]然而,由于TF-1DF本身是一種試圖抑制噪音的簡單加權(quán),并不能有效地反映關(guān)鍵詞的重要程度和關(guān)鍵詞的分布情況,所以在很多場景中TF-1DF的精度并不是很高,而且很多場景下要給出效果較好的IDF本身就是一件較困難的事情;基于主題模型的領(lǐng)域關(guān)鍵詞提取算法只能抽取出主題層面的關(guān)鍵詞,卻無法有效提取出每個領(lǐng)域文本中有代表性、有區(qū)分度的關(guān)鍵詞。

【發(fā)明內(nèi)容】

[0005]本發(fā)明實施例提供一種提取領(lǐng)域關(guān)鍵詞的方法及裝置,以能夠準確有效的提取各領(lǐng)域內(nèi)有代表性、區(qū)分度的關(guān)鍵詞。
[0006]第一方面,本發(fā)明實施例提供了一種提取領(lǐng)域關(guān)鍵詞的方法,該方法包括:
[0007]生成由各領(lǐng)域描述文本分詞的詞頻組成的領(lǐng)域詞頻矩陣;
[0008]按照設(shè)定算法,將所述領(lǐng)域詞頻矩陣解耦為低秩的背景詞詞頻矩陣和稀疏的關(guān)鍵詞詞頻矩陣的加和;
[0009]根據(jù)解耦得到的關(guān)鍵詞詞頻矩陣,從所述各領(lǐng)域描述文本分詞中提取相應(yīng)領(lǐng)域的關(guān)鍵詞。
[0010]第二方面,本發(fā)明實施例還提供了一種提取領(lǐng)域關(guān)鍵詞的裝置,該裝置包括:
[0011]領(lǐng)域詞頻矩陣生成模塊,用于生成由各領(lǐng)域描述文本分詞的詞頻組成的領(lǐng)域詞頻矩陣;
[0012]領(lǐng)域詞頻矩陣解耦模塊,用于按照設(shè)定算法,將所述領(lǐng)域詞頻矩陣解耦為低秩的背景詞詞頻矩陣和稀疏的關(guān)鍵詞詞頻矩陣的加和;
[0013]領(lǐng)域關(guān)鍵詞提取模塊,用于根據(jù)解耦得到的關(guān)鍵詞詞頻矩陣,從所述各領(lǐng)域描述文本分詞中提取相應(yīng)領(lǐng)域的關(guān)鍵詞。
[0014]本發(fā)明實施例提出的技術(shù)方案通過將領(lǐng)域詞頻矩陣解耦為描述各個領(lǐng)域中出現(xiàn)頻次分布相似的低秩的背景詞詞頻矩陣和讓各領(lǐng)域的詞頻向量盡量相關(guān)的稀疏的關(guān)鍵詞詞頻矩陣,根據(jù)所述背景詞詞頻矩陣來提取各領(lǐng)域的關(guān)鍵詞,能夠基于各領(lǐng)域文本中的分詞在所有領(lǐng)域文本中出現(xiàn)頻次的分布來進行領(lǐng)域關(guān)鍵詞提取,可以準確有效的從各領(lǐng)域文本中提取出相應(yīng)領(lǐng)域內(nèi)有代表性、區(qū)分度的關(guān)鍵詞。
【專利附圖】

【附圖說明】
[0015]圖1是本發(fā)明實施例一提供的一種提取領(lǐng)域關(guān)鍵詞的方法的流程示意圖;
[0016]圖2是本發(fā)明實施例二提供的一種提取領(lǐng)域關(guān)鍵詞的方法的流程示意圖;
[0017]圖3是本發(fā)明實施例三提供的一種提取領(lǐng)域關(guān)鍵詞的裝置的結(jié)構(gòu)示意圖;
[0018]圖4是本發(fā)明實施例四提供的一種提取領(lǐng)域關(guān)鍵詞的裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0019]下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0020]實施例一
[0021]圖1為本發(fā)明實施例一提供的一種提取領(lǐng)域關(guān)鍵詞的方法的流程示意圖,本實施例可適用于當(dāng)用戶通過終端上的瀏覽器輸入檢索詞進行資訊檢索后,相應(yīng)的資訊網(wǎng)站服務(wù)器提取領(lǐng)域文本中的領(lǐng)域關(guān)鍵詞以識別該檢索詞所屬的領(lǐng)域時的情況,該方法可以由資訊網(wǎng)站服務(wù)器等具有領(lǐng)域關(guān)鍵詞提取功能的計算機設(shè)備來執(zhí)行。參見圖1,所述方法具體包括如下步驟101-103:
[0022]步驟101、生成由各領(lǐng)域描述文本分詞的詞頻組成的領(lǐng)域詞頻矩陣。
[0023]資訊網(wǎng)站服務(wù)器可首先獲取本地存儲的各領(lǐng)域描述文本或者通過網(wǎng)頁爬取方式獲取得到的各領(lǐng)域描述文本。在本實施例中,各領(lǐng)域描述文本可為相應(yīng)網(wǎng)頁中所包含的文本,例如各領(lǐng)域描述文本為該網(wǎng)站內(nèi)所有注冊用戶的求職簡歷文本,各領(lǐng)域可以是基于用戶求職行業(yè)進行劃分的,可包括計算機、生物、建筑、金融、銷售等領(lǐng)域。
[0024]然后,資訊網(wǎng)站服務(wù)器將所獲取的各領(lǐng)域描述文本進行分詞,統(tǒng)計各分詞在各領(lǐng)域描述文本中的詞頻,進而生成領(lǐng)域詞頻矩陣在本實施例中,假設(shè)所得到的領(lǐng)域詞頻矩陣為M行N列的矩陣,則第i行j列的矩陣元素可表示為第i分詞在第j領(lǐng)域描述文本中的詞頻,其中M和N均為大于等于I的整數(shù)、IliiMUl jjN。第j列元素組成的向量表示第j領(lǐng)域的詞頻向量。所謂第i分詞在第j領(lǐng)域描述文本中的詞頻,指的是在第j領(lǐng)域描述文本中第i分詞的個數(shù)或者是第i分詞的個數(shù)與該領(lǐng)域描述文本中所有分詞的總個數(shù)的比值。當(dāng)然,本領(lǐng)域的普通技術(shù)人員應(yīng)理解,領(lǐng)域詞頻矩陣的形式還可以是其它形式,例如第i行j列的矩陣元素可表示為第j個分詞在第i個領(lǐng)域描述文本中的詞頻。
[0025]為了提高領(lǐng)域關(guān)鍵詞的精確度,在本實施例的一個優(yōu)選的實施方式中,資訊網(wǎng)站服務(wù)器在將所獲取的各領(lǐng)域描述文本進行分詞后,還可對所得到的各分詞進行實詞過濾處理,濾掉如語氣助詞、副詞等沒有代表性和區(qū)分度的分詞,而后統(tǒng)計經(jīng)處理后的各分詞在各領(lǐng)域描述文本中的詞頻,得到領(lǐng)域詞頻矩陣。
[0026]步驟102、按照設(shè)定算法將所述領(lǐng)域詞頻矩陣解耦為低秩的背景詞詞頻矩陣和稀疏的關(guān)鍵詞詞頻矩陣的加和。
[0027]由于現(xiàn)有技術(shù)只考慮各分詞在各領(lǐng)域描述文本中的詞頻,并不聯(lián)合考慮各分詞在所有領(lǐng)域描述文本中詞頻的分布,進而提取的領(lǐng)域關(guān)鍵詞并不精確。例如,資訊網(wǎng)站服務(wù)器將各用戶的求職簡歷文本分類為計算機、生物、建筑、金融、銷售四個領(lǐng)域,由于分詞“高度的責(zé)任心”在“計算機”領(lǐng)域、“生物”領(lǐng)域、“建筑”領(lǐng)域、“金融”領(lǐng)域、“銷售”領(lǐng)域文本中均有較高的詞頻,現(xiàn)有技術(shù)提出的技術(shù)方案會將該分詞作為領(lǐng)域關(guān)鍵詞,其區(qū)分度顯然很差。
[0028]基于上述考慮,本實施例針對所生成的領(lǐng)域詞頻矩陣進行建模,假設(shè)該矩陣由一個背景詞詞頻矩陣和一個關(guān)鍵詞詞頻矩陣相加產(chǎn)生。其中,背景詞詞頻矩陣是用于描述分詞在所有領(lǐng)域文本中出現(xiàn)詞頻分布相似的部分,考慮到每一領(lǐng)域的關(guān)鍵詞應(yīng)是本領(lǐng)域內(nèi)最具代表性和區(qū)分度的分詞,而非具有相似性的分詞,因此需讓該背景詞詞頻矩陣中各領(lǐng)域的詞頻向量盡量相關(guān),即使該矩陣低秩;關(guān)鍵詞詞頻矩陣是用于描述分詞在所有領(lǐng)域文本中出現(xiàn)詞頻分布相異的部分,考慮到每一領(lǐng)域的關(guān)鍵詞的數(shù)量應(yīng)是少量的,即使該矩陣稀疏。
[0029]資訊網(wǎng)站服務(wù)器在生成領(lǐng)域詞頻矩陣后,按著預(yù)先設(shè)定好的算法將所生成的領(lǐng)域詞頻矩陣解耦為背景詞詞頻矩陣和關(guān)鍵詞詞頻矩陣,其中背景詞詞頻矩陣為低秩的矩陣,關(guān)鍵詞詞頻矩陣為稀疏的矩陣。其中,預(yù)先設(shè)定好的算法可以是通過構(gòu)造領(lǐng)域詞頻矩陣與上述建模過程中所述的背景詞詞頻矩陣和關(guān)鍵詞詞頻矩陣之和相差最小的目標函數(shù),以形成限制性優(yōu)化問題,并對該問題進行求解得到的。
[0030]步驟103、根據(jù)解耦得到的關(guān)鍵詞詞頻矩陣,從所述各領(lǐng)域描述文本分詞中提取相應(yīng)領(lǐng)域的關(guān)鍵詞。
[0031]在本實施例中,資訊網(wǎng)站服務(wù)器在將所生成的領(lǐng)域詞頻矩陣解耦為低秩的背景詞詞頻矩陣和稀疏的關(guān)鍵詞詞頻矩陣的加和后,查詢關(guān)鍵詞詞頻矩陣中滿足設(shè)定條件的詞頻,并將這些詞頻對應(yīng)的分詞作為相應(yīng)領(lǐng)域的關(guān)鍵詞。其中,設(shè)定條件的詞頻可以是解耦得到的關(guān)鍵詞詞頻矩陣中大于等于設(shè)定閾值的詞頻,也可以是解耦得到的關(guān)鍵詞詞頻矩陣中每一領(lǐng)域的詞頻向量中其值排在前設(shè)數(shù)量K的詞頻,其中K為大于等于I的整數(shù)。
[0032]例如,資訊網(wǎng)站服務(wù)器從解耦得到的關(guān)鍵詞詞頻矩陣中查詢到大于等于O的詞頻h,根據(jù)該詞頻在關(guān)鍵詞詞頻矩陣中的行列數(shù)可得知其所對應(yīng)的領(lǐng)域A和分詞B,最終將該分詞B作為領(lǐng)域A的領(lǐng)域關(guān)鍵詞。對于查詢到的其它詞頻亦是如此,這里不再贅述。
[0033]本實施例提出的技術(shù)方案通過將領(lǐng)域詞頻矩陣解耦為描述各個領(lǐng)域中出現(xiàn)頻次分布相似的低秩的背景詞詞頻矩陣和讓各領(lǐng)域的詞頻向量盡量相關(guān)的稀疏的關(guān)鍵詞詞頻矩陣,根據(jù)所述背景詞詞頻矩陣來提取各領(lǐng)域的關(guān)鍵詞,能夠基于各領(lǐng)域文本中的分詞在所有領(lǐng)域文本中出現(xiàn)頻次的分布來進行領(lǐng)域關(guān)鍵詞提取,可以準確有效的從各領(lǐng)域文本中提取出相應(yīng)領(lǐng)域內(nèi)有代表性、區(qū)分度的關(guān)鍵詞。
[0034]實施例二
[0035]圖2為本發(fā)明實施例二提供的一種提取領(lǐng)域關(guān)鍵詞的方法的流程示意圖。本實施例在上述各實施例的基礎(chǔ)上,對按照設(shè)定算法將所述領(lǐng)域詞頻矩陣解耦為低秩的背景詞詞頻矩陣和稀疏的關(guān)鍵詞詞頻矩陣的加和的步驟作進一步說明。參見圖2,所述方法包括步驟201-206:
[0036]步驟201、生成由各領(lǐng)域描述文本分詞的詞頻組成的領(lǐng)域詞頻矩陣。
[0037]步驟202、將領(lǐng)域詞頻矩陣構(gòu)建為低秩的第一詞頻矩陣和稀疏的第二詞頻矩陣的加和模型。
[0038]步驟203、構(gòu)造所述領(lǐng)域詞頻矩陣與所述加和相差最小的目標函數(shù),其中該目標函數(shù)的限制條件為:第一詞頻矩陣為低秩矩陣和第二詞頻矩陣為稀疏矩陣,以形成限制性優(yōu)化問題。
[0039]步驟204、將所述限制性優(yōu)化問題轉(zhuǎn)換為拉格朗日松弛形式下的非限制性優(yōu)化問題。
[0040]步驟205、采用預(yù)設(shè)的優(yōu)化算法,對所述非限制性優(yōu)化問題進行迭代優(yōu)化,將滿足預(yù)設(shè)迭代條件時的第一詞頻矩陣作為背景詞詞頻矩陣,第二詞頻矩陣作為關(guān)鍵詞詞頻矩陣。
[0041]步驟206、根據(jù)解耦得到的關(guān)鍵詞詞頻矩陣,從各領(lǐng)域描述文本分詞中提取相應(yīng)領(lǐng)域的關(guān)鍵詞。
[0042]在本實施例的一個優(yōu)選的實施方式中,所構(gòu)造的目標函數(shù)為:minL,s ||D -L-S||i ILI制條件為:L低秩和S稀疏;所轉(zhuǎn)換成的拉格朗日松弛形式下的非限制性優(yōu)化問題為:minL,s||D-L-S| @ + μ(||?||* + λρ^)。其中,D為領(lǐng)域詞頻矩陣,L為第一
詞頻矩陣,S為第二詞頻矩陣,μ和λ為拉格朗日乘子。I|D — L —S|丨I表示矩陣D-L-S
的Frobenius范數(shù),用于控制第一詞頻矩陣L和第二詞頻矩陣S對領(lǐng)域詞頻矩陣D的擬合相似度;I L| L表示第一詞頻矩陣L的nuclear范數(shù),用于控制第一詞頻矩陣L的低秩性;Si 1#示第二詞頻矩陣S的LI范數(shù),用于控制第二詞頻矩陣S的稀疏性。
[0043]為了保護算法的穩(wěn)定性和加快收斂速度,預(yù)設(shè)的優(yōu)化算法可優(yōu)選為近端梯度法。例如,對上述非限制性優(yōu)化問題進行迭代優(yōu)化,將滿足預(yù)設(shè)迭代條件時的第一詞頻矩陣作為背景詞詞頻矩陣,第二詞頻矩陣作為關(guān)鍵詞詞頻矩陣,包括:
[0044](I)初始化:t=0、Lnew=Lold=O' Snew=Sold=O' ε t= ε t_1=l.0、
[0045]
【權(quán)利要求】
1.一種提取領(lǐng)域關(guān)鍵詞的方法,其特征在于,包括: 生成由各領(lǐng)域描述文本分詞的詞頻組成的領(lǐng)域詞頻矩陣; 按照設(shè)定算法將所述領(lǐng)域詞頻矩陣解耦為低秩的背景詞詞頻矩陣和稀疏的關(guān)鍵詞詞頻矩陣的加和; 根據(jù)解耦得到的關(guān)鍵詞詞頻矩陣,從所述各領(lǐng)域描述文本分詞中提取相應(yīng)領(lǐng)域的關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述的提取領(lǐng)域關(guān)鍵詞的方法,其特征在于,所述生成由各領(lǐng)域描述文本分詞的詞頻組成的領(lǐng)域詞頻矩陣,包括: 將各領(lǐng)域描述文本進行分詞; 對所得到的各分詞進行實詞過濾處理; 統(tǒng)計經(jīng)處理后的各分詞在各領(lǐng)域描述文本中的詞頻,得到領(lǐng)域詞頻矩陣。
3.根據(jù)權(quán)利要求1所述的提取領(lǐng)域關(guān)鍵詞的方法,其特征在于,所述按照設(shè)定算法將所述領(lǐng)域詞頻矩陣解耦為低秩的背景詞詞頻矩陣和稀疏的關(guān)鍵詞詞頻矩陣的加和,包括: 將領(lǐng)域詞頻矩陣構(gòu)建為低秩的第一詞頻矩陣和稀疏的第二詞頻矩陣的加和模型;構(gòu)造所述領(lǐng)域詞頻矩陣與所述加和相差最小的目標函數(shù),其中所述目標函數(shù)的限制條件為:所述第一詞頻矩陣為低秩矩陣和所述第二詞頻矩陣為稀疏矩陣,以形成限制性優(yōu)化問題; 將所述限制性優(yōu)化問題轉(zhuǎn)換為拉格朗日松弛形式下的非限制性優(yōu)化問題; 采用預(yù)設(shè)的優(yōu)化算法,對所述非限制性優(yōu)化問題進行迭代優(yōu)化,將滿足預(yù)設(shè)迭代條件時的第一詞頻矩陣作為背景詞詞頻矩陣,第二詞頻矩陣作為關(guān)鍵詞詞頻矩陣。
4.根據(jù)權(quán)利要求3所述的提取領(lǐng)域關(guān)鍵詞的方法,其特征在于,所述目標函數(shù)為:
5.根據(jù)權(quán)利要求4所述的提取領(lǐng)域關(guān)鍵詞的方法,其特征在于,所述優(yōu)化算法為近端梯度法。
6.根據(jù)權(quán)利要求1所述的提取領(lǐng)域關(guān)鍵詞的方法,其特征在于,所述根據(jù)解耦得到的關(guān)鍵詞詞頻矩陣,從所述各領(lǐng)域描述文本分詞中提取相應(yīng)領(lǐng)域的關(guān)鍵詞,包括:將所述各領(lǐng)域描述文本分詞中,在解耦得到的關(guān)鍵詞詞頻矩陣中滿足設(shè)定條件的詞頻對應(yīng)的分詞作為相應(yīng)領(lǐng)域的關(guān)鍵詞。
7.根據(jù)權(quán)利要求6所述的提取領(lǐng)域關(guān)鍵詞的方法,其特征在于,所述滿足設(shè)定條件的詞頻為解耦得到的關(guān)鍵詞詞頻矩陣中大于等于設(shè)定閾值的詞頻。
8.一種提取領(lǐng)域關(guān)鍵詞的裝置,其特征在于,包括: 領(lǐng)域詞頻矩陣生成模塊,用于生成由各領(lǐng)域描述文本分詞的詞頻組成的領(lǐng)域詞頻矩陣; 領(lǐng)域詞頻矩陣解耦模塊,用于按照設(shè)定算法將所述領(lǐng)域詞頻矩陣解耦為低秩的背景詞詞頻矩陣和稀疏的關(guān)鍵詞詞頻矩陣的加和; 領(lǐng)域關(guān)鍵詞提取模塊,用于根據(jù)解耦得到的關(guān)鍵詞詞頻矩陣,從所述各領(lǐng)域描述文本分詞中提取相應(yīng)領(lǐng)域的關(guān)鍵詞。
9.根據(jù)權(quán)利要求8所述的提取領(lǐng)域關(guān)鍵詞的裝置,其特征在于,所述領(lǐng)域詞頻矩陣生成模塊,包括: 分詞單元,用于將各領(lǐng)域描述文本進行分詞; 過濾單元,用于對所得到的各分詞進行實詞過濾處理; 矩陣生成單元,用于統(tǒng)計經(jīng)處理后的各分詞在各領(lǐng)域描述文本中的詞頻,得到領(lǐng)域詞頻矩陣。
10.根據(jù)權(quán)利要求8所述的提取領(lǐng)域關(guān)鍵詞的裝置,其特征在于,所述領(lǐng)域詞頻矩陣解耦模塊,包括: 模型構(gòu)建單元,用于將領(lǐng)域詞頻矩陣構(gòu)建為低秩的第一詞頻矩陣和稀疏的第二詞頻矩陣的加和模型; 限制性優(yōu)化問題形成單元,用于構(gòu)造所述領(lǐng)域詞頻矩陣與所述加和相差最小的目標函數(shù),其中所述目標函數(shù)的限制條件為:所述第一詞頻矩陣為低秩矩陣和所述第二詞頻矩陣為稀疏矩陣,以形成限制性優(yōu)化問題; 非限制性優(yōu)化問題形成單元,用于將所述限制性優(yōu)化問題轉(zhuǎn)換為拉格朗日松弛形式下的非限制性優(yōu)化問題; 迭代優(yōu)化單元,用于采用預(yù)設(shè)的優(yōu)化算法,對所述非限制性優(yōu)化問題進行迭代優(yōu)化,將滿足預(yù)設(shè)迭代條件時的第一詞頻矩陣作為背景詞詞頻矩陣,第二詞頻矩陣作為關(guān)鍵詞詞頻矩陣。
11.根據(jù)權(quán)利要求10所述的提取領(lǐng)域關(guān)鍵詞的裝置,其特征在于,所述目標函數(shù)為:
12.根據(jù)權(quán)利要求10所述的提取領(lǐng)域關(guān)鍵詞的裝置,其特征在于,所述優(yōu)化算法為近端梯度法。
13.根據(jù)權(quán)利要求8所述的提取領(lǐng)域關(guān)鍵詞的裝置,其特征在于,所述領(lǐng)域關(guān)鍵詞提取模塊具體用于:將所述各領(lǐng)域描述文本分詞中,在解耦得到的關(guān)鍵詞詞頻矩陣中滿足設(shè)定條件的詞頻對應(yīng)的分詞作為相應(yīng)領(lǐng)域的關(guān)鍵詞。
14.根據(jù)權(quán)利要求13所述的提取領(lǐng)域關(guān)鍵詞的裝置,其特征在于,所述滿足設(shè)定條件的詞頻為解耦得到的關(guān)鍵詞詞頻矩陣中大于等于設(shè)定閾值的詞頻。
【文檔編號】G06F17/30GK103870575SQ201410101751
【公開日】2014年6月18日 申請日期:2014年3月19日 優(yōu)先權(quán)日:2014年3月19日
【發(fā)明者】石磊 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
余干县| 静乐县| 敖汉旗| 剑阁县| 鄢陵县| 含山县| 巴里| 公安县| 怀柔区| 凤凰县| 波密县| 额敏县| 井研县| 彰化市| 长子县| 沾益县| 略阳县| 西充县| 寻乌县| 甘泉县| 汉川市| 宁城县| 郑州市| 天等县| 鄂托克旗| 辰溪县| 嘉黎县| 沙河市| 夏津县| 永靖县| 铜鼓县| 阳曲县| 寻甸| 曲麻莱县| 台山市| 米林县| 阳山县| 安福县| 泰兴市| 宁晋县| 锦屏县|