一種標(biāo)簽的生成方法及裝置與流程

文檔序號(hào)：12464667閱讀：366來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種數(shù)據(jù)處理技術(shù)領(lǐng)域，特別是涉及一種標(biāo)簽的生成方法及裝置。

背景技術(shù)：

標(biāo)簽是信息標(biāo)識(shí)，是相關(guān)性很強(qiáng)的關(guān)鍵字，能夠描述對應(yīng)的實(shí)物、軟件、著作等等，是以便于檢索和分享。應(yīng)用搜索引擎，是指提供搜索和下載應(yīng)用程序APP的軟件，能夠根據(jù)標(biāo)識(shí)APP的APP標(biāo)簽在現(xiàn)有的數(shù)百萬個(gè)APP中，搜索符合用戶需求的多個(gè)APP。

目前，現(xiàn)有通過標(biāo)簽挖掘方法建立搜索引擎，可以準(zhǔn)確得到用戶需求的APP。從APP簡介和標(biāo)題中得到能夠反映APP內(nèi)容信息的屬性標(biāo)簽。將APP簡介和標(biāo)題合并在一起，從中抽取類別標(biāo)簽，并計(jì)算標(biāo)簽權(quán)重，選擇權(quán)重較大的標(biāo)簽為APP標(biāo)簽。但是開發(fā)者為了提供APP的展現(xiàn)機(jī)會(huì)，往往提交大量的與APP相關(guān)性較弱的APP簡介，導(dǎo)致APP簡介中存在無關(guān)的作弊文字較多，使得生成的APP標(biāo)簽不能有效地標(biāo)識(shí)對應(yīng)的APP。

技術(shù)實(shí)現(xiàn)要素：

有鑒于此，本發(fā)明提供一種標(biāo)簽的生成方法及裝置，主要目的在于提高APP標(biāo)簽標(biāo)識(shí)APP的有效性。

依據(jù)本發(fā)明一個(gè)方面，提供了一種標(biāo)簽的生成方法，包括：

獲取應(yīng)用文本語料；

提取所述應(yīng)用文本語料中的詞項(xiàng)；

根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練所述詞項(xiàng)；

根據(jù)所述主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽。

依據(jù)本發(fā)明另一方面，還提供了一種標(biāo)簽的生成裝置，包括：

獲取單元，用于獲取應(yīng)用文本語料；

提取單元，用于提取所述應(yīng)用文本語料中的詞項(xiàng)；

訓(xùn)練單元，用于根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練所述詞項(xiàng)；

生成單元，用于根據(jù)所述主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽。

借由上述技術(shù)方案，本發(fā)明實(shí)施例提供的技術(shù)方案至少具有下列優(yōu)點(diǎn)：

本發(fā)明提供的一種標(biāo)簽的生成方法及裝置，與現(xiàn)有技術(shù)相比，本發(fā)明通過獲取應(yīng)用文本語料，然后提取應(yīng)用文本語料中的詞項(xiàng)，再根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練詞項(xiàng)，最后根據(jù)主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽，能夠訓(xùn)練應(yīng)用文本語料的詞項(xiàng)，獲取各個(gè)詞項(xiàng)的能夠標(biāo)識(shí)應(yīng)用文本語料的概率，選取概率較大的詞項(xiàng)，能夠提高標(biāo)簽標(biāo)識(shí)應(yīng)用文本語料的有效性。

上述說明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說明書的內(nèi)容予以實(shí)施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂，以下特舉本發(fā)明的具體實(shí)施方式。

附圖說明

通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述，各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的，而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中，用相同的參考符號(hào)表示相同的部件。在附圖中：

圖1示出了本發(fā)明實(shí)施例一提供的一種標(biāo)簽的生成方法流程圖；

圖2示出了本發(fā)明實(shí)施例二提供的另一種標(biāo)簽的生成方法流程圖；

圖3示出了本發(fā)明實(shí)施例三提供的一種標(biāo)簽的生成裝置組成框圖；

圖4示出了本發(fā)明實(shí)施例四提供的另一種標(biāo)簽的生成裝置組成框圖；

圖5示出了本發(fā)明實(shí)施例四提供的提取單元的組成框圖；

圖6示出了本發(fā)明實(shí)施例四提供的生成單元的組成框圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例，然而應(yīng)當(dāng)理解，可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反，提供這些實(shí)施例是為了能夠更透徹地理解本公開，并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

本發(fā)明實(shí)施例一提供了一種標(biāo)簽的生成方法，如圖1所示，該方法包括：

101、獲取應(yīng)用文本語料。

其中，所述應(yīng)用文本語料為生成標(biāo)簽提供文字基礎(chǔ)，是標(biāo)簽文字的主要來源。例如，獲取APP的標(biāo)簽，應(yīng)用文本語料通常選取APP的摘要，摘要中包括APP的題目，簡要的解釋說明，以及推薦理由等等，本發(fā)明實(shí)施例不做具體限定。APP摘要能夠充分體現(xiàn)用于文本語料的內(nèi)容。

102、提取應(yīng)用文本語料中的詞項(xiàng)。

其中，所述詞項(xiàng)是指詞語或者詞組，也是應(yīng)用文本語料中的特征詞語。對應(yīng)用文本語料進(jìn)行分詞處理，得到應(yīng)用文本語料的各個(gè)分詞?？梢詫?yīng)用文本語料的各個(gè)分詞作為應(yīng)用文本語料的詞項(xiàng)。但是并不是所有應(yīng)用文本語料中的分詞都是特征詞語，所以還需要設(shè)置特征詞語的篩選規(guī)則，從應(yīng)用文本語料中篩選出特征詞語。

需要說明的是，在漢語句式中，通常包括主語、謂語、賓語、定語、狀語和補(bǔ)語。其中，主語、謂語和賓語是句子的主干，定語、狀語和補(bǔ)語是對句子主干的修飾，所以主語、謂語和賓語通常能夠標(biāo)識(shí)應(yīng)用文本語料的特征。主語和賓語的詞性為名詞，謂語的詞性為動(dòng)詞，所以將應(yīng)用文本語料中的名詞和動(dòng)詞確定為特征詞語，也就是應(yīng)用文本語料的詞項(xiàng)。

103、根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練詞項(xiàng)。

其中，所述主題模型是一種對文本中隱含主題的建模方法。由于文字之間的相關(guān)性不僅僅決定于字面上的詞語重復(fù)，還取決于文字背后的語義關(guān)聯(lián)。主題模型克服了信息檢索中相似度計(jì)算的確定，能夠在海量互聯(lián)網(wǎng)數(shù)據(jù)中自動(dòng)尋找出文字間的語義主題，挖掘語義關(guān)聯(lián)，使得搜索更加智能化。主題模型可以衡量文檔之間的語義相似性，可以解決多義詞的問題并且可以排除文檔中噪音的影響。主題模型能夠有效地挖掘語言背后隱含信息的關(guān)聯(lián)關(guān)系。

需要說明的是，每一篇應(yīng)用文本語料的詞項(xiàng)，都是以一定的概率選擇了某個(gè)主題，并從這個(gè)主題中以一定概率選擇某個(gè)詞語。對主題模型的訓(xùn)練，也就是計(jì)算每個(gè)詞語出現(xiàn)的概率。主題模型的訓(xùn)練方法主要包括兩種，一個(gè)是PLSA(Probabilistic Latent SemanticAnalysis，基于概率的潛在語義分析)，另一個(gè)是LDA(Latent DirichletAllocation，潛在狄瑞雷克模型)。

PLSA算法，還叫做EM(Expectation-maximization，期望最大化)算法，它包含兩個(gè)不斷迭代的過程：E(Expectation-maximization，期望)過程和M(Max，最大化)過程。例如，食堂的大師傅炒了一盤菜，要等分成兩份給兩個(gè)人吃，顯然沒有必要拿天平去一點(diǎn)點(diǎn)去精確稱量，最簡單的辦法是先隨意的把菜分到兩個(gè)碗中，然后觀察是否一樣多，把比較多的那一份取出一點(diǎn)放到另一個(gè)碗中，這個(gè)過程一直重復(fù)下去，直到大家看不出兩個(gè)碗里的菜有什么差別為止。

LDA算法是對PLSA算法的改進(jìn)，包括：“計(jì)算每個(gè)主題里的詞語分布”和“計(jì)算訓(xùn)練文檔中的主題分布”，相當(dāng)于上述例子中在往兩個(gè)人碗里分飯。在E過程中，通過貝葉斯公式可以由“詞語-主題”矩陣計(jì)算出“主題-文檔”矩陣。在M過程中，用“主題-文檔”矩陣重新計(jì)算“詞語-主題”矩陣。

另外，將選擇的主題和迭代輪數(shù)，作為預(yù)置訓(xùn)練參數(shù)，參數(shù)的具體形式本發(fā)明實(shí)施例不做具體限定，訓(xùn)練應(yīng)用文本語料的詞項(xiàng)，獲取各個(gè)詞項(xiàng)的概率。

例如，LDA訓(xùn)練選擇120個(gè)主題，迭代300輪，生成兩個(gè)文件，分別是主題-詞項(xiàng)概率分布，如表1所示：

表1：主題-詞項(xiàng)概率分布中第四個(gè)主題中各個(gè)詞項(xiàng)的概率表

另一個(gè)文件是應(yīng)用文本語料-主題概率分布，以應(yīng)用文本資料為微信APP為例，如表2示例：

表2：文檔-主題概率分布中“微信”app的主題分布概率表

104、根據(jù)主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽。

其中，所述標(biāo)簽是最能代表應(yīng)用文本語料的描述詞項(xiàng)。所述選擇主題模型訓(xùn)練結(jié)果中概率大的詞項(xiàng)作為標(biāo)簽，可以選取至少一個(gè)標(biāo)簽標(biāo)識(shí)應(yīng)用文本語料的聯(lián)系。所述主題模型訓(xùn)練的結(jié)果中詞項(xiàng)的概率也可能有偏差，所以在生成標(biāo)簽之前還可以對詞項(xiàng)概率進(jìn)行校正，在本發(fā)明實(shí)施例中對校正方法不做限定。

本發(fā)明提供的一種標(biāo)簽的生成方法，通過獲取應(yīng)用文本語料，然后提取應(yīng)用文本語料中的詞項(xiàng)，再根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練詞項(xiàng)，最后根據(jù)主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽。與現(xiàn)有技術(shù)相比，本發(fā)明能夠訓(xùn)練應(yīng)用文本語料的詞項(xiàng)，獲取各個(gè)詞項(xiàng)的能夠標(biāo)識(shí)應(yīng)用文本語料的概率，選取概率較大的詞項(xiàng)，能夠提高標(biāo)簽標(biāo)識(shí)應(yīng)用文本語料的有效性。

作為圖1所示方法的進(jìn)一步細(xì)化，本發(fā)明實(shí)施例二還提供了另一種標(biāo)簽的生成方法，如圖2所示，該方法包括：

201、獲取應(yīng)用文本語料。

其中，所述應(yīng)用文本語料通常還需要具備推廣作用，為了能夠有效地推廣應(yīng)用文本資料對應(yīng)的產(chǎn)品，應(yīng)用文本語料的發(fā)布者可能會(huì)在應(yīng)用文本語料中添加一些利于推廣但是關(guān)聯(lián)性較弱的內(nèi)容。為了提高應(yīng)用文本語料與其對應(yīng)的產(chǎn)品的關(guān)聯(lián)程度，可以將一些與對應(yīng)產(chǎn)品直接關(guān)聯(lián)的擴(kuò)展語料。

對于本發(fā)明實(shí)施例，如果應(yīng)用文本語料是APP摘要，獲取應(yīng)用文本語料具體包括：獲取會(huì)話日志中的查詢數(shù)據(jù)；如果查找到查詢數(shù)據(jù)對應(yīng)的下載數(shù)據(jù)，則獲取下載數(shù)據(jù)的APP摘要；將查詢數(shù)據(jù)與APP摘要，確定為應(yīng)用文本語料。

其中，所述會(huì)話日志中記錄了用戶在某段時(shí)間內(nèi)的一系列搜索和下載行為，通常回話日志是以天為單位。回話日志中的查詢數(shù)據(jù)是指所有用戶在終端輸入的查詢數(shù)據(jù)，然而并不是每一次查詢都會(huì)下載與查詢數(shù)據(jù)相關(guān)的下載數(shù)據(jù)。下載數(shù)據(jù)中的APP摘要即為應(yīng)用文本語料，而查詢數(shù)據(jù)是與APP摘要關(guān)聯(lián)的擴(kuò)展語料。將查詢數(shù)據(jù)與APP摘要作為應(yīng)用文本語料。

示例性的，構(gòu)造一個(gè)會(huì)話日志內(nèi)部的查詢檢索查詢串和下載序列，按照用戶的搜索次序排序，檢索查詢串不去重，完整保存用戶的搜索序列和下載序列。用戶搜索某個(gè)檢索查詢串，下載了某些APP，就說明下載的APP與檢索查詢串之間存在語義關(guān)聯(lián)，將APP也作為檢索查詢串?dāng)U展語料的一部分，將APP名字緊挨著拼在該檢索查詢串后。例如：一個(gè)用戶回話日志序列是第一檢索查詢串、第二檢索查詢串、第三檢索查詢串，用戶在輸入第二檢索查詢串后下載了第一APP，把第一APP摘要寫在第二檢索查詢串后、第三檢索查詢串前面，即第一檢索查詢串、第二檢索查詢串、第一APP、第三檢索查詢串，從而構(gòu)造了一個(gè)回話日志序列。將回話日志系列確定為應(yīng)用文本資料。

202、提取應(yīng)用文本語料中的詞項(xiàng)。

其中，所述提取詞項(xiàng)可以包括對應(yīng)用文本語料分詞處理，生成應(yīng)用文本語料的分詞庫、判斷詞項(xiàng)庫中分詞的詞性、提取詞性為有效詞性的有效分詞，本發(fā)明實(shí)施例不做具體限定，所述有效詞性包括動(dòng)詞和名詞，確定有效分詞為詞項(xiàng)。

需要說明的是，對應(yīng)用文本語料進(jìn)行分詞處理，常用的分詞方法有：前向分詞、后向分詞、前后向分詞、最少切分，以及全切分等等，本發(fā)明實(shí)施例不做具體限定。應(yīng)用文本語料的各個(gè)分詞構(gòu)成分詞庫。并不是分詞庫中的所有分詞都是應(yīng)用文本語料的特征詞語，所以從分詞庫中篩選出可能是特征詞語的分詞，以提高生成標(biāo)簽的有效性。根據(jù)句式特點(diǎn)，選擇分詞的詞性為動(dòng)詞或名稱的有效分詞，并將有效分詞確定為詞項(xiàng)。然后在根據(jù)詞性判斷的有效分詞中，仍然存在不是特征詞語的分詞。

對于本發(fā)明實(shí)施例，所述提取詞性為有效詞性的有效分詞還包括：獲取詞性為動(dòng)詞的動(dòng)詞分詞；獲取詞性為名詞的名詞分詞；判斷每一個(gè)名詞分詞是否為無效名詞分詞，無效名詞分詞包括人名、地名或者機(jī)構(gòu)名稱；如果判斷結(jié)果為否，則獲取名詞分詞的有效名詞分詞；確定有效分詞為詞項(xiàng)，包括：確定動(dòng)詞分詞和有效名詞分詞為詞項(xiàng)。

其中，所述人名、地名或機(jī)構(gòu)名稱都是名詞，但是通常不能作為一個(gè)產(chǎn)品或者一個(gè)軟件的標(biāo)簽，所以通過刪除無效名詞分詞，將動(dòng)詞分詞和有效名稱分詞確定為詞項(xiàng)，進(jìn)一步提高生成標(biāo)簽的有效性。

對于本發(fā)明實(shí)施例，提取的各個(gè)詞項(xiàng)不合并，詞項(xiàng)的數(shù)量越多，被確定為標(biāo)簽的可能性越大。為了避免因重復(fù)次數(shù)少，而被誤判成關(guān)聯(lián)程度較弱的詞項(xiàng)，在確定有效分詞為詞項(xiàng)步驟中，包括：判斷有效分詞是否與應(yīng)用文本語料的題目分詞相同；如果判斷結(jié)果相同，則按照第一預(yù)置次數(shù)，重復(fù)添加有效分詞；確定有效分詞為詞項(xiàng)。

一段應(yīng)用文本語料的題目，通常是文本語料中最核心的部分，所以重復(fù)題目中的詞項(xiàng)能夠減少誤判的概率。

由于現(xiàn)有的分詞合成組成一個(gè)固有的短語，為了避免錯(cuò)誤拆分，提取應(yīng)用文本語料中的詞項(xiàng)，還包括：根據(jù)預(yù)置緊密度算法，計(jì)算分詞庫中任意兩個(gè)相鄰分詞的緊密度；如果緊密度大于第一預(yù)置閾值，則將緊密度對應(yīng)的相鄰分詞合并成短語；確定短語為詞項(xiàng)。

其中，所述緊密度算法，是計(jì)算兩個(gè)相鄰分詞緊密度的算法，緊密度越高說明相鄰兩個(gè)分詞能夠合并成一個(gè)短語的可能性越大。選取第一預(yù)置閾值作為能夠合并成短語的臨界值。緊密度可采用如下公式計(jì)算：

其中，d(x,y)表示兩個(gè)分詞x、y的共現(xiàn)頻數(shù)，d(x)表示分詞x的出現(xiàn)頻數(shù)，d(y)表示分詞y的出現(xiàn)頻數(shù)，D表示總的app數(shù)量，δ＝0.7。確定短語為詞項(xiàng)，包括：判斷短語的緊密度是否大于第二預(yù)置閾值；如果判斷結(jié)果為是，則按照第二預(yù)置次數(shù)，重復(fù)添加短語；確定短語為詞項(xiàng)。為了減少誤判的概率，與有效分詞采用的方法類似，當(dāng)短語的緊密度大于第二預(yù)置閾值時(shí)，重復(fù)添加短語。

203、計(jì)算詞項(xiàng)的詞頻。

其中，所述詞頻，是指詞項(xiàng)在應(yīng)用文本語料中出現(xiàn)的頻率。為了能夠提高詞項(xiàng)的有效性，根據(jù)詞項(xiàng)的詞頻繼續(xù)縮小詞項(xiàng)的范圍，提高詞項(xiàng)的有效性。

204、刪除詞頻大于第一預(yù)置詞頻且小于第二預(yù)置詞頻的詞項(xiàng)。

需要說明的是，如果詞項(xiàng)的詞頻特別高或者特別低，詞項(xiàng)的有效性都不是很大，例如，在任意一篇文本中，出現(xiàn)次數(shù)最多的詞可能是“的”，不是有效詞項(xiàng)，所以選取詞頻在第一預(yù)置詞頻和第二預(yù)置詞頻之前的詞項(xiàng)，作為最終選取的詞項(xiàng)。

205、根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練詞項(xiàng)。

本步驟與圖1所示的步驟103所述的方法相同，這里不再贅述。

206、根據(jù)主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽。

對于本發(fā)明實(shí)施例，生成標(biāo)簽具體包括：獲取主題模型的訓(xùn)練結(jié)果，訓(xùn)練結(jié)果包括主題-詞項(xiàng)概率分布和應(yīng)用文本語料-主題概率分布；根據(jù)訓(xùn)練結(jié)果，計(jì)算詞項(xiàng)的訓(xùn)練概率；根據(jù)預(yù)置校正算法，計(jì)算詞項(xiàng)的校正概率；按照校正概率從大到小的順序，確定預(yù)置數(shù)量的詞項(xiàng)為標(biāo)簽。

其中，所述訓(xùn)練結(jié)果中包括主題-詞項(xiàng)概率分布和應(yīng)用文本語料-主題概率分布，每個(gè)詞項(xiàng)的概率是將主題-詞項(xiàng)概率分布中的詞項(xiàng)概率，與詞項(xiàng)對應(yīng)的主題在應(yīng)用文本語料-主題概率分布中的主題概率相乘的結(jié)果。由于文本資料的自身內(nèi)容的排布不均，可能造成訓(xùn)練概率不夠準(zhǔn)確，所以對訓(xùn)練概率校正以獲取更準(zhǔn)確的詞項(xiàng)的校正概率。選取預(yù)置數(shù)量的校正概率較大的詞項(xiàng)確定為標(biāo)簽。

具體的根據(jù)預(yù)置校正算法，計(jì)算詞項(xiàng)的校正概率，包括：根據(jù)文本深度表示模型訓(xùn)練詞項(xiàng)，獲取詞項(xiàng)與應(yīng)用文本語料的語義相似度；獲取詞項(xiàng)的位置權(quán)重；獲取語義相似度用位置權(quán)重加權(quán)的加權(quán)值；將詞項(xiàng)的訓(xùn)練概率與加權(quán)值的乘積，確定為校正概率。

其中，所述算法為計(jì)算詞項(xiàng)校正概率的第一種算法。文本深度表示模型是一種成熟的算法模型，經(jīng)過訓(xùn)練詞項(xiàng)能夠獲取詞項(xiàng)與應(yīng)用文本余量的語義相似度。由于應(yīng)用文本語料中通常第一句的重要程度最高，然后越靠后的重要程度越低，所以獲取詞項(xiàng)的位置權(quán)重。位置權(quán)重可以根據(jù)應(yīng)用文本語料中的分隔符，每檢測到一次分隔符降低一定比例的位置權(quán)重，在本發(fā)明實(shí)施例中對位置權(quán)重的設(shè)置方法不做限定。獲取語義相似度和位置權(quán)重加權(quán)的加權(quán)值，再對詞項(xiàng)的訓(xùn)練概率進(jìn)行校正，計(jì)算校正概率。

對于本發(fā)明實(shí)施例，根據(jù)預(yù)置校正算法，計(jì)算詞項(xiàng)的校正概率，包括：計(jì)算詞項(xiàng)在應(yīng)用文本語料中的出現(xiàn)頻率；將訓(xùn)練概率與出現(xiàn)頻率相乘，并將乘積結(jié)果與訓(xùn)練概率相加，獲取詞項(xiàng)的校正概率。

其中，所述算法可以做為計(jì)算詞項(xiàng)校正概率的第二種算法，根據(jù)詞項(xiàng)的出現(xiàn)頻率，校正詞項(xiàng)的訓(xùn)練概率，獲取詞項(xiàng)的校正概率。第二種算法也可以對第一種算法計(jì)算的校正概率做進(jìn)一步的校正。如果是對第一種算法的進(jìn)一步校正，那么在第一種算法需要將最后計(jì)算的校正概率，作為新的訓(xùn)練概率保存。

對于本發(fā)明實(shí)施例，確定預(yù)置數(shù)量的詞項(xiàng)為標(biāo)簽，包括：獲取應(yīng)用文本語料的查詢次數(shù)；根據(jù)預(yù)置選詞算法，計(jì)算應(yīng)用文本語料的選詞數(shù)量；確定選詞數(shù)量的詞項(xiàng)為標(biāo)簽。

其中，在對應(yīng)用文本語料查詢時(shí)能夠鏈接的標(biāo)簽數(shù)量有限，所以選取部分詞項(xiàng)作為應(yīng)用文本語料的標(biāo)簽。預(yù)置選詞算法可采用折線函數(shù)法，例如一個(gè)折現(xiàn)函數(shù)“10:1；100:2；500:4；5000:5；10000:7；20000:10”，當(dāng)搜索次數(shù)是10次時(shí)保留1個(gè)標(biāo)簽，當(dāng)搜索次數(shù)100時(shí)保留2個(gè)標(biāo)簽，當(dāng)搜索次數(shù)是7000時(shí)，標(biāo)簽數(shù)量介于5和7之間。由于選取的應(yīng)用文本語料，與用戶檢索查詢的輸入有關(guān)，所以標(biāo)簽還能夠根據(jù)用戶的搜索更新和優(yōu)化標(biāo)簽。

例如，對于一款新app，還沒有與用戶的交互歷史記錄，初始用APP摘要預(yù)測標(biāo)簽，隨著與用戶的不斷交互，標(biāo)簽得到持續(xù)不斷的優(yōu)化和豐富，是實(shí)現(xiàn)應(yīng)用搜索引擎核心技術(shù)功能搜索的基礎(chǔ)，應(yīng)用搜索引擎的搜索質(zhì)量也在持續(xù)性提升。

進(jìn)一步的，作為對上述圖1所示方法的實(shí)現(xiàn)，本發(fā)明實(shí)施例提供了另一種標(biāo)簽的生成裝置，如圖3所示，該裝置包括：獲取單元31、提取單元32、訓(xùn)練單元33、生成單元34。

獲取單元31，用于獲取應(yīng)用文本語料；獲取單元31為一種標(biāo)簽的生成裝置執(zhí)行獲取應(yīng)用文本語料的功能模塊。

提取單元32，用于提取應(yīng)用文本語料中的詞項(xiàng)；提取單元32為一種標(biāo)簽的生成裝置執(zhí)行提取應(yīng)用文本語料中的詞項(xiàng)的功能模塊。

訓(xùn)練單元33，用于根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練詞項(xiàng)；訓(xùn)練單元33為一種標(biāo)簽的生成裝置執(zhí)行根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練詞項(xiàng)的功能模塊。

生成單元34，用于根據(jù)主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽。生成單元34為一種標(biāo)簽的生成裝置執(zhí)行根據(jù)主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽的功能模塊。

本發(fā)明提供的一種標(biāo)簽的生成裝置，通過獲取應(yīng)用文本語料，然后提取應(yīng)用文本語料中的詞項(xiàng)，再根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練詞項(xiàng)，最后根據(jù)主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽。與現(xiàn)有技術(shù)相比，本發(fā)明能夠訓(xùn)練應(yīng)用文本語料的詞項(xiàng)，獲取各個(gè)詞項(xiàng)的能夠標(biāo)識(shí)應(yīng)用文本語料的概率，選取概率較大的詞項(xiàng)，能夠提高標(biāo)簽標(biāo)識(shí)應(yīng)用文本語料的有效性。

進(jìn)一步的，作為對上述圖2所示方法的實(shí)現(xiàn)，本發(fā)明實(shí)施例提供了另一種文件的壓縮裝置，如圖4所示，該裝置包括：獲取單元41、提取單元42、訓(xùn)練單元43、生成單元44、計(jì)算單元45、刪除單元46。

獲取單元41，用于獲取應(yīng)用文本語料；

提取單元42，用于提取應(yīng)用文本語料中的詞項(xiàng)；

訓(xùn)練單元43，用于根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練詞項(xiàng)；

生成單元44，用于根據(jù)主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽。

具體地，所述獲取單元41，包括：

第一獲取模塊4101，用于獲取會(huì)話日志中的查詢數(shù)據(jù)；

所述第一獲取模塊4101，還用于如果查找到查詢數(shù)據(jù)對應(yīng)的下載數(shù)據(jù)，則獲取下載數(shù)據(jù)的APP摘要；

第一確定模塊4102，用于將查詢數(shù)據(jù)與APP摘要，確定為應(yīng)用文本語料。

具體地，如圖5所示，所述提取單元42，包括：

生成模塊4201，用于對應(yīng)用文本語料分詞處理，生成應(yīng)用文本語料的分詞庫；

判斷模塊4202，用于判斷詞項(xiàng)庫中分詞的詞性；

提取模塊4203，用于提取詞性為有效詞性的有效分詞，有效詞性包括動(dòng)詞和名詞；

第二確定模塊4204，用于確定有效分詞為詞項(xiàng)。

具體地，如圖5所示，所述提取模塊4203，包括：

第一獲取子模塊420301，用于獲取詞性為動(dòng)詞的動(dòng)詞分詞；

第一獲取子模塊420301，還用于獲取詞性為名詞的名詞分詞；

第一判斷子模塊420302，用于判斷每一個(gè)名詞分詞是否為無效名詞分詞，無效名詞分詞包括人名、地名或者機(jī)構(gòu)名稱；

所述第一獲取子模塊420301，還用于如果判斷結(jié)果為否，則獲取名詞分詞的有效名詞分詞；

所述第二確定模塊4204，用于確定動(dòng)詞分詞和有效名詞分詞為詞項(xiàng)。

具體地，如圖5所示，所述第二確定模塊4204，包括：

第二判斷子模塊420401，用于判斷有效分詞是否與應(yīng)用文本語料的題目分詞相同；

第一添加子模塊420402，用于如果判斷結(jié)果為是，則按照第一預(yù)置次數(shù)，重復(fù)添加有效分詞；

第一確定子模塊420403，用于確定有效分詞為詞項(xiàng)。

具體地，如圖5所示，所述提取單元42，包括：

第一計(jì)算模塊4205，用于根據(jù)預(yù)置緊密度算法，計(jì)算分詞庫中任意兩個(gè)相鄰分詞的緊密度；

合并模塊4206，用于如果緊密度大于第一預(yù)置閾值，則將緊密度對應(yīng)的相鄰分詞合并成短語；

第三確定模塊4207，用于確定短語為詞項(xiàng)。

具體地，如圖5所示，所述第三確定模塊4207，包括：

第三判斷子模塊420701，用于判斷短語的緊密度是否大于第二預(yù)置閾值；

第二添加子模塊420702，用于如果判斷結(jié)果為是，則按照第二預(yù)置次數(shù)，重復(fù)添加短語；

第二確定子模塊420703，用于確定短語為詞項(xiàng)。

進(jìn)一步地，如圖4所示，為了對提高標(biāo)簽標(biāo)示應(yīng)用文本語料的有效性，所述裝置還包括：

計(jì)算單元45，用于提取應(yīng)用文本語料中的詞項(xiàng)之后，計(jì)算詞項(xiàng)的詞頻；計(jì)算單元45為標(biāo)簽的生成裝置的提取應(yīng)用文本語料中的詞項(xiàng)之后，計(jì)算詞項(xiàng)的詞頻的功能模塊。

刪除單元46，用于刪除詞頻大于第一預(yù)置詞頻且小于第二預(yù)置詞頻的詞項(xiàng)。刪除單元46為標(biāo)簽的生成裝置的刪除詞頻大于第一預(yù)置詞頻且小于第二預(yù)置詞頻的詞項(xiàng)的功能模塊。

進(jìn)一步地，如圖6所示，所述生成單元44，包括：

第二獲取模塊4401，用于獲取主題模型的訓(xùn)練結(jié)果，訓(xùn)練結(jié)果包括主題-詞項(xiàng)概率分布和應(yīng)用文本語料-主題概率分布；

第二計(jì)算模塊4402，用于根據(jù)訓(xùn)練結(jié)果，計(jì)算詞項(xiàng)的訓(xùn)練概率；

第三計(jì)算模塊4403，用于根據(jù)預(yù)置校正算法，計(jì)算詞項(xiàng)的校正概率；

第四確定模塊4404，用于按照校正概率從大到小的順序，確定預(yù)置數(shù)量的詞項(xiàng)為標(biāo)簽。

具體地，如圖6所示，所述第三計(jì)算模塊4403，包括：

第二獲取子模塊440301，用于根據(jù)文本深度表示模型訓(xùn)練詞項(xiàng)，獲取詞項(xiàng)與應(yīng)用文本語料的語義相似度；

所述第二獲取子模塊440301，還用于獲取詞項(xiàng)的位置權(quán)重；

所述第二獲取子模塊440301，還用于獲取語義相似度用位置權(quán)重加權(quán)的加權(quán)值；

所述第三確定子模塊440302，用于將詞項(xiàng)的訓(xùn)練概率與加權(quán)值的乘積，確定為校正概率。

具體地，如圖6所示，所述第三計(jì)算模塊4403，包括：

第一計(jì)算子模塊440303，用于計(jì)算詞項(xiàng)在應(yīng)用文本語料中的出現(xiàn)頻率；

第三獲取子模塊440304，用于將訓(xùn)練概率與出現(xiàn)頻率相乘，并將乘積結(jié)果與訓(xùn)練概率相加，獲取詞項(xiàng)的校正概率。

具體地，如圖6所示，所述第四確定模塊4404，包括：

第四獲取子模塊440401，用于獲取應(yīng)用文本語料的查詢次數(shù)；

第二計(jì)算子模塊440402，用于根據(jù)預(yù)置選詞算法，計(jì)算應(yīng)用文本語料的選詞數(shù)量；

第四確定子模塊440403，用于確定選詞數(shù)量的詞項(xiàng)為標(biāo)簽。

在上述實(shí)施例中，對各個(gè)實(shí)施例的描述都各有側(cè)重，某個(gè)實(shí)施例中沒有詳述的部分，可以參見其他實(shí)施例的相關(guān)描述。

可以理解的是，上述方法及裝置中的相關(guān)特征可以相互參考。另外，上述實(shí)施例中的“第一”、“第二”等是用于區(qū)分各實(shí)施例，而并不代表各實(shí)施例的優(yōu)劣。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到，為描述的方便和簡潔，上述描述的系統(tǒng)，裝置和單元的具體工作過程，可以參考前述方法實(shí)施例中的對應(yīng)過程，在此不再贅述。

在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述，構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外，本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白，可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容，并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。

在此處所提供的說明書中，說明了大量具體細(xì)節(jié)。然而，能夠理解，本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中，并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù)，以便不模糊對本說明書的理解。

類似地，應(yīng)當(dāng)理解，為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè)，在上面對本發(fā)明的示例性實(shí)施例的描述中，本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對其的描述中。然而，并不應(yīng)將該公開的方法解釋成反映如下意圖：即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說，如下面的權(quán)利要求書所反映的那樣，發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此，遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式，其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。

本領(lǐng)域那些技術(shù)人員可以理解，可以對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件，以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外，可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述，本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。

此外，本領(lǐng)域的技術(shù)人員能夠理解，盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征，但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如，在下面的權(quán)利要求書中，所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。

本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn)，或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn)，或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的標(biāo)簽的生成裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如，計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上，或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到，或者在載體信號(hào)上提供，或者以任何其他形式提供。

應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制，并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中，不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中，這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序?？蓪⑦@些單詞解釋為名稱。

本發(fā)明的實(shí)施例公開了：

A1、一種標(biāo)簽的生成方法，包括：

獲取應(yīng)用文本語料；

提取所述應(yīng)用文本語料中的詞項(xiàng)；

根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練所述詞項(xiàng)；

根據(jù)所述主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽。

A2、根據(jù)權(quán)利要求A1所述的方法，所述獲取應(yīng)用文本語料，包括：

獲取會(huì)話日志中的查詢數(shù)據(jù)；

如果查找到所述查詢數(shù)據(jù)對應(yīng)的下載數(shù)據(jù)，則獲取所述下載數(shù)據(jù)的應(yīng)用程序APP摘要；

將所述查詢數(shù)據(jù)與所述APP摘要，確定為所述應(yīng)用文本語料。

A3、根據(jù)權(quán)利要求A1所述的方法，所述提取所述應(yīng)用文本語料中的詞項(xiàng)，包括：

對所述應(yīng)用文本語料分詞處理，生成所述應(yīng)用文本語料的分詞庫；

判斷所述詞項(xiàng)庫中分詞的詞性；

提取所述詞性為有效詞性的有效分詞，所述有效詞性包括動(dòng)詞和名詞；

確定所述有效分詞為所述詞項(xiàng)。

A4、根據(jù)權(quán)利要求A3所述的方法，所述提取所述詞性為有效詞性的有效分詞，包括：

獲取所述詞性為動(dòng)詞的動(dòng)詞分詞；

獲取所述詞性為名詞的名詞分詞；

判斷每一個(gè)所述名詞分詞是否為無效名詞分詞，所述無效名詞分詞包括人名、地名或者機(jī)構(gòu)名稱；

如果判斷結(jié)果為否，則獲取所述名詞分詞的有效名詞分詞；

所述確定所述有效分詞為所述詞項(xiàng)，包括：

確定所述動(dòng)詞分詞和所述有效名詞分詞為所述詞項(xiàng)。

A5、根據(jù)權(quán)利要求A3所述的方法，所述確定所述有效分詞為所述詞項(xiàng)，包括：

判斷所述有效分詞是否與所述應(yīng)用文本語料的題目分詞相同；

如果判斷結(jié)果相同，則按照第一預(yù)置次數(shù)，重復(fù)添加所述有效分詞；

確定所述有效分詞為所述詞項(xiàng)。

A6、根據(jù)權(quán)利要求A3所述的方法，所述提取所述應(yīng)用文本語料中的詞項(xiàng)，包括：

根據(jù)預(yù)置緊密度算法，計(jì)算所述分詞庫中任意兩個(gè)相鄰分詞的緊密度；

如果所述緊密度大于第一預(yù)置閾值，則將所述緊密度對應(yīng)的所述相鄰分詞合并成短語；

確定所述短語為所述詞項(xiàng)。

A7、根據(jù)權(quán)利要求A5所述的方法，所述確定所述短語為所述詞項(xiàng)，包括：

判斷所述短語的緊密度是否大于第二預(yù)置閾值；

如果判斷結(jié)果為是，則按照第二預(yù)置次數(shù)，重復(fù)添加所述短語；

確定所述短語為所述詞項(xiàng)。

A8、根據(jù)權(quán)利要求A1所述的方法，所述提取所述應(yīng)用文本語料中的詞項(xiàng)之后，所述方法還包括：

計(jì)算所述詞項(xiàng)的詞頻；

刪除所述詞頻大于第一預(yù)置詞頻且小于第二預(yù)置詞頻的詞項(xiàng)。

A9、根據(jù)權(quán)利要求A1所述的方法，所述根據(jù)所述主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽，包括：

獲取所述主題模型的訓(xùn)練結(jié)果，所述訓(xùn)練結(jié)果包括主題-詞項(xiàng)概率分布和應(yīng)用文本語料-主題概率分布；

根據(jù)所述訓(xùn)練結(jié)果，計(jì)算所述詞項(xiàng)的訓(xùn)練概率；

根據(jù)預(yù)置校正算法，計(jì)算所述詞項(xiàng)的校正概率；

按照所述校正概率從大到小的順序，確定預(yù)置數(shù)量的所述詞項(xiàng)為標(biāo)簽。

A10、根據(jù)權(quán)利要求A9所述的方法，所述根據(jù)預(yù)置校正算法，計(jì)算所述詞項(xiàng)的校正概率，包括：

根據(jù)文本深度表示模型訓(xùn)練所述詞項(xiàng)，獲取所述詞項(xiàng)與所述應(yīng)用文本語料的語義相似度；

獲取所述詞項(xiàng)的位置權(quán)重；

獲取所述語義相似度用所述位置權(quán)重加權(quán)的加權(quán)值；

將所述詞項(xiàng)的訓(xùn)練概率與所述加權(quán)值的乘積，確定為所述校正概率。

A11、根據(jù)權(quán)利要求A10所述的方法，所述根據(jù)預(yù)置校正算法，計(jì)算所述詞項(xiàng)的校正概率，包括：

計(jì)算所述詞項(xiàng)在所述應(yīng)用文本語料中的出現(xiàn)頻率；

將所述訓(xùn)練概率與所述出現(xiàn)頻率相乘，并將乘積結(jié)果與所述訓(xùn)練概率相加，獲取所述詞項(xiàng)的校正概率。

A12、根據(jù)權(quán)利要求A9所述的方法，所述確定預(yù)置數(shù)量的所述詞項(xiàng)為標(biāo)簽，包括：

獲取所述應(yīng)用文本語料的查詢次數(shù)；

根據(jù)預(yù)置選詞算法，計(jì)算所述應(yīng)用文本語料的選詞數(shù)量；

確定所述選詞數(shù)量的所述詞項(xiàng)為所述標(biāo)簽。

B13、一種標(biāo)簽的生成裝置，包括：

獲取單元，用于獲取應(yīng)用文本語料；

提取單元，用于提取所述應(yīng)用文本語料中的詞項(xiàng)；

訓(xùn)練單元，用于根據(jù)預(yù)置訓(xùn)練參數(shù)，按照主題模型訓(xùn)練所述詞項(xiàng)；

生成單元，用于根據(jù)所述主題模型的訓(xùn)練結(jié)果，生成標(biāo)簽。

B14、根據(jù)權(quán)利要求B13所述的裝置，所述獲取單元，包括：

第一獲取模塊，用于獲取會(huì)話日志中的查詢數(shù)據(jù)；

所述第一獲取模塊，還用于如果查找到所述查詢數(shù)據(jù)對應(yīng)的下載數(shù)據(jù)，則獲取所述下載數(shù)據(jù)的APP摘要；

第一確定模塊，用于將所述查詢數(shù)據(jù)與所述APP摘要，確定為所述應(yīng)用文本語料。

B15、根據(jù)權(quán)利要求B13所述的裝置，所述提取單元，包括：

生成模塊，用于對所述應(yīng)用文本語料分詞處理，生成所述應(yīng)用文本語料的分詞庫；

判斷模塊，用于判斷所述詞項(xiàng)庫中分詞的詞性；

提取模塊，用于提取所述詞性為有效詞性的有效分詞，所述有效詞性包括動(dòng)詞和名詞；

第二確定模塊，用于確定所述有效分詞為所述詞項(xiàng)。

B16、根據(jù)權(quán)利要求B15所述的裝置，所述提取模塊，包括：

第一獲取子模塊，用于獲取所述詞性為動(dòng)詞的動(dòng)詞分詞；

所述第一獲取子模塊，還用于獲取所述詞性為名詞的名詞分詞；

第一判斷子模塊，用于判斷每一個(gè)所述名詞分詞是否為無效名詞分詞，所述無效名詞分詞包括人名、地名或者機(jī)構(gòu)名稱；

所述第一獲取子模塊，還用于如果判斷結(jié)果為否，則獲取所述名詞分詞的有效名詞分詞；

所述第二確定模塊，用于：

確定所述動(dòng)詞分詞和所述有效名詞分詞為所述詞項(xiàng)。

B17、根據(jù)權(quán)利要求B15所述的裝置，所述第二確定模塊，包括：

第二判斷子模塊，用于判斷所述有效分詞是否與所述應(yīng)用文本語料的題目分詞相同；

第一添加子模塊，用于如果判斷結(jié)果為是，則按照第一預(yù)置次數(shù)，重復(fù)添加所述有效分詞；

第一確定子模塊，用于確定所述有效分詞為所述詞項(xiàng)。

B18、根據(jù)權(quán)利要求B15所述的裝置，所述提取單元，包括：

第一計(jì)算模塊，用于根據(jù)預(yù)置緊密度算法，計(jì)算所述分詞庫中任意兩個(gè)相鄰分詞的緊密度；

合并模塊，用于如果所述緊密度大于第一預(yù)置閾值，則將所述緊密度對應(yīng)的所述相鄰分詞合并成短語；

第三確定模塊，用于確定所述短語為所述詞項(xiàng)。

B19、根據(jù)權(quán)利要求B18所述的裝置，所述第三確定模塊，包括：

第三判斷子模塊，用于判斷所述短語的緊密度是否大于第二預(yù)置閾值；

第二添加子模塊，用于如果判斷結(jié)果為是，則按照第二預(yù)置次數(shù)，重復(fù)添加所述短語；

第二確定子模塊，用于確定所述短語為所述詞項(xiàng)。

B20、根據(jù)權(quán)利要求B13所述的裝置，所述裝置還包括：

計(jì)算單元，用于所述提取所述應(yīng)用文本語料中的詞項(xiàng)之后，計(jì)算所述詞項(xiàng)的詞頻；

刪除單元，用于刪除所述詞頻大于第一預(yù)置詞頻且小于第二預(yù)置詞頻的詞項(xiàng)。

B21、根據(jù)權(quán)利要求B13所述的裝置，所述生成單元，包括：

第二獲取模塊，用于獲取所述主題模型的訓(xùn)練結(jié)果，所述訓(xùn)練結(jié)果包括主題-詞項(xiàng)概率分布和應(yīng)用文本語料-主題概率分布；

第二計(jì)算模塊，用于根據(jù)所述訓(xùn)練結(jié)果，計(jì)算所述詞項(xiàng)的訓(xùn)練概率；

第三計(jì)算模塊，用于根據(jù)預(yù)置校正算法，計(jì)算所述詞項(xiàng)的校正概率；

第四確定模塊，用于按照所述校正概率從大到小的順序，確定預(yù)置數(shù)量的所述詞項(xiàng)為標(biāo)簽。

B22、根據(jù)權(quán)利要求B21所述的裝置，所述第三計(jì)算模塊，包括：

第二獲取子模塊，用于根據(jù)文本深度表示模型訓(xùn)練所述詞項(xiàng)，獲取所述詞項(xiàng)與所述應(yīng)用文本語料的語義相似度；

所述第二獲取子模塊，還用于獲取所述詞項(xiàng)的位置權(quán)重；

所述第二獲取子模塊，還用于獲取所述語義相似度用所述位置權(quán)重加權(quán)的加權(quán)值；

第三確定子模塊，用于將所述詞項(xiàng)的訓(xùn)練概率與所述加權(quán)值的乘積，確定為所述校正概率。

B23、根據(jù)權(quán)利要求B22所述的裝置，所述第三計(jì)算模塊，包括：

第一計(jì)算子模塊，用于計(jì)算所述詞項(xiàng)在所述應(yīng)用文本語料中的出現(xiàn)頻率；

第三獲取子模塊，用于將所述訓(xùn)練概率與所述出現(xiàn)頻率相乘，并將乘積結(jié)果與所述訓(xùn)練概率相加，獲取所述詞項(xiàng)的校正概率。

B24、根據(jù)權(quán)利要求B21所述的裝置，所述第四確定模塊，包括：

第四獲取子模塊，用于獲取所述應(yīng)用文本語料的查詢次數(shù)；

第二計(jì)算子模塊，用于根據(jù)預(yù)置選詞算法，計(jì)算所述應(yīng)用文本語料的選詞數(shù)量；

第四確定子模塊，用于確定所述選詞數(shù)量的所述詞項(xiàng)為所述標(biāo)簽。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：龐偉
技術(shù)所有人：北京奇虎科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

盒蓋標(biāo)簽粘貼裝置相關(guān)技術(shù)

標(biāo)簽印刷機(jī)翻轉(zhuǎn)架裝置相關(guān)技術(shù)

dedecms標(biāo)簽生成器相關(guān)技術(shù)

標(biāo)簽生成器相關(guān)技術(shù)

中文標(biāo)簽云在線生成器相關(guān)技術(shù)

織夢cms標(biāo)簽生成器相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種標(biāo)簽的生成方法及裝置與流程