本發(fā)明涉及一種數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種標(biāo)簽的生成方法及裝置。
背景技術(shù):
標(biāo)簽是信息標(biāo)識(shí),是相關(guān)性很強(qiáng)的關(guān)鍵字,能夠描述對應(yīng)的實(shí)物、軟件、著作等等,是以便于檢索和分享。應(yīng)用搜索引擎,是指提供搜索和下載應(yīng)用程序APP的軟件,能夠根據(jù)標(biāo)識(shí)APP的APP標(biāo)簽在現(xiàn)有的數(shù)百萬個(gè)APP中,搜索符合用戶需求的多個(gè)APP。
目前,現(xiàn)有通過標(biāo)簽挖掘方法建立搜索引擎,可以準(zhǔn)確得到用戶需求的APP。從APP簡介和標(biāo)題中得到能夠反映APP內(nèi)容信息的屬性標(biāo)簽。將APP簡介和標(biāo)題合并在一起,從中抽取類別標(biāo)簽,并計(jì)算標(biāo)簽權(quán)重,選擇權(quán)重較大的標(biāo)簽為APP標(biāo)簽。但是開發(fā)者為了提供APP的展現(xiàn)機(jī)會(huì),往往提交大量的與APP相關(guān)性較弱的APP簡介,導(dǎo)致APP簡介中存在無關(guān)的作弊文字較多,使得生成的APP標(biāo)簽不能有效地標(biāo)識(shí)對應(yīng)的APP。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供一種標(biāo)簽的生成方法及裝置,主要目的在于提高APP標(biāo)簽標(biāo)識(shí)APP的有效性。
依據(jù)本發(fā)明一個(gè)方面,提供了一種標(biāo)簽的生成方法,包括:
獲取應(yīng)用文本語料;
提取所述應(yīng)用文本語料中的詞項(xiàng);
根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練所述詞項(xiàng);
根據(jù)所述主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。
依據(jù)本發(fā)明另一方面,還提供了一種標(biāo)簽的生成裝置,包括:
獲取單元,用于獲取應(yīng)用文本語料;
提取單元,用于提取所述應(yīng)用文本語料中的詞項(xiàng);
訓(xùn)練單元,用于根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練所述詞項(xiàng);
生成單元,用于根據(jù)所述主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。
借由上述技術(shù)方案,本發(fā)明實(shí)施例提供的技術(shù)方案至少具有下列優(yōu)點(diǎn):
本發(fā)明提供的一種標(biāo)簽的生成方法及裝置,與現(xiàn)有技術(shù)相比,本發(fā)明通過獲取應(yīng)用文本語料,然后提取應(yīng)用文本語料中的詞項(xiàng),再根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練詞項(xiàng),最后根據(jù)主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽,能夠訓(xùn)練應(yīng)用文本語料的詞項(xiàng),獲取各個(gè)詞項(xiàng)的能夠標(biāo)識(shí)應(yīng)用文本語料的概率,選取概率較大的詞項(xiàng),能夠提高標(biāo)簽標(biāo)識(shí)應(yīng)用文本語料的有效性。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1示出了本發(fā)明實(shí)施例一提供的一種標(biāo)簽的生成方法流程圖;
圖2示出了本發(fā)明實(shí)施例二提供的另一種標(biāo)簽的生成方法流程圖;
圖3示出了本發(fā)明實(shí)施例三提供的一種標(biāo)簽的生成裝置組成框圖;
圖4示出了本發(fā)明實(shí)施例四提供的另一種標(biāo)簽的生成裝置組成框圖;
圖5示出了本發(fā)明實(shí)施例四提供的提取單元的組成框圖;
圖6示出了本發(fā)明實(shí)施例四提供的生成單元的組成框圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
本發(fā)明實(shí)施例一提供了一種標(biāo)簽的生成方法,如圖1所示,該方法包括:
101、獲取應(yīng)用文本語料。
其中,所述應(yīng)用文本語料為生成標(biāo)簽提供文字基礎(chǔ),是標(biāo)簽文字的主要來源。例如,獲取APP的標(biāo)簽,應(yīng)用文本語料通常選取APP的摘要,摘要中包括APP的題目,簡要的解釋說明,以及推薦理由等等,本發(fā)明實(shí)施例不做具體限定。APP摘要能夠充分體現(xiàn)用于文本語料的內(nèi)容。
102、提取應(yīng)用文本語料中的詞項(xiàng)。
其中,所述詞項(xiàng)是指詞語或者詞組,也是應(yīng)用文本語料中的特征詞語。對應(yīng)用文本語料進(jìn)行分詞處理,得到應(yīng)用文本語料的各個(gè)分詞??梢詫?yīng)用文本語料的各個(gè)分詞作為應(yīng)用文本語料的詞項(xiàng)。但是并不是所有應(yīng)用文本語料中的分詞都是特征詞語,所以還需要設(shè)置特征詞語的篩選規(guī)則,從應(yīng)用文本語料中篩選出特征詞語。
需要說明的是,在漢語句式中,通常包括主語、謂語、賓語、定語、狀語和補(bǔ)語。其中,主語、謂語和賓語是句子的主干,定語、狀語和補(bǔ)語是對句子主干的修飾,所以主語、謂語和賓語通常能夠標(biāo)識(shí)應(yīng)用文本語料的特征。主語和賓語的詞性為名詞,謂語的詞性為動(dòng)詞,所以將應(yīng)用文本語料中的名詞和動(dòng)詞確定為特征詞語,也就是應(yīng)用文本語料的詞項(xiàng)。
103、根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練詞項(xiàng)。
其中,所述主題模型是一種對文本中隱含主題的建模方法。由于文字之間的相關(guān)性不僅僅決定于字面上的詞語重復(fù),還取決于文字背后的語義關(guān)聯(lián)。主題模型克服了信息檢索中相似度計(jì)算的確定,能夠在海量互聯(lián)網(wǎng)數(shù)據(jù)中自動(dòng)尋找出文字間的語義主題,挖掘語義關(guān)聯(lián),使得搜索更加智能化。主題模型可以衡量文檔之間的語義相似性,可以解決多義詞的問題并且可以排除文檔中噪音的影響。主題模型能夠有效地挖掘語言背后隱含信息的關(guān)聯(lián)關(guān)系。
需要說明的是,每一篇應(yīng)用文本語料的詞項(xiàng),都是以一定的概率選擇了某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)詞語。對主題模型的訓(xùn)練,也就是計(jì)算每個(gè)詞語出現(xiàn)的概率。主題模型的訓(xùn)練方法主要包括兩種,一個(gè)是PLSA(Probabilistic Latent SemanticAnalysis,基于概率的潛在語義分析),另一個(gè)是LDA(Latent DirichletAllocation,潛在狄瑞雷克模型)。
PLSA算法,還叫做EM(Expectation-maximization,期望最大化)算法,它包含兩個(gè)不斷迭代的過程:E(Expectation-maximization,期望)過程和M(Max,最大化)過程。例如,食堂的大師傅炒了一盤菜,要等分成兩份給兩個(gè)人吃,顯然沒有必要拿天平去一點(diǎn)點(diǎn)去精確稱量,最簡單的辦法是先隨意的把菜分到兩個(gè)碗中,然后觀察是否一樣多,把比較多的那一份取出一點(diǎn)放到另一個(gè)碗中,這個(gè)過程一直重復(fù)下去,直到大家看不出兩個(gè)碗里的菜有什么差別為止。
LDA算法是對PLSA算法的改進(jìn),包括:“計(jì)算每個(gè)主題里的詞語分布”和“計(jì)算訓(xùn)練文檔中的主題分布”,相當(dāng)于上述例子中在往兩個(gè)人碗里分飯。在E過程中,通過貝葉斯公式可以由“詞語-主題”矩陣計(jì)算出“主題-文檔”矩陣。在M過程中,用“主題-文檔”矩陣重新計(jì)算“詞語-主題”矩陣。
另外,將選擇的主題和迭代輪數(shù),作為預(yù)置訓(xùn)練參數(shù),參數(shù)的具體形式本發(fā)明實(shí)施例不做具體限定,訓(xùn)練應(yīng)用文本語料的詞項(xiàng),獲取各個(gè)詞項(xiàng)的概率。
例如,LDA訓(xùn)練選擇120個(gè)主題,迭代300輪,生成兩個(gè)文件,分別是主題-詞項(xiàng)概率分布,如表1所示:
表1:主題-詞項(xiàng)概率分布中第四個(gè)主題中各個(gè)詞項(xiàng)的概率表
另一個(gè)文件是應(yīng)用文本語料-主題概率分布,以應(yīng)用文本資料為微信APP為例,如表2示例:
表2:文檔-主題概率分布中“微信”app的主題分布概率表
104、根據(jù)主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。
其中,所述標(biāo)簽是最能代表應(yīng)用文本語料的描述詞項(xiàng)。所述選擇主題模型訓(xùn)練結(jié)果中概率大的詞項(xiàng)作為標(biāo)簽,可以選取至少一個(gè)標(biāo)簽標(biāo)識(shí)應(yīng)用文本語料的聯(lián)系。所述主題模型訓(xùn)練的結(jié)果中詞項(xiàng)的概率也可能有偏差,所以在生成標(biāo)簽之前還可以對詞項(xiàng)概率進(jìn)行校正,在本發(fā)明實(shí)施例中對校正方法不做限定。
本發(fā)明提供的一種標(biāo)簽的生成方法,通過獲取應(yīng)用文本語料,然后提取應(yīng)用文本語料中的詞項(xiàng),再根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練詞項(xiàng),最后根據(jù)主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。與現(xiàn)有技術(shù)相比,本發(fā)明能夠訓(xùn)練應(yīng)用文本語料的詞項(xiàng),獲取各個(gè)詞項(xiàng)的能夠標(biāo)識(shí)應(yīng)用文本語料的概率,選取概率較大的詞項(xiàng),能夠提高標(biāo)簽標(biāo)識(shí)應(yīng)用文本語料的有效性。
作為圖1所示方法的進(jìn)一步細(xì)化,本發(fā)明實(shí)施例二還提供了另一種標(biāo)簽的生成方法,如圖2所示,該方法包括:
201、獲取應(yīng)用文本語料。
其中,所述應(yīng)用文本語料通常還需要具備推廣作用,為了能夠有效地推廣應(yīng)用文本資料對應(yīng)的產(chǎn)品,應(yīng)用文本語料的發(fā)布者可能會(huì)在應(yīng)用文本語料中添加一些利于推廣但是關(guān)聯(lián)性較弱的內(nèi)容。為了提高應(yīng)用文本語料與其對應(yīng)的產(chǎn)品的關(guān)聯(lián)程度,可以將一些與對應(yīng)產(chǎn)品直接關(guān)聯(lián)的擴(kuò)展語料。
對于本發(fā)明實(shí)施例,如果應(yīng)用文本語料是APP摘要,獲取應(yīng)用文本語料具體包括:獲取會(huì)話日志中的查詢數(shù)據(jù);如果查找到查詢數(shù)據(jù)對應(yīng)的下載數(shù)據(jù),則獲取下載數(shù)據(jù)的APP摘要;將查詢數(shù)據(jù)與APP摘要,確定為應(yīng)用文本語料。
其中,所述會(huì)話日志中記錄了用戶在某段時(shí)間內(nèi)的一系列搜索和下載行為,通常回話日志是以天為單位。回話日志中的查詢數(shù)據(jù)是指所有用戶在終端輸入的查詢數(shù)據(jù),然而并不是每一次查詢都會(huì)下載與查詢數(shù)據(jù)相關(guān)的下載數(shù)據(jù)。下載數(shù)據(jù)中的APP摘要即為應(yīng)用文本語料,而查詢數(shù)據(jù)是與APP摘要關(guān)聯(lián)的擴(kuò)展語料。將查詢數(shù)據(jù)與APP摘要作為應(yīng)用文本語料。
示例性的,構(gòu)造一個(gè)會(huì)話日志內(nèi)部的查詢檢索查詢串和下載序列,按照用戶的搜索次序排序,檢索查詢串不去重,完整保存用戶的搜索序列和下載序列。用戶搜索某個(gè)檢索查詢串,下載了某些APP,就說明下載的APP與檢索查詢串之間存在語義關(guān)聯(lián),將APP也作為檢索查詢串?dāng)U展語料的一部分,將APP名字緊挨著拼在該檢索查詢串后。例如:一個(gè)用戶回話日志序列是第一檢索查詢串、第二檢索查詢串、第三檢索查詢串,用戶在輸入第二檢索查詢串后下載了第一APP,把第一APP摘要寫在第二檢索查詢串后、第三檢索查詢串前面,即第一檢索查詢串、第二檢索查詢串、第一APP、第三檢索查詢串,從而構(gòu)造了一個(gè)回話日志序列。將回話日志系列確定為應(yīng)用文本資料。
202、提取應(yīng)用文本語料中的詞項(xiàng)。
其中,所述提取詞項(xiàng)可以包括對應(yīng)用文本語料分詞處理,生成應(yīng)用文本語料的分詞庫、判斷詞項(xiàng)庫中分詞的詞性、提取詞性為有效詞性的有效分詞,本發(fā)明實(shí)施例不做具體限定,所述有效詞性包括動(dòng)詞和名詞,確定有效分詞為詞項(xiàng)。
需要說明的是,對應(yīng)用文本語料進(jìn)行分詞處理,常用的分詞方法有:前向分詞、后向分詞、前后向分詞、最少切分,以及全切分等等,本發(fā)明實(shí)施例不做具體限定。應(yīng)用文本語料的各個(gè)分詞構(gòu)成分詞庫。并不是分詞庫中的所有分詞都是應(yīng)用文本語料的特征詞語,所以從分詞庫中篩選出可能是特征詞語的分詞,以提高生成標(biāo)簽的有效性。根據(jù)句式特點(diǎn),選擇分詞的詞性為動(dòng)詞或名稱的有效分詞,并將有效分詞確定為詞項(xiàng)。然后在根據(jù)詞性判斷的有效分詞中,仍然存在不是特征詞語的分詞。
對于本發(fā)明實(shí)施例,所述提取詞性為有效詞性的有效分詞還包括:獲取詞性為動(dòng)詞的動(dòng)詞分詞;獲取詞性為名詞的名詞分詞;判斷每一個(gè)名詞分詞是否為無效名詞分詞,無效名詞分詞包括人名、地名或者機(jī)構(gòu)名稱;如果判斷結(jié)果為否,則獲取名詞分詞的有效名詞分詞;確定有效分詞為詞項(xiàng),包括:確定動(dòng)詞分詞和有效名詞分詞為詞項(xiàng)。
其中,所述人名、地名或機(jī)構(gòu)名稱都是名詞,但是通常不能作為一個(gè)產(chǎn)品或者一個(gè)軟件的標(biāo)簽,所以通過刪除無效名詞分詞,將動(dòng)詞分詞和有效名稱分詞確定為詞項(xiàng),進(jìn)一步提高生成標(biāo)簽的有效性。
對于本發(fā)明實(shí)施例,提取的各個(gè)詞項(xiàng)不合并,詞項(xiàng)的數(shù)量越多,被確定為標(biāo)簽的可能性越大。為了避免因重復(fù)次數(shù)少,而被誤判成關(guān)聯(lián)程度較弱的詞項(xiàng),在確定有效分詞為詞項(xiàng)步驟中,包括:判斷有效分詞是否與應(yīng)用文本語料的題目分詞相同;如果判斷結(jié)果相同,則按照第一預(yù)置次數(shù),重復(fù)添加有效分詞;確定有效分詞為詞項(xiàng)。
一段應(yīng)用文本語料的題目,通常是文本語料中最核心的部分,所以重復(fù)題目中的詞項(xiàng)能夠減少誤判的概率。
由于現(xiàn)有的分詞合成組成一個(gè)固有的短語,為了避免錯(cuò)誤拆分,提取應(yīng)用文本語料中的詞項(xiàng),還包括:根據(jù)預(yù)置緊密度算法,計(jì)算分詞庫中任意兩個(gè)相鄰分詞的緊密度;如果緊密度大于第一預(yù)置閾值,則將緊密度對應(yīng)的相鄰分詞合并成短語;確定短語為詞項(xiàng)。
其中,所述緊密度算法,是計(jì)算兩個(gè)相鄰分詞緊密度的算法,緊密度越高說明相鄰兩個(gè)分詞能夠合并成一個(gè)短語的可能性越大。選取第一預(yù)置閾值作為能夠合并成短語的臨界值。緊密度可采用如下公式計(jì)算:
其中,d(x,y)表示兩個(gè)分詞x、y的共現(xiàn)頻數(shù),d(x)表示分詞x的出現(xiàn)頻數(shù),d(y)表示分詞y的出現(xiàn)頻數(shù),D表示總的app數(shù)量,δ=0.7。確定短語為詞項(xiàng),包括:判斷短語的緊密度是否大于第二預(yù)置閾值;如果判斷結(jié)果為是,則按照第二預(yù)置次數(shù),重復(fù)添加短語;確定短語為詞項(xiàng)。為了減少誤判的概率,與有效分詞采用的方法類似,當(dāng)短語的緊密度大于第二預(yù)置閾值時(shí),重復(fù)添加短語。
203、計(jì)算詞項(xiàng)的詞頻。
其中,所述詞頻,是指詞項(xiàng)在應(yīng)用文本語料中出現(xiàn)的頻率。為了能夠提高詞項(xiàng)的有效性,根據(jù)詞項(xiàng)的詞頻繼續(xù)縮小詞項(xiàng)的范圍,提高詞項(xiàng)的有效性。
204、刪除詞頻大于第一預(yù)置詞頻且小于第二預(yù)置詞頻的詞項(xiàng)。
需要說明的是,如果詞項(xiàng)的詞頻特別高或者特別低,詞項(xiàng)的有效性都不是很大,例如,在任意一篇文本中,出現(xiàn)次數(shù)最多的詞可能是“的”,不是有效詞項(xiàng),所以選取詞頻在第一預(yù)置詞頻和第二預(yù)置詞頻之前的詞項(xiàng),作為最終選取的詞項(xiàng)。
205、根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練詞項(xiàng)。
本步驟與圖1所示的步驟103所述的方法相同,這里不再贅述。
206、根據(jù)主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。
對于本發(fā)明實(shí)施例,生成標(biāo)簽具體包括:獲取主題模型的訓(xùn)練結(jié)果,訓(xùn)練結(jié)果包括主題-詞項(xiàng)概率分布和應(yīng)用文本語料-主題概率分布;根據(jù)訓(xùn)練結(jié)果,計(jì)算詞項(xiàng)的訓(xùn)練概率;根據(jù)預(yù)置校正算法,計(jì)算詞項(xiàng)的校正概率;按照校正概率從大到小的順序,確定預(yù)置數(shù)量的詞項(xiàng)為標(biāo)簽。
其中,所述訓(xùn)練結(jié)果中包括主題-詞項(xiàng)概率分布和應(yīng)用文本語料-主題概率分布,每個(gè)詞項(xiàng)的概率是將主題-詞項(xiàng)概率分布中的詞項(xiàng)概率,與詞項(xiàng)對應(yīng)的主題在應(yīng)用文本語料-主題概率分布中的主題概率相乘的結(jié)果。由于文本資料的自身內(nèi)容的排布不均,可能造成訓(xùn)練概率不夠準(zhǔn)確,所以對訓(xùn)練概率校正以獲取更準(zhǔn)確的詞項(xiàng)的校正概率。選取預(yù)置數(shù)量的校正概率較大的詞項(xiàng)確定為標(biāo)簽。
具體的根據(jù)預(yù)置校正算法,計(jì)算詞項(xiàng)的校正概率,包括:根據(jù)文本深度表示模型訓(xùn)練詞項(xiàng),獲取詞項(xiàng)與應(yīng)用文本語料的語義相似度;獲取詞項(xiàng)的位置權(quán)重;獲取語義相似度用位置權(quán)重加權(quán)的加權(quán)值;將詞項(xiàng)的訓(xùn)練概率與加權(quán)值的乘積,確定為校正概率。
其中,所述算法為計(jì)算詞項(xiàng)校正概率的第一種算法。文本深度表示模型是一種成熟的算法模型,經(jīng)過訓(xùn)練詞項(xiàng)能夠獲取詞項(xiàng)與應(yīng)用文本余量的語義相似度。由于應(yīng)用文本語料中通常第一句的重要程度最高,然后越靠后的重要程度越低,所以獲取詞項(xiàng)的位置權(quán)重。位置權(quán)重可以根據(jù)應(yīng)用文本語料中的分隔符,每檢測到一次分隔符降低一定比例的位置權(quán)重,在本發(fā)明實(shí)施例中對位置權(quán)重的設(shè)置方法不做限定。獲取語義相似度和位置權(quán)重加權(quán)的加權(quán)值,再對詞項(xiàng)的訓(xùn)練概率進(jìn)行校正,計(jì)算校正概率。
對于本發(fā)明實(shí)施例,根據(jù)預(yù)置校正算法,計(jì)算詞項(xiàng)的校正概率,包括:計(jì)算詞項(xiàng)在應(yīng)用文本語料中的出現(xiàn)頻率;將訓(xùn)練概率與出現(xiàn)頻率相乘,并將乘積結(jié)果與訓(xùn)練概率相加,獲取詞項(xiàng)的校正概率。
其中,所述算法可以做為計(jì)算詞項(xiàng)校正概率的第二種算法,根據(jù)詞項(xiàng)的出現(xiàn)頻率,校正詞項(xiàng)的訓(xùn)練概率,獲取詞項(xiàng)的校正概率。第二種算法也可以對第一種算法計(jì)算的校正概率做進(jìn)一步的校正。如果是對第一種算法的進(jìn)一步校正,那么在第一種算法需要將最后計(jì)算的校正概率,作為新的訓(xùn)練概率保存。
對于本發(fā)明實(shí)施例,確定預(yù)置數(shù)量的詞項(xiàng)為標(biāo)簽,包括:獲取應(yīng)用文本語料的查詢次數(shù);根據(jù)預(yù)置選詞算法,計(jì)算應(yīng)用文本語料的選詞數(shù)量;確定選詞數(shù)量的詞項(xiàng)為標(biāo)簽。
其中,在對應(yīng)用文本語料查詢時(shí)能夠鏈接的標(biāo)簽數(shù)量有限,所以選取部分詞項(xiàng)作為應(yīng)用文本語料的標(biāo)簽。預(yù)置選詞算法可采用折線函數(shù)法,例如一個(gè)折現(xiàn)函數(shù)“10:1;100:2;500:4;5000:5;10000:7;20000:10”,當(dāng)搜索次數(shù)是10次時(shí)保留1個(gè)標(biāo)簽,當(dāng)搜索次數(shù)100時(shí)保留2個(gè)標(biāo)簽,當(dāng)搜索次數(shù)是7000時(shí),標(biāo)簽數(shù)量介于5和7之間。由于選取的應(yīng)用文本語料,與用戶檢索查詢的輸入有關(guān),所以標(biāo)簽還能夠根據(jù)用戶的搜索更新和優(yōu)化標(biāo)簽。
例如,對于一款新app,還沒有與用戶的交互歷史記錄,初始用APP摘要預(yù)測標(biāo)簽,隨著與用戶的不斷交互,標(biāo)簽得到持續(xù)不斷的優(yōu)化和豐富,是實(shí)現(xiàn)應(yīng)用搜索引擎核心技術(shù)功能搜索的基礎(chǔ),應(yīng)用搜索引擎的搜索質(zhì)量也在持續(xù)性提升。
本發(fā)明提供的一種標(biāo)簽的生成方法,通過獲取應(yīng)用文本語料,然后提取應(yīng)用文本語料中的詞項(xiàng),再根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練詞項(xiàng),最后根據(jù)主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。與現(xiàn)有技術(shù)相比,本發(fā)明能夠訓(xùn)練應(yīng)用文本語料的詞項(xiàng),獲取各個(gè)詞項(xiàng)的能夠標(biāo)識(shí)應(yīng)用文本語料的概率,選取概率較大的詞項(xiàng),能夠提高標(biāo)簽標(biāo)識(shí)應(yīng)用文本語料的有效性。
進(jìn)一步的,作為對上述圖1所示方法的實(shí)現(xiàn),本發(fā)明實(shí)施例提供了另一種標(biāo)簽的生成裝置,如圖3所示,該裝置包括:獲取單元31、提取單元32、訓(xùn)練單元33、生成單元34。
獲取單元31,用于獲取應(yīng)用文本語料;獲取單元31為一種標(biāo)簽的生成裝置執(zhí)行獲取應(yīng)用文本語料的功能模塊。
提取單元32,用于提取應(yīng)用文本語料中的詞項(xiàng);提取單元32為一種標(biāo)簽的生成裝置執(zhí)行提取應(yīng)用文本語料中的詞項(xiàng)的功能模塊。
訓(xùn)練單元33,用于根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練詞項(xiàng);訓(xùn)練單元33為一種標(biāo)簽的生成裝置執(zhí)行根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練詞項(xiàng)的功能模塊。
生成單元34,用于根據(jù)主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。生成單元34為一種標(biāo)簽的生成裝置執(zhí)行根據(jù)主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽的功能模塊。
本發(fā)明提供的一種標(biāo)簽的生成裝置,通過獲取應(yīng)用文本語料,然后提取應(yīng)用文本語料中的詞項(xiàng),再根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練詞項(xiàng),最后根據(jù)主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。與現(xiàn)有技術(shù)相比,本發(fā)明能夠訓(xùn)練應(yīng)用文本語料的詞項(xiàng),獲取各個(gè)詞項(xiàng)的能夠標(biāo)識(shí)應(yīng)用文本語料的概率,選取概率較大的詞項(xiàng),能夠提高標(biāo)簽標(biāo)識(shí)應(yīng)用文本語料的有效性。
進(jìn)一步的,作為對上述圖2所示方法的實(shí)現(xiàn),本發(fā)明實(shí)施例提供了另一種文件的壓縮裝置,如圖4所示,該裝置包括:獲取單元41、提取單元42、訓(xùn)練單元43、生成單元44、計(jì)算單元45、刪除單元46。
獲取單元41,用于獲取應(yīng)用文本語料;
提取單元42,用于提取應(yīng)用文本語料中的詞項(xiàng);
訓(xùn)練單元43,用于根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練詞項(xiàng);
生成單元44,用于根據(jù)主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。
具體地,所述獲取單元41,包括:
第一獲取模塊4101,用于獲取會(huì)話日志中的查詢數(shù)據(jù);
所述第一獲取模塊4101,還用于如果查找到查詢數(shù)據(jù)對應(yīng)的下載數(shù)據(jù),則獲取下載數(shù)據(jù)的APP摘要;
第一確定模塊4102,用于將查詢數(shù)據(jù)與APP摘要,確定為應(yīng)用文本語料。
具體地,如圖5所示,所述提取單元42,包括:
生成模塊4201,用于對應(yīng)用文本語料分詞處理,生成應(yīng)用文本語料的分詞庫;
判斷模塊4202,用于判斷詞項(xiàng)庫中分詞的詞性;
提取模塊4203,用于提取詞性為有效詞性的有效分詞,有效詞性包括動(dòng)詞和名詞;
第二確定模塊4204,用于確定有效分詞為詞項(xiàng)。
具體地,如圖5所示,所述提取模塊4203,包括:
第一獲取子模塊420301,用于獲取詞性為動(dòng)詞的動(dòng)詞分詞;
第一獲取子模塊420301,還用于獲取詞性為名詞的名詞分詞;
第一判斷子模塊420302,用于判斷每一個(gè)名詞分詞是否為無效名詞分詞,無效名詞分詞包括人名、地名或者機(jī)構(gòu)名稱;
所述第一獲取子模塊420301,還用于如果判斷結(jié)果為否,則獲取名詞分詞的有效名詞分詞;
所述第二確定模塊4204,用于確定動(dòng)詞分詞和有效名詞分詞為詞項(xiàng)。
具體地,如圖5所示,所述第二確定模塊4204,包括:
第二判斷子模塊420401,用于判斷有效分詞是否與應(yīng)用文本語料的題目分詞相同;
第一添加子模塊420402,用于如果判斷結(jié)果為是,則按照第一預(yù)置次數(shù),重復(fù)添加有效分詞;
第一確定子模塊420403,用于確定有效分詞為詞項(xiàng)。
具體地,如圖5所示,所述提取單元42,包括:
第一計(jì)算模塊4205,用于根據(jù)預(yù)置緊密度算法,計(jì)算分詞庫中任意兩個(gè)相鄰分詞的緊密度;
合并模塊4206,用于如果緊密度大于第一預(yù)置閾值,則將緊密度對應(yīng)的相鄰分詞合并成短語;
第三確定模塊4207,用于確定短語為詞項(xiàng)。
具體地,如圖5所示,所述第三確定模塊4207,包括:
第三判斷子模塊420701,用于判斷短語的緊密度是否大于第二預(yù)置閾值;
第二添加子模塊420702,用于如果判斷結(jié)果為是,則按照第二預(yù)置次數(shù),重復(fù)添加短語;
第二確定子模塊420703,用于確定短語為詞項(xiàng)。
進(jìn)一步地,如圖4所示,為了對提高標(biāo)簽標(biāo)示應(yīng)用文本語料的有效性,所述裝置還包括:
計(jì)算單元45,用于提取應(yīng)用文本語料中的詞項(xiàng)之后,計(jì)算詞項(xiàng)的詞頻;計(jì)算單元45為標(biāo)簽的生成裝置的提取應(yīng)用文本語料中的詞項(xiàng)之后,計(jì)算詞項(xiàng)的詞頻的功能模塊。
刪除單元46,用于刪除詞頻大于第一預(yù)置詞頻且小于第二預(yù)置詞頻的詞項(xiàng)。刪除單元46為標(biāo)簽的生成裝置的刪除詞頻大于第一預(yù)置詞頻且小于第二預(yù)置詞頻的詞項(xiàng)的功能模塊。
進(jìn)一步地,如圖6所示,所述生成單元44,包括:
第二獲取模塊4401,用于獲取主題模型的訓(xùn)練結(jié)果,訓(xùn)練結(jié)果包括主題-詞項(xiàng)概率分布和應(yīng)用文本語料-主題概率分布;
第二計(jì)算模塊4402,用于根據(jù)訓(xùn)練結(jié)果,計(jì)算詞項(xiàng)的訓(xùn)練概率;
第三計(jì)算模塊4403,用于根據(jù)預(yù)置校正算法,計(jì)算詞項(xiàng)的校正概率;
第四確定模塊4404,用于按照校正概率從大到小的順序,確定預(yù)置數(shù)量的詞項(xiàng)為標(biāo)簽。
具體地,如圖6所示,所述第三計(jì)算模塊4403,包括:
第二獲取子模塊440301,用于根據(jù)文本深度表示模型訓(xùn)練詞項(xiàng),獲取詞項(xiàng)與應(yīng)用文本語料的語義相似度;
所述第二獲取子模塊440301,還用于獲取詞項(xiàng)的位置權(quán)重;
所述第二獲取子模塊440301,還用于獲取語義相似度用位置權(quán)重加權(quán)的加權(quán)值;
所述第三確定子模塊440302,用于將詞項(xiàng)的訓(xùn)練概率與加權(quán)值的乘積,確定為校正概率。
具體地,如圖6所示,所述第三計(jì)算模塊4403,包括:
第一計(jì)算子模塊440303,用于計(jì)算詞項(xiàng)在應(yīng)用文本語料中的出現(xiàn)頻率;
第三獲取子模塊440304,用于將訓(xùn)練概率與出現(xiàn)頻率相乘,并將乘積結(jié)果與訓(xùn)練概率相加,獲取詞項(xiàng)的校正概率。
具體地,如圖6所示,所述第四確定模塊4404,包括:
第四獲取子模塊440401,用于獲取應(yīng)用文本語料的查詢次數(shù);
第二計(jì)算子模塊440402,用于根據(jù)預(yù)置選詞算法,計(jì)算應(yīng)用文本語料的選詞數(shù)量;
第四確定子模塊440403,用于確定選詞數(shù)量的詞項(xiàng)為標(biāo)簽。
本發(fā)明提供的一種標(biāo)簽的生成裝置,通過獲取應(yīng)用文本語料,然后提取應(yīng)用文本語料中的詞項(xiàng),再根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練詞項(xiàng),最后根據(jù)主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。與現(xiàn)有技術(shù)相比,本發(fā)明能夠訓(xùn)練應(yīng)用文本語料的詞項(xiàng),獲取各個(gè)詞項(xiàng)的能夠標(biāo)識(shí)應(yīng)用文本語料的概率,選取概率較大的詞項(xiàng),能夠提高標(biāo)簽標(biāo)識(shí)應(yīng)用文本語料的有效性。
在上述實(shí)施例中,對各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
可以理解的是,上述方法及裝置中的相關(guān)特征可以相互參考。另外,上述實(shí)施例中的“第一”、“第二”等是用于區(qū)分各實(shí)施例,而并不代表各實(shí)施例的優(yōu)劣。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對應(yīng)過程,在此不再贅述。
在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的標(biāo)簽的生成裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
本發(fā)明的實(shí)施例公開了:
A1、一種標(biāo)簽的生成方法,包括:
獲取應(yīng)用文本語料;
提取所述應(yīng)用文本語料中的詞項(xiàng);
根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練所述詞項(xiàng);
根據(jù)所述主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。
A2、根據(jù)權(quán)利要求A1所述的方法,所述獲取應(yīng)用文本語料,包括:
獲取會(huì)話日志中的查詢數(shù)據(jù);
如果查找到所述查詢數(shù)據(jù)對應(yīng)的下載數(shù)據(jù),則獲取所述下載數(shù)據(jù)的應(yīng)用程序APP摘要;
將所述查詢數(shù)據(jù)與所述APP摘要,確定為所述應(yīng)用文本語料。
A3、根據(jù)權(quán)利要求A1所述的方法,所述提取所述應(yīng)用文本語料中的詞項(xiàng),包括:
對所述應(yīng)用文本語料分詞處理,生成所述應(yīng)用文本語料的分詞庫;
判斷所述詞項(xiàng)庫中分詞的詞性;
提取所述詞性為有效詞性的有效分詞,所述有效詞性包括動(dòng)詞和名詞;
確定所述有效分詞為所述詞項(xiàng)。
A4、根據(jù)權(quán)利要求A3所述的方法,所述提取所述詞性為有效詞性的有效分詞,包括:
獲取所述詞性為動(dòng)詞的動(dòng)詞分詞;
獲取所述詞性為名詞的名詞分詞;
判斷每一個(gè)所述名詞分詞是否為無效名詞分詞,所述無效名詞分詞包括人名、地名或者機(jī)構(gòu)名稱;
如果判斷結(jié)果為否,則獲取所述名詞分詞的有效名詞分詞;
所述確定所述有效分詞為所述詞項(xiàng),包括:
確定所述動(dòng)詞分詞和所述有效名詞分詞為所述詞項(xiàng)。
A5、根據(jù)權(quán)利要求A3所述的方法,所述確定所述有效分詞為所述詞項(xiàng),包括:
判斷所述有效分詞是否與所述應(yīng)用文本語料的題目分詞相同;
如果判斷結(jié)果相同,則按照第一預(yù)置次數(shù),重復(fù)添加所述有效分詞;
確定所述有效分詞為所述詞項(xiàng)。
A6、根據(jù)權(quán)利要求A3所述的方法,所述提取所述應(yīng)用文本語料中的詞項(xiàng),包括:
根據(jù)預(yù)置緊密度算法,計(jì)算所述分詞庫中任意兩個(gè)相鄰分詞的緊密度;
如果所述緊密度大于第一預(yù)置閾值,則將所述緊密度對應(yīng)的所述相鄰分詞合并成短語;
確定所述短語為所述詞項(xiàng)。
A7、根據(jù)權(quán)利要求A5所述的方法,所述確定所述短語為所述詞項(xiàng),包括:
判斷所述短語的緊密度是否大于第二預(yù)置閾值;
如果判斷結(jié)果為是,則按照第二預(yù)置次數(shù),重復(fù)添加所述短語;
確定所述短語為所述詞項(xiàng)。
A8、根據(jù)權(quán)利要求A1所述的方法,所述提取所述應(yīng)用文本語料中的詞項(xiàng)之后,所述方法還包括:
計(jì)算所述詞項(xiàng)的詞頻;
刪除所述詞頻大于第一預(yù)置詞頻且小于第二預(yù)置詞頻的詞項(xiàng)。
A9、根據(jù)權(quán)利要求A1所述的方法,所述根據(jù)所述主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽,包括:
獲取所述主題模型的訓(xùn)練結(jié)果,所述訓(xùn)練結(jié)果包括主題-詞項(xiàng)概率分布和應(yīng)用文本語料-主題概率分布;
根據(jù)所述訓(xùn)練結(jié)果,計(jì)算所述詞項(xiàng)的訓(xùn)練概率;
根據(jù)預(yù)置校正算法,計(jì)算所述詞項(xiàng)的校正概率;
按照所述校正概率從大到小的順序,確定預(yù)置數(shù)量的所述詞項(xiàng)為標(biāo)簽。
A10、根據(jù)權(quán)利要求A9所述的方法,所述根據(jù)預(yù)置校正算法,計(jì)算所述詞項(xiàng)的校正概率,包括:
根據(jù)文本深度表示模型訓(xùn)練所述詞項(xiàng),獲取所述詞項(xiàng)與所述應(yīng)用文本語料的語義相似度;
獲取所述詞項(xiàng)的位置權(quán)重;
獲取所述語義相似度用所述位置權(quán)重加權(quán)的加權(quán)值;
將所述詞項(xiàng)的訓(xùn)練概率與所述加權(quán)值的乘積,確定為所述校正概率。
A11、根據(jù)權(quán)利要求A10所述的方法,所述根據(jù)預(yù)置校正算法,計(jì)算所述詞項(xiàng)的校正概率,包括:
計(jì)算所述詞項(xiàng)在所述應(yīng)用文本語料中的出現(xiàn)頻率;
將所述訓(xùn)練概率與所述出現(xiàn)頻率相乘,并將乘積結(jié)果與所述訓(xùn)練概率相加,獲取所述詞項(xiàng)的校正概率。
A12、根據(jù)權(quán)利要求A9所述的方法,所述確定預(yù)置數(shù)量的所述詞項(xiàng)為標(biāo)簽,包括:
獲取所述應(yīng)用文本語料的查詢次數(shù);
根據(jù)預(yù)置選詞算法,計(jì)算所述應(yīng)用文本語料的選詞數(shù)量;
確定所述選詞數(shù)量的所述詞項(xiàng)為所述標(biāo)簽。
B13、一種標(biāo)簽的生成裝置,包括:
獲取單元,用于獲取應(yīng)用文本語料;
提取單元,用于提取所述應(yīng)用文本語料中的詞項(xiàng);
訓(xùn)練單元,用于根據(jù)預(yù)置訓(xùn)練參數(shù),按照主題模型訓(xùn)練所述詞項(xiàng);
生成單元,用于根據(jù)所述主題模型的訓(xùn)練結(jié)果,生成標(biāo)簽。
B14、根據(jù)權(quán)利要求B13所述的裝置,所述獲取單元,包括:
第一獲取模塊,用于獲取會(huì)話日志中的查詢數(shù)據(jù);
所述第一獲取模塊,還用于如果查找到所述查詢數(shù)據(jù)對應(yīng)的下載數(shù)據(jù),則獲取所述下載數(shù)據(jù)的APP摘要;
第一確定模塊,用于將所述查詢數(shù)據(jù)與所述APP摘要,確定為所述應(yīng)用文本語料。
B15、根據(jù)權(quán)利要求B13所述的裝置,所述提取單元,包括:
生成模塊,用于對所述應(yīng)用文本語料分詞處理,生成所述應(yīng)用文本語料的分詞庫;
判斷模塊,用于判斷所述詞項(xiàng)庫中分詞的詞性;
提取模塊,用于提取所述詞性為有效詞性的有效分詞,所述有效詞性包括動(dòng)詞和名詞;
第二確定模塊,用于確定所述有效分詞為所述詞項(xiàng)。
B16、根據(jù)權(quán)利要求B15所述的裝置,所述提取模塊,包括:
第一獲取子模塊,用于獲取所述詞性為動(dòng)詞的動(dòng)詞分詞;
所述第一獲取子模塊,還用于獲取所述詞性為名詞的名詞分詞;
第一判斷子模塊,用于判斷每一個(gè)所述名詞分詞是否為無效名詞分詞,所述無效名詞分詞包括人名、地名或者機(jī)構(gòu)名稱;
所述第一獲取子模塊,還用于如果判斷結(jié)果為否,則獲取所述名詞分詞的有效名詞分詞;
所述第二確定模塊,用于:
確定所述動(dòng)詞分詞和所述有效名詞分詞為所述詞項(xiàng)。
B17、根據(jù)權(quán)利要求B15所述的裝置,所述第二確定模塊,包括:
第二判斷子模塊,用于判斷所述有效分詞是否與所述應(yīng)用文本語料的題目分詞相同;
第一添加子模塊,用于如果判斷結(jié)果為是,則按照第一預(yù)置次數(shù),重復(fù)添加所述有效分詞;
第一確定子模塊,用于確定所述有效分詞為所述詞項(xiàng)。
B18、根據(jù)權(quán)利要求B15所述的裝置,所述提取單元,包括:
第一計(jì)算模塊,用于根據(jù)預(yù)置緊密度算法,計(jì)算所述分詞庫中任意兩個(gè)相鄰分詞的緊密度;
合并模塊,用于如果所述緊密度大于第一預(yù)置閾值,則將所述緊密度對應(yīng)的所述相鄰分詞合并成短語;
第三確定模塊,用于確定所述短語為所述詞項(xiàng)。
B19、根據(jù)權(quán)利要求B18所述的裝置,所述第三確定模塊,包括:
第三判斷子模塊,用于判斷所述短語的緊密度是否大于第二預(yù)置閾值;
第二添加子模塊,用于如果判斷結(jié)果為是,則按照第二預(yù)置次數(shù),重復(fù)添加所述短語;
第二確定子模塊,用于確定所述短語為所述詞項(xiàng)。
B20、根據(jù)權(quán)利要求B13所述的裝置,所述裝置還包括:
計(jì)算單元,用于所述提取所述應(yīng)用文本語料中的詞項(xiàng)之后,計(jì)算所述詞項(xiàng)的詞頻;
刪除單元,用于刪除所述詞頻大于第一預(yù)置詞頻且小于第二預(yù)置詞頻的詞項(xiàng)。
B21、根據(jù)權(quán)利要求B13所述的裝置,所述生成單元,包括:
第二獲取模塊,用于獲取所述主題模型的訓(xùn)練結(jié)果,所述訓(xùn)練結(jié)果包括主題-詞項(xiàng)概率分布和應(yīng)用文本語料-主題概率分布;
第二計(jì)算模塊,用于根據(jù)所述訓(xùn)練結(jié)果,計(jì)算所述詞項(xiàng)的訓(xùn)練概率;
第三計(jì)算模塊,用于根據(jù)預(yù)置校正算法,計(jì)算所述詞項(xiàng)的校正概率;
第四確定模塊,用于按照所述校正概率從大到小的順序,確定預(yù)置數(shù)量的所述詞項(xiàng)為標(biāo)簽。
B22、根據(jù)權(quán)利要求B21所述的裝置,所述第三計(jì)算模塊,包括:
第二獲取子模塊,用于根據(jù)文本深度表示模型訓(xùn)練所述詞項(xiàng),獲取所述詞項(xiàng)與所述應(yīng)用文本語料的語義相似度;
所述第二獲取子模塊,還用于獲取所述詞項(xiàng)的位置權(quán)重;
所述第二獲取子模塊,還用于獲取所述語義相似度用所述位置權(quán)重加權(quán)的加權(quán)值;
第三確定子模塊,用于將所述詞項(xiàng)的訓(xùn)練概率與所述加權(quán)值的乘積,確定為所述校正概率。
B23、根據(jù)權(quán)利要求B22所述的裝置,所述第三計(jì)算模塊,包括:
第一計(jì)算子模塊,用于計(jì)算所述詞項(xiàng)在所述應(yīng)用文本語料中的出現(xiàn)頻率;
第三獲取子模塊,用于將所述訓(xùn)練概率與所述出現(xiàn)頻率相乘,并將乘積結(jié)果與所述訓(xùn)練概率相加,獲取所述詞項(xiàng)的校正概率。
B24、根據(jù)權(quán)利要求B21所述的裝置,所述第四確定模塊,包括:
第四獲取子模塊,用于獲取所述應(yīng)用文本語料的查詢次數(shù);
第二計(jì)算子模塊,用于根據(jù)預(yù)置選詞算法,計(jì)算所述應(yīng)用文本語料的選詞數(shù)量;
第四確定子模塊,用于確定所述選詞數(shù)量的所述詞項(xiàng)為所述標(biāo)簽。