為文檔添加標簽的方法及裝置制造方法
【專利摘要】一種為文檔添加標簽的方法,包括:獲取輸入的文檔集合,對所述文檔集合中的文檔進行分詞得到與所述文檔對應(yīng)的單詞集合;根據(jù)潛在狄利克雷分配模型將與所述文檔對應(yīng)的單詞集合聚合成主題集合;獲取所述主題集合中主題包含的單詞的全局詞頻,根據(jù)所述全局詞頻選取單詞設(shè)置為所述主題的屬性詞;獲取所述文檔集合中的文檔包含的屬性詞的概率信息,根據(jù)所述概率信息選取屬性詞生成所述文檔的標簽。上述為文檔添加標簽的方法及裝置能夠提高信息檢索的操作效率。
【專利說明】為文檔添加標簽的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別是涉及一種為文檔添加標簽的方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,社交網(wǎng)絡(luò)類型的互聯(lián)網(wǎng)應(yīng)用已代替?zhèn)鹘y(tǒng)的新聞發(fā)布式網(wǎng)站成為主流,網(wǎng)絡(luò)信息資源的發(fā)布已由傳統(tǒng)的由網(wǎng)站管理員發(fā)布轉(zhuǎn)變成由網(wǎng)站的訪問者自行編輯發(fā)布。例如,在微博應(yīng)用中,用戶可自行撰寫或編輯微博發(fā)布,從而將信息分享給其關(guān)注者;在電商應(yīng)用中,用戶也可根據(jù)其自身的商品使用經(jīng)驗為商品編寫評論。
[0003]然而,發(fā)明人經(jīng)研究發(fā)現(xiàn),現(xiàn)有技術(shù)中至少存在以下問題:用戶在搜索微博或商品評論等文檔信息時,通常需要手動輸入多個關(guān)鍵字,且需要根據(jù)其自身的需求選擇合適的關(guān)鍵詞才能在眾多文檔信息中查找到其希望獲取的信息,因此,對用戶而言,輸入的步驟較繁瑣且需要一定經(jīng)驗才能確定較準確的關(guān)鍵詞,使得信息檢索的操作效率較低。
【發(fā)明內(nèi)容】
[0004]基于此,有必要提供一種能提高信息檢索的操作效率的為文檔添加標簽的方法。
[0005]一種為文檔添加標簽的方法,包括:
[0006]獲取輸入的文檔集合,對所述文檔集合中的文檔進行分詞得到與所述文檔對應(yīng)的單詞集合;
[0007]根據(jù)潛在狄利克雷分配模型將與所述文檔對應(yīng)的單詞集合聚合成主題集合;
[0008]獲取所述主題集合中主題包含的單詞的全局詞頻,根據(jù)所述全局詞頻選取單詞設(shè)置為所述主題的屬性詞;
[0009]獲取所述文檔集合中的文檔包含的屬性詞的概率信息,根據(jù)所述概率信息選取屬性詞生成所述文檔的標簽。
[0010]此外,還有必要提供一種能提高信息檢索的操作效率的為文檔添加標簽的裝置。
[0011]一種為文檔添加標簽的裝置,包括:
[0012]文檔分詞模塊,用于獲取輸入的文檔集合,對所述文檔集合中的文檔進行分詞得到與所述文檔對應(yīng)的單詞集合;
[0013]主題生成模塊,用于根據(jù)潛在狄利克雷分配模型將與所述文檔對應(yīng)的單詞集合聚合成主題集合;
[0014]主題選詞模塊,用于獲取所述主題集合中主題包含的單詞的全局詞頻,根據(jù)所述全局詞頻選取單詞設(shè)置為所述主題的屬性詞;
[0015]標簽添加模塊,用于獲取所述文檔集合中的文檔包含的屬性詞的概率信息,根據(jù)所述概率信息選取屬性詞生成所述文檔的標簽。
[0016]上述為文檔添加標簽的方法及裝置,對文檔分詞后得到的單詞集合進行聚合得到主題集合,每個主題包含了相關(guān)性較強的多個單詞,然后再根據(jù)單詞的全局詞頻為主題選取單詞作為屬性詞,最后根據(jù)文檔包含的屬性詞的概率信息選取屬性詞作為文檔的標簽,使得文檔與標簽產(chǎn)生關(guān)聯(lián),用戶在檢索時,無需手動輸入關(guān)鍵詞,僅需根據(jù)相應(yīng)的標簽即可查找到相應(yīng)的文檔,從而提高了信息檢索的操作效率。
【專利附圖】
【附圖說明】
[0017]圖1為一個實施例中為文檔添加標簽的方法的流程圖;
[0018]圖2為一個實施例中檢索界面展示圖;
[0019]圖3為一個實施例中為文檔添加標簽的裝置的結(jié)構(gòu)示意圖;
[0020]圖4為另一個實施例中為文檔添加標簽的裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0021]在一個實施例中,如圖1所示,一種為文檔添加標簽的方法,該方法完全依賴于計算機程序,該計算機程序可運行于基于馮洛伊曼體系的計算機系統(tǒng)上,該方法包括:
[0022]步驟S102,獲取輸入的文檔集合,對文檔集合中的文檔進行分詞得到與文檔對應(yīng)的單詞集合。
[0023]文檔可以是微博的文本信息、微博中評論的文本信息、電商網(wǎng)站商品評論的文本信息、論壇中帖子內(nèi)的文本內(nèi)容信息、問答網(wǎng)站中的問題或答案的文本信息等。一份文檔即一條微博或一條評論,輸入的文檔集合即為需要進行聚類并根據(jù)聚類的主題添加標簽的多份文檔構(gòu)成的集合。
[0024]在一個實施例中,獲取輸入的文檔集合的步驟可具體為:獲取輸入的類型信息,根據(jù)類型信息檢索得到對應(yīng)的文檔集合。在本實施例中,文檔均存儲在全局數(shù)據(jù)庫中。例如,微博數(shù)據(jù)均存儲在數(shù)據(jù)庫中相應(yīng)的數(shù)據(jù)表內(nèi)。類型信息即為需要進行聚類并添加標簽的文檔所屬的類型。例如,類型信息可以是與手機相關(guān)的多個關(guān)鍵字,可將該多個關(guān)鍵字以或連接后在微博數(shù)據(jù)對應(yīng)的數(shù)據(jù)表中進行檢索,得到的檢索結(jié)果即為與類型信息“手機”對應(yīng)的文檔集合。
[0025]例如,在一個應(yīng)用場景中,用戶可輸入“手機”、“小米”、“iphone ”、“黑莓”和“htc”
等關(guān)鍵字,然后將該多個關(guān)鍵字或連接后在數(shù)據(jù)庫中與微博數(shù)據(jù)對應(yīng)的數(shù)據(jù)表中檢索,即可得到與類型信息“手機”對應(yīng)的文檔集合。
[0026]在本實施例中,進一步的,根據(jù)類型信息檢索得到對應(yīng)的文檔集合的步驟可具體為:
[0027]獲取停用詞集合,停用詞表包含停用詞,根據(jù)類型信息檢索與類型信息匹配的但不包含停用詞的文檔集合。
[0028]如上例中,預(yù)設(shè)的停用詞集合中可包括“小米粥”、“蘋果or斤”等停用詞,從而可排除檢索到的文檔集合中與類型信息“手機”在語義上并無相關(guān)性的文檔。
[0029]在本實施例中,對文檔集合中的文檔進行分詞得到與文檔對應(yīng)的單詞集合可具體為:
[0030]遍歷文檔集合中的文檔,對文檔進行分詞,優(yōu)選地,僅提取分詞后的名詞和動詞得到單詞集合。
[0031]例如,微博信息:“小米手機待機時間長,續(xù)航給力”經(jīng)分詞并過濾后得到的單詞集合即為:“小米、手機、待機時間、續(xù)航”。
[0032]步驟S104,根據(jù)潛在狄利克雷分配模型將與文檔對應(yīng)的單詞集合聚合成主題集口 ο
[0033]潛在狄利克雷分配模型即LDA (Latent Dirichlet Allocat1n)模型,也成為三層貝葉斯概率模型。LDA模型是一種非監(jiān)督機器學(xué)習技術(shù),可以用來識別文檔集合中潛藏的主題信息。主題即為聚類后得到的多個單詞聚合成的集合,文檔可以對應(yīng)多個主題,即屬于多個類型;主題中可包含多個單詞,每個單詞具有相應(yīng)的概率。
[0034]在本實施例中,可將與文檔對應(yīng)的單詞集合轉(zhuǎn)換成如下格式:
[0035]n, wordl:nl, word2:n2, word3:n3...,
[0036]例如,對于微博信息“手機待機時間對比分析,小米手機的待機時間為24小時,蘋果手機的待機時間為24小時”,進行分詞后得到如下格式的單詞集合:
[0037]7,手機:3,待機時間:3,小米:1,蘋果:L...
[0038]對文檔集合中所有的文檔各自對應(yīng)的單詞集合進行如上例轉(zhuǎn)換后,輸入LDA模型,通過該模型的無監(jiān)督學(xué)習即可得到多個主題,即主題集合。每個主題對應(yīng)多個單詞,每個單詞對應(yīng)相應(yīng)的概率(由LDA模型計算得到)。
[0039]通過LDA模型得到包含多個主題的主題集合后,可遍歷主題集合,通過閾值將主題集合中的主題包含的概率較小的單詞過濾掉。過濾掉后每個主題即包含較少的單詞。概率較小的單詞通常為與主題相關(guān)性較弱的詞,將其過濾掉既可提高處理速度,也可提高準確性。
[0040]進一步的,可根據(jù)知網(wǎng)中文詞庫對所述主題集合中主題包含的單詞進行擴充。
[0041]知網(wǎng)中文詞庫即HowNet庫,其中提供了支持中文的大量的同義詞或近義詞,可根據(jù)HowNet庫通過同義詞擴展或近義詞擴展擴充主題包含的單詞,即通過HowNet庫獲取由LDA模型得到的主題包含的單詞對應(yīng)的同義詞或近義詞,并將其添加到主題中。使用知網(wǎng)中文詞庫對主題進行擴充,可以在語義上對主題包含的單詞進行擴展,從而提高在對中文文檔處理時的準確性。
[0042]進一步的,根據(jù)潛在狄利克雷分配模型將與文檔集合聚合生成主題集合的步驟之前還包括:
[0043]獲取與文檔對應(yīng)的單詞集合中單詞對應(yīng)的詞頻和逆向文件頻率;根據(jù)詞頻和逆向文件頻率對與文檔對應(yīng)的單詞集合中單詞進行過濾。
[0044]詞頻(Term Frequency,TF)指的是文檔中某一個單詞在該文檔中出現(xiàn)的次數(shù)或單位文字內(nèi)出現(xiàn)的次數(shù)。
[0045]逆向文件頻率(Inverse Document Frequency, IDF)即包含該單詞的文檔的數(shù)目與所有文檔的數(shù)目的比值。例如,若檢索到的評論共有10000條,其中有2000條包含了單詞“小米”,則單詞小米對應(yīng)的IDF值為0.2。
[0046]在本實施例中,可計算單詞對應(yīng)的TF值與IDF值的乘積,若該乘積小于閾值,則將該單詞由其文檔對應(yīng)的單詞集合中過濾掉。TF值與IDF值的乘積較小的單詞,通常為文檔閱讀者不關(guān)心的詞,將其移除既可提高處理速度,也可提高準確性。
[0047]步驟S106,獲取主題集合中主題包含的單詞的全局詞頻,根據(jù)全局詞頻選取單詞設(shè)置為主題的屬性詞。
[0048]如前所述,主題包含多個單詞,每個單詞的全局詞頻即為該單詞在文檔中出現(xiàn)的總次數(shù)。在本實施例中,可選取全局詞頻最大的單詞作為該主題的屬性詞。
[0049]例如,若某主題經(jīng)過擴展后包含的單詞為:“小米、待機時間、續(xù)航”,而“小米”在所有微博信息中出現(xiàn)了 10000次(在累加統(tǒng)計得到全局詞頻時,若某微博中“小米”出現(xiàn)2次,則全局詞頻累加數(shù)也為2,下同),“待機時間”在所有微博信息中出現(xiàn)了 8000次,“續(xù)航”在所有微博信息中出現(xiàn)了 1000次。則該主題的屬性詞即為“小米”。
[0050]步驟S108,獲取文檔集合中的文檔包含的屬性詞的概率信息,根據(jù)概率信息選取屬性詞生成文檔的標簽。
[0051]文檔可包含多個主題的屬性詞,主題的屬性詞的概率信息即為文檔包含的某個屬性詞的個數(shù)與文檔總共包含的屬性詞的個數(shù)的比值。例如,若某文檔中,小米主題的屬性詞“小米”在文檔中共出現(xiàn)了 3次,待機時間主題的屬性詞“待機時間”在文檔中共出現(xiàn)了 I次,而該文檔中再不包含其他主題的屬性詞,則“小米”對應(yīng)的概率信息即為75%,而“待機時間”對應(yīng)的概率信息即為25%。
[0052]在本實施例中,可將概率信息大于閾值的屬性詞作為文檔的標簽。如上例中,若閾值預(yù)設(shè)為20%,則該文檔對應(yīng)的標簽則包括“小米”和“待機時間”兩個;若閾值預(yù)設(shè)為30%,則該文檔對應(yīng)的標簽僅包括“小米”。
[0053]在一個實施例中,根據(jù)所述概率信息選取屬性詞生成文檔的標簽的步驟還包括:
[0054]根據(jù)知網(wǎng)中文詞庫提取選取到的屬性詞在文檔中對應(yīng)的正向或負向情感信息;根據(jù)屬性詞和提取到的相應(yīng)的正向或負向情感信息生成文檔的標簽。
[0055]可獲取屬性詞在文檔上下文中的修飾性定語分詞,并根據(jù)前述的HowNet庫分辨該修飾性定語分詞為褒義詞還是貶義詞,若是則褒義詞,則可提取到正向情感信息(可用positive標識表示),若為貶義詞則可提取到負向情感信息(可用negative標識表示)。
[0056]在本實施例中,可根據(jù)預(yù)設(shè)的映射表將屬性詞和正向或負向情感信息映射為標簽。例如,若評論中內(nèi)容為“小米手機用著很舒服”,且經(jīng)前述步驟得到的該評論的可作為標簽的屬性詞為“小米手機”,經(jīng)HowNet庫提取到的“小米手機”為正向情感信息,則生成標簽“小米手機好”,并將其設(shè)置為該評論的標簽。
[0057]在一個實施例中,輸入的文檔集合根據(jù)輸入的類型信息檢索得到。相應(yīng)的,根據(jù)文檔集合中的文檔包含的屬性詞的概率信息選取屬性詞生成相應(yīng)文檔的標簽的步驟之后還可建立生成的標簽與類型信息的對應(yīng)關(guān)系。
[0058]在本實施例中,為文檔集合中的文檔添加標簽(可以是多個)后,可在數(shù)據(jù)庫中遍歷文檔集合中包含的文檔,建立文檔和標簽的對應(yīng)關(guān)系,例如,可在文檔對應(yīng)的數(shù)據(jù)表中的標簽字段內(nèi)加入與該文檔對應(yīng)的標簽的標識。還可獲取類型信息對應(yīng)的數(shù)據(jù)表,在類型信息對應(yīng)的數(shù)據(jù)表中添加與類型信息對應(yīng)的標簽。
[0059]例如,在一個應(yīng)用場景中,分別對類型信息為“手機”、“電腦”、“筆記本”和“耳機”進行了如步驟S102至步驟S108的操作,則分別得到類型信息“手機”、“電腦”、“筆記本”和“耳機”各自對應(yīng)的標簽。例如,類型信息“手機”可對應(yīng)“手機”,“待機時間”、“續(xù)航”、“屏幕尺寸”等標簽,而檢索得到的與“手機”相關(guān)的文檔可包括以上標簽,例如,可有N條檢索得到的與“手機”相關(guān)的文檔具有“待機時間”標簽,可有M條檢索得到的與“手機”相關(guān)的文檔具有“續(xù)航”標簽??山?shù)據(jù)庫表,在該新建的數(shù)據(jù)庫表中創(chuàng)建數(shù)據(jù)項,用于存儲類型信息“手機”、“電腦”、“筆記本”和“耳機”分別與其對應(yīng)的標簽的對應(yīng)關(guān)系。
[0060]進一步的,在本實施例中,還可獲取輸入的關(guān)鍵詞,獲取與關(guān)鍵詞匹配的類型信息;獲取與類型信息對應(yīng)的標簽,并展示標簽;獲取標簽選取請求,獲取標簽選取請求對應(yīng)的標簽;獲取包含標簽的文檔。
[0061]在一個應(yīng)用場景中,如圖2所示,用戶可在搜索框中輸入關(guān)鍵詞“蘋果”,則獲取到的與“蘋果”匹配的類型信息可包括“手機”、“筆記本”、“平板電腦”,且以選項卡的形式展示在界面中,用戶可在選項卡之間切換,選項卡內(nèi)則分別展示“手機”、“筆記本”和“平板電腦”對應(yīng)的標簽。若用戶希望了解與手機相關(guān)的且與待機時間相關(guān)的微博或評論信息,則可點擊“待機時間”的標簽。檢索結(jié)果頁則展示所有包含了待機時間的微博或評論信息。
[0062]優(yōu)選地,展示標簽時還可一并展示具有該標簽的文檔的數(shù)目。優(yōu)選地,還可根據(jù)標簽對應(yīng)的文檔的數(shù)目調(diào)節(jié)標簽的展示區(qū)域的大小(如圖中的標簽對應(yīng)的橢圓形圖標的展示區(qū)域)。一并展示標簽對應(yīng)的文檔的數(shù)目可方便用戶直觀的了解當前熱門的話題是什么以及某個產(chǎn)品需要重點關(guān)注的屬性是什么,從而方便用戶進行決策,而不用繁瑣地輸入關(guān)鍵詞去查找,提高了操作效率。
[0063]在一個實施例中,如圖3所示,一種為文檔添加標簽的裝置,包括:
[0064]文檔分詞模塊102,用于獲取輸入的文檔集合,對文檔集合中的文檔進行分詞得到與文檔對應(yīng)的單詞集合。
[0065]主題生成模塊104,用于根據(jù)潛在狄利克雷分配模型將與文檔對應(yīng)的單詞集合聚合成主題集合。
[0066]主題選詞模塊106,用于獲取主題集合中主題包含的單詞的全局詞頻,根據(jù)全局詞頻選取單詞設(shè)置為主題的屬性詞。
[0067]標簽添加模塊108,用于獲取文檔集合中的文檔包含的屬性詞的概率信息,根據(jù)概率信息選取屬性詞生成文檔的標簽。
[0068]在一個實施例中,文檔分詞模塊102還用于獲取與文檔對應(yīng)的單詞集合中單詞對應(yīng)的詞頻和逆向文件頻率;根據(jù)詞頻和逆向文件頻率對與文檔對應(yīng)的單詞集合中單詞進行過濾。
[0069]在一個實施例中,主題生成模塊104還用于根據(jù)知網(wǎng)中文詞庫對主題集合中主題包含的單詞進行擴充。
[0070]在一個實施例中,標簽添加模塊108還用于根據(jù)知網(wǎng)中文詞庫提取選取到的屬性詞在文檔中對應(yīng)的正向或負向情感信息;根據(jù)屬性詞和提取到的相應(yīng)的正向或負向情感信息生成文檔的標簽。
[0071]在一個實施例中,文檔分詞模塊102還用于獲取輸入的類型信息,根據(jù)類型信息檢索得到對應(yīng)的文檔集合;
[0072]在本實施例中,如圖4所示,為文檔添加標簽的裝置還包括數(shù)據(jù)映射模塊110,用于建立生成的標簽與類型信息的對應(yīng)關(guān)系。
[0073]在一個實施例中,如圖4所示,為文檔添加標簽的裝置還包括檢索模塊112,用于獲取輸入的關(guān)鍵詞,獲取與關(guān)鍵詞匹配的類型信息;獲取與類型信息對應(yīng)的標簽,并展示標簽;獲取標簽選取請求,獲取標簽選取請求對應(yīng)的標簽;獲取包含標簽的文檔。
[0074]在一個實施例中,文檔分詞模塊102還用于獲取停用詞集合,停用詞表包含停用詞;根據(jù)類型信息檢索與類型信息匹配的但不包含停用詞的文檔集合。
[0075]上述為文檔添加標簽的方法及裝置,對文檔分詞后得到的單詞集合進行聚合得到主題集合,每個主題包含了相關(guān)性較強的多個單詞,然后再根據(jù)單詞的全局詞頻為主題選取單詞作為屬性詞,最后根據(jù)文檔包含的屬性詞的概率信息選取屬性詞作為文檔的標簽,使得文檔與標簽產(chǎn)生關(guān)聯(lián),用戶在檢索時,無需手動輸入關(guān)鍵詞,僅需根據(jù)相應(yīng)的標簽即可查找到相應(yīng)的文檔,從而提高了信息檢索的操作效率。
[0076]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體(Random AccessMemory, RAM)等。
[0077]以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應(yīng)以所附權(quán)利要求為準。
【權(quán)利要求】
1.一種為文檔添加標簽的方法,包括: 獲取輸入的文檔集合,對所述文檔集合中的文檔進行分詞得到與所述文檔對應(yīng)的單詞集合; 根據(jù)潛在狄利克雷分配模型將與所述文檔對應(yīng)的單詞集合聚合成主題集合; 獲取所述主題集合中主題包含的單詞的全局詞頻,根據(jù)所述全局詞頻選取單詞設(shè)置為所述主題的屬性詞; 獲取所述文檔集合中的文檔包含的屬性詞的概率信息,根據(jù)所述概率信息選取屬性詞生成所述文檔的標簽。
2.根據(jù)權(quán)利要求1所述的為文檔添加標簽的方法,其特征在于,所述根據(jù)潛在狄利克雷分配模型將與所述文檔集合聚合生成主題集合的步驟之前還包括: 獲取與所述文檔對應(yīng)的單詞集合中單詞對應(yīng)的詞頻和逆向文件頻率; 根據(jù)所述詞頻和逆向文件頻率對與所述文檔對應(yīng)的單詞集合中單詞進行過濾。
3.根據(jù)權(quán)利要求1所述的為文檔添加標簽的方法,其特征在于,所述根據(jù)潛在狄利克雷分配模型將與所述文檔對應(yīng)的單詞集合聚合成主題集合的步驟之后還包括: 根據(jù)知網(wǎng)中文詞庫對所述主題集合中主題包含的單詞進行擴充。
4.根據(jù)權(quán)利要求1所述的為文檔添加標簽的方法,其特征在于,所述根據(jù)所述概率信息選取屬性詞生成所述文檔的標簽的步驟還包括: 根據(jù)知網(wǎng)中文詞庫提取所述選取到的屬性詞在所述文檔中對應(yīng)的正向或負向情感信息; 根據(jù)所述屬性詞和所述提取到的相應(yīng)的正向或負向情感信息生成所述文檔的標簽。
5.根據(jù)權(quán)利要求1所述的為文檔添加標簽的方法,其特征在于,所述獲取輸入的文檔集合的步驟為: 獲取輸入的類型信息,根據(jù)所述類型信息檢索得到對應(yīng)的文檔集合; 所述根據(jù)所述概率信息選取屬性詞生成所述文檔的標簽的步驟之后還包括: 建立所述生成的標簽與所述類型信息的對應(yīng)關(guān)系。
6.根據(jù)權(quán)利要求5所述的為文檔添加標簽的方法,其特征在于,所述方法還包括: 獲取輸入的關(guān)鍵詞,獲取與所述關(guān)鍵詞匹配的類型信息; 獲取與所述類型信息對應(yīng)的標簽,并展示所述標簽; 獲取標簽選取請求,獲取所述標簽選取請求對應(yīng)的標簽; 獲取包含所述標簽的文檔。
7.根據(jù)權(quán)利要求5所述的為文檔添加標簽的方法,其特征在于,所述根據(jù)所述類型信息檢索得到對應(yīng)的文檔集合的步驟為: 獲取停用詞集合,所述停用詞表包含停用詞; 根據(jù)所述類型信息檢索與所述類型信息匹配的但不包含所述停用詞的文檔集合。
8.一種為文檔添加標簽的裝置,其特征在于,包括: 文檔分詞模塊,用于獲取輸入的文檔集合,對所述文檔集合中的文檔進行分詞得到與所述文檔對應(yīng)的單詞集合; 主題生成模塊,用于根據(jù)潛在狄利克雷分配模型將與所述文檔對應(yīng)的單詞集合聚合成主題集合; 主題選詞模塊,用于獲取所述主題集合中主題包含的單詞的全局詞頻,根據(jù)所述全局詞頻選取單詞設(shè)置為所述主題的屬性詞; 標簽添加模塊,用于獲取所述文檔集合中的文檔包含的屬性詞的概率信息,根據(jù)所述概率信息選取屬性詞生成所述文檔的標簽。
9.根據(jù)權(quán)利要求8所述的為文檔添加標簽的裝置,其特征在于,所述文檔分詞模塊還用于獲取與所述文檔對應(yīng)的單詞集合中單詞對應(yīng)的詞頻和逆向文件頻率;根據(jù)所述詞頻和逆向文件頻率對與所述文檔對應(yīng)的單詞集合中單詞進行過濾。
10.根據(jù)權(quán)利要求8所述的為文檔添加標簽的裝置,其特征在于,所述主題生成模塊還用于根據(jù)知網(wǎng)中文詞庫對所述主題集合中主題包含的單詞進行擴充。
11.根據(jù)權(quán)利要求8所述的為文檔添加標簽的裝置,其特征在于,所述標簽添加模塊還用于根據(jù)知網(wǎng)中文詞庫提取所述選取到的屬性詞在所述文檔中對應(yīng)的正向或負向情感信息;根據(jù)所述屬性詞和所述提取到的相應(yīng)的正向或負向情感信息生成所述文檔的標簽。
12.根據(jù)權(quán)利要求8所述的為文檔添加標簽的裝置,其特征在于,所述文檔分詞模塊還用于獲取輸入的類型信息,根據(jù)所述類型信息檢索得到對應(yīng)的文檔集合; 所述裝置還包括數(shù)據(jù)映射模塊,用于建立所述生成的標簽與所述類型信息的對應(yīng)關(guān)系O
13.根據(jù)權(quán)利要求12所述的為文檔添加標簽的裝置,其特征在于,所述裝置還包括檢索模塊,用于獲取輸入的關(guān)鍵詞,獲取與所述關(guān)鍵詞匹配的類型信息;獲取與所述類型信息對應(yīng)的標簽,并展示所述標簽;獲取標簽選取請求,獲取所述標簽選取請求對應(yīng)的標簽;獲取包含所述標簽的文檔。
14.根據(jù)權(quán)利要求12所述的為文檔添加標簽的裝置,其特征在于,所述文檔分詞模塊還用于獲取停用詞集合,所述停用詞表包含停用詞;根據(jù)所述類型信息檢索與所述類型信息匹配的但不包含所述停用詞的文檔集合。
【文檔編號】G06F17/30GK104239373SQ201310254851
【公開日】2014年12月24日 申請日期:2013年6月24日 優(yōu)先權(quán)日:2013年6月24日
【發(fā)明者】王佳強 申請人:騰訊科技(深圳)有限公司