欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本分類方法及服務(wù)器的制造方法

文檔序號:9375611閱讀:438來源:國知局
文本分類方法及服務(wù)器的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及互聯(lián)網(wǎng)數(shù)據(jù)處理領(lǐng)域,具體涉及一種文本分類方法及服務(wù)器。
【背景技術(shù)】
[0002] 文本分類是文本挖掘的一個重要內(nèi)容,是指按照預(yù)先定義的主題類別,為文檔集 合中的每個文檔確定一個類別。通過自動文本分類系統(tǒng)把文檔進行歸類,可以幫助人們更 好地尋找需要的信息和知識。在人們看來,分類是對信息的一種最基本的認(rèn)知形式。傳統(tǒng)的 文獻分類研究有著豐富的研究成果和相當(dāng)?shù)膶嵱盟健5S著文本信息的快速增長,特別 是互聯(lián)網(wǎng)(Internet)上在線文本信息的激增,文本自動分類已經(jīng)成為處理和組織大量文 檔數(shù)據(jù)的關(guān)鍵技術(shù)?,F(xiàn)在,文本分類正在各個領(lǐng)域得到廣泛的應(yīng)用。例如,在互聯(lián)網(wǎng)平臺中, 服務(wù)器可以根據(jù)用戶通過客戶端接收到的一句詢問語言,對詢問語言對應(yīng)的文本信息進行 分類,確定該文本信息對應(yīng)的分類之后,依據(jù)相應(yīng)的分類自動對用戶的詢問語言進行解答, 推送相關(guān)的信息。
[0003] 現(xiàn)有技術(shù)中對文本進行分類的方法中,K最近鄰節(jié)點算法(kNN, k-NearestNeighbor),是準(zhǔn)確度最高的一種方法,該種方法中,根據(jù)訓(xùn)練數(shù)據(jù)集合與待分類 文本數(shù)據(jù)距離最近(最相似)的K個數(shù)據(jù)的類別來判斷待分類文本所屬的類別,其基本過 程包括:計算待分類文本與訓(xùn)練集中每個樣本的距離;從訓(xùn)練集中篩選出于待分類文本距 離最接近的K個樣本;計算K個樣本歸屬類別的權(quán)重,將權(quán)重最高的類別作為待分類樣本類 另Ij。該種方法具有較高的準(zhǔn)確度,但是,隨著信息量日趨豐富,人們對于內(nèi)容搜索的準(zhǔn)確率, 查全率等方面的要求會越來越高,訓(xùn)練集中包含的樣本數(shù)目也非常巨大,通過遍歷的方式 與訓(xùn)練集中的每個樣本進行相似度計算,需要消耗服務(wù)器大量的性能,并且計算速度較慢。 從而導(dǎo)致服務(wù)器有效資源被大量占用,計算時間過長導(dǎo)致向用戶解答或者推送相關(guān)信息需 要耗費大量時間。
[0004] 為此,在不影響分類準(zhǔn)確度的情況下,提高服務(wù)器對文本進行分類的速度,是本申 請需要解決的問題。

【發(fā)明內(nèi)容】

[0005] 本申請的目的是提供一種文本分類方法,以實現(xiàn)在不影響分類準(zhǔn)確度的情況下, 提高服務(wù)器對文本進行分類的效率。
[0006] -方面,本申請實施例提供了一種文本分類方法,所述方法包括:
[0007] 對獲取到的待分類文本進行預(yù)處理,以獲取所述待分類文本的至少一個文本特征 詞;
[0008] 根據(jù)所述文本特征詞,對所述待分類文本進行類別劃分,以獲取所述待分類文本 的一定個數(shù)候選類別;
[0009] 根據(jù)所述文本特征詞在預(yù)存儲的倒排索引表中,確定第一文本內(nèi)容標(biāo)識集合,所 述第一文本內(nèi)容標(biāo)識集合中包括多個與所述文本特征詞相似的文本內(nèi)容對應(yīng)的文本內(nèi)容 標(biāo)識,所述倒排索引表是根據(jù)最鄰近結(jié)點算法預(yù)設(shè)置的訓(xùn)練數(shù)據(jù)集合構(gòu)建的,其包含特征 屬性索引項和與每個特征屬性對應(yīng)的至少一個文本內(nèi)容標(biāo)識;
[0010] 根據(jù)所述第一文本內(nèi)容標(biāo)識集合,在所述預(yù)設(shè)置的訓(xùn)練數(shù)據(jù)集合中確定第一文本 內(nèi)容集合,所述訓(xùn)練數(shù)據(jù)集合中包括樣本文本內(nèi)容標(biāo)識、樣本文本內(nèi)容以及每條所述樣本 文本內(nèi)容對應(yīng)的所屬類別;
[0011] 在所述第一文本內(nèi)容集合中,根據(jù)所述一定個數(shù)候選類別,選擇N個候選類別對 應(yīng)的文本內(nèi)容,來確定第二文本內(nèi)容集合;
[0012] 根據(jù)所述文本特征詞與所述第二文本集合中的每條文本內(nèi)容的相似度,確定所述 待分類文本的目標(biāo)類別。
[0013] 另一方面,本申請實施例提供了一種服務(wù)器,所述服務(wù)器包括:
[0014] 預(yù)處理單元,用于對獲取到的待分類文本進行預(yù)處理,以獲取所述待分類文本的 至少一個文本特征詞;
[0015] 獲取單元,用于根據(jù)所述文本特征詞,對所述待分類文本進行類別劃分,以獲取所 述待分類文本的一定個數(shù)候選類別;
[0016] 第一確定單元,用于根據(jù)所述文本特征詞在預(yù)存儲的倒排索引表中,確定第一文 本內(nèi)容標(biāo)識集合,所述第一文本內(nèi)容標(biāo)識集合中包括多個與所述文本特征詞相似的文本內(nèi) 容對應(yīng)的文本內(nèi)容標(biāo)識,所述倒排索引表是根據(jù)最鄰近結(jié)點算法預(yù)設(shè)置的訓(xùn)練數(shù)據(jù)集合構(gòu) 建的,其包含特征屬性索引項和與每個特征屬性對應(yīng)的至少一個文本內(nèi)容標(biāo)識;
[0017] 第二確定單元,用于根據(jù)所述第一文本內(nèi)容標(biāo)識集合,在所述預(yù)設(shè)置的訓(xùn)練數(shù)據(jù) 集合中確定第一文本內(nèi)容集合,所述訓(xùn)練數(shù)據(jù)集合中包括樣本文本內(nèi)容標(biāo)識、樣本文本內(nèi) 容以及每條所述樣本文本內(nèi)容對應(yīng)的所屬類別;
[0018] 第三確定單元,用于在所述第一文本內(nèi)容集合中,根據(jù)所述一定個數(shù)候選類別,選 擇N個候選類別對應(yīng)的文本內(nèi)容,來確定第二文本內(nèi)容集合;
[0019] 第四確定單元,用于根據(jù)所述文本特征詞與所述第二文本集合中的每條文本內(nèi)容 的相似度,確定所述待分類文本的目標(biāo)類別。
[0020] 本申請實施例提供的文本分類方法中,首先對于獲取到的待分類文本進行預(yù)處 理。從而提取出其中的文本特征詞,再根據(jù)文本特征詞,采用通常的快速分類組件對所述待 分類文本進行初步分類,以獲取候選類別;之后,根據(jù)所述文本特征詞,進行篩選,篩選出包 括與所述文本特征詞相似的文本內(nèi)容對應(yīng)的文本內(nèi)容的集合,并在集合中,除去所述候選 類別之外的類別對應(yīng)的文本內(nèi)容,最后根據(jù)所述文本特征詞與最終的集合中的每條樣本文 本內(nèi)容的相似度,確定所述待分類文本的目標(biāo)類別。通過上述的方案,能夠大量采用減少 KNN算法對文本進行分類時所需要遍歷的文本條目,降低計算復(fù)雜度和計算量,提高文本文 類的效率。進一步,導(dǎo)致服務(wù)器有效資源被少量占用,計算迅速,從而向用戶解答或者推送 相關(guān)信息耗費少量時間。
【附圖說明】
[0021] 圖1為本申請實施例提供的應(yīng)用場景的示例性的架構(gòu)圖;
[0022] 圖2為本申請實施例提供的文本分類方法的一種實施例的流程圖;
[0023] 圖3是本申請實施例提供的文本分類方法的另一種實施例的流程圖;
[0024] 圖4是本申請實施例提供的文本分類方法的又一種實施例的流程圖;
[0025] 圖5是本申請實施例提供的文本分類方法的又一種實施例的流程圖;
[0026] 圖6是本申請實施例提供的服務(wù)器的一種實施例的結(jié)構(gòu)圖。
【具體實施方式】
[0027] 為了使本領(lǐng)域技術(shù)人員更好地理解本申請中的技術(shù)方案,下面將結(jié)合本申請實施 例中的附圖,對本申請實施例中的技術(shù)方案進行詳細(xì)地描述,顯然,所描述的實施例僅僅是 本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領(lǐng)域普通技術(shù)人員 所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本申請保護的范圍。
[0028] 在本申請實施例中使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制 本申請。在本申請實施例和所附權(quán)利要求書中所使用的單數(shù)形式的"一種"、"所述"和"該" 也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。
[0029] 應(yīng)當(dāng)理解,盡管在本申請實施例中可能采用術(shù)語第一、第二等來描述各種數(shù)據(jù),但 這些數(shù)據(jù)不應(yīng)限于這些術(shù)語。這些術(shù)語僅用來將數(shù)據(jù)彼此區(qū)分開。
[0030] 在互聯(lián)網(wǎng)領(lǐng)域中,經(jīng)常需要面對用戶咨詢、投訴、建議等情況。當(dāng)互聯(lián)網(wǎng)具有相當(dāng) 大的用戶群體時,需要處理的類似問題會非常大。對于此類問題,如果都由人工進行處理, 將消耗極大的人力,并且受限于此,也不能及時對于類似的問題進行處理。為此,在互聯(lián)網(wǎng) 領(lǐng)域中,通常會建立文本內(nèi)容的訓(xùn)練集合,其中,通常包括文本內(nèi)容項和歸屬類別項。在獲 取到用戶發(fā)出的問題之后,通過匹配算法,在訓(xùn)練集合中與大量的樣本文本內(nèi)容逐條匹配, 查詢最匹配的樣本,在查找到最匹配的樣本之后,選在該樣本的所屬類目,并根據(jù)所屬類 目,對用戶提出的問題進行處理,從而節(jié)約人工。
[0031] 例如,圖1所示的應(yīng)用架構(gòu)中,用戶10和20分別可以通過計算機上的客戶端登陸 互聯(lián)網(wǎng)平臺的服務(wù)器30,對互聯(lián)網(wǎng)平臺進行投訴或者建議。例如有,在淘寶、支付寶等平臺, 通常會收到用戶的詢問信息,例如"付款不成功,怎么辦?"、"我的密碼丟失了該怎么辦?" 等類似的問題,這些文本可能來自于用戶通過阿里旺旺等終端軟件的投訴,也可能是來自 于用戶通過網(wǎng)頁進行的咨詢等。電子商務(wù)平臺,不可能對于每個問題,都進行人工處理。但 是用戶提出的問題,往往具有相似性,為此,服務(wù)器可以建立訓(xùn)練數(shù)據(jù)集合,如下表所示的 示例中,訓(xùn)練數(shù)據(jù)集合通常包括數(shù)據(jù)編號、文本內(nèi)容以及所屬類別三個項目,受限于篇幅, 下表1只列出了較少的例子,實際上在一個訓(xùn)練集合中,可能包含上萬條內(nèi)容。
[0032]

[0033] 表1
[0034] 例如,當(dāng)服務(wù)器通過客戶端接收到用戶發(fā)送的"我怎么不能進行支付? "這樣的文 本內(nèi)容時,通過算法將其與訓(xùn)練集合中的文本進行匹配查詢,經(jīng)過匹配確定數(shù)據(jù)編號為5 的文本內(nèi)容與用戶的詢問內(nèi)容最接近,因此確定用戶的問題所屬類別為"付款專題"。服務(wù) 器確定了"所屬類別"后,可以根據(jù)現(xiàn)有的設(shè)定,調(diào)用與"付款專題"相關(guān)的內(nèi)容,發(fā)送給用 戶。例如,將支付寶付款專題的頁面地址,推送給用戶的客戶端,從而避免人工參與。
[0035] 但是隨著
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
岳西县| 安义县| 长岛县| 双流县| 大埔县| 三河市| 公主岭市| 灵寿县| 萨迦县| 白水县| 华蓥市| 遂平县| 淮北市| 霍邱县| 呼图壁县| 望江县| 盐亭县| 清苑县| 屯昌县| 科技| 新河县| 栾城县| 海阳市| 裕民县| 堆龙德庆县| 南皮县| 舞钢市| 成安县| 襄樊市| 交城县| 墨竹工卡县| 新丰县| 德安县| 八宿县| 塘沽区| 墨玉县| 大冶市| 建水县| 铜陵市| 孟州市| 彝良县|