欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種語料處理方法和裝置的制造方法

文檔序號:10624852閱讀:213來源:國知局
一種語料處理方法和裝置的制造方法
【專利摘要】提供一種語料處理方法和裝置,包括:獲取待分類的第一語料集合;從所述第一語料集合中確定第二語料集合,所述第二語料集合中的第二語料的評價對象都為第一評價對象,而且所述第二語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為正面評價;從所述第一語料集合中確定第三語料集合,所述第三語料集合中的第三語料的評價對象都為所述第一評價對象,而且所述第三語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為負(fù)面評價,判斷所述第二語料集合中的第二語料是否與所述第三語料集合中的任一條第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或近義詞;以及對語料集合進(jìn)行處理。本發(fā)明提供的語料處理方法可以提高分類語料的利用率與準(zhǔn)確性以及覆蓋面。
【專利說明】
_種語料處理方法和裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種語料處理方法和裝置,更具體地說,涉及一種用于進(jìn)行情感分類的語料處理方法和裝置。
【背景技術(shù)】
[0002]當(dāng)前,我們在做產(chǎn)品評論的情感分析的工作時,主要采用分類的方法來構(gòu)建情感分析模型。由于所要分類的對象多是電商網(wǎng)站上的用戶評論信息,這些評論信息一般都是用戶發(fā)布的自己的購物體驗,都是口語化的描述,沒有特定的評價范圍和評價規(guī)則,可能會涉及到產(chǎn)品的各個方面。即使是對產(chǎn)品同一個方面的描述,不同的用戶說法也不同。這就對我們構(gòu)建分類訓(xùn)練語料造成困難。因為訓(xùn)練語料只有達(dá)到了一定的覆蓋性、代表性和準(zhǔn)確性,訓(xùn)練出來的分類模型才會有比較好的分類效果。在構(gòu)建情感分類模型的過程中,主要依賴人工標(biāo)注的分類訓(xùn)練語料的覆蓋性和準(zhǔn)確性。如果最終生成的某條分類特征只能覆蓋訓(xùn)練語料中極少的一部分,通常這條特征會因為代表性不足而不被采納。就是說在構(gòu)建分類器的過程中,通常會設(shè)置一定的閥值,只有某條特征所覆蓋的語料達(dá)到一定的條數(shù)或者占比之后才會被采納,否則這個特征會因為代表性不足而不被采納。
[0003]由于分類語料一般都是由人工標(biāo)注,而人工標(biāo)注通常需要耗費的大量的時間和人力。即使這樣也很難保證所生成的分類語料能夠覆蓋所有可能的評價情況。由于標(biāo)注的語料的規(guī)模是有限的,不可能無限制的擴大。這就會造成以下的情況:一,會有很多評價方式覆蓋不到,人工標(biāo)注訓(xùn)練語料通常需要耗費很大的時間和精力,而且一般很難覆蓋可能出現(xiàn)的所有情況。所以每條標(biāo)注結(jié)果都是很寶貴的,如果直接將達(dá)不到閥值的語料去除,不光浪費標(biāo)注的工作成果,而且也降低了最終生成的分類器的覆蓋面,最終的分類效果也無法保證;二,即使在訓(xùn)練語料中存在某些評價方式,但是其所對應(yīng)的語料條數(shù)較少。由于人工標(biāo)注具有偶然性和容易出錯的特點,這些語料是否準(zhǔn)確就不夠可信。如果將這些標(biāo)注可信度不高的語料放入分類器中,可能最終會影響分類的效果。
[0004]因此,如何能夠?qū)ΜF(xiàn)有的訓(xùn)練語料處理方法進(jìn)行一些優(yōu)化,使得更多的人工標(biāo)注的語料能夠被保留和利用,提高分類語料的利用率與準(zhǔn)確性以及覆蓋面,從而使用該語料訓(xùn)練出的情感分類器變得更加高效和實用,是當(dāng)前亟待解決的問題。

【發(fā)明內(nèi)容】

[0005]為了解決現(xiàn)有技術(shù)中的上述技術(shù)問題,根據(jù)本發(fā)明的一方面,提供一種語料處理方法,所述語料處理方法所處理后的語料用于進(jìn)行情感分類,所述語料處理方法包括:獲取待分類的第一語料集合;從所述第一語料集合中確定第二語料集合,所述第二語料集合中的第二語料的評價對象都為第一評價對象,而且所述第二語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為正面評價,并且所述第二語料集合中的語料的數(shù)目小于第一閾值;從所述第一語料集合中確定第三語料集合,所述第三語料集合中的第三語料的評價對象都為所述第一評價對象,而且所述第三語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為負(fù)面評價,并且所述第三語料集合中的語料的數(shù)目小于第一閾值;判斷所述第二語料集合中的第二語料是否與所述第三語料集合中的任一條第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞;以及根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理,其中,所述第一閾值用于判斷特定數(shù)目的語料是否被保留。
[0006]此外,根據(jù)本發(fā)明的一個實施例,其中,所述根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理進(jìn)一步包括:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則將所述特定第二語料從所述第二語料集合中刪除,并且將所述特定第三語料從所述第三語料集合中刪除。
[0007]此外,根據(jù)本發(fā)明的一個實施例,其中,所述根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理進(jìn)一步包括:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則將所述第二語料集合與所述第三語料集合從所述第一語料集合中刪除。
[0008]此外,根據(jù)本發(fā)明的一個實施例,其中,所述根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理進(jìn)一步包括:如果所述第二語料與所述第三語料中的任一第三語料關(guān)于所述第一評價對象的評價內(nèi)容都不是同義詞或者近義詞,則將所述第二語料集合與第三語料集合合并為第四語料集合。
[0009]此外,根據(jù)本發(fā)明的一個實施例,所述語料處理方法進(jìn)一步包括:將所述將第二語料集合與第三語料集合合并為第四語料集合,并且,如果所述第四語料集合中的語料數(shù)目小于第一閾值,則通過在所述第四語料集合中增加與所述第二語料或者所述第三語料的內(nèi)容相同的至少一條語料以生成第五語料集合,使得所述第五語料集合中的語料的數(shù)目不小于第一閾值。
[0010]根據(jù)本發(fā)明的另一方面,還提供了一種語料處理裝置,所述語料處理裝置所處理后的語料用于進(jìn)行情感分類,所述語料處理裝置包括:獲取單元,經(jīng)配置來獲取待分類的第一語料集合;第二語料集合確定單元,經(jīng)配置用于從所述第一語料集合中確定第二語料集合,所述第二語料集合中的第二語料的評價對象都為第一評價對象,而且所述第二語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為正面評價,并且所述第二語料集合中的語料的數(shù)目小于第一閾值;第三語料集合確定單元,經(jīng)配置用于從所述第一語料集合中確定第三語料集合,所述第三語料集合中的第三語料的評價對象都為所述第一評價對象,而且所述第三語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為負(fù)面評價,并且所述第三語料集合中的語料的數(shù)目小于第一閾值;判斷單元,經(jīng)配置用于判斷所述第二語料集合中的第二語料是否與所述第三語料集合中的任一條第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞;以及語料集合處理單元,經(jīng)配置用于根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理,其中,所述第一閾值用于判斷特定數(shù)目的語料是否被保留。
[0011]此外,根據(jù)本發(fā)明的一個實施例,其中,所述語料集合處理單元進(jìn)一步經(jīng)配置用于:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則將所述特定第二語料從所述第二語料集合中刪除,并且將所述特定第三語料從所述第三語料集合中刪除。
[0012]此外,根據(jù)本發(fā)明的一個實施例,其中,所述語料集合處理單元進(jìn)一步經(jīng)配置用于:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則將所述第二語料集合與所述第三語料集合從所述第一語料集合中刪除。
[0013]此外,根據(jù)本發(fā)明的一個實施例,其中,所述語料集合處理單元進(jìn)一步經(jīng)配置用于:如果所述第二語料與所述第三語料中的任一第三語料關(guān)于所述第一評價對象的評價內(nèi)容都不是同義詞或者近義詞,則將所述第二語料集合與第三語料集合合并為第四語料集入口 ο
[0014]此外,根據(jù)本發(fā)明的一個實施例,其中,所述語料集合處理單元進(jìn)一步經(jīng)配置用于:將所述將第二語料集合與第三語料集合合并為第四語料集合,并且,如果所述第四語料集合中的語料數(shù)目小于第一閾值,則通過在所述第四語料集合中增加與所述第二語料或者所述第三語料的內(nèi)容相同的至少一條語料以生成第五語料集合,使得所述第五語料集合中的語料的數(shù)目不小于第一閾值。
[0015]由此可見,本發(fā)明提供的語料處理方法和裝置,能夠?qū)ΜF(xiàn)有的訓(xùn)練語料處理方法進(jìn)行一些優(yōu)化,使得更多的人工標(biāo)注的語料能夠被保留和利用,提高分類語料的利用率與準(zhǔn)確性以及覆蓋面,從而使用該語料訓(xùn)練出的情感分類器變得更加高效和實用,提高用戶的使用體驗。
【附圖說明】
[0016]為了更清楚地說明本發(fā)明實施例的技術(shù)方法,下面將對實施例的描述中所需要使用的附圖作簡單地介紹。下面描述中的附圖僅僅是本發(fā)明的示例性實施例:
[0017]圖1示出了根據(jù)本發(fā)明實施例的語料處理方法100的流程圖;
[0018]圖2示出了根據(jù)本發(fā)明實施例的語料處理裝置200的示范性結(jié)構(gòu)框圖。
【具體實施方式】
[0019]在下文中,將參考附圖詳細(xì)描述本發(fā)明的優(yōu)選實施例。注意,在本說明書和附圖中,具有基本上相同步驟和元素用相同的附圖標(biāo)記來表示,且對這些步驟和元素的重復(fù)解釋將被省略。
[0020]本說明書通篇所提及的“一個實施例”或“一實施例”意味著結(jié)合所述實施例所描述的特定特征、結(jié)構(gòu)或特性包含于至少一個所描述實施例中。因此,在說明書中短語“在一個實施例中”或“在一實施例中”的出現(xiàn)未必全部只帶同一實施例。此外,所述特定特征、結(jié)構(gòu)或特性可以任何適合方式組合于一個或一個以上實施例中。
[0021 ] 圖1示出了根據(jù)本發(fā)明實施例的語料處理方法100的流程圖,其中,所述語料處理方法100所處理后的語料可以用于進(jìn)行情感分類。此外,在本發(fā)明的一個實施例中,所述語料處理方法100所處理后的語料還可以用于訓(xùn)練情感分類器。
[0022]下面,將參照圖1來描述根據(jù)本發(fā)明的一個實施例的語料處理方法100。如圖1所示,首先,在步驟SllO中,獲取待分類的第一語料集合。一般地,待分類的第一語料集合可以是用戶關(guān)于產(chǎn)品的評價信息,通常所述用戶關(guān)于產(chǎn)品的評價信息可以從電商網(wǎng)站上獲取,并且,所述評論信息可以涵蓋設(shè)計到產(chǎn)品的各個方面。具體地,語料集合中的每一條語料都至少包括關(guān)于產(chǎn)品的某一方面屬性的評價對象以及用戶關(guān)于該評價對象評價內(nèi)容。例如,在本發(fā)明的一個實施例中,所述第一語料集合可以包括“速度快”的這樣一條語料,其中,“速度”是用戶關(guān)于該產(chǎn)品的速度方面屬性的評價對象,“快”則是用戶關(guān)于產(chǎn)品的“速度”這一評價對象的評價內(nèi)容。通常,第一語料集合中的多個語料可以包括分別具有各自不同的評價對象,例如,第一語料集合可以包括“速度快”、“速度慢”、“價格高”、“價格低”這四條語料。
[0023]接下來,在步驟S120中,從所述第一語料集合中確定第二語料集合,所述第二語料集合中的第二語料的評價對象都為第一評價對象,而且所述第二語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為正面評價,并且所述第二語料集合中的語料的數(shù)目小于第一閾值。其中,所述第一閾值用于判斷特定數(shù)目的語料是否被保留,也就是說,如果第二語料集合中的語料的數(shù)目大于第一閾值,則可以直接將第二語料集合進(jìn)行保留而無需進(jìn)行后續(xù)的判斷步驟。第一閾值可以由用戶根據(jù)第一語料集合中的語料數(shù)目進(jìn)行設(shè)置。如果第一集合中的語料數(shù)目較多,則可以將第一閾值設(shè)置為較大的值,反之,如果第一集合中的語料數(shù)目較少,則可以將第一閾值設(shè)置為較小的值。例如,第一語料集合可以包括“速度快”、“速度慢”、“速度比預(yù)想的快” “價格高”、“價格低”等多條語料,如果用戶將第一閾值設(shè)置為3,第一評價對象為“速度”,則由于第一語料集合中,關(guān)于第一評價對象“速度”的評價內(nèi)容為正面評價“快”和“比預(yù)想的快”的語料有“速度快”和“速度比預(yù)想的快”這兩條語料,因此,第二語料集合可以包括“速度快”和“速度比預(yù)想的快”這兩條語料。
[0024]然后,在步驟S130中,可以從所述第一語料集合中確定第三語料集合,所述第三語料集合中的第三語料的評價對象都為所述第一評價對象,而且所述第三語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為負(fù)面評價,并且所述第三語料集合中的語料的數(shù)目小于第一閾值。其中,所述第一閾值如上所述地用于判斷特定數(shù)目的語料是否被保留,也就是說,如果第三語料集合中的第三語料的數(shù)目大于第一閾值,則可以直接將第三語料集合進(jìn)行保留而無需進(jìn)行后續(xù)的判斷步驟。第一閾值如上所述地也可以由用戶根據(jù)第一語料集合中的語料數(shù)目進(jìn)行設(shè)置。例如,在本發(fā)明的一個示例中,第一語料集合可以包括“速度快”、“速度慢”、“速度比預(yù)想的快” “價格高”、“價格低”等多條語料,如果用戶將第一閾值設(shè)置為3,第一評價對象為“速度”,則由于第一語料集合中,關(guān)于第一評價對象“速度”的評價內(nèi)容為負(fù)面評價的語料只有“速度慢”,因此,在本示例中,第三語料集合可以包括“速度慢”這條語料。
[0025]接下來,在步驟S140中,可以判斷所述第二語料集合中的第二語料是否與所述第三語料集合中的任一條第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞。具體地,由于在人工標(biāo)注過程中可能會發(fā)生標(biāo)注失誤的情況,此時,在步驟S130中可能會發(fā)生將應(yīng)當(dāng)歸為第二語料集合的語料歸為第三語料集合的情況或者在步驟S120中可能會發(fā)生將應(yīng)當(dāng)歸為第三語料集合的語料歸為第二語料集合的情況,在此情況下,由于第二語料集合中的評價應(yīng)當(dāng)都為正面評價并且第三語料集合中的評價應(yīng)當(dāng)都為負(fù)面評價,因此,第二語料集合中各個語料的評價內(nèi)容與第三語料集合中各個語料的評價內(nèi)容應(yīng)該互為反義詞,如果在步驟S140中判斷出現(xiàn)上述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞的情況,則說明所述特定第二語料或者所述特定第三語料被錯誤地歸類。
[0026]最后,在步驟S150中,可以根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理。其中,所述第一閾值用于判斷特定數(shù)目的語料是否被保留。具體地,如前所述,如果在步驟S140中判斷出現(xiàn)第二語料集合中存在特定第二語料與第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞的情況,則說明所述特定第二語料或者所述特定第三語料被錯誤地歸類,那么此時,在步驟S150中,可以對第二語料集合和/或第三語料集合進(jìn)行處理,以克服已發(fā)生的標(biāo)注錯誤的問題。
[0027]此外,在本發(fā)明的一個實施例中,所述根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理還可以進(jìn)一步包括:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則將所述特定第二語料從所述第二語料集合中刪除,并且將所述特定第三語料從所述第三語料集合中刪除。具體地,如前所述,如果在步驟S140中判斷出現(xiàn)第二語料集合中存在特定第二語料與第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞的情況,則說明所述特定第二語料或者所述特定第三語料被錯誤地歸類,那么此時,在步驟S150中,可以將所述特定第二語料和所述特定第三語料同時刪除,以克服已發(fā)生的標(biāo)注錯誤的問題。
[0028]例如,在本發(fā)明的一個示例中,第一語料集合可以包括“速度快”、“速度慢”、“速度比預(yù)想的快”、“價格高”、“價格低”等多條語料,如果在人工標(biāo)注時,將“速度快”的評價內(nèi)容正確地標(biāo)注為正面評價,將“速度慢”的評價內(nèi)容正確地標(biāo)注為負(fù)面評價,而將“速度比預(yù)想的快”的評價內(nèi)容錯誤地標(biāo)注為負(fù)面評價,則在步驟S120,可以確定第二語料集合包括“速度快”,并且在步驟S130中,可以確定第三語料集合包括“速度慢”和“速度比預(yù)想的快”這兩條語料。此時,在步驟S140中,可以判斷第二語料集合中的“速度快”與第三語料集合中的“速度比預(yù)想的快”的評價內(nèi)容“快”與“比預(yù)想的快”是同義詞,即,可以判斷出現(xiàn)了標(biāo)注錯誤的情況,則在步驟S150中,可以將第二語料集合中的“速度快”與第三語料集合中的“速度比預(yù)想的快”分別從第二語料集合和第三語料集合刪除,以消除語料“速度比預(yù)想的快”被錯誤地標(biāo)注的問題。
[0029]在本發(fā)明的另一個實施例中,所述根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理進(jìn)一步包括:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則在步驟S150中,將所述第二語料集合與所述第三語料集合從所述第一語料集合中刪除。具體地,如前所述,如果在步驟S140中判斷出現(xiàn)第二語料集合中存在特定第二語料與第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞的情況,則說明所述特定第二語料或者所述特定第三語料被錯誤地歸類,此時,在步驟S150中可以將第二語料集合與第三語料集合同時刪除,以克服已發(fā)生的標(biāo)注錯誤的問題。例如,在本發(fā)明的一個示例中,第一語料集合可以包括“速度快”、“速度慢”、“速度比預(yù)想的快” “價格高”、“價格低”等多條語料,如果在人工標(biāo)注時,將“速度快”的評價內(nèi)容正確地標(biāo)注為正面評價,將“速度慢”的評價內(nèi)容正確地標(biāo)注為負(fù)面評價,而將“速度比預(yù)想的快”的評價內(nèi)容錯誤地標(biāo)注為負(fù)面評價,則在步驟S120,可以確定第二語料集合包括“速度快”,并且在步驟S130中,可以確定第三語料集合包括“速度慢”和“速度比預(yù)想的快”這兩條語料。此時,在步驟S140中,可以判斷第二語料集合中的“速度快”與第三語料集合中的“速度比預(yù)想的快”的評價內(nèi)容“快”與“比預(yù)想的快”是同義詞,即,可以判斷出現(xiàn)了標(biāo)注錯誤的情況,則在步驟S150中,可以將第二語料集合與第三語料集合刪除,以消除語料“速度比預(yù)想的快”被錯誤地標(biāo)注的問題。
[0030]在本發(fā)明的另一個實施例中,所述語料處理方法100還可以進(jìn)一步包括:將所述將第二語料集合與第三語料集合合并為第四語料集合,并且,如果所述第四語料集合中的語料數(shù)目小于第一閾值,則通過在所述第四語料集合中增加與所述第二語料或者所述第三語料的內(nèi)容相同的至少一條語料以生成第五語料集合,使得所述第五語料集合中的語料的數(shù)目不小于第一閾值。由于所述第一閾值用于判斷特定數(shù)目的語料是否被保留,因此,通過將第五語料集合中的語料的數(shù)目增加值第一閾值,可以達(dá)到保留第五語料集合中的語料的目的,以此來盡可能多地保留關(guān)于產(chǎn)品的各方面的多個評價對象及其評價內(nèi)容。
[0031]由此可見,通過使用本發(fā)明提供的訓(xùn)練語料處理方法100,能夠?qū)ΜF(xiàn)有的訓(xùn)練語料處理方法進(jìn)行一些優(yōu)化,使得更多的人工標(biāo)注的語料能夠被保留和利用,提高分類語料的利用率與準(zhǔn)確性以及覆蓋面,從而使用該語料訓(xùn)練出的情感分類器變得更加高效和實用,提高用戶使用體驗。
[0032]下面,參照圖2說明根據(jù)本發(fā)明的語料處理裝置200。圖2示出了根據(jù)本發(fā)明實施例的語料處理裝置200的示范性結(jié)構(gòu)框圖,所述語料處理裝置200所處理后的語料可以用于進(jìn)行情感分類。此外,在本發(fā)明的一個實施例中,所述語料處理裝置200所處理后的語料還可以用于訓(xùn)練情感分類器。
[0033]下面,將參照圖2來描述根據(jù)本發(fā)明的一個實施例的語料處理裝置200。如圖2所示,語料處理裝置200可以包括:獲取單元210、第二語料集合確定單元220、第三語料集合確定單元230、判斷單元240以及語料集合處理單元250。
[0034]具體地,獲取單元210可以經(jīng)配置來獲取待分類的第一語料集合。一般地,待分類的第一語料集合可以是用戶關(guān)于產(chǎn)品的評價信息,通常所述用戶關(guān)于產(chǎn)品的評價信息可以從電商網(wǎng)站上獲取,并且,所述評論信息可以設(shè)計到產(chǎn)品的各個方面。具體地,語料集合中的每一條語料都至少包括關(guān)于產(chǎn)品的某一方面屬性的評價對象以及用戶關(guān)于該評價對象評價內(nèi)容。例如,在本發(fā)明的一個實施例中,所述第一語料集合可以包括“速度快”的這樣一條語料,其中,“速度”是用戶關(guān)于該產(chǎn)品的速度方面屬性的評價對象,“快”則是用戶關(guān)于產(chǎn)品的“速度”這一評價對象的評價內(nèi)容。通常,第一語料集合中的多個語料可以包括分別具有各自不同的評價對象,例如,第一語料集合可以包括“速度快”、“速度慢”、“價格高”、“價格低”這四條語料。
[0035]第二語料集合確定單元220,可以經(jīng)配置來從所述第一語料集合中確定第二語料集合,所述第二語料集合中的第二語料的評價對象都為第一評價對象,而且所述第二語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為正面評價,并且所述第二語料集合中的語料的數(shù)目小于第一閾值。其中,所述第一閾值用于判斷特定數(shù)目的語料是否被保留,也就是說,如果第二語料集合中的第二語料的數(shù)目大于第一閾值,則可以直接將第二語料集合進(jìn)行保留而無需進(jìn)行后續(xù)的判斷步驟。第一閾值可以由用戶根據(jù)第一語料集合中的語料數(shù)目進(jìn)行設(shè)置。如果第一集合中的語料數(shù)目較多,則可以將第一閾值設(shè)置為較大的值,反之,如果第一集合中的語料數(shù)目較少,則可以將第一閾值設(shè)置為較小的值。例如,第一語料集合可以包括“速度快”、“速度慢”、“速度比預(yù)想的快” “價格高”、“價格低”等多條語料,如果用戶將第一閾值設(shè)置為3,第一評價對象為“速度”,則由于第一語料集合中,關(guān)于第一評價對象“速度”的評價內(nèi)容為正面評價“快”和“比預(yù)想的快”的語料有“速度快”和“速度比預(yù)想的快”這兩條語料,因此,第二語料集合可以包括“速度快”和“速度比預(yù)想的快”這兩條語料。
[0036]第三語料集合確定單元230,可以經(jīng)配置來從所述第一語料集合中確定第三語料集合,所述第三語料集合中的第三語料的評價對象都為所述第一評價對象,而且所述第三語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為負(fù)面評價,并且所述第三語料集合中的語料的數(shù)目小于第一閾值。其中,所述第一閾值如上所述地用于判斷特定數(shù)目的語料是否被保留,也就是說,如果第三語料集合中的第三語料的數(shù)目大于第一閾值,則可以直接將第三語料集合進(jìn)行保留而無需進(jìn)行后續(xù)的判斷步驟。第一閾值如上所述地也可以由用戶根據(jù)第一語料數(shù)目進(jìn)行設(shè)置。例如,在本發(fā)明的一個示例中,第一語料集合可以包括“速度快”、“速度慢”、“速度比預(yù)想的快” “價格高”、“價格低”等多條語料,如果用戶將第一閾值設(shè)置為3,第一評價對象為“速度”,則由于第一語料集合中,關(guān)于第一評價對象“速度”的評價內(nèi)容為負(fù)面評價的語料只有“速度慢”,因此,在本示例中,第三語料集合可以包括“速度慢”這條語料。
[0037]判斷單元240,可以經(jīng)配置來判斷所述第二語料集合中的第二語料是否與所述第三語料集合中的任一條第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞。由于在人工標(biāo)注過程中可能會發(fā)生標(biāo)注失誤的情況,此時,第三語料集合確定單元230可能會將應(yīng)當(dāng)歸為第二語料集合的語料歸為第三語料集合的情況,或者第二語料集合確定單元220可能會將應(yīng)當(dāng)歸為第三語料集合的語料歸為第二語料集合的情況,在此情況下,由于第二語料集合中的評價應(yīng)當(dāng)都為正面評價并且第三語料集合中的評價應(yīng)當(dāng)都為負(fù)面評價,因此,第二語料集合中各個語料的評價內(nèi)容與第三語料集合中各個語料的評價內(nèi)容應(yīng)該互為反義詞,如果判斷單元240判斷出現(xiàn)上述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞的情況,則說明所述特定第二語料或者所述特定第三語料被錯誤地歸類。
[0038]語料集合處理單元250,可以經(jīng)配置來根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理。其中,所述第一閾值用于判斷特定數(shù)目的語料是否被保留。具體地,如果判斷單元240判斷出現(xiàn)第二語料集合中存在特定第二語料與第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞的情況,則說明所述特定第二語料或者所述特定第三語料被錯誤地歸類,此時,所述語料集合處理單元250可以對第二語料集合和/或第三語料集合進(jìn)行處理,以克服已發(fā)生的標(biāo)注錯誤的問題。
[0039]此外,在本發(fā)明的一個實施例中,所述語料集合處理單元250可以進(jìn)一步經(jīng)配置用于:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則將所述特定第二語料從所述第二語料集合中刪除,并且將所述特定第三語料從所述第三語料集合中刪除。具體地,如前所述,如果判斷單元240判斷出現(xiàn)第二語料集合中存在特定第二語料與第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞的情況,那么此時,語料集合處理單元250可以將所述特定第二語料和所述特定第三語料同時刪除,以克服已發(fā)生的標(biāo)注錯誤的問題。例如,在本發(fā)明的一個示例中,第一語料集合可以包括“速度快”、“速度慢”、“速度比預(yù)想的快” “價格高”、“價格低”等多條語料,如果在人工標(biāo)注時,將“速度快”的評價內(nèi)容正確地標(biāo)注為正面評價,將“速度慢”的評價內(nèi)容正確地標(biāo)注為負(fù)面評價,而將“速度比預(yù)想的快”的評價內(nèi)容錯誤地標(biāo)注為負(fù)面評價,則第二語料集合確定單元220可以確定第二語料集合包括“速度快”,并且第三語料集合確定單元230可以確定第三語料集合包括“速度慢”和“速度比預(yù)想的快”這兩條語料。此時,判斷單元240可以判斷出第二語料集合中的“速度快”與第三語料集合中的“速度比預(yù)想的快”的評價內(nèi)容“快”與“比預(yù)想的快”是同義詞,即,可以判斷出現(xiàn)了標(biāo)注錯誤的情況,則語料集合處理單元250可以將第二語料集合中的“速度快”與第三語料集合中的“速度比預(yù)想的快”分別從第二語料集合和第三語料集合刪除,以消除語料“速度比預(yù)想的快”被錯誤地歸類到第三語料集合的問題。
[0040]在本發(fā)明的另一個實施例中,所述語料集合處理單元250進(jìn)一步經(jīng)配置用于:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則將所述第二語料集合與所述第三語料集合從所述第一語料集合中刪除。具體地,由于如前所述地,可能會發(fā)生標(biāo)注失誤的情況,即,第三語料集合確定單元230可能會將應(yīng)當(dāng)歸為第二語料集合的語料歸為第三語料集合的情況或者第二語料集合確定單元220可能會將應(yīng)當(dāng)歸為第三語料集合的語料歸為第二語料集合的情況,此時,在語料集合處理單元250可以經(jīng)配置來將第二語料集合與第三語料集合同時刪除,以克服已發(fā)生的標(biāo)注錯誤的問題。例如,在本發(fā)明的一個示例中,第一語料集合可以包括“速度快”、“速度慢”、“速度比預(yù)想的快” “價格高”、“價格低”等多條語料,如果在人工標(biāo)注時,將“速度快”的評價內(nèi)容正確地標(biāo)注為正面評價,將“速度慢”的評價內(nèi)容正確地標(biāo)注為負(fù)面評價,而將“速度比預(yù)想的快”的評價內(nèi)容錯誤地標(biāo)注為負(fù)面評價,則第二語料集合確定單元220可以確定第二語料集合包括“速度快”,并且第三語料集合確定單元230可以確定第三語料集合包括“速度慢”和“速度比預(yù)想的快”這兩條語料。此時,判斷單元240可以判斷第二語料集合中的“速度快”與第三語料集合中的“速度比預(yù)想的快”的評價內(nèi)容“快”與“比預(yù)想的快”是同義詞,即,可以判斷出現(xiàn)了標(biāo)注錯誤的情況,則語料集合處理單元250可以將第二語料集合與第三語料集合刪除,以消除語料“速度比預(yù)想的快”被錯誤地標(biāo)注的問題。
[0041]在本發(fā)明的另一個實施例中,語料集合處理單元250進(jìn)一步經(jīng)配置來:將所述將第二語料集合與第三語料集合合并為第四語料集合,并且,如果所述第四語料集合中的語料數(shù)目小于第一閾值,則通過在所述第四語料集合中增加與所述第二語料或者所述第三語料的內(nèi)容相同的至少一條語料以生成第五語料集合,使得所述第五語料集合中的語料的數(shù)目不小于第一閾值。由于所述第一閾值用于判斷特定數(shù)目的語料是否被保留,因此,通過語料集合處理單元250將第五語料集合中的語料的數(shù)目增加至第一閾值,可以達(dá)到保留第五語料集合中的語料的目的,以此來盡可能多地保留關(guān)于產(chǎn)品的各方面的多個評價對象及其評價內(nèi)容。
[0042]由此可見,通過使用本發(fā)明提供的訓(xùn)練語料處理裝置200,能夠?qū)ΜF(xiàn)有的訓(xùn)練語料處理方法進(jìn)行一些優(yōu)化,使得更多的人工標(biāo)注的語料能夠被保留和利用,提高分類語料的利用率與準(zhǔn)確性以及覆蓋面,從而使用該語料訓(xùn)練出的情感分類器變得更加高效和實用,提高用戶使用體驗。
[0043]本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方法的特定應(yīng)用和設(shè)計約束條件。本領(lǐng)域技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
[0044]本領(lǐng)域技術(shù)人員應(yīng)該理解,可依賴于設(shè)計需求和其它因素對本發(fā)明進(jìn)行各種修改、組合、部分組合和替換,只要它們在所附權(quán)利要求書及其等價物的范圍內(nèi)。
【主權(quán)項】
1.一種語料處理方法,所述語料處理方法所處理后的語料用于進(jìn)行情感分類,所述語料處理方法包括: 獲取待分類的第一語料集合; 從所述第一語料集合中確定第二語料集合,所述第二語料集合中的第二語料的評價對象都為第一評價對象,而且所述第二語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為正面評價,并且所述第二語料集合中的語料的數(shù)目小于第一閾值; 從所述第一語料集合中確定第三語料集合,所述第三語料集合中的第三語料的評價對象都為所述第一評價對象,而且所述第三語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為負(fù)面評價,并且所述第三語料集合中的語料的數(shù)目小于第一閾值; 判斷所述第二語料集合中的第二語料是否與所述第三語料集合中的任一條第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞;以及 根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理, 其中,所述第一閾值用于判斷特定數(shù)目的語料是否被保留。2.如權(quán)利要求1所述的語料處理方法,其中,所述根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理進(jìn)一步包括:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則將所述特定第二語料從所述第二語料集合中刪除,并且將所述特定第三語料從所述第三語料集合中刪除。3.如權(quán)利要求1所述的語料處理方法,其中,所述根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理進(jìn)一步包括:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則將所述第二語料集合與所述第三語料集合從所述第一語料集合中刪除。4.如權(quán)利要求1所述的語料處理方法,其中,所述根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理進(jìn)一步包括:如果所述第二語料與所述第三語料中的任一第三語料關(guān)于所述第一評價對象的評價內(nèi)容都不是同義詞或者近義詞,則將所述第二語料集合與第三語料集合合并為第四語料集合。5.如權(quán)利要求4所述的語料處理方法,進(jìn)一步包括:將所述將第二語料集合與第三語料集合合并為第四語料集合,并且,如果所述第四語料集合中的語料數(shù)目小于第一閾值,則通過在所述第四語料集合中增加與所述第二語料或者所述第三語料的內(nèi)容相同的至少一條語料以生成第五語料集合,使得所述第五語料集合中的語料的數(shù)目不小于第一閾值。6.一種語料處理裝置,所述語料處理裝置所處理后的語料用于進(jìn)行情感分類,所述語料處理裝置包括: 獲取單元,經(jīng)配置來獲取待分類的第一語料集合; 第二語料集合確定單元,經(jīng)配置用于從所述第一語料集合中確定第二語料集合,所述第二語料集合中的第二語料的評價對象都為第一評價對象,而且所述第二語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為正面評價,并且所述第二語料集合中的語料的數(shù)目小于第一閾值; 第三語料集合確定單元,經(jīng)配置用于從所述第一語料集合中確定第三語料集合,所述第三語料集合中的第三語料的評價對象都為所述第一評價對象,而且所述第三語料的關(guān)于所述第一評價對象的評價內(nèi)容都被標(biāo)注為負(fù)面評價,并且所述第三語料集合中的語料的數(shù)目小于第一閾值; 判斷單元,經(jīng)配置用于判斷所述第二語料集合中的第二語料是否與所述第三語料集合中的任一條第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞;以及 語料集合處理單元,經(jīng)配置用于根據(jù)判斷結(jié)果對第二語料集合和/或第三語料集合進(jìn)行處理, 其中,所述第一閾值用于判斷特定數(shù)目的語料是否被保留。7.如權(quán)利要求6所述的語料處理裝置,其中,所述語料集合處理單元進(jìn)一步經(jīng)配置用于:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則將所述特定第二語料從所述第二語料集合中刪除,并且將所述特定第三語料從所述第三語料集合中刪除。8.如權(quán)利要求6所述的語料處理裝置,其中,所述語料集合處理單元進(jìn)一步經(jīng)配置用于:如果所述第二語料集合中存在特定第二語料與所述第三語料集合中的特定第三語料關(guān)于所述第一評價對象的評價內(nèi)容為同義詞或者近義詞,則將所述第二語料集合與所述第三語料集合從所述第一語料集合中刪除。9.如權(quán)利要求6所述的語料處理裝置,其中,所述語料集合處理單元進(jìn)一步經(jīng)配置用于:如果所述第二語料與所述第三語料中的任一第三語料關(guān)于所述第一評價對象的評價內(nèi)容都不是同義詞或者近義詞,則將所述第二語料集合與第三語料集合合并為第四語料集入口 ο10.如權(quán)利要求9所述的語料處理裝置,其中,所述語料集合處理單元進(jìn)一步經(jīng)配置用于:將所述將第二語料集合與第三語料集合合并為第四語料集合,并且,如果所述第四語料集合中的語料數(shù)目小于第一閾值,則通過在所述第四語料集合中增加與所述第二語料或者所述第三語料的內(nèi)容相同的至少一條語料以生成第五語料集合,使得所述第五語料集合中的語料的數(shù)目不小于第一閾值。
【文檔編號】G06F17/30GK105989081SQ201510072762
【公開日】2016年10月5日
【申請日】2015年2月11日
【發(fā)明人】卓雷, 趙凱, 葛安生
【申請人】聯(lián)想(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
黔江区| 文成县| 乌海市| 元阳县| 长兴县| 邵东县| 金塔县| 谷城县| 定边县| 达日县| 巴林左旗| 天柱县| 乌兰浩特市| 玉山县| 宾阳县| 利川市| 宝山区| 米脂县| 永泰县| 涟源市| 边坝县| 扎兰屯市| 会东县| 华安县| 章丘市| 通榆县| 大庆市| 肥城市| 江源县| 社旗县| 山西省| 格尔木市| 进贤县| 务川| 孟津县| 兴义市| 积石山| 宝坻区| 黄大仙区| 西畴县| 于田县|