獲取正極性漢字的方法和裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及軟件領域,特別涉及一種從文字材料中獲取正極性漢字的方法和裝置。
【背景技術】
[0002]漢字的情感資源是自然語言處理的重要組成部分,由于漢字的數(shù)目(尤其常用漢字)不算太多,可以考慮采用人工標注的方法來進行漢字的情感標注。通常,人們認為形容詞性漢字(美、善等)和一些動詞性漢字(愛、戀等)攜帶正極性。然而,對于一些看起來偏中性色彩的漢字,也可以具有隱含的正極性,比如“?!?,“天”,“飛”等漢字。常規(guī)的人工標注者很難通過單字體會出其中的細微情感,無法達到標注要求。
[0003]現(xiàn)有的技術主要采用人工標注來得到正極性漢字。然而,由于漢字經歷了幾千年的發(fā)展演化,一些概念差別非常細微,常規(guī)的人工標注效果無法達到要求。比如,“躍”和“跳”的語義相似,但是“躍”蘊含正極性而“跳”是中性概念。
【發(fā)明內容】
[0004]為此,需要提供一種可以快速找到正極性或者隱含正極性的漢字的技術方案,以提供可供使用的高質量的漢字情感資源。
[0005]為實現(xiàn)上述目的,發(fā)明人提供了一種獲取正極性漢字的方法,包括步驟:
[0006]從給定的文字材料中獲取所有機構類詞匯;
[0007]從獲取的機構類詞匯中去除公共字詞;
[0008]將剩余的漢字中出現(xiàn)頻率高者收集入正極性漢字集合。
[0009]進一步地,所述的獲取正極性漢字的方法中,步驟“從獲取的機構類詞匯中去除公共字詞”具體包括:去除后綴或插入性公共詞匯。
[0010]進一步地,所述的獲取正極性漢字的方法中,步驟“從給定的文字材料中獲取所有機構類詞匯”具體包括:對給定的文字材料,用詞性標注工具對其進行分詞和詞性標注,并根據詞性標注結果獲取其中的機構類詞匯。
[0011]進一步地,所述的獲取正極性漢字的方法中,在步驟“將剩余的漢字中出現(xiàn)頻率高者收集入正極性漢字集合”具體包括:統(tǒng)計剩余的漢字中各漢字的出現(xiàn)頻率并將其按從高到低排序,將出現(xiàn)頻率位于前預設比例的漢字列入正極性漢字集合。
[0012]發(fā)明人同時還提供了一種獲取正極性漢字的裝置,包括機構類詞匯獲取單元、公共字詞去除單元和統(tǒng)計單元;
[0013]所述機構類詞匯獲取單元用于從給定的文字材料中獲取所有機構類詞匯;
[0014]所述公共字詞去除單元用于從獲取的機構類詞匯中去除公共字詞;
[0015]所述統(tǒng)計單元用于統(tǒng)計剩余的漢字中出現(xiàn)頻率高者并將其收集入正極性漢字集入口 ο
[0016]進一步地,所述的獲取正極性漢字的裝置中,公共字詞去除單元從獲取的機構類詞匯中去除公共字詞具體包括去除機構類詞匯中的后綴或插入性公共詞匯。
[0017]進一步地,所述的獲取正極性漢字的裝置中,機構類詞匯獲取單元從給定的文字材料中獲取所有機構類詞匯具體包括:對給定的文字材料,用詞性標注工具對其進行分詞和詞性標注,并根據詞性標注結果獲取其中的機構類詞匯。
[0018]進一步地,所述的獲取正極性漢字的裝置中,統(tǒng)計單元統(tǒng)計剩余的漢字中出現(xiàn)頻率高者并將其收集入正極性漢字集合具體包括:統(tǒng)計剩余的漢字中各漢字的出現(xiàn)頻率并將其按從高到低排序,將出現(xiàn)頻率位于前預設比例的漢字列入正極性漢字集合。
[0019]區(qū)別于現(xiàn)有技術,上述技術方案能夠從任意給定的文字材料片段中尋找出常規(guī)的人工標注者很難通過單字體會出其中的細微情感,無法達到標注要求的正極性情感漢字,以作為高質量的數(shù)據資源進行進一步的利用。
【附圖說明】
[0020]圖1為本發(fā)明一實施方式所述的獲取正極性漢字的方法的流程圖;
[0021]圖2為本發(fā)明一實施方式所述的獲取正極性漢字的裝置的結構示意圖。
[0022]附圖標記說明:
[0023]1-機構類詞匯獲取單元
[0024]2-公共字詞去除單元
[0025]3-統(tǒng)計單元
【具體實施方式】
[0026]為詳細說明技術方案的技術內容、構造特征、所實現(xiàn)目的及效果,以下結合具體實施例并配合附圖詳予說明。
[0027]請參閱圖1,為本發(fā)明一實施方式所述的獲取正極性漢字的方法的流程圖;所述方法包括如下步驟:
[0028]S1、從給定的文字材料中獲取所有機構類詞匯;
[0029]S2、從獲取的機構類詞匯中去除公共字詞;
[0030]S3、將剩余的漢字中出現(xiàn)頻率高者收集入正極性漢字集合。
[0031]步驟S2中所述的公共字詞一般可以認為主要包括公共后綴,具體為根據已有的常見機構類詞匯后綴列表(列表中含有諸如研究所、研究院、公司、出版社等單字或詞匯)將機構類詞匯中的后綴除去。如“騰飛公司”,將公司作為后綴除去,剩余“騰飛”二字作為有情感意義的字眼收集入正極性漢字集合。
[0032]在另一些實施方式中,步驟S2獲取的機構類詞匯中還可能需要去除既不位于前綴位置也不位于后綴位置的、可稱為插入性公共詞匯的一些字詞,常見的插入性公共詞匯可能包括行業(yè)名稱(如工業(yè)、農業(yè)等)或特定指代詞(如第一、第二、中心等),等等;在進行此類去除時,可根據已有的插入性公共詞匯列表來進行,以盡量精確地排除獲取正極性漢字過程中可能受到的干擾。
[0033]在某些實施方式中,步驟“從給定的文字材料中獲取所有機構類詞匯”具體包括:對給定的文字材料,用詞性標注工具對其進行分詞和詞性標注,并根據詞性標注結果獲取其中的機構類詞匯。在另外的某些實施方式中,還可以采用其他常見的獲取機構類詞匯的方式從給定的文字材料中獲取機構類詞匯。
[0034]進一步地,在某些實施方式中,步驟S3所述的“將剩余的漢字中出現(xiàn)頻率高者收集入正極性漢字集合”具體包括:統(tǒng)計剩余的漢字中各漢字的出現(xiàn)頻率并將其按從高到低排序,將出現(xiàn)頻率位于前預設比例的漢字列入正極性漢字集合。例如,預設10%為比例標準,將漢字出現(xiàn)頻率從高到低排序后的前10%漢字列入正極性漢字集合。當然,在某些實施方式中,也可以預設一定的正極性漢字數(shù)量,例如將漢字出現(xiàn)頻率從高到低排序后的前100個漢字列入正極性漢字集合。
[0035]無論是通過分詞和詞性標注來獲取機構類詞匯的方法,還是借助其他手段獲取機構類詞匯的方法,都要求獲取的機構類詞匯具有一定的準確性。對于本發(fā)明的發(fā)明目的而言,是為了從機構類詞匯中獲取正極性漢字,這些正極性漢字多與漢語言文字相關,更準確地說,最好是非譯名性機構名。對于譯名性機構名如“阿里巴巴公司”、“凱特克公司”等,其去除公共后綴之后所余下的字的正極性感情色彩并不夠強。所以,在某些實施方式中,先判斷獲取的機構類詞匯是否譯名性機構名,如是則將其去除?;蛘?,在步驟“從給定的文字材料中獲取所有機構類詞匯”步驟中,不將譯名性機構名獲取在內。又或者,雖然獲取的機構類詞匯包括譯名性機構名,但是在步驟S3所述的“將剩余的漢字中出現(xiàn)頻率高者收集入正極性漢字集合”過程中,統(tǒng)計譯名性機構名去除后綴后的字眼的出現(xiàn)頻率時,按預設權重或預設方案進行削減后再列入統(tǒng)計。
[0036]請參閱圖2,為本發(fā)明一實施方式所述的獲取正極性漢字的裝置的結構示意圖,所述裝置包括機構類詞匯獲取單元1、公共字詞去除單元2和統(tǒng)計單元3;
[0037]所述機構類詞匯獲取單元I用于從給定的文字材料中獲取所有機構類詞匯;
[0038]所述公共字詞去除單元2用于從獲取的機構類詞匯中去除公共字詞;
[0039]所述統(tǒng)計單元3用于統(tǒng)計剩余的漢字中出現(xiàn)頻率高者并將其收集入正極性漢字集入口 ο
[0040]公共字詞去除單元2去除的公共字詞一般可以認為主要包括公共后綴,具體為根據已有的常見機構類詞匯后綴列表(列表中含有諸如研究所、研究院、公司、出版社等單字或詞匯)將機構類詞匯中的后綴除去。如“騰飛公司”,將公司作為后綴除去,剩余“騰飛”二字作為有情感意義的字眼收集入正極性漢字集合。
[0041]在另一些實施方式中,機構類詞匯獲取單元I獲取的機構類詞匯中還可能需要去除既不位于前綴位置也不位于后綴位置的、可稱為插入性公共詞匯的一些字詞,常見的插入性公共詞匯可能包括行業(yè)名稱(如工業(yè)、農