專利名稱:獲取預(yù)定義字符數(shù)據(jù)的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機數(shù)據(jù)檢索的技術(shù)領(lǐng)域,具體涉及獲取預(yù)定義字符數(shù)據(jù)的方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的迅速發(fā)展,中文信息也呈現(xiàn)出爆炸性的增長。為了有效的偵測互聯(lián) 網(wǎng)上的商品或輿情動態(tài),針對評論的情感分析已經(jīng)成為智能信息處理的一個重要發(fā)展方 向,而作為情感的載體,評論對象的抽取也成為一個必要的任務(wù)。但是由于對象的抽取是一個依賴很多自然語言處理的底層工具的高層任務(wù),相對 較難和不夠準(zhǔn)確,所以近年來文本情感分析的主要任務(wù)還是集中在情感傾向性的分析,對 于情感對象的抽取是一個比較新的課題,國內(nèi)外都還處于起步階段。不過隨著分詞、命名實 體和語法分析等底層技術(shù)的越發(fā)成熟,關(guān)于情感對象的抽取也越來越受到關(guān)注。在日本舉行的關(guān)于情感分析的會議NTCIR從第6屆開始增加了對新聞中主觀性句 子意見持有者(holder)的抽取任務(wù),第7屆又增加了對新聞中主觀性句子意見表達對象 (target)的抽取。同時,國外有一些工作者也已經(jīng)注意到對象抽取的重要性,并做了一些重 要的工作。但是這些工作都集中在新聞或產(chǎn)品評論方面,句子比較規(guī)則,并且經(jīng)常有可作為 特征的謂詞作為指示詞(indicator),對于句子形式十分自由的新聞評論鮮有涉及。新聞評論有如下特征大部分句子主觀性十分強烈;句子形式十分自由,經(jīng)常出 現(xiàn)非完整句;評論內(nèi)容一般都是和新聞?wù)牡闹黝}密切相關(guān)。因此提出了利用新聞?wù)牡?信息來協(xié)同處理新聞評論對象的抽取。新聞對象的抽取,一般先對句子進行語法分析,然后 有兩種不同的處理方法1.利用人工尋找的啟發(fā)式規(guī)則,根據(jù)句子成分的位置、詞性和鄰接關(guān)系等特征進 行查找;2.利用指示詞以及句子的成分信息作為特征,進行訓(xùn)練和分類。上述方法的缺點在于只能處理正式文體,如報紙、雜志等媒體公布的新聞,不能處 理語法形式不規(guī)則的句子,尤其是句子中本身不存在顯性對象的句子,造成在獲取評論對 象數(shù)據(jù),如某類政治、金融、新聞、經(jīng)濟、體育等方面評論對象的數(shù)據(jù)時,獲得的結(jié)果范圍小、 準(zhǔn)確度低的問題。
發(fā)明內(nèi)容
本發(fā)明旨在提供一種獲取預(yù)定義字符數(shù)據(jù)的方法和裝置,其能夠解決上述在獲取 評論對象數(shù)據(jù)時,獲得的結(jié)果范圍小、準(zhǔn)確度低的問題。根據(jù)本發(fā)明的一個方面,提供一種獲取預(yù)定義字符數(shù)據(jù)的方法,包括對待處理字符數(shù)據(jù)進行詞性標(biāo)注,劃分出顯性字符數(shù)據(jù)或/和隱性字符數(shù)據(jù);從所述顯性字符數(shù)據(jù)中查找出具有預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù),作為所述顯性字 符數(shù)據(jù)的預(yù)定義字符數(shù)據(jù);
從基準(zhǔn)字符數(shù)據(jù)的中心實體中查找出具有所述預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù),作為 與所述隱性字符數(shù)據(jù)相對應(yīng)的預(yù)定義字符數(shù)據(jù)。優(yōu)選的,所述查找之前,還包括將所述顯性字符數(shù)據(jù)、或/和隱性字符數(shù)據(jù)按照預(yù)定義規(guī)則劃分為兩個部分以 上,分別對每個部分進行查找。優(yōu)選的,若每個部分查找出所述預(yù)定義字符數(shù)據(jù)的數(shù)據(jù)個數(shù)為兩個以上時,則將 查找出的數(shù)據(jù)作為候選對象和與其相鄰的前一部分查找出的候選對象進行匹配,若匹配后 得出一個相同的數(shù)據(jù),則將得出數(shù)據(jù)作為最終的預(yù)定義字符數(shù)據(jù);若匹配后得出兩個以上相同的預(yù)定義字符數(shù)據(jù),則分別確定每個預(yù)定義字符數(shù)據(jù) 的階序,并按照階序確定出一個作為所述預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù)。優(yōu)選的,當(dāng)從基準(zhǔn)字符數(shù)據(jù)的查找出具有所述預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù)時,所 述分別確定每個數(shù)據(jù)的階序的過程包括對所述隱性字符數(shù)據(jù)進行分詞、語法分析,獲得相應(yīng)的句子向量;從所述基準(zhǔn)字符數(shù)據(jù)中獲得各個中心實體及每個中心實體的向量,將所述中心實 體的向量和所述句子向量分別在所述基準(zhǔn)數(shù)據(jù)和預(yù)定義的數(shù)據(jù)庫中進行向量擴展;獲取每個中心實體和所述隱形對象在向量擴展之后,相互之間的相似度,并按照 相似度確定相應(yīng)的階序。優(yōu)選的,從所述基準(zhǔn)字符數(shù)據(jù)獲得各個中心實體的過程包括采用構(gòu)造出的分類器從所述基準(zhǔn)字符數(shù)據(jù)中識別出所述中心實體。優(yōu)選的,從所述顯性字符數(shù)據(jù)中查找的過程包括對所述顯性字符數(shù)據(jù)進行命名實體識別,在識別出的字符數(shù)據(jù)中獲得具有預(yù)定義 字符數(shù)據(jù)類型的數(shù)據(jù)。根據(jù)本發(fā)明的另一個方面,本發(fā)明還提供一種獲取預(yù)定義字符數(shù)據(jù)的裝置,包 括分析單元,用于對待處理字符數(shù)據(jù)進行詞性標(biāo)注,劃分出顯性字符數(shù)據(jù)或/和隱 性字符數(shù)據(jù);顯性處理單元,用于從所述顯性字符數(shù)據(jù)中查找出具有預(yù)定義字符數(shù)據(jù)類型的數(shù) 據(jù),作為所述顯性字符數(shù)據(jù)的預(yù)定義字符數(shù)據(jù);隱性處理單元,用于從基準(zhǔn)字符數(shù)據(jù)的中心實體中查找出具有所述預(yù)定義字符數(shù) 據(jù)類型的數(shù)據(jù),作為與所述隱性字符數(shù)據(jù)相對應(yīng)的預(yù)定義字符數(shù)據(jù)。優(yōu)選的,還包括劃分單元,用于將所述顯性字符數(shù)據(jù)、或/和隱性字符數(shù)據(jù)按照預(yù)定義規(guī)則劃分 為兩個部分以上,將劃分后的數(shù)據(jù)傳輸至所述顯性處理單元或隱性處理單元,所述顯性處 理單元或隱性處理單元對所述每個部分分別進行查找。優(yōu)選的,所述顯性處理單元內(nèi)和隱性處理單元內(nèi)分別還包括匹配模塊,用于若每個部分查找出所述預(yù)定義字符數(shù)據(jù)的數(shù)據(jù)個數(shù)為兩個以上 時,則將查找出的數(shù)據(jù)作為候選對象和與其相鄰的前一部分查找出的候選對象進行匹配, 若匹配后得出一個相同的數(shù)據(jù),則將得出數(shù)據(jù)作為最終的預(yù)定義字符數(shù)據(jù)。優(yōu)選的,所述顯性處理單元內(nèi)還包括第一階序模塊,所述隱性處理單元內(nèi)還包括第二階序模塊,所述第一階序模塊、第二階序模塊,用于所述匹配模塊匹配后得出兩個以上相同 的預(yù)定義字符數(shù)據(jù),則分別確定每個預(yù)定義字符數(shù)據(jù)的階序,并按照階序確定出一個作為 所述預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù)。優(yōu)選的,所述第二階序模塊內(nèi)包括實體識別子模塊,用于從所述基準(zhǔn)字符數(shù)據(jù)中識別出命名實體;分類器,用于從所述命名實體中識別出中心實體;向量子模塊,用于對所述隱性字符數(shù)據(jù)進行分詞、語法分析,獲得相應(yīng)的句子向 量,運算出每個中心實體的向量;擴展子模塊,用于將所述中心實體的向量和所述句子向量分別在所述基準(zhǔn)數(shù)據(jù)和 預(yù)定義的數(shù)據(jù)庫中進行向量擴展;運算子模塊,用于獲取每個中心實體和所述隱形對象在向量擴展后,相互之間的 相似度,并按照相似度確定相應(yīng)的階序。優(yōu)選的,所述顯性處理單元包括實體識別模塊,用于對所述顯性字符數(shù)據(jù)進行命名實體識別;查找模塊,用于在識別出的字符數(shù)據(jù)中獲得具有預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù)。本發(fā)明可按照用戶的需求,選擇預(yù)定義類型的字符數(shù)據(jù),從用戶指定的待處理字 符數(shù)據(jù)中獲取,對于處理語法形式不規(guī)則的句子,尤其是句子中本身不存在顯性對象的句 子,在獲取評論對象數(shù)據(jù),如某類政治、金融、新聞、經(jīng)濟、體育等方面評論對象的數(shù)據(jù)時,提 高了獲得的結(jié)果范圍、準(zhǔn)確度。
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā) 明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖1是實施例--的流程圖2是實施例二二的流程圖3是實施例二二中獲得最終候選對象的流程圖
圖4是實施例二二中構(gòu)造分類器的流程圖5是實施例二二中獲取中心詞的流程圖6是實施例三Ξ的結(jié)構(gòu)圖。
具體實施例方式為清楚說明本發(fā)明的方法和裝置,下面將參考附圖并結(jié)合實施例,來詳細(xì)說明本 發(fā)明。首先闡述本發(fā)明的方法,本發(fā)明的方法實施例一的流程圖如圖1所示,包括Sll 對待處理字符數(shù)據(jù)進行詞性標(biāo)注,劃分出顯性字符數(shù)據(jù)和/或隱性字符數(shù) 據(jù);S12 從所述顯性字符數(shù)據(jù)中查找出具有預(yù)定義的字符數(shù)據(jù)類型的數(shù)據(jù);S13:從基準(zhǔn)字符數(shù)據(jù)的中心實體中查找出具有預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù),作為與所述隱性數(shù)據(jù)相對應(yīng)的預(yù)定義字符數(shù)據(jù)。本發(fā)明的方法,可對新聞、經(jīng)濟、政治、體育等各類字符數(shù)據(jù)進行處理,例如,對于 字符數(shù)據(jù)中的規(guī)范用語,如正文可作為基準(zhǔn)字符數(shù)據(jù),對于評論等非規(guī)范用語,可作為待處 理字符數(shù)據(jù),在劃分顯性對象即顯性字符數(shù)據(jù)、隱性對象即隱性字符數(shù)據(jù)時,可根據(jù)用戶的 需要劃分為各個部分,如按照標(biāo)點符號將字符數(shù)據(jù)分割成句,如逗號,問號等,如果一句字 符數(shù)據(jù)中存在預(yù)定義字符數(shù)據(jù)類型,則認(rèn)為此句是顯性對象,如果不存在,則認(rèn)為此句是隱 性對象。其中,對于以句為單位的字符數(shù)據(jù),每句字符數(shù)據(jù)只能是顯性對象或是隱性對象, 當(dāng)輸入的字符數(shù)據(jù)只有一句且是隱性對象時,需要用戶指定相關(guān)的字符數(shù)據(jù),即基準(zhǔn)字符 數(shù)據(jù),從中找出需要的預(yù)定義字符數(shù)據(jù)。下面給出本發(fā)明的實施例二,詳細(xì)說明本發(fā)明的方法對各種字符數(shù)據(jù)情況下的處 理過程,在實施例二中,將新聞?wù)淖鳛榛鶞?zhǔn)字符數(shù)據(jù),將新聞評論作為待處理字符數(shù)據(jù), 要獲取的預(yù)定義字符數(shù)據(jù)為名詞數(shù)據(jù),首先,需要從待處理的字符數(shù)據(jù)中,逐句獲取,參見 圖2,包括S21 判斷是否獲取完所有數(shù)據(jù);判斷是否獲取完所有的字符數(shù)據(jù),如果是,則執(zhí) 行步驟S23,顯示所有的最終評論對象,即要獲取的預(yù)定義字符數(shù)據(jù);如果不是,則執(zhí)行步 驟 S22 ;S22:取出一條評論;S23 將該評論劃分為句;S24 判斷是否獲取完所有句子;如果是,則執(zhí)行步驟S21 ;如果不是,則執(zhí)行步驟 S25 ;S25 取一句評論;例如“迪拜現(xiàn)在大力發(fā)展旅游和自由貿(mào)易,就是為將來石油挖完后做打算的。是 一個非常有活力的城市?!盨26 對該句進行處理。對于每句的處理過程,下面結(jié)合圖3詳細(xì)描述,參見圖3,包括S31 判斷是顯性對象還是隱性對象;對每句評論進行處理時,首先對該句進行詞性標(biāo)注,判斷該句是顯性對象,還是隱 性對象。判斷標(biāo)準(zhǔn)主要依據(jù)待處理字符數(shù)據(jù)中是否存在所要獲取的評論對象數(shù)據(jù)的類型, 如名詞、代詞等,本實施例中,以名詞作為要獲取的評論對象數(shù)據(jù)。如果是顯性對象,則執(zhí)行 步驟S32 ;如果是隱形對象,則執(zhí)行步驟S36 ;S32 對句子進行語法分析;判斷其有主語迪拜,是顯性對象的句子。這樣對其進行詞性標(biāo)注和語法分析,將所 有的名詞短語都作為其候選對象迪拜、旅游、自由貿(mào)易、石油。對于顯性對象,對句子進行分詞和語法分析;S33 取出所有的名詞短語作為候選對象;按照預(yù)定義的類型獲取相應(yīng)的字符數(shù)據(jù),在本實施例中,獲取名詞字符數(shù)據(jù),如果 只有一個名詞字符數(shù)據(jù),則將該字符作為所要獲取的預(yù)定義字符數(shù)據(jù);如果存在多個名詞 字符數(shù)據(jù),將這些名詞字符數(shù)據(jù)做作為候選對象,執(zhí)行步驟S34 ;S34 按照語法成分進行階序的確定;
此處,對于顯性對象,則按照各個名詞字符數(shù)據(jù)在句子里的特征確定不同的階序, 如主語、謂語等,且階序大小為主語>直接賓語> 間接賓語>補足語> 附接語;然后,根據(jù)語法成分對其判斷階序迪拜>旅游=自由貿(mào)易>石油。S35 判斷當(dāng)前句是否為評論中的首句;如果是,則執(zhí)行步驟S40 ;如果不是,則執(zhí) 行步驟S41 ;S40 將最佳候選對象作為最終對象;根據(jù)各個候選對象的特征等多種條件,如詞頻、詞性、位置或階序等,按照特征值 的大小或階序選擇出一個候選對象作為最終的預(yù)定義字符數(shù)據(jù)。在本句中,將階序最高的“迪拜”為最佳候選對象。S41 判斷與前一句中的評論對象匹配的候選對象;每句字符數(shù)據(jù)無論是顯性對象還是隱性對象,都將獲得出一個預(yù)定義字符數(shù)據(jù), 在本實施例中是名詞短語,其名詞短語有可能就是新聞評論的評論對象,如果在步驟S33 中獲得多個候選對象,則與前一句中得出各個名詞短語進行比較是否相同,如果存在一個 相同的候選對象,則將該候選對象作為本句所要獲取的預(yù)定義字符數(shù)據(jù);如果不存在,或存 在多個相同的候選對象,則執(zhí)行步驟S42 ;S42 按照階序?qū)λ衅ヅ鋵ο?、或候選對象排序、取階序最大的作為最終對象,即 要獲得的預(yù)定義字符數(shù)據(jù)。在本實施例中,由于待處理的字符數(shù)據(jù)是新聞評論,對各句所獲得的預(yù)定義字符 數(shù)據(jù)進行后續(xù)分析時,可將這些預(yù)定義字符數(shù)據(jù)作為評論對象進行后續(xù)分析。上面說明了對于顯性對象,獲得評論對象的過程;下面說明對于隱性對象,獲得預(yù) 定義字符數(shù)據(jù)的過程;由于隱性對象中沒有所要獲得的預(yù)定義字符數(shù)據(jù),因此,需要從用戶指定的相關(guān) 數(shù)據(jù)中獲得,即從基準(zhǔn)字符數(shù)據(jù)中獲得,在本實施例中,基準(zhǔn)字符數(shù)據(jù)為新聞?wù)模瑢τ谛?聞?wù)?,由于存在大量的字符?shù)據(jù),為減少運算量,需要對新聞?wù)闹械臄?shù)據(jù)進行識別,篩 選出一些候選對象,將篩選出的候選對象與隱性對象做相關(guān)運算,將相關(guān)運算后的數(shù)據(jù)作 為預(yù)定義的字符數(shù)據(jù)。獲取過程參見圖3 包括S36 將隱性對象進行分詞、詞性分析,得到句子向量;對于每個隱性對象,可分析隱性對象的各個特征,并獲得各個特征的特征值,將各 個特征值排列成特征向量;對第二句話,“就是為將來石油挖完后做打算的”,其謂語“是”前面沒有名詞代詞 等主語成分,因此是隱性對象的句子。S37:將中心詞和句子向量分別在新聞?wù)暮皖A(yù)定義字符數(shù)據(jù)庫中進行語義擴 展;預(yù)定義的數(shù)據(jù)庫可以是各種相關(guān)的字符數(shù)據(jù)庫,如維基百科數(shù)據(jù)庫。為減少運算量,需要對新聞?wù)闹械臄?shù)據(jù)進行識別,篩選出一些候選對象,可將對 新聞?wù)淖R別出中心詞作為候選對象;在識別之前,需要先構(gòu)造分類器,構(gòu)造的過程如圖4 所示,包括S401 從訓(xùn)練集中取出字符數(shù)據(jù);
由于構(gòu)造識別模型是由訓(xùn)練得到,因此,需要先將一些字符數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。S402 對得到的字符數(shù)據(jù)進行命名實體識別;S403 對識別出的命名實體標(biāo)注出中心實體;可按照通過命名實體的詞頻或詞性等多種特征值比較出中心實體;對部分新聞?wù)?文標(biāo)出其中心實體。例如《馬云追加20億元投資淘寶圖謀電子商務(wù)世界霸主》,此文標(biāo)出中 心實體為馬云、淘寶、阿里巴巴。S404 判斷是否處理完所有數(shù)據(jù),如果是,執(zhí)行S405,用得到的向量訓(xùn)練集訓(xùn)練分 類器;如果否,則執(zhí)行S406,取出一個命名實體,S405 用得到的向量訓(xùn)練集訓(xùn)練分類器;例如對于實體“馬云”,其在標(biāo)題中,所以這一特征項為1,在文章中出現(xiàn)了 f次,詞 頻特征項為f;實體類型為人名,則此特征項標(biāo)為[人名地名機構(gòu)名時間]=[1000]; 將全文分成3段,每段“馬云”出現(xiàn)Pi次,則分布信息特征項的值為這個實體的分布熵
3
e =-YjP^log(Pl)最后為了解決文章長度不等的問題,加入實體總數(shù)的特征項,為c,
/=0 ·
即表示文中共有c個實體(包括重復(fù)出現(xiàn)次數(shù))。這樣“馬云”這個實體的特征向量為 [If lOOOec],再加入這個實體的分類標(biāo)簽,是中心實體,于是為1,這樣最終的訓(xùn)練向量形式 為UlflOOOec]。當(dāng)?shù)玫剿袑嶓w的特征向量以后,用SVM分類模型進行訓(xùn)練。S407 判斷是否處理完所有實體;如果是,則執(zhí)行S404,如果否,則執(zhí)行S408,將命 名實體轉(zhuǎn)化為特征量;S409 將命名實體的類別進行標(biāo)記,標(biāo)記出中心實體;S410 將特征向量和類別信息加入訓(xùn)練向量集合;在構(gòu)造出分類器后,用分類器對基準(zhǔn)數(shù)據(jù)進行識別,識別出命名實體,將識別出的 命名實體中找出中心實體,并將中心實體在基準(zhǔn)字符數(shù)據(jù)中擴展,如依據(jù)與中心實體相關(guān) 度較高的高頻字符數(shù)據(jù),將擴展出的字符數(shù)據(jù)與中心實體一起作為中心詞,過程如下,參見 圖5,包括S50 判斷是否處理完所有數(shù)據(jù);即判斷是否處理完所有的基準(zhǔn)數(shù)據(jù),在本實施例 中,指新聞?wù)?;如果是,則執(zhí)行步驟S51、步驟S52 ;如果否,則執(zhí)行步驟S53 ;S51 則對得到的中心實體在基準(zhǔn)數(shù)據(jù)中進行擴展;S52:將擴展得到的字符數(shù)據(jù)和之前得到的中心實體一體加入到該文的中心詞集 合;S53 對基準(zhǔn)數(shù)據(jù)進行命名實體識別;對未標(biāo)注的新聞?wù)?,同樣先將所有的命名實體按上述方法轉(zhuǎn)化為特征向量的形 式。根據(jù)SVM分類模型對這些實體進行分類,得到中心實體。例如對于《迪拜將建超千米全 世界最高摩天大樓》,按此方法可以得到中心實體迪拜、納赫勒。S54 取出一個命名實體;S55 判斷是否獲取完所有的命名實體;如果否,則將命名實體按特征轉(zhuǎn)化為特征 向量,加入測試向量集;如果是,則執(zhí)行步驟S57、S58 ;S57 用訓(xùn)練好的分類器對所有測試向量進行分類;S58 對分類結(jié)果進行處理,得到該基準(zhǔn)數(shù)據(jù)的中心詞;返回執(zhí)行步驟S50,直到執(zhí)行完步驟S53。對中心實體進行擴展,選取與其共現(xiàn)頻率較高和位置信息比較重要的名詞短語加 入擴展后的中心詞集合。例如《迪》文中得到最終的擴展名詞為在標(biāo)題中與迪拜共現(xiàn)的“摩 天大樓”,這樣此文中心詞為[迪拜、納赫勒摩天大樓]。獲得完所有中心詞之后,對所有中心詞先在新聞?wù)闹羞M行擴展,得到一個共現(xiàn) 高頻詞組成的擴展向量,然后把這個向量和評論句子的分詞向量都在維基百科數(shù)據(jù)庫中進 行擴展。對中文維基百科中的對每篇文章進行分詞和無意義詞的篩除,建立詞與主題的倒 排索引導(dǎo)入數(shù)據(jù)庫。對一個文本T= {#},向量~1^2,…,vi,…,vn>是它的TFIDF向 量,其中vi是詞wi的權(quán)重。<kl,…,kj,.",kN>是vi的一個倒排索引向量。其中kj是 vi相對于維基百科中的主題cj的權(quán)重,N為維基百科的主題數(shù)目。Cj為維基百科數(shù)據(jù)庫
中的一個“概念”,那么將文本T進行擴展,用<cj>表示,cj的權(quán)重為Σ Vi #kJ然后截
Wi e 1
取權(quán)重最大的100個Cj作為T的擴展向量。S38 計算中心詞向量和句子向量的相似度;對得到的所有中心詞擴展向量Fi,和句子擴展向量S,進行向量的相似度計算
FiifiiS1
sim(Fi,S)=丨凡·丨*丨汾丨—sim -Μ Fi 介 白勺_歹1」,P介;t力白勺Fi力:吳it)(寸I。S39:按相似度進行排序,得到最優(yōu)候選對象,并根據(jù)相似度確定階序。對于隱性對象,如果基準(zhǔn)數(shù)據(jù)中只有一個中心詞,且待處理字符數(shù)據(jù)只有一個隱 性對象,則此中心詞作為從隱性對象獲得的相對應(yīng)的預(yù)定義字符數(shù)據(jù);如果存在多個中心 詞,則執(zhí)行后續(xù)的步驟S35、S40、S41、S42。將相似度作為階序,確定出唯一的預(yù)定義字符數(shù) 據(jù)作為從此隱性對象獲得的預(yù)定義字符數(shù)據(jù)。上面詳細(xì)描述了本發(fā)明的方法,本發(fā)明的方法能以各種軟件產(chǎn)品形式實現(xiàn),并應(yīng) 用在各種電子設(shè)備上,下面通過實施例三說明本發(fā)明的裝置,參見圖6,包括分析單元60,用于對待處理字符數(shù)據(jù)進行詞性標(biāo)注,劃分出顯性字符數(shù)據(jù)或/和 隱性字符數(shù)據(jù);顯性處理單元62,用于從所述顯性字符數(shù)據(jù)中查找出具有預(yù)定義字符數(shù)據(jù)類型的 數(shù)據(jù),作為所述顯性字符數(shù)據(jù)的預(yù)定義字符數(shù)據(jù);隱性處理單元63,用于從基準(zhǔn)字符數(shù)據(jù)的中心實體中查找出具有所述預(yù)定義字符 數(shù)據(jù)類型的數(shù)據(jù),作為與所述隱性字符數(shù)據(jù)相對應(yīng)的預(yù)定義字符數(shù)據(jù)。優(yōu)選的,還包括劃分單元61,用于將所述顯性字符數(shù)據(jù)、或/和隱性字符數(shù)據(jù)按照預(yù)定義規(guī)則劃 分為兩個部分以上,將劃分后的數(shù)據(jù)傳輸至所述顯性處理單元62或隱性處理單元63,所述 顯性處理單元62或隱性處理單元63對所述每個部分分別進行查找。優(yōu)選的,所述顯性處理單元62內(nèi)和隱性處理單元63內(nèi)分別還包括匹配模塊,用于若每個部分查找出所述預(yù)定義字符數(shù)據(jù)的數(shù)據(jù)個數(shù)為兩個以上 時,則將查找出的數(shù)據(jù)作為候選對象和與其相鄰的前一部分查找出的候選對象進行匹配, 若匹配后得出一個相同的數(shù)據(jù),則將得出數(shù)據(jù)作為最終的預(yù)定義字符數(shù)據(jù)。優(yōu)選的,所述顯性處理單元內(nèi)還包括第一階序模塊,所述隱性處理單元內(nèi)還包括第二階序模塊,所述第一階序模塊、第二階序模塊,用于所述匹配模塊匹配后得出兩個以上相同 的預(yù)定義字符數(shù)據(jù),則分別確定每個預(yù)定義字符數(shù)據(jù)的階序,并按照階序確定出一個作為 所述預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù)。優(yōu)選的,所述第二階序模塊內(nèi)包括向量子模塊,用于對所述隱性字符數(shù)據(jù)進行分詞、語法分析,獲得相應(yīng)的句子向 量;實體識別子模塊,用于從所述基準(zhǔn)字符數(shù)據(jù)中識別出命名實體;分類器,用于從所述命名實體中識別出中心實體;擴展子模塊,用于運算出每個中心實體的向量,將所述中心實體的向量和所述句 子向量分別在所述基準(zhǔn)數(shù)據(jù)和預(yù)定義的數(shù)據(jù)庫中進行向量擴展;運算子模塊,用于獲取每個中心實體和所述隱形對象在向量擴展后,相互之間的 相似度,并按照相似度確定相應(yīng)的階序。優(yōu)選的,所述顯性處理單元包括實體識別模塊,用于對所述顯性字符數(shù)據(jù)進行命名實體識別;查找模塊,用于在識別出的字符數(shù)據(jù)中獲得具有預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù)。從以上的描述中,可以看出,本發(fā)明上述的實施例實現(xiàn)了如下技術(shù)效果本發(fā)明可 按照用戶的需求,選擇預(yù)定義類型的字符數(shù)據(jù),從用戶指定的待處理字符數(shù)據(jù)中獲取,對于 處理語法形式不規(guī)則的句子,尤其是句子中本身不存在顯性對象的句子,在獲取評論對象 數(shù)據(jù),如某類政治、金融、新聞、經(jīng)濟、體育等方面評論對象的數(shù)據(jù)時,提高了獲得的結(jié)果范 圍、準(zhǔn)確度。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用 的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成 的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而可以將它們存儲在 存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中 的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬 件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技 術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種獲取預(yù)定義字符數(shù)據(jù)的方法,其特征在于,包括對待處理字符數(shù)據(jù)進行詞性標(biāo)注,劃分出顯性字符數(shù)據(jù)或/和隱性字符數(shù)據(jù);從所述顯性字符數(shù)據(jù)中查找出具有預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù),作為所述顯性字符數(shù) 據(jù)的預(yù)定義字符數(shù)據(jù);從基準(zhǔn)字符數(shù)據(jù)的中心實體中查找出具有所述預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù),作為與所 述隱性字符數(shù)據(jù)相對應(yīng)的預(yù)定義字符數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述查找之前,還包括將所述顯性字符數(shù)據(jù)、或/和隱性字符數(shù)據(jù)按照預(yù)定義規(guī)則劃分為兩個部分以上,分 別對每個部分進行查找。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,若每個部分查找出所述預(yù)定義字符數(shù)據(jù) 的數(shù)據(jù)個數(shù)為兩個以上時,則將查找出的數(shù)據(jù)作為候選對象和與其相鄰的前一部分查找出 的候選對象進行匹配,若匹配后得出一個相同的數(shù)據(jù),則將得出數(shù)據(jù)作為最終的預(yù)定義字 符數(shù)據(jù);若匹配后得出兩個以上相同的預(yù)定義字符數(shù)據(jù),則分別確定每個預(yù)定義字符數(shù)據(jù)的階 序,并按照階序確定出一個作為所述預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,當(dāng)從基準(zhǔn)字符數(shù)據(jù)的查找出具有所述預(yù) 定義字符數(shù)據(jù)類型的數(shù)據(jù)時,所述分別確定每個數(shù)據(jù)的階序的過程包括對所述隱性字符數(shù)據(jù)進行分詞、語法分析,獲得相應(yīng)的句子向量;從所述基準(zhǔn)字符數(shù)據(jù)中獲得各個中心實體及每個中心實體的向量,將所述中心實體的 向量和所述句子向量分別在所述基準(zhǔn)數(shù)據(jù)和預(yù)定義的數(shù)據(jù)庫中進行向量擴展;獲取每個中心實體和所述隱形對象在向量擴展之后,相互之間的相似度,并按照相似 度確定相應(yīng)的階序。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,從所述基準(zhǔn)字符數(shù)據(jù)獲得各個中心實體 的過程包括采用構(gòu)造出的分類器從所述基準(zhǔn)字符數(shù)據(jù)中識別出所述中心實體。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,從所述顯性字符數(shù)據(jù)中查找的過程包括對所述顯性字符數(shù)據(jù)進行命名實體識別,在識別出的字符數(shù)據(jù)中獲得具有預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù)。
7.一種獲取預(yù)定義字符數(shù)據(jù)的裝置,其特征在于,包括分析單元,用于對待處理字符數(shù)據(jù)進行詞性標(biāo)注,劃分出顯性字符數(shù)據(jù)或/和隱性字 符數(shù)據(jù);顯性處理單元,用于從所述顯性字符數(shù)據(jù)中查找出具有預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù), 作為所述顯性字符數(shù)據(jù)的預(yù)定義字符數(shù)據(jù);隱性處理單元,用于從基準(zhǔn)字符數(shù)據(jù)的中心實體中查找出具有所述預(yù)定義字符數(shù)據(jù)類 型的數(shù)據(jù),作為與所述隱性字符數(shù)據(jù)相對應(yīng)的預(yù)定義字符數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括劃分單元,用于將所述顯性字符數(shù)據(jù)、或/和隱性字符數(shù)據(jù)按照預(yù)定義規(guī)則劃分為兩 個部分以上,將劃分后的數(shù)據(jù)傳輸至所述顯性處理單元或隱性處理單元,所述顯性處理單 元或隱性處理單元對所述每個部分分別進行查找。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述顯性處理單元內(nèi)和隱性處理單元內(nèi) 分別還包括匹配模塊,用于若每個部分查找出所述預(yù)定義字符數(shù)據(jù)的數(shù)據(jù)個數(shù)為兩個以上時,則 將查找出的數(shù)據(jù)作為候選對象和與其相鄰的前一部分查找出的候選對象進行匹配,若匹配 后得出一個相同的數(shù)據(jù),則將得出數(shù)據(jù)作為最終的預(yù)定義字符數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述顯性處理單元內(nèi)還包括第一階序模 塊,所述隱性處理單元內(nèi)還包括第二階序模塊,所述第一階序模塊、第二階序模塊,用于所述匹配模塊匹配后得出兩個以上相同的預(yù) 定義字符數(shù)據(jù),則分別確定每個預(yù)定義字符數(shù)據(jù)的階序,并按照階序確定出一個作為所述 預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù)。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第二階序模塊內(nèi)包括實體識別子模塊,用于從所述基準(zhǔn)字符數(shù)據(jù)中識別出命名實體;分類器,用于從所述命名實體中識別出中心實體;向量子模塊,用于對所述隱性字符數(shù)據(jù)進行分詞、語法分析,獲得相應(yīng)的句子向量,運 算出每個中心實體的向量;擴展子模塊,用于將所述中心實體的向量和所述句子向量分別在所述基準(zhǔn)數(shù)據(jù)和預(yù)定 義的數(shù)據(jù)庫中進行向量擴展;運算子模塊,用于獲取每個中心實體和所述隱形對象在向量擴展后,相互之間的相似 度,并按照相似度確定相應(yīng)的階序。
12.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述顯性處理單元包括實體識別模塊,用于對所述顯性字符數(shù)據(jù)進行命名實體識別;查找模塊,用于在識別出的字符數(shù)據(jù)中獲得具有預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù)。
全文摘要
本發(fā)明提供了一種獲取預(yù)定義字符數(shù)據(jù)的方法和裝置,本發(fā)明的方法包括對待處理字符數(shù)據(jù)進行詞性標(biāo)注,劃分出顯性字符數(shù)據(jù)或/和隱性字符數(shù)據(jù);從所述顯性字符數(shù)據(jù)中查找出具有預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù),作為所述顯性字符數(shù)據(jù)的預(yù)定義字符數(shù)據(jù);從基準(zhǔn)字符數(shù)據(jù)的中心實體中查找出具有所述預(yù)定義字符數(shù)據(jù)類型的數(shù)據(jù),作為與所述隱性字符數(shù)據(jù)相對應(yīng)的預(yù)定義字符數(shù)據(jù)。本發(fā)明還提供一種獲取預(yù)定義字符數(shù)據(jù)的裝置。本發(fā)明可按照用戶的需求,選擇預(yù)定義類型的字符數(shù)據(jù),對于處理語法形式不規(guī)則的句子,尤其是句子中本身不存在顯性對象的句子,提高了獲得的結(jié)果范圍、準(zhǔn)確度。
文檔編號G06F17/30GK102110103SQ20091024351
公開日2011年6月29日 申請日期2009年12月25日 優(yōu)先權(quán)日2009年12月25日
發(fā)明者萬小軍, 楊建武, 肖建國, 馬騰飛 申請人:北京北大方正電子有限公司, 北京大學(xué), 北京方正電子政務(wù)信息科技有限公司, 北大方正集團有限公司