本申請涉及語義分析技術(shù),尤其涉及一種詞語識別方法、裝置及服務(wù)器。
背景技術(shù):
:隨著互聯(lián)網(wǎng)的發(fā)展,語言的發(fā)展非常快速,經(jīng)常出現(xiàn)現(xiàn)有詞典中不存在的詞語或短語。在對文本進(jìn)行語義分析時,如果不能準(zhǔn)確的發(fā)現(xiàn)這些詞語,將對文本語義分析結(jié)果準(zhǔn)確度造成較大影響,也無法理解用戶真實意圖。例如,當(dāng)文本中出現(xiàn)“十動然拒”時,由于在現(xiàn)有詞典中并不存在這個詞,按照現(xiàn)在分詞工具的規(guī)則這個詞會被分為“十/動/然/拒”,從而無法發(fā)現(xiàn)“十動然拒”這個詞,也無法對該詞進(jìn)行語義分析。再例如,當(dāng)文本中出現(xiàn)“何以笙簫默”時,由于現(xiàn)有詞典中不存在這個短語,所以語義分析的結(jié)果也不能指明用戶是在談?wù)撘徊啃≌f或電視劇。為了在文本中識別詞語,現(xiàn)有技術(shù)中的常用方法流程如下:第一步:確定要提取的詞語包含的字符個數(shù)k;第二步:統(tǒng)計每個長度小于等于k的字符在文檔中出現(xiàn)的次數(shù),并按照設(shè)定的閾值h,篩選出那些出現(xiàn)次數(shù)大于等于h的字符串;第三步:統(tǒng)計這些字符串的凝固度:凝固度=整個字符串在文檔中出現(xiàn)的概率與組成字符串的其他詞在文檔中出現(xiàn)的概率乘積的比值;例如,第二步篩選出了“電影院”這個字符串,然后這個字符串可拆分的組合有“電”-“影院”和“電影”-“院”;則凝固度的計算方式如下:詞在文本中的概率組合與原詞的概率比值電影院0.001電0.01影院0.0050.001/(0.01*0.005)=20電影0.001院0.10.001/(0.001*0.1)=10第四步,將計算得到的凝固度中的最大值與設(shè)定的閾值比較,將比值大于閾值的字符串,作為候選字符串;例如,設(shè)定的閾值為18,則將電影院作為候選字符串;第五步,統(tǒng)計候選字符串的自由度:自由度=min(候選字符串的左鄰字符串的信息熵,候選字符串的右鄰字符串的信息熵);例如,來電影院看信息熵左鄰——“來”0.25右鄰——“看”0.9所以“電影院”這個詞的自由度是0.25。第六步,根據(jù)字符串的凝固度和自由度,計算得到該字符串成詞的概率,如果概率大于某一預(yù)定的閾值,則判斷該字符串是詞語。采用現(xiàn)有技術(shù)中的詞語識別方法,需要確定要發(fā)現(xiàn)的詞語包含的字符個數(shù)k,因此后續(xù)確定的候選字符串的長度只可能小于等于k,這就這不能發(fā)現(xiàn)長度大于k的詞語,比如設(shè)置k為5,那么對于“新疆師范大學(xué)”這一類有明確含義、但長度超過5的短語就沒有辦法識別,造成識別不準(zhǔn)確。技術(shù)實現(xiàn)要素:本申請實施例中提供了一種詞語識別方法、裝置及服務(wù)器,用于解決現(xiàn)有技術(shù)中的詞語識別方法不能準(zhǔn)確識別不同長度的詞語的問題。根據(jù)本申請實施例的第一個方面,提供了一種詞語識別方法,包括:根據(jù)待處理文本中的各字符在待處理文本中的位置,確定最大字符串;該最大字符串為在待處理文本中重復(fù)出現(xiàn)、且不包含在其他重復(fù)出現(xiàn)的字符串中的字符串;根據(jù)最大字符串的長度、最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵,確定候選字符串;根據(jù)候選字符串的成詞概率判斷候選字符串是否為詞語。根據(jù)本申請實施例的第二個方面,提供了一種詞語識別裝置,包括:最大字符串確定模塊,用于根據(jù)待處理文本中的各字符在待處理文本中的位置,確定最大字符串,該最大字符串為在待處理文本中重復(fù)出現(xiàn)、且不包含在其他字符串中的字符串;候選字符串確定模塊,用于根據(jù)最大字符串的長度、最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵,確定候選字符串;詞語確定模塊,用于根據(jù)候選字符串的成詞概率判斷候選字符串是否為詞語。根據(jù)本申請實施例的第三個方面,提供了一種服務(wù)器,包括:如上述第二個方面的的詞語識別裝置。采用本申請實施例中的詞語識別方案,服務(wù)器能夠根據(jù)文本中的各字符的位置確定最大字符串,然后再根據(jù)該最大字符串的長度、以及該最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵確定候選字符串,然后再根據(jù)候選字符串的成詞概率,確定文本中的詞語,由于是根據(jù)文本中各字符的位置來確定最大字符串,因此減少了字符串的長度的限制,對于識別各種長度的詞語,提高了準(zhǔn)確性。附圖說明此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:圖1為本申請實施例一所示的詞語識別方法的流程圖;圖2為本申請實施例二所示詞語識別裝置的結(jié)構(gòu)示意圖;圖3為本申請實施例三所示服務(wù)器的結(jié)構(gòu)示意圖。具體實施方式為了使本申請實施例中的技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖對本申請的示例性實施例進(jìn)行進(jìn)一步詳細(xì)的說明,顯然,所描述的實施例僅是本申請的一部分實施例,而不是所有實施例的窮舉。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。在實現(xiàn)本申請的過程中,申請人發(fā)現(xiàn),現(xiàn)有技術(shù)中的詞語的發(fā)現(xiàn)方法,需要確定要發(fā)現(xiàn)的詞語包含的字符個數(shù)k,因此后續(xù)確定的候選字符串的長度只可能小于等于k,這就這不能發(fā)現(xiàn)長度大于k的詞語,比如設(shè)置k為5,那么對于“新疆師范大學(xué)”這一類有明確含義、但長度超過5的短語就沒有辦法識別,造成識別不準(zhǔn)確。另外,現(xiàn)有技術(shù)中的詞語的發(fā)現(xiàn)方法,需要逐一列舉每個字符可能出現(xiàn)的后綴,從而需要按照每個不重復(fù)字符去掃描全部文本,會很耗時。此外,現(xiàn)有技術(shù)中的詞語的發(fā)現(xiàn)方法,是通過凝固度篩選出可能的候選字符串,然后再根據(jù)這些候選字符串的成詞概率判斷是否為詞語,由于凝固度只考慮了各個字符在文本中出現(xiàn)的概率,不夠準(zhǔn)確。針對上述問題,本申請實施例中提供了一種詞語識別方法、裝置及服務(wù)器,能夠根據(jù)文本中的各字符的位置確定最大字符串,然后再根據(jù)該最大字符串的長度、以及該最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵確定候選字符串,然后再根據(jù)候選字符串的成詞概率,確定文本中的詞語,由于是根據(jù)文本中各字符的位置確定重復(fù)出現(xiàn)的最大字符串,因此減少了字符串的長度限制,能夠準(zhǔn)確識別各種長度的詞語。本申請實施例中的方案可以應(yīng)用于如會員地址位置關(guān)系挖掘的相關(guān)數(shù)據(jù)分析產(chǎn)品中,還可以應(yīng)用于如用戶輿情分析、搜索引擎語義分析、大V影響力話題分析、用戶爆點(diǎn)話題分析等語義分析產(chǎn)品中;還可以應(yīng)用于語音識別的新詞發(fā)現(xiàn)等場景。本申請實施例中的音樂推薦方案可以使用如面向?qū)ο蟮某绦蛟O(shè)計語言java語言等的計算機(jī)語言實現(xiàn)。圖1為本申請實施例一所示的詞語識別方法的流程圖。如圖1所示,根據(jù)本申請實施例一所示的詞語識別方法包括以下步驟:S102,根據(jù)待處理文本中的各字符在待處理文本中的位置,確定最大字符串,該最大字符串為在所述待處理文本中重復(fù)出現(xiàn)、且不包含在其他字符串中的字符串;S104,根據(jù)最大字符串的長度、最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵,確定候選字符串;S106,根據(jù)候選字符串的成詞概率判斷候選字符串是否為詞語。在具體實施時,最大字符串為在待處理文本中重復(fù)出現(xiàn)、且不包含在其他重復(fù)出現(xiàn)的字符串中的字符串;比如,在文本中出現(xiàn)了“我和媽媽看電影”這一重復(fù)出現(xiàn)的字符串,在“我和媽媽看電影”重復(fù)的同時,“看電影”也必然成為重復(fù)字符串,但是由于看電影包含在“我和媽媽看電影”這一重復(fù)出現(xiàn)的字符串中,因此排除“看電影”,確定最大字符串是“我和媽媽看電影”。在具體實施時,待處理文本中可以包括多個最大字符串。例如,“我和媽媽看電影”和“何以笙蕭默”等。采用本申請實施例中的詞語識別方法,能夠根據(jù)文本中的各字符的位置確定最大字符串,然后再根據(jù)該最大字符串的長度、以及該最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵確定候選字符串,然后再根據(jù)候選字符串的成詞概率,確定文本中的詞語,由于是根據(jù)文本中各字符的位置確定重復(fù)出現(xiàn)的最大字符串,因此減少了字符串長度限制,能夠準(zhǔn)確識別各種長度的詞語。在具體實施時,根據(jù)待處理文本中的各字符在待處理文本中的位置,確定最大字符串可以包括:對待處理文本進(jìn)行斷句,對得到的多個語句分別編號;將各語句分別拆分為多個字符,對每個語句拆分得到的每個字符分別編號;根據(jù)待處理文本中各字符的坐標(biāo)(i,j),確定最大字符串;其中,i為該字符所屬的語句編號;j為該字符在第i個語句中的字符編號。在具體實施時,對所述待處理文本進(jìn)行斷句可以采用以下方式:將待處理的文本中的內(nèi)容,以句號為分割符進(jìn)行分割,獲得以句子為單位的語句集合,然后對語句集合進(jìn)行編號i=1,2,3,……。在具體實施時,將各語句拆分為多個字符,對得到的每個字符分別編號j=1,2,3,……。在具體實施時,根據(jù)待處理文本中各字符的坐標(biāo)(i,j),確定最大字符串,具體包括:根據(jù)待處理文本中各字符的坐標(biāo)(i,j)確定各字符連續(xù)出現(xiàn)的次數(shù);將連續(xù)出現(xiàn)的次數(shù)大于等于2的多個字符作為重復(fù)出現(xiàn)字符串;排除包含在其他重復(fù)出現(xiàn)字符串中的重復(fù)出現(xiàn)字符串,得到最大字符串。例如,某一文本中“我”在文本中的坐標(biāo)為{(1,1),(5,2),(6,6),……};“和”在文本中的坐標(biāo)為{(1,2),(5,3),(8,2),……},“小”在文本中的坐標(biāo)為{(1,3),(1,12),(5,4),……},“王”在文本中的坐標(biāo)為{(1,4),(5,5),(30,1),……},“看”在文本中的坐標(biāo)為{(1,5),(5,6),(9,1),……},“電”在文本中的坐標(biāo)為{(1,6),(5,7),(16,9),……},“影”在文本中的坐標(biāo)為{(1,7),(5,8),(129,12),……};……從上述各字符的坐標(biāo)可以確定出,“我和”、“我和小”、“我和小王”、“我和小王看”、“我和小王看電”以及“我和小王看電影”均在第1句和第5句中出現(xiàn)了2次,均為重復(fù)出現(xiàn)字符串;同時,“我和”、“我和小”、“我和小王”、“我和小王看”、“我和小王看電”均包含在“我和小王看電影”中,因此,排除“我和”、“我和小”、“我和小王”、“我和小王看”、“我和小王看電”;將“我和小王看電影”確定為最大字符串。采用本申請實施例中的方法,只需要對文本進(jìn)行一次遍歷就可以確定最大字符串,減少了計算耗時。優(yōu)選地,根據(jù)最大字符串的長度、最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵,確定候選字符串具體包括:獲取最大字符串的長度;如果長度為1,則確定最大字符串不是候選字符串;如果長度為2,則確定最大字符串為候選字符串;如果長度大于等于3,則根據(jù)所述最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵,確定候選字符串。優(yōu)選地,根據(jù)最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵,確定候選字符串,具體包括:確定最大字符串中各字符m的左鄰字符的信息熵pm左和右鄰字符的信息熵pm右,其中,pm左=-(左鄰字符與第m個字符組成的字符串出現(xiàn)的次數(shù)/左鄰字符出現(xiàn)的次數(shù))*log2(左鄰字符與第m個字符組成的字符串出現(xiàn)的次數(shù)/左鄰字符出現(xiàn)的次數(shù)),pm右=-(第m個字符與右鄰字符組成的字符串出現(xiàn)的次數(shù)/右鄰字符出現(xiàn)的次數(shù))*log2(第m個字符與右鄰字符組成的字符串出現(xiàn)的次數(shù)/右鄰字符出現(xiàn)的次數(shù));在最大字符串中確定pm左/pm右小于第一預(yù)定閾值的多個字符;將多個字符中的連續(xù)字符串作為候選字符串。在具體實施時,如果第m個字符不存在左鄰字符,則可以設(shè)pm左=0;如果第m個字符不存在右鄰字符,則可以設(shè)pm右=0。在具體實施時,左鄰字符與第m個字符組成的字符串可以是左鄰字符與第m個字符組成、并且該左鄰字符出現(xiàn)在該第m個字符的左邊時的字符串;第m個字符與右鄰字符組成的字符串可以是第m個字符與右鄰字符組成、并且該右鄰字符出現(xiàn)在該第m個字符的右邊時的字符串。在具體實施時,該字符串出現(xiàn)的次數(shù)可以是該字符串在待處理文本中出現(xiàn)的次數(shù),也就是該字符串在待處理文本中的個數(shù)。在具體實施時,該第一預(yù)定閾值可以取0.8、0.6等小于等于1的值。例如,在“我和小王看電影”這一字符串中,字符“和”的左鄰字符為“我”,右鄰字符為“小”;那么作為“和”字左鄰字符“我”的信息熵p我=-(″我和″出現(xiàn)的次數(shù)/″我″出現(xiàn)的次數(shù))*log2(″我和″出現(xiàn)的次數(shù)/″我″出現(xiàn)的次數(shù)),作為“和”字的右鄰字符“小”的信息熵p?。?(″和小″出現(xiàn)的次數(shù)/″小″出現(xiàn)的次數(shù))*log2(″和小″出現(xiàn)的次數(shù)/″小″出現(xiàn)的次數(shù));若設(shè)置第一預(yù)定閾值為0.8;則進(jìn)一步判斷p我/p?。?.8是否成立。假如,最終確定pm左/pm右小于0.8的字符有“和”、“看”、“電”、和“影”,由于“看”、“電”、和“影”是連續(xù)字符,并且“和”與這些字符不連續(xù),因此,將“看電影”作為候選字符串。優(yōu)選地,根據(jù)候選字符串的成詞概率,判斷候選字符串是否為詞語,具體包括:確定第n個候選字符串的成詞概率Xn=Cn-L*Cn-R/Cn*Lentotal/Lenn;其中,Cn-L為第n個候選字符串左邊有字符的次數(shù),Cn-R為第n個候選字符串右邊有字符的次數(shù),Cn為第n個候選字符串的出現(xiàn)次數(shù),Lentotal為待處理文本的總字符數(shù),Lenn為第n個候選字符串包含的字符個數(shù);當(dāng)Xn大于第二預(yù)定閾值時,判斷第n個候選字符串為詞語。在具體實施時,該第二預(yù)定閾值可以根據(jù)具體情況取0.4、0.6、0.8等小于1的數(shù)。優(yōu)選地,在根據(jù)最大字符串的長度、最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵確定候選字符串之后,在根據(jù)候選字符串的成詞概率判斷候選字符串是否為詞語之前,還包括:判斷是否存在包含的候選字符串a(chǎn)的候選字符串b;如果存在,則從b中去除a,得到剩余字符串y;判斷y是否是候選字符串;如果不是,則將a設(shè)置為非候選字符串;如果是,則將b設(shè)置為非候選字符串。在具體實施時,在根據(jù)最大字符串的長度、最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵確定候選字符串之后,對于待處理文本,通常會得到多個候選字符串構(gòu)成的候選字符串集合;此時,在該集合中,可能會存在多個彼此互相包含的候選字符串,可以在計算各候選字符串的成詞概率之前先進(jìn)行候選字符串的拆分或合并,以使詞語的發(fā)現(xiàn)更為合理,同時提升詞語發(fā)現(xiàn)的準(zhǔn)確度。例如,“何以笙蕭默”和“我和小王去看何以笙蕭默”均為候選字符串;那么從“我和小王去看何以笙蕭默”中去除“何以笙蕭默”,得到剩余字符串為“我和小王去看”;如果“我和小王去看”并不在候選字符串集合中,那么就將這兩個候選字符串合并為“我和小王去看何以笙蕭默”,并將“何以笙蕭默”從候選字符串集合中去除。如果“我和小王去看”也在候選字符串集合中,那么就將“我和小王去看何以笙蕭默”拆分為“我和小王去看”和“何以笙蕭默”兩個候選字符串,并將“我和小王去看何以笙蕭默”從候選字符串集合中去除。本申請實施例中的詞語發(fā)現(xiàn)方法還可以應(yīng)用于確定一個或多個待處理文本的主題關(guān)鍵詞。優(yōu)選地,待處理文本為一個或多個,該方法還包括:分別確定各詞語在該一個或多個待處理文本中的權(quán)重其中,Cl_d為詞語l在待處理文本d中的個數(shù),Cd為待處理文本d中所有詞語的總個數(shù);Dtotal為多個待處理文本的個數(shù);Dl為詞l在多個待處理文本中的總個數(shù);Lenl為詞l中所含字符的個數(shù);k、n、θ為預(yù)定值;e為自然常數(shù);根據(jù)多個詞語的權(quán)重確定該一個或多個待處理文本的關(guān)鍵詞。在具體實施時,k可以是2,n可以取8,θ可以是0.8。在具體實施時,Cl_d、Cd、Dtotal、Dl、Lenl等數(shù)據(jù)均可以經(jīng)統(tǒng)計得到。在具體實施時,根據(jù)多個詞語的權(quán)重確定該一個或多個待處理文本的關(guān)鍵詞可以采用多種方式,例如,將該多個詞語中權(quán)重最大的作為關(guān)鍵詞;或者,對該多個詞語的權(quán)重按從大到小進(jìn)行排序,將權(quán)重排名前N的作為關(guān)鍵詞,N可以根據(jù)實際需要取任意的數(shù)值,例如,可以取1或2等。本申請實施例中的詞語發(fā)現(xiàn)方法還可以應(yīng)用于發(fā)現(xiàn)新詞。優(yōu)選地,根據(jù)本申請實施例的方法,還包括:判斷詞語是否存在詞庫中;如果不存在,則將該詞語作為新詞添加至詞庫。采用本申請實施例中的詞語識別方法,能夠根據(jù)文本中的各字符的位置確定重復(fù)出現(xiàn)的最大字符串,然后再根據(jù)該最大字符串的長度、以及該最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵確定候選字符串,然后再根據(jù)候選字符串的成詞概率,確定文本中的詞語,由于是根據(jù)文本中各字符的位置確定重復(fù)出現(xiàn)的最大字符串,因此減少了字符串長度限制,能夠準(zhǔn)確識別各種長度的詞語;并且只需要一次遍歷就可以確定文本中重復(fù)出現(xiàn)的最大字符串,效率較高?;谕话l(fā)明構(gòu)思,本申請實施例中還提供了一種詞語識別裝置,由于該裝置解決問題的原理與本申請實施例所提供的方法相似,因此該裝置的實施可以參見方法的實施,重復(fù)之處不再贅述。圖2為本申請實施例二所示詞語識別裝置的結(jié)構(gòu)示意圖。如圖2所示,根據(jù)本申請實施例二所示的詞語識別裝置200,可以應(yīng)用于服務(wù)器,該裝置包括:最大字符串確定模塊202,用于根據(jù)待處理文本中的各字符在待處理文本中的位置,確定最大字符串,最大字符串為在待處理文本中重復(fù)出現(xiàn)、且不包含在其他字符串中的字符串;候選字符串確定模塊204,用于根據(jù)最大字符串的長度、最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵,確定候選字符串;詞語確定模塊206,用于根據(jù)候選字符串的成詞概率判斷候選字符串是否為詞語。優(yōu)選地,最大字符串確定模塊具體包括:語句編號子模塊,用于對待處理文本進(jìn)行斷句,對得到的多個語句分別編號;字符編號子模塊,用于用于將各語句分別拆分為多個字符,對每個語句拆分得到的多個字符分別編號;最大字符串確定子模塊,用于根據(jù)待處理文本中各字符的坐標(biāo)(i,j),確定最大字符串;其中,i為該字符所屬的語句編號;j為該字符在第i個語句中的字符編號。最大字符串確定子模塊具體包括:連續(xù)出現(xiàn)次數(shù)確定單元,用于根據(jù)待處理文本中各字符的坐標(biāo)(i,j)確定各字符連續(xù)出現(xiàn)的次數(shù);重復(fù)出現(xiàn)字符串確定單元,用于將連續(xù)出現(xiàn)的次數(shù)大于等于2的多個字符作為重復(fù)出現(xiàn)字符串;排除單元,用于排除包含在其他重復(fù)出現(xiàn)字符串中的重復(fù)出現(xiàn)字符串,得到最大字符串。優(yōu)選地,候選字符串確定模塊具體包括:長度獲取子模塊,用于獲取最大字符串的長度;確定子模塊,用于在長度為1時,確定最大字符串不是候選字符串;在長度為2時,確定最大字符串為候選字符串;在長度大于等于3時,根據(jù)最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵確定候選字符串。優(yōu)選地,確定子模塊具體包括:信息熵確定單元,用于確定最大字符串中各字符m的左鄰字符的信息熵pm左和右鄰字符的信息熵pm右,其中,pm左=-(左鄰字符與第m個字符組成的字符串出現(xiàn)的次數(shù)/左鄰字符出現(xiàn)的次數(shù))*log2(左鄰字符與第m個字符組成的字符串出現(xiàn)的次數(shù)/左鄰字符出現(xiàn)的次數(shù)),pm右=-(第m個字符與右鄰字符組成的字符串出現(xiàn)的次數(shù)/右鄰字符出現(xiàn)的次數(shù))*log2(第m個字符與右鄰字符組成的字符串出現(xiàn)的次數(shù)/右鄰字符出現(xiàn)的次數(shù));字符確定單元,用于在最大字符串中確定pm左/pm右小于第一預(yù)定閾值的多個字符;候選字符串確定單元,用于將多個字符中的連續(xù)字符串作為候選字符串。優(yōu)選地,詞語確定模塊具體包括:成詞概率確定子模塊,用于確定第n個候選字符串的成詞概率Xn=Cn-L*Cn-R/Cn*Lentotal/Lenn;其中,Cn-L為第n個候選字符串左邊有字符的次數(shù),Cn-R為第n個候選字符串右邊有字符的次數(shù),Cn為第n個候選字符串的出現(xiàn)次數(shù),Lentotal為待處理文本的總字符數(shù),Lenn為第n個候選字符串包含的字符個數(shù);詞語確定子模塊,用于在Xn大于第二預(yù)定閾值時,判斷第n個候選字符串為詞語。優(yōu)選地,根據(jù)本申請實施例二所示的詞語識別裝置還包括:包含判斷模塊,用于判斷是否存在包含的候選字符串a(chǎn)的候選字符串b;去除模塊,用于在包含判斷模塊的判斷結(jié)果為是時,從b中去除a,得到剩余字符串y;判斷模塊,用于判斷y是否是候選字符串;合并模塊,用于在判斷模塊的判斷結(jié)果為不是時,將a設(shè)置為非候選字符串;拆分模塊,用于在判斷模塊的判斷結(jié)果為是時,將b設(shè)置為非候選字符串。優(yōu)選地,所述待處理文本為一個或多個,所述裝置還包括:權(quán)重確定模塊,用于確定各詞語在一個或多個待處理文本中的權(quán)重其中,Cl_d為詞語l在待處理文本d中的個數(shù),Cd為待處理文本d中所有詞語的總個數(shù);Dtotal為多個待處理文本的個數(shù);Dl為詞l在多個待處理文本中的總個數(shù);Lenl為詞l中所含字符的個數(shù);k、n、θ為預(yù)定值;e為自然常數(shù);關(guān)鍵詞確定模塊,用于根據(jù)多個詞語的權(quán)重確定該一個或多個待處理文本的關(guān)鍵詞。優(yōu)選地,根據(jù)本申請實施例二所示的詞語識別裝置還包括:判斷模塊,用于判斷詞語是否存在詞庫中;添加模塊,用于在不存在時,將該詞語作為新詞添加至詞庫。采用本申請實施例中的詞語識別裝置,能夠根據(jù)文本中的各字符的位置確定最大字符串,然后再根據(jù)該最大字符串的長度、以及該最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵確定候選字符串,然后再根據(jù)候選字符串的成詞概率,確定文本中的詞語,由于是根據(jù)文本中各字符的位置確定最大字符串,因此減少了字符串長度限制,能夠準(zhǔn)確識別各種長度的詞語;并且只需要一次遍歷就可以確定文本中重復(fù)出現(xiàn)的最大字符串,效率較高。圖3為本申請實施例三所示服務(wù)器的結(jié)構(gòu)示意圖。如圖3所示,根據(jù)本申請實施例三所示的服務(wù)器30,包括:詞語識別裝置200。采用本申請實施例中包括詞語識別裝置的服務(wù)器,能夠根據(jù)文本中的各字符的位置確定最大字符串,然后再根據(jù)該最大字符串的長度、以及該最大字符串中各字符的左鄰字符的信息熵和右鄰字符的信息熵確定候選字符串,然后再根據(jù)候選字符串的成詞概率,確定文本中的詞語,由于是根據(jù)文本中各字符的位置確定最大字符串,因此減少了字符串的長度限制,能夠準(zhǔn)確識別各種長度的詞語;并且只需要一次遍歷就可以確定文本中重復(fù)出現(xiàn)的最大字符串,效率較高。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本申請的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本申請進(jìn)行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。當(dāng)前第1頁1 2 3