本發(fā)明實施例涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種詞組拆分方法及裝置。
背景技術(shù):
用戶在使用終端設(shè)備進行日常操作時,經(jīng)常會遇到需要在不同的類別欄輸入不同信息的情況,例如:在創(chuàng)建聯(lián)系人時,輸入界面中會出現(xiàn)姓氏欄和名字欄,讓用戶分別輸入聯(lián)系人的姓氏和名字;用戶在填寫郵寄地址時,輸入界面會出現(xiàn)省市欄、區(qū)域欄及具體地址欄等。用戶為方便輸入,通常將所有信息構(gòu)成的詞組輸入在一個類別欄里,例如將聯(lián)系人姓氏和名字同時輸入在姓氏欄或名字欄中,將郵寄地址同時輸入在省市欄中等等。
為方便管理信息,終端設(shè)備需要對填寫在同一類別欄中的信息詞組進行拆分,并將拆分出的各部分放置到預設(shè)類別欄中。以姓名為例,現(xiàn)有技術(shù)根據(jù)聯(lián)系人姓名的字數(shù)來確定聯(lián)系人姓氏,根據(jù)確定的姓氏對同時輸入在姓氏欄或名字欄中的聯(lián)系人姓名進行拆分,將拆分出的姓氏和名字分別設(shè)置到相應欄里。例如當用戶名為兩個字時,將第一個字默認為姓氏,將第二個字默認為名字,當用戶名為三個字時,將第一個字默認為姓氏,后兩個字默認為名字。
發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn):根據(jù)現(xiàn)有技術(shù)提供的姓名拆分方法,由于姓氏確定錯誤導致的拆分錯誤率極高,例如當聯(lián)系人的姓氏為復姓時,姓名拆分時就會出現(xiàn)錯誤。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種詞組拆分方法及裝置,用以解決現(xiàn)有技術(shù)中因詞組拆分錯誤導致的詞組拆分錯誤。
本發(fā)明實施例提供一種詞組拆分方法,包括:
獲取待拆分詞組;
根據(jù)預設(shè)策略提取所述待拆分詞組中的詞匯;
在預設(shè)詞匯數(shù)據(jù)庫中存在與所述詞匯一致的詞匯時,在所述待拆分詞組中拆分出所述詞匯。
本發(fā)明實施例提供一種詞組拆分裝置,包括:
獲取模塊,用于獲取待拆分詞組;
提取模塊,用于根據(jù)預設(shè)策略提取所述待拆分詞組中的詞匯;
判斷模塊,用于判斷所述詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯是否一致;
拆分模塊,用于在預設(shè)詞匯數(shù)據(jù)庫中存在與所述詞匯一致的詞匯時,在所述待拆分詞組中拆分出所述詞匯。
本發(fā)明實施例提供的詞組拆分方法及裝置,通過根據(jù)預設(shè)策略提取所述待拆分詞組中的詞匯,在預設(shè)詞匯數(shù)據(jù)庫中存在與所述詞匯一致的詞匯時,在所述待拆分詞組中拆分出所述詞匯,避免了因詞匯確定錯誤導致的詞組拆分錯誤,提高了詞組拆分的正確率。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例提供的一種詞組拆分方法流程圖;
圖2為本發(fā)明實施例提供的根據(jù)預設(shè)策略提取所述待拆分詞組中的詞匯的方法示意圖;
圖3為本發(fā)明實施例提供的另一種詞組拆分方法流程圖;
圖4為本發(fā)明實施例提供的一種姓名拆分方法流程圖;
圖5為本發(fā)明實施例提供的詞組拆分裝置結(jié)構(gòu)示意圖;
圖6為本發(fā)明實施例提供的另一詞組拆分裝置結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
用戶在使用終端設(shè)備進行日常操作時,經(jīng)常會遇到需要在不同的類別欄輸入不同信息的情況,例如:在創(chuàng)建聯(lián)系人時,輸入界面中會出現(xiàn)姓氏欄和名字欄,讓用戶分別輸入聯(lián)系人的姓氏和名字;用戶在填寫郵寄地址時,輸入界面會出現(xiàn)省市欄、區(qū)域欄及具體地址欄等,讓用戶分別輸入省市、區(qū)域及具體地址等信息;當用戶將部分或所有信息構(gòu)成的詞組都輸入在一個類別欄里時適用于本申請?zhí)峁┑募夹g(shù)方案。
實施例1
圖1為本發(fā)明實施例提供的一種詞組拆分方法流程圖,如圖1所示,包括:
步驟101:獲取待拆分詞組;
具體地,所述待拆分詞組可以包括姓名、地址等具體詞組,還可以包括電話號碼等抽象詞組,本發(fā)明不做限定;所述待拆分詞組可以包括兩個詞匯(例如姓名包括姓氏和名字),還可以包括兩個以上的詞匯(例如地址包括省、市、區(qū)域等),本發(fā)明不做限定;
具體地,終端設(shè)備可以顯示詞組的輸入界面,所述輸入界面包括兩個或兩個以上的輸入欄,所述輸入欄的個數(shù)可以根據(jù)使用需要設(shè)置;獲取用戶在任一所述輸入欄中輸入的待拆分詞組,所述待拆分詞組中包括與所述輸入欄對應的詞匯;
步驟102:根據(jù)預設(shè)策略提取所述待拆分詞組中的詞匯;
參見圖2,具體可以包括:
步驟102a:獲取待拆分詞組的組成信息,所述待拆分詞組包含一專有詞匯;
所述專有詞匯包括人們約定俗成或按規(guī)定固定使用的名詞等,例如姓名中的姓氏、地址中的城市名、電話號碼中的區(qū)號等,本發(fā)明不做限定,例如姓名“張三”中的專有詞匯為姓氏“張”,地址“朝陽區(qū)三里屯”中的專有詞匯為“朝陽區(qū)”,電話號碼“010-6666666”中的專有詞匯為“010”;
所述詞組的組成信息可以包括組成字數(shù)、詞組的各組成部分和/或各組成部分在所述詞組中的位置,例如“張三”的組成信息可以包括:組成部分姓氏“張”和名字“三”、組成字數(shù)為2個字、姓氏“張”在前名字“三”在后;
步驟102b:根據(jù)所述組成信息確定所述專有詞匯的可選字數(shù);
具體地,特定詞組一般具有固定的組成方式,例如,在我國姓名一般是姓氏在前名字在后,英文名字通常姓氏在后名字在前,地址一般是大地域名在前小地域名在后,電話號碼一般是區(qū)號在前本地號碼在后等等;根據(jù)詞組的字數(shù)和/或組成方式可以大致確定專有詞匯的可選字數(shù),例如當一個詞組為中文名字時,根據(jù)名字的字數(shù)為3個字可以確定姓氏(專有詞匯)的可選字數(shù)為1個字或2個字,當一個詞組為地址時,假設(shè)所述地址為“朝陽奧體東”根據(jù)地址的組成(區(qū)+地名)和字數(shù)(5個字)可以確定區(qū)名(專有詞匯)的可選字數(shù)為2個(例如朝陽)字或3個字(例如朝陽區(qū));
步驟102c:選擇一所述可選字數(shù)作為提取字數(shù);
具體地,例如當所述詞組為3個字的名字時,姓氏可選字數(shù)為1個字或2個字,選擇1個字作為提取字數(shù)或者選擇2個字作為提取字數(shù);當所述詞組為5個字的地址(組成方式為區(qū)+地名)時,區(qū)名的可選字數(shù)為2個字或3個字,選擇3個字作為提取字數(shù)或者選擇2個字作為提取字數(shù);
步驟102d:根據(jù)所述組成信息及所述提取字數(shù)從所述詞組中提取待選專有詞匯;
具體地,根據(jù)組成信息確定所述專有詞匯在所述詞組中的位置,所述位置包括前部分、后部分,甚至還可以包括中間部分,然后從前或者從后或者從中間按照所述提取字數(shù)提取所述專有詞匯,例如姓名“張某三”姓氏在姓名的前部分,選擇的專有詞匯的提取字數(shù)為1個,提取姓名開頭的1個字“張”作為待選專有詞匯;
在其他實施例中,還可以通過其他提取、拆分策略從待拆分詞組中拆分詞匯,本發(fā)明不做限定;
步驟103:在預設(shè)詞匯數(shù)據(jù)庫中存在與所述詞匯一致的詞匯時,在所述待拆分詞組中拆分出所述詞匯。
具體地,本發(fā)明實施例根據(jù)詞匯的類別,利用數(shù)據(jù)挖掘和/或數(shù)據(jù)統(tǒng)計的方法收集到所述詞匯的類別下的所有詞匯,形成預設(shè)詞匯數(shù)據(jù)庫;所述預設(shè)詞匯數(shù)據(jù)庫例如,包含所有姓氏的預設(shè)姓氏數(shù)據(jù)庫、包含所有省份名稱的預設(shè)省名數(shù)據(jù)庫、包含所有電話區(qū)號的預設(shè)區(qū)號數(shù)據(jù)庫等等;
具體地,在預設(shè)詞匯數(shù)據(jù)庫中存在與所述詞匯一致的詞匯時,在所述待拆分詞組中拆分出所述詞匯,在終端設(shè)備顯示界面上的與輸入欄對應的位置顯示與所述輸入欄對應的詞匯。
本發(fā)明實施例提供的詞組拆分方法,通過根據(jù)預設(shè)策略提取所述待拆分詞組中的詞匯,在預設(shè)詞匯數(shù)據(jù)庫中存在與所述詞匯一致的詞匯時,在所述待拆分詞組中拆分出所述詞匯,避免了因詞匯確定錯誤導致的詞組拆分錯誤,提高了詞組拆分的正確率。
實施例2
圖3為本發(fā)明實施例提供的一種詞組拆分方法流程圖,如圖3所示,包括:
步驟201:獲取待拆分詞組;
具體地,所述待拆分詞組可以包括姓名、地址等具體詞組,還可以包括電話號碼等抽象詞組,本發(fā)明不做限定;所述待拆分詞組可以包括兩個詞匯(例如姓名包括姓氏和名字),還可以包括兩個以上的詞匯(例如地址包括省、市、區(qū)域等),本發(fā)明不做限定;
具體地,終端設(shè)備可以顯示詞組的輸入界面,所述輸入界面包括兩個或兩個以上的輸入欄,所述輸入欄的個數(shù)可以根據(jù)使用需要設(shè)置;獲取用戶在任一所述輸入欄中輸入的待拆分詞組,所述待拆分詞組中包括與所述輸入欄對應的詞匯;
步驟202:在所述待拆分詞組中提取第一預設(shè)字數(shù)的第一詞匯;
具體地,所述預設(shè)字數(shù)可以根據(jù)所述詞匯的屬性確定;例如,所述詞匯為姓氏,姓氏的字數(shù)一般包括1個字或2個字,因此,拆分姓名時,所述預設(shè)字數(shù)可以包括1個字或2個字;又如,所述詞匯為城市名,城市名一般包括2個字、3個字或4個字,因此,拆分地址時,所述預設(shè)字數(shù)可以包括2個字、3個字或4個字;再如,所述詞匯為區(qū)號,區(qū)號一般包括3個數(shù)字或4個數(shù)字,因此拆分長途電話號碼時,所述預設(shè)字數(shù)可以包括3個或4個;
進一步地,根據(jù)所述待拆分詞組的字數(shù)確定預設(shè)字數(shù)的選擇范圍,所述預設(shè)字數(shù)包括所述第一預設(shè)字數(shù)和所述第二預設(shè)字數(shù);
具體地,待拆分詞組的組成部分通常都是預先設(shè)置好的,而各部分的屬性(例如姓氏的一般字數(shù)、省市名稱的一般字數(shù)等)也是可預知的,因此,根據(jù)獲取到的所述待拆分詞組的字數(shù),可以判斷出各組成部分的字數(shù)范圍;
例如,當所述待拆分詞組包括由市、區(qū)、鄉(xiāng)三部分組成的地址時,以地址“北京市朝陽區(qū)平房鄉(xiāng)”為例,用戶輸入地址信息時為了省時省力,通常會輸入“北京朝陽平房”,此時根據(jù)獲取到的待拆分詞組的字數(shù),即6個字,即可判斷出城市名的預設(shè)字數(shù)的選擇范圍為數(shù)字2或數(shù)字3;
通過根據(jù)待拆分詞組的字數(shù)確定預設(shè)字數(shù)的選擇范圍,縮小了預設(shè)字數(shù)的選擇范圍,省略了不必要的提取、匹配步驟,提高了拆分詞組的效率。
進一步地,按照預設(shè)字數(shù)由多到少的原則設(shè)置所述選擇范圍內(nèi)的預設(shè)字數(shù)的使用優(yōu)先級;即,在提取詞匯時先提取最多預設(shè)字數(shù)的詞匯,最后提取最少預設(shè)字數(shù)的詞匯;
例如姓名“上官某”的姓氏可選字數(shù)為1個字或2個字,當選擇1個字作為提取時的預設(shè)字數(shù)時,提取的待選姓氏為“上”,而待選姓氏數(shù)據(jù)庫中沒有與“上”匹配的姓氏,則選擇2個字為提取時的預設(shè)字數(shù),此時提取的待選姓氏為“上官”,待選姓氏數(shù)據(jù)庫中存在與“上官”匹配的姓氏,因此確定“上官”為名字“上官某”的姓氏;但是,例如姓名“令狐某”的姓氏可選字數(shù)為1個字或2個字,當優(yōu)先選擇1作為提取時的預設(shè)字數(shù)時,提取到的姓氏為“令”,而預設(shè)姓氏數(shù)據(jù)庫中存在姓氏“令”也存在姓氏“令狐”,此時就會導致拆分錯誤,因此提取詞匯時優(yōu)先使用預設(shè)字數(shù)2;
通過按照預設(shè)字數(shù)由多到少的原則設(shè)置所述選擇范圍內(nèi)的預設(shè)字數(shù)的使用優(yōu)先級,避免了由于預設(shè)詞匯數(shù)據(jù)庫中存在與所述詞匯的一部分匹配的詞匯而導致的詞組拆分錯誤;例如復姓“令狐”,姓氏數(shù)據(jù)庫中既有“令”又有“令狐”。
步驟203:判斷所述第一詞匯與預設(shè)詞匯數(shù)據(jù)庫的詞匯是否一致;
具體地,本發(fā)明實施例根據(jù)詞匯的類別,利用數(shù)據(jù)挖掘和/或數(shù)據(jù)統(tǒng)計的方法收集到所述詞匯的類別下的所有詞匯,形成預設(shè)詞匯數(shù)據(jù)庫;所述預設(shè)詞匯數(shù)據(jù)庫,例如,包含所有姓氏的預設(shè)姓氏數(shù)據(jù)庫、包含所有省份名稱的預設(shè)省名數(shù)據(jù)庫、包含所有電話區(qū)號的預設(shè)區(qū)號數(shù)據(jù)庫等等;
具體地,將所述第一詞匯與所述預設(shè)詞匯數(shù)據(jù)庫中的詞匯進行比對,確定所述預設(shè)詞匯數(shù)據(jù)庫中是否存在與所述第一詞匯一致的詞匯;
若所述第一詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯一致時,則進行步驟204;若所述第一詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯不一致,則進行步驟205;
步驟204:在所述待拆分詞組中拆分出所述第一詞匯;
步驟205:在所述待拆分詞組中提取第二預設(shè)字數(shù)的第二詞匯。
具體地,進一步判斷所述第二詞匯與預設(shè)詞匯數(shù)據(jù)庫的詞匯是否一致;若所述第二詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯一致時,則在所述待拆分詞組中拆分出所述第二詞匯;若所述第二詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯不一致,繼續(xù)在所述待拆分詞組中提取第三預設(shè)字數(shù)的第三詞匯,直至所述詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯一致。
本發(fā)明實施例提供的詞組拆分方法,通過根據(jù)預設(shè)策略提取所述待拆分詞組中的詞匯,在預設(shè)詞匯數(shù)據(jù)庫中存在與所述詞匯一致的詞匯時,在所述待拆分詞組中拆分出所述詞匯,避免了因詞匯確定錯誤導致的詞組拆分錯誤,提高了詞組拆分的正確率;同時,根據(jù)預設(shè)字數(shù)依次提取詞匯直至所述詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯一致時拆分出所述詞匯,操作方法簡單易行且能夠保證詞組拆分的正確率。
進一步地,當所述待拆分詞組包括三個或三個以上詞匯時,本發(fā)明實施例提供的詞組拆分方法,還包括:
根據(jù)預設(shè)策略繼續(xù)提取所述待拆分詞組剩余部分中的詞匯,在提取的所述待拆分詞組剩余部分中的詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯一致時,在所述待拆分詞組剩余部分中拆分出所述詞匯,直至拆分后剩余的部分不能再被拆分為止;
其中,所述待拆分詞組剩余部分為所述待拆分詞組拆分出至少一個詞匯后剩下的部分,并且所述待拆分詞組剩余部分仍然為一個可以拆分的詞組;所述預設(shè)詞匯數(shù)據(jù)庫可以包括包含多個子數(shù)據(jù)庫的大數(shù)據(jù)庫,所述多個子數(shù)據(jù)庫分別與所述待拆分詞組的不同的詞匯對應;所述預設(shè)詞匯數(shù)據(jù)庫還可以包括多個不同的單獨的詞匯數(shù)據(jù)庫,所述多個不同的單獨的詞匯數(shù)據(jù)庫分別與所述待拆分詞組的不同的詞匯對應,本發(fā)明不做限定;
例如,所述待拆分詞組包括包含市、區(qū)、鄉(xiāng)的地址,以“北京市朝陽區(qū)平房鄉(xiāng)”為例,當按照上述方法拆分出專有詞匯“北京市”后,所述待拆分詞組剩余部分為“朝陽區(qū)平房鄉(xiāng)”仍然為一個需要拆分的詞組,此時繼續(xù)根據(jù)預設(shè)策略繼續(xù)提取、拆分出另一個專有詞匯“朝陽區(qū)”,具體提取、拆分方法包括:根據(jù)“朝陽區(qū)平房鄉(xiāng)”的字數(shù)確定區(qū)名的預設(shè)字數(shù)范圍為2個字或3個字,提取3個字“朝陽區(qū)”,將“朝陽區(qū)”與預設(shè)區(qū)名數(shù)據(jù)庫中的區(qū)名進行匹配,當“朝陽區(qū)”與預設(shè)區(qū)名數(shù)據(jù)庫中的區(qū)名一致時,從“朝陽區(qū)平房鄉(xiāng)”中提取出“朝陽區(qū)”;其中所述預設(shè)區(qū)名數(shù)據(jù)庫可以為單獨的數(shù)據(jù)庫,也可以為預設(shè)詞匯數(shù)據(jù)庫的一個子數(shù)據(jù)庫,本發(fā)明不做限定;
通過根據(jù)預設(shè)策略繼續(xù)提取所述待拆分詞組剩余部分中的詞匯,在提取的所述待拆分詞組剩余部分中的詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯一致時,在所述待拆分詞組剩余部分中拆分出所述詞匯,能夠保證所述待拆分詞組被充分拆分,便于輸入信息的進一步細化管理。
實施例3
具體地,本發(fā)明實施例中所述詞組包括名字,圖4為本發(fā)明實施例提供的一種姓名拆分方法流程圖,如圖4所示,所述方法包括:
步驟301:獲取姓名的組成信息;
具體地,所述姓名的組成信息包括姓名字數(shù),甚至還可以包括姓氏和名字的前后順序等信息;
步驟302:根據(jù)所述姓名的組成信息確定所述姓名所包含的姓氏的可選字數(shù);
具體地,例如所述姓名的字數(shù)為3個字,則所述姓氏的可選字數(shù)為1個字或2個字;
步驟303:選擇一所述可選字數(shù)作為提取姓氏的預設(shè)字數(shù);
步驟304:從所述姓名中提取所述預設(shè)字數(shù)的待選姓氏;
步驟305:將提取的所述待選姓氏與預設(shè)的姓氏數(shù)據(jù)庫進行匹配;
步驟306:當所述預設(shè)的姓氏數(shù)據(jù)庫中存在與所述待選姓氏匹配的姓氏時,確定所述待選姓氏為所述姓名的姓氏。
通過按照姓名的組成信息選擇待選姓氏,然后將所述待選姓氏與預設(shè)的姓氏數(shù)據(jù)庫進行比對,當所述預設(shè)的姓氏數(shù)據(jù)庫中存在與所述待選姓氏匹配的姓氏時,確定所述待選姓氏為所述姓名的姓氏,避免了因姓氏確定錯誤導致的名字拆分錯誤,提高了名字拆分的正確率。
以下為本發(fā)明實施例提供的詞組拆分方法的應用示例:
手機、pad、筆記本電腦等用戶設(shè)備的聯(lián)系人信息輸入界面依次分欄顯示聯(lián)系人姓氏輸入框及聯(lián)系人名字輸入框;用戶為輸入方便在姓氏欄里輸入了姓名,用戶設(shè)備獲取用戶輸入的姓名的組成信息,假設(shè)用戶輸入的姓名為“上官某”,用戶設(shè)備根據(jù)姓名的字數(shù)確定姓名中的姓氏的可選字數(shù)為2個或1個,用戶設(shè)備先提取姓名開頭的2個字“上官”作為待選姓氏,將“上官”與姓氏數(shù)據(jù)庫進行匹配,得到與其匹配的姓氏,則確定用戶輸入的姓氏為“上官”,將“上官”設(shè)置到姓氏欄里,將“某”設(shè)置到名字欄里。
實施例4
為了實現(xiàn)上述實施例提供的詞組拆分方法,本發(fā)明實施例提供了一種詞組拆分裝置,圖5為本發(fā)明實施例提供的詞組拆分裝置結(jié)構(gòu)示意圖,如圖5所示,所述裝置包括:
獲取模塊10,用于獲取待拆分詞組;
提取模塊20,與獲取模塊10連接,用于根據(jù)預設(shè)策略提取所述待拆分詞組中的詞匯;
判斷模塊30,與提取模塊20連接,用于判斷所述詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯是否一致;
拆分模塊40,與判斷模塊30連接,用于在預設(shè)詞匯數(shù)據(jù)庫中存在與所述詞匯一致的詞匯時,在所述待拆分詞組中拆分出所述詞匯。
本發(fā)明實施例提供的詞組拆分裝置,通過根據(jù)預設(shè)策略提取所述待拆分詞組中的詞匯,在預設(shè)詞匯數(shù)據(jù)庫中存在與所述詞匯一致的詞匯時,在所述待拆分詞組中拆分出所述詞匯,避免了因詞匯確定錯誤導致的詞組拆分錯誤,提高了詞組拆分的正確率。
實施例5
為了實現(xiàn)上述實施例提供的詞組拆分方法,本發(fā)明實施例提供了一種詞組拆分裝置,包括實施例4中的獲取模塊10、提取模塊20、判斷模塊30以及拆分模塊40,圖6為本發(fā)明實施例提供的詞組拆分裝置結(jié)構(gòu)示意圖,如圖6所示,所述裝置還包括:
提取模塊20,用于在所述待拆分詞組中提取第一預設(shè)字數(shù)的第一詞匯;
判斷模塊30,用于判斷所述第一詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯是否一致;
提取模塊20,還用于若所述第一詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯不一致,則在所述待拆分詞組中提取第二預設(shè)字數(shù)的第二詞匯。
根據(jù)預設(shè)字數(shù)依次提取詞匯直至所述詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯一致時拆分出所述詞匯,操作方法簡單易行且能夠保證詞組拆分的正確率。
進一步地,本發(fā)明實施例提供的裝置,還包括:
確定模塊50,其輸入端與獲取模塊10連接,其輸出端與提取模塊20連接,用于根據(jù)所述待拆分詞組的字數(shù)確定預設(shè)字數(shù)的選擇范圍,所述預設(shè)字數(shù)包括所述第一預設(shè)字數(shù)和所述第二預設(shè)字數(shù)。
通過根據(jù)待拆分詞組的字數(shù)確定預設(shè)字數(shù)的選擇范圍,縮小了預設(shè)字數(shù)的選擇范圍,省略了不必要的提取、匹配步驟,提高了拆分詞組的效率。
進一步地,確定模塊50,還用于:按照預設(shè)字數(shù)由多到少的原則設(shè)置所述選擇范圍內(nèi)的預設(shè)字數(shù)的使用優(yōu)先級。
通過按照預設(shè)字數(shù)由多到少的原則設(shè)置所述選擇范圍內(nèi)的預設(shè)字數(shù)的使用優(yōu)先級,避免了由于預設(shè)詞匯數(shù)據(jù)庫中存在與所述詞匯的一部分匹配的詞匯而導致的詞組拆分錯誤;例如復姓“令狐”,姓氏數(shù)據(jù)庫中既有“令”又有“令狐”。
進一步地,所述待拆分詞組包括三個或三個以上詞匯,所述裝置還包括:
提取模塊20,用于根據(jù)預設(shè)策略繼續(xù)提取所述待拆分詞組剩余部分中的詞匯;
拆分模塊40,用于在提取的所述待拆分詞組剩余部分中的詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯一致時,在所述待拆分詞組剩余部分中拆分出所述詞匯。
通過根據(jù)預設(shè)策略繼續(xù)提取所述待拆分詞組剩余部分中的詞匯,在提取的所述待拆分詞組剩余部分中的詞匯與預設(shè)詞匯數(shù)據(jù)庫中的詞匯一致時,在所述待拆分詞組剩余部分中拆分出所述詞匯,能夠保證所述待拆分詞組被充分拆分,便于輸入信息的進一步細化管理。
裝置實施例里:本發(fā)明的方法的操作步驟與系統(tǒng)的結(jié)構(gòu)特征對應,可以相互參照,不再一一贅述。
以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動的情況下,即可以理解并實施。
通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實施方式可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件?;谶@樣的理解,上述技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在計算機可讀存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個實施例或者實施例的某些部分所述的方法。
最后應說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應當理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。