欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分詞方法和裝置的制造方法

文檔序號(hào):9506164閱讀:315來(lái)源:國(guó)知局
分詞方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種分詞方法和裝置。
【背景技術(shù)】
[0002]在地圖導(dǎo)航類(lèi)的產(chǎn)品中,常常需要搜索信息點(diǎn)(Point Of Interest,P0I),在地理信息系統(tǒng)中,一個(gè)Ρ0Ι可以是一棟房子、一個(gè)商鋪、一個(gè)郵筒、一個(gè)公交站等。由于用戶(hù)輸入的地名通常不是標(biāo)準(zhǔn)的Ρ0Ι,直接匹配數(shù)據(jù)庫(kù)中的Ρ0Ι的方式難以獲取用戶(hù)需要的查詢(xún)結(jié)果。為了獲取用戶(hù)需要的查詢(xún)結(jié)果,通常會(huì)做后處理匹配,得到一個(gè)模糊近似的結(jié)果作為查詢(xún)結(jié)果。在后處理匹配時(shí)需要對(duì)數(shù)據(jù)庫(kù)中的Ρ0Ι進(jìn)行分詞,分詞性能的好壞直接影響后處理匹配的結(jié)果。
[0003]現(xiàn)有的分詞方法通常是用第三方的分詞詞典對(duì)Ρ0Ι進(jìn)行分詞,但是分詞效果并不理想。

【發(fā)明內(nèi)容】

[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
[0005]為此,本發(fā)明的一個(gè)目的在于提出一種分詞方法,該方法可以提高分詞效果。
[0006]本發(fā)明的另一個(gè)目的在于提出一種分詞裝置。
[0007]為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的分詞方法,包括:根據(jù)已有的詞條建立初始的分詞詞典;獲取第一詞條集合,在所述第一詞條集合中選擇滿(mǎn)足預(yù)設(shè)條件的詞條,以及,獲取分詞詞典,采用獲取的分詞詞典對(duì)所述滿(mǎn)足預(yù)設(shè)條件的詞條進(jìn)行分詞,并用分詞后的詞條更新獲取的分詞詞典,其中,初始的第一詞條集合由已有的詞條組成,以及,初始獲取的分詞詞典是所述初始的分詞詞典;采用更新后的分詞詞典對(duì)所述第一詞條集合中的詞條進(jìn)行分詞,根據(jù)分詞后的詞條獲取第二詞條集合;在確定滿(mǎn)足收斂條件時(shí),根據(jù)所述第二詞條集合獲取分詞結(jié)果。
[0008]本發(fā)明第一方面實(shí)施例提出的分詞方法,通過(guò)已有的詞條建立初始的分詞詞典,并根據(jù)對(duì)滿(mǎn)足預(yù)設(shè)條件的詞條進(jìn)行分詞后的詞條更新分詞詞典,以及根據(jù)更新后的分詞詞典進(jìn)行分詞,可以根據(jù)已有的詞條本身進(jìn)行分詞,相對(duì)于第三方詞典的方式,可以提高詞典的匹配度和準(zhǔn)確度,從而提高分詞效果。
[0009]為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的分詞裝置,包括:建立模塊,用于根據(jù)已有的詞條建立初始的分詞詞典;更新模塊,用于獲取第一詞條集合,在所述第一詞條集合中選擇滿(mǎn)足預(yù)設(shè)條件的詞條,以及,獲取分詞詞典,采用獲取的分詞詞典對(duì)所述滿(mǎn)足預(yù)設(shè)條件的詞條進(jìn)行分詞,并用分詞后的詞條更新獲取的分詞詞典,其中,初始的第一詞條集合由已有的詞條組成,以及,初始獲取的分詞詞典是所述初始的分詞詞典;分詞模塊,用于采用更新后的分詞詞典對(duì)所述第一詞條集合中的詞條進(jìn)行分詞,根據(jù)分詞后的詞條獲取第二詞條集合;獲取模塊,用于在確定滿(mǎn)足收斂條件時(shí),根據(jù)所述第二詞條集合獲取分詞結(jié)果Ο
[0010]本發(fā)明第二方面實(shí)施例提出的分詞裝置,通過(guò)已有的詞條建立初始的分詞詞典,并根據(jù)對(duì)滿(mǎn)足預(yù)設(shè)條件的詞條進(jìn)行分詞后的詞條更新分詞詞典,以及根據(jù)更新后的分詞詞典進(jìn)行分詞,可以根據(jù)已有的詞條本身進(jìn)行分詞,相對(duì)于第三方詞典的方式,可以提高詞典的匹配度和準(zhǔn)確度,從而提高分詞效果。
[0011]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0013]圖1是本發(fā)明一實(shí)施例提出的分詞方法的流程示意圖;
[0014]圖2是本發(fā)明另一實(shí)施例提出的分詞方法的流程示意圖;
[0015]圖3是本發(fā)明另一實(shí)施例提出的分詞裝置的結(jié)構(gòu)示意圖;
[0016]圖4是本發(fā)明另一實(shí)施例提出的分詞裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0017]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類(lèi)似的標(biāo)號(hào)表示相同或類(lèi)似的模塊或具有相同或類(lèi)似功能的模塊。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書(shū)的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0018]圖1是本發(fā)明一實(shí)施例提出的分詞方法的流程示意圖,該方法包括:
[0019]S11:根據(jù)已有的詞條建立初始的分詞詞典。
[0020]例如,由所有的已有的詞條組成初始的分詞詞典,初始的分詞詞典中的每個(gè)詞條是每個(gè)已有的詞條。
[0021]S12:獲取第一詞條集合,在所述第一詞條集合中選擇滿(mǎn)足預(yù)設(shè)條件的詞條,以及,獲取分詞詞典,采用獲取的分詞詞典對(duì)所述滿(mǎn)足預(yù)設(shè)條件的詞條進(jìn)行分詞,并用分詞后的詞條更新獲取的分詞詞典,其中,初始的第一詞條集合由已有的詞條組成,以及,初始獲取的分詞詞典是所述初始的分詞詞典。
[0022]在獲取已有的詞條時(shí),還可以獲取已有的詞條的相關(guān)信息,相關(guān)信息例如包括:長(zhǎng)度和詞頻。
[0023]滿(mǎn)足預(yù)設(shè)條件的詞條例如包括:長(zhǎng)度大于長(zhǎng)度閾值的詞條,和/或,詞頻大于詞頻閾值的詞條。
[0024]采用獲取的分詞詞典對(duì)滿(mǎn)足預(yù)設(shè)條件的詞條進(jìn)行分詞時(shí),使用最大詞條原則,例如,對(duì)詞條A進(jìn)行分詞時(shí),使用獲取的分詞詞典中除詞條A之外的其他詞條中長(zhǎng)度最大的詞條進(jìn)行分詞。
[0025]用分詞后的詞條更新獲取的分詞詞典例如包括:在獲取的分詞詞典中,用分詞后的詞條替換相應(yīng)的被分詞的詞條,例如,對(duì)詞條A進(jìn)行分詞后得到詞條B和詞條C,則在獲取的分詞詞典中添加詞條B和詞條C,且刪除詞條A。另外,如果替換的詞條中存在相同的詞條,則還需要進(jìn)行去重處理。例如,對(duì)詞條D進(jìn)行分詞后得到詞條B和詞條E,由于詞條B存在重復(fù),則可以在更新后的分詞詞典中只保留一個(gè)詞條B,刪除其余重復(fù)的詞條B。
[0026]S13:采用更新后的分詞詞典對(duì)所述第一詞條集合中的詞條進(jìn)行分詞,根據(jù)分詞后的詞條獲取第二詞條集合。
[0027]在獲取更新后的分詞詞典后,可以用該更新后的分詞詞典對(duì)第一詞條集合中的每個(gè)詞條進(jìn)行分詞,得到分詞后的詞條。在得到分詞后的詞條后可以進(jìn)行去重處理,由去重后的詞條組成第二詞條集合。去重后,相同詞條的詞頻累加更新。
[0028]S14:在確定滿(mǎn)足收斂條件時(shí),根據(jù)所述第二詞條集合獲取分詞結(jié)果。
[0029]假設(shè)第一詞條集合的詞條總數(shù)是N1,第二詞條集合的詞條總數(shù)是N2,則詞條增加率是(N2-N1)/N1,另外,在上述步驟中獲取滿(mǎn)足預(yù)設(shè)條件的詞條時(shí)會(huì)涉及長(zhǎng)度閾值,則當(dāng)詞條增加率小于或等于預(yù)設(shè)詞條增加率閾值,且長(zhǎng)度閾值小于或等于預(yù)設(shè)的第一值時(shí),確定滿(mǎn)足收斂條件。
[0030]根據(jù)所述第二詞條集合獲取分詞結(jié)果例如包括:在第二詞條集合中,去除詞頻小于預(yù)設(shè)值的詞條,將剩余的詞條作為分詞結(jié)果。
[0031 ] 本實(shí)施例的方法可以應(yīng)用到Ρ0Ι分詞中,此時(shí),詞條具體是指Ρ0Ι,從而提高后處理匹配的性能。
[0032]本實(shí)施例的方法也可以應(yīng)用到語(yǔ)音識(shí)別的語(yǔ)言模型中,此時(shí),詞條具體是指用于建立
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
太谷县| 安新县| 阿尔山市| 泽普县| 华亭县| 水城县| 武功县| 温宿县| 南充市| 郧西县| 鄂托克旗| 来宾市| 偃师市| 浪卡子县| 新干县| 贵州省| 金门县| 河源市| 濮阳市| 平顶山市| 桃园县| 泸水县| 水富县| 九龙县| 当雄县| 云林县| 巨野县| 略阳县| 宿州市| 镇宁| 绥棱县| 恩平市| 枣阳市| 清水河县| 富平县| 炎陵县| 三穗县| 宕昌县| 民和| 夏河县| 泽库县|