欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)處理方法及裝置的制造方法

文檔序號:8339608閱讀:222來源:國知局
一種數(shù)據(jù)處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請涉及數(shù)據(jù)處理領(lǐng)域,更具體地涉及一種數(shù)據(jù)處理方法及裝置。
【背景技術(shù)】
[0002]將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)一直是數(shù)據(jù)處理領(lǐng)域的難題之一,特別是中文地址信息的結(jié)構(gòu)化轉(zhuǎn)換問題。由于長期缺乏相關(guān)的規(guī)范制約,中文地址的表達方式差異極大。同一個地址,有時可以出現(xiàn)上百種表達方式,這無疑在很大程度上增加了地址信息標(biāo)準(zhǔn)化、結(jié)構(gòu)化的難度。目前,一些研究機構(gòu)、相關(guān)的技術(shù)研發(fā)公司在中文地址結(jié)構(gòu)化轉(zhuǎn)換方面上進行了一系列的探索研究,得到了一些地址信息的處理方法,如,使用隱馬爾可夫模型解決地址中文分詞問題、使用短語結(jié)構(gòu)分析法分析地址文本的句法結(jié)構(gòu)。再如,靈圖公司采用基于地址分詞的地址匹配方法來定位地址,該方法對地址分詞在預(yù)設(shè)詞典中按照特定的規(guī)則進行匹配,然后根據(jù)匹配出的地址找到對應(yīng)的經(jīng)緯度以便在地圖上進行定位,從而以這種方式解決中文地址信息的結(jié)構(gòu)化轉(zhuǎn)換問題。
[0003]但是,盡管存在上述技術(shù)方案,由于傳統(tǒng)的分詞方法是使用由專家根據(jù)經(jīng)驗和歷史數(shù)據(jù)總結(jié)而成的“詞典”,主要原理是根據(jù)關(guān)鍵字和分詞規(guī)則做匹配。因此,這是一個機械的匹配過程,其受限于詞典的完善程度,且不考慮詞語切分中的歧義情況,導(dǎo)致分詞結(jié)果不準(zhǔn)確;另外,現(xiàn)有的地址結(jié)構(gòu)化(或者地址拆分、地址匹配)方法均基于由專家總結(jié)而成的常規(guī)地址,這些方法主要是基于關(guān)鍵字及規(guī)則做匹配,但是由于研究數(shù)據(jù)有限,該匹配方法不能覆蓋到中文地址的多種表達方式。因此,對于中文地址信息的結(jié)構(gòu)化轉(zhuǎn)換問題,至今沒有一種很好的解決方案。
[0004]因此,在本領(lǐng)域中,需要一種能夠?qū)⒁远喾N表達方式出現(xiàn)的非結(jié)構(gòu)化的中文地址信息進行準(zhǔn)確的結(jié)構(gòu)化轉(zhuǎn)換的技術(shù),從而避免在現(xiàn)有技術(shù)中進行中文地址分詞以及中文地址結(jié)構(gòu)化不準(zhǔn)確的問題。

【發(fā)明內(nèi)容】

[0005]本申請的主要目的在于提供一種數(shù)據(jù)處理方法的技術(shù),以解決進行中文地址分詞以及中文地址結(jié)構(gòu)化不準(zhǔn)確的問題。
[0006]根據(jù)本申請的第一方面,提供了一種數(shù)據(jù)處理方法,其特征在于,包括:基于分詞參考數(shù)據(jù)對非結(jié)構(gòu)化地址進行分詞處理以獲得地址分詞;以及基于短語結(jié)構(gòu)參考數(shù)據(jù)對地址分詞進行結(jié)構(gòu)化處理以獲得與非結(jié)構(gòu)化地址相對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)。
[0007]根據(jù)本申請的第二方面,提供了一種數(shù)據(jù)處理裝置,其特征在于,包括:分詞處理模塊,用于基于分詞參考數(shù)據(jù)對非結(jié)構(gòu)化地址進行分詞處理以獲得地址分詞;以及結(jié)構(gòu)化處理模塊,用于基于短語結(jié)構(gòu)參考數(shù)據(jù)對地址分詞進行結(jié)構(gòu)化處理以獲得與非結(jié)構(gòu)化地址相對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)。
[0008]與現(xiàn)有技術(shù)相比,根據(jù)本申請的技術(shù)方案,能夠使對中文地址的分詞結(jié)果更加合理、準(zhǔn)確,避免了現(xiàn)有技術(shù)中中文地址結(jié)構(gòu)化不準(zhǔn)確的問題,并且,可以基于與非結(jié)構(gòu)化地址相對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)獲得更加合理、準(zhǔn)確的地址樹和地址分類。
【附圖說明】
[0009]此處所說明的附圖用來提供對本申請的進一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:
[0010]圖1是根據(jù)本申請一個實施例的數(shù)據(jù)處理方法100的流程圖;
[0011]圖2是根據(jù)本申請的更詳細(xì)實施例的數(shù)據(jù)處理方法200的流程圖;
[0012]圖3是根據(jù)本申請的更詳細(xì)實施例的數(shù)據(jù)處理方法300的流程圖;
[0013]圖4為根據(jù)本申請一個實施例的地址樹結(jié)構(gòu)示意圖;
[0014]圖5a為根據(jù)本申請一個實施例的部分主干節(jié)點及其對應(yīng)的子節(jié)點的示意圖;
[0015]圖5b為根據(jù)本申請一個實施例的部分主干節(jié)點及其對應(yīng)的子節(jié)點的示意圖;
[0016]圖6為根據(jù)本申請一個實施例的地址樹參考數(shù)據(jù)訓(xùn)練方法600的流程圖
[0017]圖7為根據(jù)本申請一個實施例的地址樹示意圖;
[0018]圖8為根據(jù)本申請一個實施例的地址分類樣本訓(xùn)練方法800的流程圖;
[0019]圖9為根據(jù)本申請一個實施例的地址分類方法900的流程圖;以及
[0020]圖10是根據(jù)本申請一個實施例的數(shù)據(jù)處理裝置1000的框圖。
【具體實施方式】
[0021]本申請的主要思想在于,基于通過地址分詞樣本訓(xùn)練得到分詞參考數(shù)據(jù)對非結(jié)構(gòu)化地址進行分詞處理以獲得地址分詞;以及基于通過地址短語結(jié)構(gòu)樣本訓(xùn)練得到短語結(jié)構(gòu)參考數(shù)據(jù)對地址分詞進行結(jié)構(gòu)化處理,可以獲得與非結(jié)構(gòu)化地址相對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)。該技術(shù)方案能夠使對中文地址的分詞結(jié)果更加合理、準(zhǔn)確,從而避免現(xiàn)有技術(shù)中中文地址結(jié)構(gòu)化不準(zhǔn)確的問題。
[0022]為使本申請的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本申請具體實施例及相應(yīng)的附圖對本申請技術(shù)方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
[0023]為了方便下文描述,首先介紹本申請的各個實施方式中所涉及的術(shù)語的解釋。
[0024]分詞,指的是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞,指的是將一個漢字序列切分成一個一個單獨的詞。
[0025]需要說明的是,在本申請中,所有提及“分詞”或與“分詞”相關(guān)的步驟、裝置,均指的是中文分詞,下文不在贅述。
[0026]非結(jié)構(gòu)化數(shù)據(jù),是相對于結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù)。
[0027]參考圖1,圖1是根據(jù)本申請一個實施例的數(shù)據(jù)處理方法100的流程圖。如圖1所示,方法100開始于步驟101。
[0028]在步驟101,基于分詞參考數(shù)據(jù)對非結(jié)構(gòu)化地址進行分詞處理以獲得地址分詞。
[0029]具體而言,在對非結(jié)構(gòu)化地址進行結(jié)構(gòu)化轉(zhuǎn)換的過程中,首先需要將非結(jié)構(gòu)化地址進行分詞處理,該分詞處理的過程是基于分詞參考數(shù)據(jù)完成的。在步驟101中,經(jīng)過分詞處理的非結(jié)構(gòu)化地址將被切分成一個一個單獨的詞,而分詞參考數(shù)據(jù)相當(dāng)于切分非結(jié)構(gòu)化地址所依據(jù)的規(guī)則和模型。
[0030]根據(jù)本申請的一個實施例,可以通過利用結(jié)構(gòu)化地址樣本數(shù)據(jù)進行地址分詞樣本訓(xùn)練以得到分詞參考數(shù)據(jù)。
[0031]具體而言,地址分詞樣本訓(xùn)練的過程可以利用如現(xiàn)有技術(shù)中的隱馬爾科夫模型來完成。利用該模型對大量結(jié)構(gòu)化地址樣本數(shù)據(jù)進行訓(xùn)練,可以通過統(tǒng)計結(jié)構(gòu)化地址中每一個字的情況,推測出字和字之間能否結(jié)合成詞語。這樣,可以得到分詞參考數(shù)據(jù)(或分詞模型)。
[0032]得到分詞參考數(shù)據(jù)后,就可以基于分詞參考數(shù)據(jù)對非結(jié)構(gòu)化地址進行分詞處理,從而獲得地址分詞。
[0033]例如非結(jié)構(gòu)化地址:上海上海市閔行區(qū)新村路50弄滬太新村106號322233,該地址基于分詞參考數(shù)據(jù)對該地址進行分詞處理后的結(jié)果為:上海/上海市/閔行區(qū)/新村/路/50/弄/滬太/新村/106/號/322233。
[0034]根據(jù)本申請的一個實施例,在分詞處理過程中可以進行歧義處理。
[0035]具體來說,在分詞處理的過程中,當(dāng)對同一非結(jié)構(gòu)化地址(數(shù)據(jù))出現(xiàn)多種拆分結(jié)果時,可以通過計算各種拆分結(jié)果的概率,取最大概率所對應(yīng)的拆分結(jié)果作為最終分詞結(jié)果。例如:箱包和服裝,可拆分為:箱包/和服/裝,箱包/和/服裝、或其他拆分結(jié)果。根據(jù)對各拆分結(jié)果概率的統(tǒng)計,得到第一種拆分結(jié)果的概率為1.34%,第二種拆分結(jié)果的概率為37.04%,其余拆分結(jié)果均小于第二種拆分結(jié)果的概率。因此,最終的分詞結(jié)果為第二種拆分結(jié)果。在本發(fā)明的非結(jié)構(gòu)化地址的分詞處理過程中,可以利用上述的歧義處理,從而使得分詞更加合理。
[0036]在步驟102,基于短語結(jié)構(gòu)參考數(shù)據(jù)對地址分詞進行結(jié)構(gòu)化處理以獲得與非結(jié)構(gòu)化地址相對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)。
[0037]對于非結(jié)構(gòu)化地址,可以用多個相鄰的詞來描述其地址結(jié)構(gòu)。通常來說,地址結(jié)構(gòu)的構(gòu)成可以為:
[0038]地址元素=專有名稱+類型名稱+后綴名稱
[0039]例如:五道口金融學(xué)院=五道口(專有名詞)+金融(類型名詞)+學(xué)院(后綴名稱)
[0040]在步驟102中,可以對步驟101中得到的地址分詞進行結(jié)構(gòu)化處理。
[0041]具體來說,該結(jié)構(gòu)化處理的過程是基于短語結(jié)構(gòu)參考數(shù)據(jù)完成的。在步驟102中,經(jīng)過結(jié)構(gòu)化處理的地址分詞將被合并成一個地址結(jié)構(gòu),而短語結(jié)構(gòu)參考數(shù)據(jù)相當(dāng)于合并分詞地址所依據(jù)的規(guī)則和模型。
[0042]根據(jù)本申請的一個實施例,可以通過利用結(jié)構(gòu)化地址數(shù)據(jù)樣本進行地址短語結(jié)構(gòu)樣本訓(xùn)練得到短語結(jié)構(gòu)參考數(shù)據(jù)。
[0043]具體而言,與地址分詞樣本訓(xùn)練類似,地址短語結(jié)構(gòu)樣本訓(xùn)練的過程也可以利用如現(xiàn)有技術(shù)中的隱馬爾科夫模型來完成。利用該模型對大量結(jié)構(gòu)化地址數(shù)據(jù)樣本進行訓(xùn)練,可以通過觀察分詞地址中各詞語的類型等情況,推測出哪些詞語可以合并為一個結(jié)構(gòu)。這樣,可以得到短語結(jié)構(gòu)參考數(shù)據(jù)(或短語結(jié)構(gòu)模型),該短語結(jié)構(gòu)參考數(shù)據(jù)的模式為“地址元素=專有名稱+類型名稱+后綴名稱”
[0044]得到短語結(jié)構(gòu)參考數(shù)據(jù)后,就可以基于短語結(jié)構(gòu)參考數(shù)據(jù)對地址分詞進行結(jié)構(gòu)化處理,從而獲得與非結(jié)構(gòu)化地址相對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)。
[0045]如步驟101中的示例,地址:上海上海市閔行區(qū)新村路50弄滬太新村106號322233,將該地址進行分
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
西宁市| 枣庄市| 弋阳县| 偃师市| 仁怀市| 扬中市| 界首市| 若尔盖县| 深州市| 扶绥县| 韩城市| 吴川市| 神木县| 全州县| 阳朔县| 寿光市| 承德市| 广州市| 定兴县| 呼伦贝尔市| 石棉县| 宣武区| 上思县| 长宁县| 临泽县| 磐安县| 封丘县| 会昌县| 鄂尔多斯市| 高雄市| 金乡县| 甘洛县| 石嘴山市| 汉沽区| 汾西县| 宜春市| 诸暨市| 黎川县| 浦江县| 哈密市| 义马市|