欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)處理方法及裝置的制造方法_3

文檔序號(hào):8339608閱讀:來(lái)源:國(guó)知局
非結(jié)構(gòu)化地址相對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)根據(jù)經(jīng)過(guò)訓(xùn)練而得到的樹(shù)結(jié)構(gòu)參考數(shù)據(jù)映射為地址樹(shù),可以獲得與非結(jié)構(gòu)化地址相對(duì)應(yīng)的結(jié)構(gòu)化地址。相對(duì)于現(xiàn)有技術(shù)而言,這種經(jīng)過(guò)大規(guī)模樣本訓(xùn)練而得到的樹(shù)結(jié)構(gòu)參考數(shù)據(jù)(地址樹(shù)結(jié)構(gòu))可以覆蓋各種類(lèi)型的非結(jié)構(gòu)化地址,即可以將各種中文描述的地址轉(zhuǎn)換為結(jié)構(gòu)化地址。
[0089]圖3是根據(jù)本申請(qǐng)的更詳細(xì)實(shí)施例的數(shù)據(jù)處理方法300的流程圖。如圖3所示,方法300開(kāi)始于步驟102。
[0090]由于圖3中對(duì)步驟102與圖1中對(duì)步驟102的處理相同,故此處不再贅述。
[0091]接下來(lái),在步驟301,基于分類(lèi)參考數(shù)據(jù)對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分類(lèi),以獲取地址分類(lèi)數(shù)據(jù)。
[0092]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,可以通過(guò)地址分類(lèi)樣本訓(xùn)練得到分類(lèi)參考數(shù)據(jù)。
[0093]為了更好地理解利用分類(lèi)參考數(shù)據(jù)對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分類(lèi)以獲取地址分類(lèi)數(shù)據(jù)的處理方法,首先對(duì)分類(lèi)參考數(shù)據(jù)的訓(xùn)練方法進(jìn)行描述。
[0094]圖8為根據(jù)本申請(qǐng)一個(gè)實(shí)施例的地址分類(lèi)樣本訓(xùn)練方法800的流程圖。如圖8所示,在步驟801,從大規(guī)模的樣本數(shù)據(jù)中提取詞語(yǔ)及詞語(yǔ)的屬性。在這里,樣本數(shù)據(jù)是大量的已經(jīng)經(jīng)過(guò)結(jié)構(gòu)化處理的與非結(jié)構(gòu)化地址相對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù),每個(gè)樣本數(shù)據(jù)相當(dāng)于一個(gè)地址數(shù)據(jù),每個(gè)地址數(shù)據(jù)攜帶一個(gè)與該其相對(duì)應(yīng)的分類(lèi)。詞語(yǔ)的屬性包括各詞語(yǔ)在其所在結(jié)構(gòu)中的位置以及各詞語(yǔ)結(jié)構(gòu)在該結(jié)構(gòu)化數(shù)據(jù)中的位置這兩個(gè)屬性。在步驟802,將各樣本數(shù)據(jù)(地址數(shù)據(jù))所對(duì)應(yīng)的分類(lèi)提取出來(lái)。在步驟803,基于詞語(yǔ)的屬性和提取出的分類(lèi)計(jì)算各詞語(yǔ)在各個(gè)分類(lèi)下出現(xiàn)的概率(權(quán)重),可以得到分類(lèi)參考數(shù)據(jù)。在步驟804,可以通過(guò)詞語(yǔ)間的互信息分析,確定在同一結(jié)構(gòu)中,哪些詞語(yǔ)之間的相關(guān)性較強(qiáng),從而通過(guò)合并詞語(yǔ)等方法來(lái)降低各詞語(yǔ)之間的相關(guān)性,進(jìn)而調(diào)整詞語(yǔ)的屬性。如,在大規(guī)模樣本數(shù)據(jù)中,高頻率同時(shí)出現(xiàn)且相鄰的兩個(gè)詞語(yǔ)可以確定為它們之間的相關(guān)性較強(qiáng)。在步驟805,可以使用另一批樣本數(shù)據(jù)對(duì)步驟804所得到的分類(lèi)參考數(shù)據(jù)進(jìn)行測(cè)試。在步驟806,判斷測(cè)試結(jié)果是否達(dá)到預(yù)先設(shè)定的正確率。如果達(dá)到預(yù)設(shè)正確率,則進(jìn)入步驟807,將該分類(lèi)參考數(shù)據(jù)確定為最終可以使用的分類(lèi)參考數(shù)據(jù)。如未達(dá)到預(yù)設(shè)正確率,則返回步驟801,可以在增加樣本數(shù)量后,重新進(jìn)行步驟801至步驟807。
[0095]需要說(shuō)明的是,步驟804是可選步驟,進(jìn)行步驟804的目的在于降低各詞語(yǔ)之間的相關(guān)性,進(jìn)而調(diào)整詞語(yǔ)的屬性。另外,當(dāng)在步驟806中確定不符合預(yù)先設(shè)定的正確率時(shí),也可以通過(guò)調(diào)整步驟804中的互信息分析過(guò)程中的相關(guān)性高低,來(lái)影響測(cè)試驗(yàn)證的結(jié)果。
[0096]如上,在通過(guò)訓(xùn)練方法得到分類(lèi)參考數(shù)據(jù)后,可以進(jìn)行步驟301,即,基于分類(lèi)參考數(shù)據(jù)對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分類(lèi),以獲取地址分類(lèi)數(shù)據(jù)。下面將利用圖9的示例來(lái)具體解釋該分類(lèi)過(guò)程。
[0097]圖9為根據(jù)本申請(qǐng)一個(gè)實(shí)施例的地址分類(lèi)方法900的流程圖。方法900的流程與地址分類(lèi)樣本訓(xùn)練的方法800類(lèi)似。
[0098]如圖9所示,方法900開(kāi)始于步驟901。在步驟901,從結(jié)構(gòu)化的待分類(lèi)數(shù)據(jù)中的一個(gè)結(jié)構(gòu)提取詞語(yǔ)及詞語(yǔ)的屬性,此步驟的處理與圖8中步驟801的處理類(lèi)似,此處不再贅述。在步驟902,基于分類(lèi)參考數(shù)據(jù),匹配出各詞語(yǔ)在其屬性下所對(duì)應(yīng)的所有分類(lèi)。然后,進(jìn)入步驟903,基于分類(lèi)參考數(shù)據(jù),提取各詞語(yǔ)在各個(gè)分類(lèi)下的權(quán)重(概率)。在步驟904,匯總各個(gè)分類(lèi)下的權(quán)重,得到可能的分類(lèi)下的權(quán)重總和。在步驟905,比較各分類(lèi)下的權(quán)重總和,取權(quán)重總和最大值所對(duì)應(yīng)的分類(lèi)作為該結(jié)構(gòu)的分類(lèi)。在步驟906,確認(rèn)是否還有其他結(jié)構(gòu)需要分類(lèi),如果沒(méi)有,則進(jìn)入步驟907。如果還有其他結(jié)構(gòu),則返回步驟901,直到對(duì)所有結(jié)構(gòu)都完成分類(lèi)。在步驟907,確定各結(jié)構(gòu)在該結(jié)構(gòu)化的待分類(lèi)數(shù)據(jù)中的位置權(quán)重,該權(quán)重可以是預(yù)先設(shè)定的數(shù)值,也可以是經(jīng)過(guò)其他方法計(jì)算出來(lái)的。權(quán)重的計(jì)算方法是使用樣本結(jié)構(gòu)位置與地址最終分類(lèi)的信息熵來(lái)計(jì)算,熵越高,所獲得的權(quán)重越小,反之則越大。為了方便計(jì)算,一般情況下,可以預(yù)設(shè)倒數(shù)第二個(gè)結(jié)構(gòu)的權(quán)重為I。在步驟908,基于對(duì)每個(gè)結(jié)構(gòu)的分類(lèi)結(jié)果和每個(gè)結(jié)構(gòu)在待分類(lèi)數(shù)據(jù)中的位置權(quán)重,可以得到該待分類(lèi)數(shù)據(jù)(地址)最終的地址分類(lèi)數(shù)據(jù)(結(jié)果)。
[0099]例如,一個(gè)待分類(lèi)的非結(jié)構(gòu)化地址為“西湖國(guó)際大廈巴依拉拉有限公司”,根據(jù)如圖1所示的數(shù)據(jù)處理方法100對(duì)該非結(jié)構(gòu)化地址進(jìn)行處理后,得到與該非結(jié)構(gòu)化地址相對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)“ K西湖:5/)(國(guó)際:I/)(大廈:8/) 8} {(巴依拉拉:2/)(有限:I/)(公司:8/)8} ”,之后的分類(lèi)步驟具體如下:
[0100]I)從上述結(jié)構(gòu)化數(shù)據(jù)中的一個(gè)結(jié)構(gòu)提取各個(gè)詞語(yǔ)(公司、有限、巴依拉拉)以及它們各自的屬性,該屬性包括這些詞語(yǔ)在其所在結(jié)構(gòu)中的位置以及各詞語(yǔ)結(jié)構(gòu)“ K西湖:5/)(國(guó)際:1/)(大廈:8/)8} ”和“(巴依拉拉:2/)(有限:1/)(公司:8/)8} ”在該結(jié)構(gòu)化數(shù)據(jù)中的位置;
[0101]2)基于分類(lèi)參考數(shù)據(jù),可以匹配出在{(巴依拉拉:2/)(有限:1/)(公司:8/)8}這個(gè)結(jié)構(gòu)中,各詞語(yǔ)(公司、有限、巴依拉拉)在其屬性下所對(duì)應(yīng)的所有分類(lèi):
[0102]“公司”對(duì)應(yīng)的分類(lèi)可以包括:160400(保險(xiǎn)公司)、170200(公司企業(yè))、150200(交通運(yùn)輸);
[0103]“有限”對(duì)應(yīng)的分類(lèi)可以包括:160400(保險(xiǎn)公司)、170200(公司企業(yè));
[0104]“巴依拉拉”對(duì)應(yīng)的分類(lèi)可以包括:170200(公司企業(yè))、071300(攝影沖印)、050100(中餐廳);
[0105]注:上述分類(lèi)中的數(shù)字為分類(lèi)參考數(shù)據(jù)中預(yù)先設(shè)定的類(lèi)型代碼。
[0106]3)基于分類(lèi)參考數(shù)據(jù),可以提取各個(gè)詞語(yǔ)在各個(gè)分類(lèi)下的權(quán)重(概率):
[0107]“公司”:170200 (公司企業(yè))的權(quán)重為2.69662 ;
[0108]160400 (保險(xiǎn)公司)的權(quán)重為0.49342 ;
[0109]150200 (交通運(yùn)輸)的權(quán)重為0.13329 ;
[0110]“有限”:170200 (公司企業(yè))的權(quán)重為1.49608 ;
[0111]160400 (保險(xiǎn)公司)的權(quán)重為0.02835 ;
[0112]“巴依拉拉”:170200 (公司企業(yè))的權(quán)重為0.09866 ;
[0113]071300 (攝影沖印)的權(quán)重為0.06347 ;
[0114]050100 (中餐廳)的權(quán)重為 0.31713 ;
[0115]4)匯總各個(gè)分類(lèi)下的權(quán)重:
[0116]170200 (公司企業(yè))的權(quán)重匯總為 4.29136 (2.69662+1.49608+0.09866);
[0117]150200(交通運(yùn)輸)的權(quán)重匯總為0.13329 ;
[0118]160400 (保險(xiǎn)公司)的權(quán)重匯總為 0.52177 (0.49342+0.02835);
[0119]071300 (攝影沖印)的權(quán)重匯總為0.06347 ;
[0120]050100 (中餐廳)的權(quán)重匯總為0.31713 ;
[0121]5)取權(quán)重最大值所對(duì)應(yīng)的分類(lèi)作為該結(jié)構(gòu)的分類(lèi)及該分類(lèi)的權(quán)重,S卩:{(巴依拉拉:2/)(有限:1/)(公司:8/)8}的分類(lèi)為170200 (公司企業(yè)),權(quán)重為4.29136 ;
[0122]6)與上述步驟I)至4)的處理相同,對(duì)另一個(gè)結(jié)構(gòu)K西湖:5/)(國(guó)際:1/)(大廈:8/)8}進(jìn)行分類(lèi),得到該結(jié)構(gòu)的分類(lèi)為120201(寫(xiě)字樓),權(quán)重為1.73981 ;
[0123]7)根據(jù)預(yù)先確定的權(quán)重值,確定各結(jié)構(gòu)在待分類(lèi)的結(jié)構(gòu)化數(shù)據(jù)中的位置權(quán)重:
[0124]{(巴依拉拉:2/)(有限:1/)(公司:8/)8}的位置權(quán)重為1.5 ;
[0125]{(西湖:5/)(國(guó)際:1/)(大廈:8/)8}的位置權(quán)重為I ;
[0126]8)基于各結(jié)構(gòu)的分類(lèi)及該分類(lèi)的權(quán)重以及各結(jié)構(gòu)在待分類(lèi)的結(jié)構(gòu)化數(shù)據(jù)中的位置權(quán)重,計(jì)算得到最終的分類(lèi)結(jié)果(數(shù)據(jù)):
[0127]{(巴依拉拉:2/)(有限:1/)(公司:8/)8}的分類(lèi)為170200 (公司企業(yè)),權(quán)重為6.43704 (4.29136*1.5);
[0128]{(西湖:5/)(國(guó)際:I/)(大廈:8/) 8}的分類(lèi)為120201 (寫(xiě)字樓),權(quán)重為1.73981(1.73981*1.);
[0129]比較以上兩個(gè)結(jié)構(gòu)的權(quán)重值,取最大值所對(duì)應(yīng)的分類(lèi)作為該待分類(lèi)數(shù)據(jù)的最終分類(lèi)結(jié)果(數(shù)據(jù)),即,170200 (公司企業(yè))。
[0130]至此,描述了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的數(shù)據(jù)處理方法300的流程圖。其中基于經(jīng)過(guò)訓(xùn)練而得到的分類(lèi)參考數(shù)據(jù)對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分類(lèi),以獲取地址分類(lèi)數(shù)據(jù)。相對(duì)于現(xiàn)有技術(shù)而言,這種經(jīng)過(guò)大規(guī)模樣本訓(xùn)練而得到的分類(lèi)參考數(shù)據(jù)可以將各種類(lèi)型的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分類(lèi),進(jìn)而可以將各種非結(jié)構(gòu)化地址進(jìn)行分類(lèi)。
[0131]圖10是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的數(shù)據(jù)處理的裝置1000的框圖。
[0132]如圖10所示,裝置1000可以包括:分詞處理模塊1010,用于基于分詞參考數(shù)據(jù)對(duì)非結(jié)構(gòu)化地址進(jìn)行分詞處理以獲得地址分詞;以及結(jié)構(gòu)化處理模塊1020,用于基于短語(yǔ)結(jié)構(gòu)參考數(shù)據(jù)對(duì)地址分詞進(jìn)行結(jié)構(gòu)化處理以獲得與非結(jié)構(gòu)化地址相對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)。
[0133]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,裝置1000可以進(jìn)一步包括:地址樹(shù)節(jié)點(diǎn)數(shù)據(jù)
當(dāng)前第3頁(yè)1 2 3 4 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
石棉县| 凤翔县| 凌海市| 门源| 宁晋县| 鹤庆县| 饶平县| 恭城| 郧西县| 吉木萨尔县| 乾安县| 宁乡县| 松潘县| 丘北县| 南郑县| 会东县| 利川市| 南靖县| 白河县| 周宁县| 巴马| 秭归县| 江永县| 成都市| 徐水县| 威宁| 灯塔市| 纳雍县| 平度市| 洪洞县| 和田市| 贵州省| 孟连| 垣曲县| 崇文区| 黄冈市| 阳曲县| 威远县| 安顺市| 永善县| 湘潭县|