專利名稱:一種多指標(biāo)排序數(shù)據(jù)處理方法及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種多指標(biāo)排序數(shù)據(jù)處理方法及設(shè)備。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,會(huì)產(chǎn)生大量的包含指標(biāo)以及相應(yīng)指標(biāo)值的記錄信息,針對(duì)不同主體的相同指標(biāo),可按照對(duì)應(yīng)的指標(biāo)值對(duì)各主體進(jìn)行排序。例如對(duì)于銷售的商品,如果要按照商品銷售相關(guān)的指標(biāo),如銷售金額、商品的銷售數(shù)量對(duì)商品進(jìn)行排序,則進(jìn)行排序的商品之間具有某種共有的信息,可稱之為維度信息,如商品的類目、商品銷售的時(shí)間等,記錄信息中可記錄該商品的維度信息、指標(biāo)、指標(biāo)值以及表示該商品本身的主體信息(如商品標(biāo)識(shí)),表示具有相同維度信息的商品,可根據(jù)其中的指標(biāo)進(jìn)行排序。再例如對(duì)于學(xué)生的考試成績(jī),記錄信息中記錄的維度信息可以是需要進(jìn)行排序的各學(xué)生共有的信息,指標(biāo)可以是用于排序的各項(xiàng)科目,指標(biāo)值是學(xué)生各科目的成績(jī),如表I所示,為杭州市育才中學(xué)I年級(jí)4位學(xué)生在2011年期末考試各科成績(jī)的4條記錄信息,其中“杭州市”、“育才中學(xué)”、“I年級(jí)”、“2011年期末考試”是這4條記錄信息中的維度信息,用于表示進(jìn)行排序的學(xué)生所共有的信息;“兵甲、101”、“兵乙、202”、“張三、303”、“李四、505”是這4條記錄信息中的主體信息;“語(yǔ)文”、“數(shù)學(xué)”、“英語(yǔ)”是這4條記錄信息中的指標(biāo),4條記錄信息分別記錄各自的主體信息在各指標(biāo)下的指標(biāo)值,即考試成績(jī)。
權(quán)利要求
1.一種多指標(biāo)排序數(shù)據(jù)處理方法,其特征在于,所述方法包括 確定多條具有相同維度信息的第一記錄信息,其中,每條第一記錄信息中包含了主體信息、該主體信息對(duì)應(yīng)的至少兩個(gè)指標(biāo)、各指標(biāo)對(duì)應(yīng)的指標(biāo)值; 分別將每條第一記錄信息按照其中包含的指標(biāo)拆分為多條第二記錄信息,其中,一條第二記錄信息中包含一個(gè)指標(biāo)、與該指標(biāo)對(duì)應(yīng)的一個(gè)主體信息,以及該主體信息在該指標(biāo)下的指標(biāo)值; 將具有相同指標(biāo)的第二記錄信息按照包含的指標(biāo)值進(jìn)行排序。
2.如權(quán)利要求1所述的方法,其特征在于,將具有相同指標(biāo)的第二記錄信息按照包含的指標(biāo)值進(jìn)行排序之后,所述方法還包括 分別將具有相同主體信息的第二記錄信息合并為一條第一記錄信息,并顯示合并后的第一記錄信息中的主體信息對(duì)應(yīng)的各指標(biāo)的排序結(jié)果。
3.如權(quán)利要求1所述的方法,其特征在于,所述確定多條具有相同維度信息的第一記錄信息具體包括 將所述多條第一記錄信息劃分為至少一個(gè)信息集合,所述信息集合中包含的第一記錄信息具有相同的維度信息; 將任一所述的信息集合中的第一記錄信息作為確定的多條具有相同維度信息的第一記錄信息。
4.如權(quán)利要求1 3任一所述的方法,其特征在于,將第一記錄信息拆分為多條第二記錄信息之后,且將具有相同指標(biāo)的第二記錄信息按照包含的指標(biāo)值進(jìn)行排序之前,所述方法還包括 將拆分得到的第二記錄信息劃分為多個(gè)子集合,所述子集合中包含的第二記錄信息具有相同的指標(biāo); 將具有相同指標(biāo)的第二記錄信息按照包含的指標(biāo)值進(jìn)行排序,具體包括 針對(duì)每個(gè)子集合中的多條第二記錄信息,按照包含的指標(biāo)值進(jìn)行排序。
5.如權(quán)利要求4所述的方法,其特征在于,所述多指標(biāo)排序數(shù)據(jù)處理方法通過(guò)Hadoop中的映射-歸約Map-Reduce編程模型或Hive來(lái)實(shí)現(xiàn)。
6.如權(quán)利要求5所述的方法,其特征在于,將拆分得到的第二記錄信息劃分為多個(gè)子集合,具體包括 利用Map-Reduce中的KeyComparator類將拆分得到的第二記錄信息劃分為多個(gè)子集合; 針對(duì)每個(gè)子集合中的多條第二記錄信息,按照包含的指標(biāo)值進(jìn)行排序,具體包括 利用Map-Reduce中的KeyPartitioner類確定以并行和/或串行方式對(duì)各子集合中的第二記錄信息進(jìn)行排序; 利用Map-Reduce中的KeyValueComparator類針對(duì)每個(gè)子集合中的多條第二記錄信息,按照包含的指標(biāo)值進(jìn)行排序。
7.一種多指標(biāo)排序數(shù)據(jù)處理設(shè)備,其特征在于,所述設(shè)備包括 第一記錄信息確定模塊,用于確定多條具有相同維度信息的第一記錄信息,其中,每條第一記錄信息中包含了主體信息、該主體信息對(duì)應(yīng)的至少兩個(gè)指標(biāo)、各指標(biāo)對(duì)應(yīng)的指標(biāo)值;第二記錄信息生成模塊,用于分別將每條第一記錄信息按照其中包含的指標(biāo)拆分為多條第二記錄信息,其中,一條第二記錄信息中包含一個(gè)指標(biāo)、與該指標(biāo)對(duì)應(yīng)的一個(gè)主體信息,以及該主體信息在該指標(biāo)下的指標(biāo)值; 排序模塊,用于將具有相同指標(biāo)的第二記錄信息按照包含的指標(biāo)值進(jìn)行排序。
8.如權(quán)利要求7所述的設(shè)備,其特征在于,所述設(shè)備還包括 合并模塊,用于分別將具有相同主體信息的第二記錄信息合并為一條第一記錄信息,并顯示合并后的第一記錄信息中的主體信息對(duì)應(yīng)的各指標(biāo)的排序結(jié)果。
9.如權(quán)利要求7所述的設(shè)備,其特征在于,所述第一記錄信息確定模塊具體包括 信息集合劃分單元,用于將所述多條第一記錄信息劃分為至少一個(gè)信息集合,所述信息集合中包含的第一記錄信息具有相同的維度信息; 確定單元,用于將任一所述的信息集合中的第一記錄信息作為確定的多條具有相同維度信息的第一記錄信息。
10.如權(quán)利要求7 9任一所述的設(shè)備,其特征在于,所述設(shè)備還包括 子集合劃分模塊,用于將拆分得到的第二記錄信息劃分為多個(gè)子集合,所述子集合中包含的第二記錄信息具有相同的指標(biāo); 所述排序模塊,具體用于針對(duì)每個(gè)子集合中的多條第二記錄信息,按照包含的指標(biāo)值進(jìn)行排序。
全文摘要
本申請(qǐng)實(shí)施例提出一種多指標(biāo)排序數(shù)據(jù)處理方法及設(shè)備,將包含一個(gè)主體信息和多個(gè)指標(biāo)的第一記錄信息,按照指標(biāo)進(jìn)行拆分,得到多條包含一個(gè)主體信息和一個(gè)指標(biāo)的第二記錄信息,對(duì)第二記錄信息進(jìn)行排序。由于本申請(qǐng)的方案中,針對(duì)第二記錄信息進(jìn)行排序,因此,只需調(diào)用一次用于排序的函數(shù)就可以對(duì)各條第二記錄信息按照其中包含的指標(biāo)進(jìn)行排序,克服多次調(diào)用用于排序的函數(shù)所帶來(lái)的資源占用量大、排序時(shí)間長(zhǎng)、效率低的問(wèn)題。
文檔編號(hào)G06F17/30GK103064862SQ20111032543
公開(kāi)日2013年4月24日 申請(qǐng)日期2011年10月24日 優(yōu)先權(quán)日2011年10月24日
發(fā)明者黃明 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司