用于將數(shù)據(jù)記錄分組的設(shè)備、系統(tǒng)以及方法
【專利說明】用于將數(shù)據(jù)記錄分組的設(shè)備、系統(tǒng)以及方法
[0001]相關(guān)申請的交叉引用
[0002]本申請根據(jù)35U.S.C.§119(e)要求先前提交日期的權(quán)益,如下:
[0003]?在 2013年 3 月15 日提交的,名稱為“SYSTEM FOR ANALYZING AND USINGLOCAT1N BASED BEHAV1R” 的美國臨時(shí)申請N0.61/799,986;
[0004]?在 2013年 3 月15 日提交的,名稱為“GEOGRAPHIC LOCAT1N DESCRIPTOR ANDLINKER”的美國臨時(shí)申請N0.61/800,036 ;
[0005]?在 2013年 3 月15 日提交的,名稱為“SYSTEM AND METHOD FOR CROWD SOURCINGDOMAIN SPECIFIC INTELLIGENCE” 的美國臨時(shí)申請N0.61/799,131;
[0006]?在 2013年 3 月15 日提交的,名稱為“SYSTEM WITH BATCH AND REAL TIME DATAPROCESSING”的美國臨時(shí)申請N0.61/799,846;以及
[0007]?在 2013年 3 月15 日提交的,名稱為“SYSTEM FOR ASSIGNING SCORES TOLOCAT1N ENTITIES” 的美國臨時(shí)申請N0.61/799,817。
[0008]本申請同樣涉及:
[0009]?在同一日期與此一道提交的,名稱為 “APPARATUS,SYSTEMS,AND METHODS FORANALYZING MOVEMENTS OF TARGET ENTITIES” 的美國專利申請N0.14/214,208;
[0010]?在同一日期與此一道提交的,名稱為 “APPARATUS,SYSTEMS,AND METHODS FORPROVIDING LOCAT1N INFORMAT1N” 的美國專利申請N0.14/214,296;
[0011]?在同一日期與此一道提交的,名稱為 “APPARATUS,SYSTEMS,AND METHODS FORCROWDSOURCING DOMAIN SPECIFIC INTELLIGENCE” 的美國專利申請N0.14/214,213;
[0012]?在同一日期與此一道提交的,名稱為 “APPARATUS,SYSTEMS,AND METHODS FORBATCH AND REALTIME DATA PROCESSING” 的美國專利申請N0.14/214,219;
[0013]?在同一日期與此一道提交的,名稱為 “APPARATUS,SYSTEMS,AND METHODS FORANALYZING CHARACTERISTICS OF ENTITIES OF INTEREST” 的美國專利申請N0.14/214,309;以及
[0014]?在同一日期與此一道提交的,名稱為 “APPARATUS,SYSTEMS,AND METHODS FORGROUPING DATA RECORDS” 的美國專利申請N0.14/214,231。
[0015]以上引用的申請(包括臨時(shí)申請和非臨時(shí)申請兩者)中的每一個(gè)申請的整體內(nèi)容通過引用并入本文。
技術(shù)領(lǐng)域
[0016]本公開一般涉及用于將與實(shí)體相關(guān)聯(lián)的數(shù)據(jù)記錄分組的設(shè)備、系統(tǒng)和方法。
【背景技術(shù)】
[0017]每天有大量的信息被創(chuàng)建。社交網(wǎng)站和博客站點(diǎn)每天接收數(shù)以百萬計(jì)的新帖子,并且不斷產(chǎn)生新網(wǎng)頁以提供關(guān)于個(gè)人、重大事件、企業(yè),或人們關(guān)注的任何其它實(shí)體的信息。此外,信息通常不能從單個(gè)存儲(chǔ)庫獲得,而一般分布在通常位于世界各地的數(shù)以百萬計(jì)的存儲(chǔ)庫中。
[0018]由于信息的絕對數(shù)量和分布性質(zhì),人們難以有效地消費(fèi)信息。為了解決這個(gè)問題,數(shù)據(jù)分析系統(tǒng)可以(I)使用爬蟲(crawler)收集信息,以及(2)創(chuàng)建所收集信息的有意義的摘要,以使得可容易地消費(fèi)信息。例如,數(shù)據(jù)分析系統(tǒng)將期望收集與諸如Factual的特定實(shí)體相關(guān)聯(lián)的所有可用的數(shù)據(jù)記錄,并且提供數(shù)據(jù)記錄的有意義的摘要,以使得用戶可容易地消費(fèi)關(guān)于特定實(shí)體的信息。
[0019]遺憾的是,創(chuàng)建所收集信息的有意義的摘要是具有挑戰(zhàn)性的,因?yàn)橥ǔG闆r下,尤其是在以十億尺度計(jì)的記錄中,不清楚兩個(gè)或更多數(shù)據(jù)記錄與同一實(shí)體、相關(guān)實(shí)體是否相關(guān)聯(lián),或者根本不相關(guān)聯(lián)。因此,需要一種有效的機(jī)構(gòu),以解決兩個(gè)或更多數(shù)據(jù)記錄是否提供關(guān)于同一實(shí)體、相關(guān)實(shí)體或者獨(dú)立實(shí)體的信息。
【發(fā)明內(nèi)容】
[0020]通常,在一方面,所公開主題的實(shí)施例可包括一種設(shè)備。設(shè)備包括被配置成運(yùn)行存儲(chǔ)在存儲(chǔ)器中的一個(gè)或多個(gè)模塊的處理器。一個(gè)或多個(gè)模塊被配置成識別針對其確定相似性值的至少一對數(shù)據(jù)記錄;至少部分地基于與至少一對數(shù)據(jù)記錄相關(guān)聯(lián)的多個(gè)屬性,確定至少一對數(shù)據(jù)記錄的相似性值;以及基于至少一對數(shù)據(jù)記錄的相似性值,將至少一對數(shù)據(jù)記錄與一個(gè)或多個(gè)集群相關(guān)聯(lián),每個(gè)集群與唯一實(shí)體相關(guān)聯(lián)。
[0021]通常,在一方面,所公開主題的實(shí)施例可包括用于將多個(gè)數(shù)據(jù)記錄聚類成至少一個(gè)集群的方法。方法包括:在位于計(jì)算裝置中的候選精簡模塊處,識別多個(gè)數(shù)據(jù)記錄中針對其確定相似性值的至少一對數(shù)據(jù)記錄;在位于計(jì)算裝置中并與候選精簡模塊通信的相似性運(yùn)算模塊處,至少部分地基于與至少一對數(shù)據(jù)記錄相關(guān)聯(lián)的多個(gè)屬性,確定至少一對數(shù)據(jù)記錄的相似性值;以及在位于計(jì)算裝置中并與相似性運(yùn)算模塊通信的的聚類運(yùn)算模塊處,基于至少一對數(shù)據(jù)記錄的相似性值,將至少一對數(shù)據(jù)記錄與一個(gè)或多個(gè)集群相關(guān)聯(lián),每個(gè)集群均與唯一實(shí)體相關(guān)聯(lián)。
[0022]通常,在一方面,所公開主題的實(shí)施例可包括一種計(jì)算機(jī)程序產(chǎn)品,其有形地體現(xiàn)在非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。計(jì)算機(jī)程序產(chǎn)品包括指令,該指令可操作以使數(shù)據(jù)處理系統(tǒng)識別針對其確定相似性值的至少一對數(shù)據(jù)記錄;至少部分地基于與至少一對數(shù)據(jù)記錄相關(guān)聯(lián)的多個(gè)屬性,確定至少一對數(shù)據(jù)記錄的相似性值;以及基于至少一對數(shù)據(jù)記錄的相似性值,將至少一對數(shù)據(jù)記錄與一個(gè)或多個(gè)集群相關(guān)聯(lián),每個(gè)集群與唯一實(shí)體相關(guān)聯(lián)。
[0023]通常,在一方面,所公開主題的實(shí)施例可包括用于將多個(gè)數(shù)據(jù)記錄聚類成至少一個(gè)集群的方法。該方法包括在一個(gè)或多個(gè)模塊處,識別多個(gè)數(shù)據(jù)記錄中針對其確定相似性值的至少一對數(shù)據(jù)記錄;在一個(gè)或多個(gè)模塊處,至少部分地基于與至少一對數(shù)據(jù)記錄相關(guān)聯(lián)的多個(gè)屬性,確定至少一對數(shù)據(jù)記錄的相似性值;以及在與相似性運(yùn)算模塊通信的一個(gè)或多個(gè)模塊處,基于至少一對數(shù)據(jù)記錄的相似性值,將至少一對數(shù)據(jù)記錄與一個(gè)或多個(gè)集群相關(guān)聯(lián),每個(gè)集群均與唯一實(shí)體相關(guān)聯(lián)。
[0024]在本文公開的任何一個(gè)實(shí)施例中,設(shè)備、方法或計(jì)算機(jī)程序產(chǎn)品可包括,用于基于可能由相關(guān)數(shù)據(jù)記錄共享的一組預(yù)定屬性,識別不需要針對其確定相似性值的一對或多對數(shù)據(jù)記錄的模塊、步驟或可執(zhí)行指令。
[0025]在本文公開的任何一個(gè)實(shí)施例中,設(shè)備、方法或計(jì)算機(jī)程序產(chǎn)品可包括,用于基于來自先前迭代的數(shù)據(jù)記錄與集群的關(guān)聯(lián),調(diào)節(jié)一組預(yù)定屬性的模塊、步驟或可執(zhí)行指令。
[0026]在本文公開的任何一個(gè)實(shí)施例中,設(shè)備、方法或計(jì)算機(jī)程序產(chǎn)品可包括,用于基于從訓(xùn)練數(shù)據(jù)記錄得知的相似性函數(shù),確定相似性值的模塊、步驟或可執(zhí)行指令。
[0027]在本文公開的任何一個(gè)實(shí)施例中,相似性函數(shù)被設(shè)計(jì)成推斷與數(shù)據(jù)記錄的特定屬性相關(guān)聯(lián)的特定組件的重要性,其中通過如下操作得知相似性函數(shù):確定在與訓(xùn)練數(shù)據(jù)記錄的特定屬性相關(guān)聯(lián)的組件之間的差異,其中已知訓(xùn)練數(shù)據(jù)記錄屬于同一集群;以及基于特定組件在差異中出現(xiàn)的次數(shù),確定特定組件的重要性。
[0028]在本文公開的任何一個(gè)實(shí)施例中,相似性函數(shù)被設(shè)計(jì)成推斷將在數(shù)據(jù)記錄的特定屬性中的第一組件與第二組件互換的可能性,其中通過如下操作得知相似性函數(shù):確定在與訓(xùn)練數(shù)據(jù)記錄的特定屬性相關(guān)聯(lián)的組件之間的差異,其中已知訓(xùn)練數(shù)據(jù)記錄屬于同一集群;以及基于第一組件和第二組件同時(shí)在差異中出現(xiàn)的次數(shù),確定將第一組件與第二組件互換的可能性。
[0029]在本文公開的任何一個(gè)實(shí)施例中,相似性函數(shù)被設(shè)計(jì)成確定數(shù)據(jù)記錄的缺失屬性具有特定組件的條件可能性,其中通過如下操作確定條件可能性:確定對應(yīng)于特定實(shí)體的已知屬性的組合;確定確實(shí)屬性在具有已知屬性的組合的特定實(shí)體的數(shù)據(jù)記錄之間的所有變化;以及假定數(shù)據(jù)記錄具有已知屬性的特定組合,基于缺失屬性的變化來確定缺失屬性具有特定組件的條件概率。
[0030]在本文公開的任何一個(gè)實(shí)施例中,設(shè)備、方法或計(jì)算機(jī)程序產(chǎn)品可包括,用于將多個(gè)數(shù)據(jù)記錄表示為圖中的多個(gè)節(jié)點(diǎn);將至少一對數(shù)據(jù)記錄的相似性值表示為圖中對應(yīng)于至少一對數(shù)據(jù)記錄的節(jié)點(diǎn)之間的至少一個(gè)邊;以及基于圖確定一個(gè)或多個(gè)集群的模塊、步驟或可執(zhí)行指令。
[0031]在本文公開的任何一個(gè)實(shí)施例中,設(shè)備、方法或計(jì)算機(jī)程序產(chǎn)品可包括,用于基于圖,使用圖聚類技術(shù)來確定一個(gè)或多個(gè)集群的模塊、步驟或可執(zhí)行指令。
[0032]在本文公開的任何一個(gè)實(shí)施例中,設(shè)備、方法或計(jì)算機(jī)程序產(chǎn)品可包括,用于接收要求一個(gè)或多個(gè)模塊將兩個(gè)數(shù)據(jù)記錄與同一集群相關(guān)聯(lián)的聚類指令的模塊、步驟或可執(zhí)行指令。
[0033]在本文公開的任何一個(gè)實(shí)施例中,設(shè)備、方法或計(jì)算機(jī)程序產(chǎn)品可包括,用于使用聚類技術(shù)將多個(gè)數(shù)據(jù)記錄中的至少一個(gè)關(guān)聯(lián)到一個(gè)或多個(gè)集群;以及基于一個(gè)或多個(gè)集群中的數(shù)據(jù)記錄,獨(dú)立地調(diào)節(jié)針對一個(gè)或多個(gè)集群中的每個(gè)集群的聚類技術(shù)的參數(shù)的模塊、步驟或可執(zhí)行指令。
[0034]在本文公開的任何一個(gè)實(shí)施例中,設(shè)備、方法或計(jì)算機(jī)程序產(chǎn)品可包括,用于通過從另一計(jì)算裝置接收至少一對數(shù)據(jù)記錄的相似性值,來確定至少一對數(shù)據(jù)記錄的相似性值的模塊、步驟或可執(zhí)行指令。
[0035]在本文公開的任何一個(gè)實(shí)施例中,設(shè)備、方法或計(jì)算機(jī)程序產(chǎn)品可包括,用于從多個(gè)計(jì)算裝置接收在多個(gè)計(jì)算裝置處獨(dú)立識別的多個(gè)子集群;以及在多個(gè)子集群上執(zhí)行并查操作以識別一個(gè)或多個(gè)集群的模塊、步驟或可執(zhí)行指令。
【附圖說明】
[0036]當(dāng)結(jié)合附圖考慮時(shí),本公開的各種目的、特征和優(yōu)點(diǎn)可參考以下詳細(xì)描述來更充分地理解,在附圖中相同的參考標(biāo)記識別相同的元件。附圖僅用于說明的目的,并且不旨在限制本發(fā)明,在緊隨的權(quán)利要求中陳述本發(fā)明的范圍。
[0037]圖1示出根據(jù)一些實(shí)施例的位置查詢系統(tǒng)的示圖。
[0038]圖2示出根據(jù)一些實(shí)施例將數(shù)據(jù)記錄聚類的過程。
[0039]圖3示出根據(jù)一些實(shí)施例學(xué)習(xí)相似性函數(shù)的過程。
[0040]圖4示出根據(jù)一些實(shí)施例基于特征的重要性來學(xué)習(xí)相似性函數(shù)的過程。
[0041]圖5示出根據(jù)一些實(shí)施例屬于同一集群的一組數(shù)據(jù)記錄。
[0042]圖6示出根據(jù)某些實(shí)施例用于確定缺失屬性的條件概率的機(jī)構(gòu)。
[0043]圖7A-7B示出根據(jù)一些實(shí)施例將聚類指令施加到一組集群的過程。
[0044]圖8示出根據(jù)一些實(shí)施例用于向集群添加數(shù)據(jù)記錄的過程。
[0045]圖9示出根據(jù)一些實(shí)施例將一對數(shù)據(jù)記錄合并成集群的并查操作。
【具體實(shí)施方式】
[0046]在下面的描述中,陳述了關(guān)于所公開主題的系統(tǒng)和方法以及其中該所公開主題的系統(tǒng)和方法可操作等等的環(huán)境的許多具體細(xì)節(jié),以便提供所公開主題的透徹理解。然而對本領(lǐng)域的技術(shù)人員明顯的是,可實(shí)踐所公開的主題而無需這些具體細(xì)節(jié),并且沒有詳細(xì)描述本領(lǐng)域中公知的某些特征,以便避免所公開主題的復(fù)雜性。此外,將理解的是,下面提供的示例是示例性的,并且可以預(yù)期的是在所公開主題的范圍內(nèi)存在其它系統(tǒng)和方法。
[0047]數(shù)據(jù)記錄可用于描述可關(guān)聯(lián)信息的任何類型的實(shí)體(例如物理對象、虛擬對象、活動(dòng)對象、人為對象)。每個(gè)數(shù)據(jù)記錄可以與唯一地識別對應(yīng)數(shù)據(jù)記錄的數(shù)據(jù)記錄標(biāo)識符相關(guān)聯(lián)。在一些實(shí)施例中,數(shù)據(jù)記錄可以包括一組屬性,每個(gè)屬性被設(shè)計(jì)成傳達(dá)關(guān)于實(shí)體的特定方面的信息。例如,數(shù)據(jù)記錄可以包括屬性“實(shí)體類型”,并且屬性值可以是“餐廳”。數(shù)據(jù)記錄可同樣包括屬性“名稱”,并且屬性值可以是“Le Bernardin”。數(shù)據(jù)記錄可以同樣包括屬性“經(jīng)營的年數(shù)”,并且屬性值可以是“42”。在一些實(shí)施例中,與數(shù)據(jù)記錄相關(guān)聯(lián)的一組屬性可以取決于實(shí)體類型。例如,當(dāng)數(shù)據(jù)記錄與公司相關(guān)聯(lián)時(shí),數(shù)據(jù)記錄可包括屬性“公司注冊年”。
[0048]通常,可通過大量數(shù)據(jù)記錄引用單個(gè)實(shí)體,并且這些數(shù)據(jù)記錄可提供關(guān)于特定實(shí)體的不同類型信息。為了統(tǒng)一來自數(shù)據(jù)記錄的信息,基于數(shù)據(jù)記錄來總結(jié)關(guān)于實(shí)體的事實(shí)和意見,和/或確定引用特定實(shí)體的數(shù)據(jù)記錄之間的關(guān)系,一般可期望基于由數(shù)據(jù)記錄引用的實(shí)體或?qū)嶓w組來將數(shù)據(jù)記錄分組。
[0049]如果數(shù)據(jù)記錄中的每個(gè)數(shù)據(jù)記錄明確地識別它所指的特定實(shí)體,則數(shù)據(jù)記錄的這種分組可以是簡單的任務(wù)。遺憾的是,數(shù)據(jù)記錄往往不能包括將明確指出數(shù)據(jù)記錄引用特定實(shí)體的諸如餐廳地址的實(shí)體唯一屬性。此外,即使數(shù)據(jù)記錄