本申請(qǐng)要求于2014年9月2日提交的美國(guó)申請(qǐng)序列號(hào)62/044,628以及于2015年5月20日提交的美國(guó)申請(qǐng)序列號(hào)62/164,175的優(yōu)先權(quán)。
技術(shù)領(lǐng)域
本說(shuō)明書(shū)涉及一種用于執(zhí)行基于圖的程序規(guī)范的方法。
背景技術(shù):
一種用于數(shù)據(jù)流計(jì)算的方法利用基于圖的表示,其中對(duì)應(yīng)于圖的節(jié)點(diǎn)(頂點(diǎn))的計(jì)算組件通過(guò)與圖的鏈路(有向邊)對(duì)應(yīng)的數(shù)據(jù)流(稱(chēng)為“數(shù)據(jù)流圖”)耦合。通過(guò)數(shù)據(jù)流鏈路連接到上游組件的下游組件接收輸入數(shù)據(jù)元素的有序流,并且以所接收的順序處理輸入數(shù)據(jù)元素,可選地生成一個(gè)或多個(gè)對(duì)應(yīng)的輸出數(shù)據(jù)元素流。用于執(zhí)行這種基于圖的計(jì)算的系統(tǒng)描述于發(fā)明名稱(chēng)為“EXECUTING COMPUTATIONS EXPRESSED AS GRAPHS(執(zhí)行表達(dá)為圖的計(jì)算)”的在先美國(guó)專(zhuān)利5,966,072中,其通過(guò)引用并入本文。在與該在先專(zhuān)利中描述的方法相關(guān)的實(shí)現(xiàn)方式中,每個(gè)組件被實(shí)現(xiàn)為駐留在通常多個(gè)計(jì)算機(jī)服務(wù)器之一上的進(jìn)程。每個(gè)計(jì)算機(jī)服務(wù)器可以具有在任何一個(gè)時(shí)間活動(dòng)的多個(gè)這樣的組件進(jìn)程,并且操作系統(tǒng)(例如,Unix)調(diào)度器在該服務(wù)器上托管的組件之間共享資源(例如,處理器時(shí)間和/或處理器內(nèi)核)。在這種實(shí)現(xiàn)方式中,組件之間的數(shù)據(jù)流可以使用操作系統(tǒng)的數(shù)據(jù)通信服務(wù)和連接服務(wù)器的數(shù)據(jù)網(wǎng)絡(luò)(例如,命名管道,TCP/IP會(huì)話(huà)等)來(lái)實(shí)現(xiàn)。組件的子集通常用作來(lái)自整體計(jì)算的數(shù)據(jù)的源和/或數(shù)據(jù)宿(或數(shù)據(jù)接收器,sink),例如,去往和/或來(lái)自數(shù)據(jù)文件、數(shù)據(jù)庫(kù)表和外部數(shù)據(jù)流。然后,在例如通過(guò)協(xié)調(diào)進(jìn)程建立組件進(jìn)程和數(shù)據(jù)流之后,數(shù)據(jù)流過(guò)整個(gè)計(jì)算系統(tǒng),該計(jì)算系統(tǒng)實(shí)現(xiàn)表達(dá)為通常由每個(gè)組件處的輸入數(shù)據(jù)的可用性控制的圖的計(jì)算并且為每個(gè)組件調(diào)度計(jì)算資源。因此,至少通過(guò)使不同的組件能夠由不同的進(jìn)程(托管在相同或不同的服務(wù)器計(jì)算機(jī)或處理器內(nèi)核上)并行地執(zhí)行,可以實(shí)現(xiàn)并行性,其中不同組件在通過(guò)數(shù)據(jù)流圖的不同路徑上并行地執(zhí)行在本文中被稱(chēng)為組件并行性,并且不同組件通過(guò)數(shù)據(jù)流圖在相同路徑的不同部分上并行執(zhí)行在本文中被稱(chēng)為流水線(xiàn)并行性。
其他形式的并行性也得到這種方法的支持。例如,輸入數(shù)據(jù)集可以例如根據(jù)數(shù)據(jù)集的記錄中字段的值的分區(qū)來(lái)分割,其中每個(gè)部分被發(fā)送到處理數(shù)據(jù)集的記錄的組件的單獨(dú)副本。組件的這種單獨(dú)的副本(或“實(shí)例”)可以在單獨(dú)的服務(wù)器計(jì)算機(jī)或服務(wù)器計(jì)算機(jī)的單獨(dú)的處理器內(nèi)核上執(zhí)行,從而實(shí)現(xiàn)本文所稱(chēng)的數(shù)據(jù)并行性??梢院喜为?dú)組件的結(jié)果以再次形成單個(gè)數(shù)據(jù)流或數(shù)據(jù)集。用于執(zhí)行組件實(shí)例的計(jì)算機(jī)或處理器內(nèi)核的數(shù)量將由開(kāi)發(fā)人員在開(kāi)發(fā)數(shù)據(jù)流圖時(shí)指定。
可以使用各種方法來(lái)提高這種方法的效率。例如,組件的每個(gè)實(shí)例不一定必須在其自己的操作系統(tǒng)進(jìn)程中托管,例如使用一個(gè)操作系統(tǒng)進(jìn)程來(lái)實(shí)現(xiàn)多個(gè)組件(例如,形成更大圖的連接子圖的組件)。
上述方法的至少一些實(shí)現(xiàn)方式受到與在底層計(jì)算機(jī)服務(wù)器上所得到的進(jìn)程的執(zhí)行效率有關(guān)的限制。例如,這些限制可能涉及重新配置圖的運(yùn)行實(shí)例以改變數(shù)據(jù)并行度、改變到托管各種組件的服務(wù)器和/或平衡不同計(jì)算資源上的負(fù)載的困難?,F(xiàn)有的基于圖的計(jì)算系統(tǒng)也具有的缺陷是啟動(dòng)時(shí)間慢,這通常是因?yàn)樘嗟倪M(jìn)程被不必要地啟動(dòng),浪費(fèi)了大的存儲(chǔ)量。通常,進(jìn)程在啟動(dòng)圖的執(zhí)行時(shí)開(kāi)始,并在圖的執(zhí)行完成時(shí)結(jié)束。
已經(jīng)使用了用于分布計(jì)算的其他系統(tǒng),其中將整體計(jì)算劃分為更小的部分,并且將這些部分從一個(gè)主計(jì)算機(jī)服務(wù)器分發(fā)到各個(gè)其他(例如,“從屬”)計(jì)算機(jī)服務(wù)器,從屬計(jì)算機(jī)服務(wù)器各自獨(dú)立地執(zhí)行計(jì)算并將其結(jié)果返回到主服務(wù)器。一些這樣的方法被稱(chēng)為“網(wǎng)格計(jì)算”。然而,除了經(jīng)由調(diào)用那些部分的主計(jì)算機(jī)服務(wù)器之外,這樣的方法通常依賴(lài)于每個(gè)計(jì)算的獨(dú)立性,而不提供用于在計(jì)算部分之間傳遞數(shù)據(jù)或調(diào)度和/或?qū)@些部分的執(zhí)行進(jìn)行排序的機(jī)制。因此,對(duì)于托管涉及多個(gè)組件之間的交互的計(jì)算,這樣的方法沒(méi)有提供直接有效的解決方案。
用于大型數(shù)據(jù)集的分布式計(jì)算的另一種方法使用MapReduce框架,例如,如在Apache 系統(tǒng)中體現(xiàn)的。通常,Hadoop具有分布式文件系統(tǒng),其中分發(fā)針對(duì)每個(gè)命名文件的部分。用戶(hù)根據(jù)兩個(gè)函數(shù)指定計(jì)算:以分布式方式在命名輸入的所有部分上執(zhí)行的映射函數(shù),以及在映射函數(shù)執(zhí)行的輸出的部分上執(zhí)行的歸約(reduce)函數(shù)。映射函數(shù)執(zhí)行的輸出被分割并再次存儲(chǔ)在分布式文件系統(tǒng)中的中間部分中。然后以分布式方式執(zhí)行歸約函數(shù)以處理這些中間部分,從而產(chǎn)生整體計(jì)算的結(jié)果。盡管可以有效地執(zhí)行可以在MapReduce框架中表示并且其輸入和輸出可修改以用于在MapReduce框架的文件系統(tǒng)中存儲(chǔ)的計(jì)算,但是許多計(jì)算不匹配該框架和/或不容易適應(yīng)于使得它們的所有輸入和輸出都在分布式文件系統(tǒng)中。
總體而言,與組件(或組件的并行執(zhí)行副本)托管在不同服務(wù)器上的上述方法相比,需要提高計(jì)算的底層規(guī)范是圖的計(jì)算的計(jì)算效率(例如,增加給定計(jì)算資源的每單位處理的記錄的數(shù)量)。此外,期望能夠適應(yīng)變化的計(jì)算資源和需求。還需要提供一種計(jì)算方法,其允許適應(yīng)在一個(gè)或多個(gè)基于圖的計(jì)算的執(zhí)行期間可用的計(jì)算資源的變化,和/或允許適應(yīng)例如由于正在處理的數(shù)據(jù)的特性導(dǎo)致的這樣的計(jì)算的不同組件的計(jì)算負(fù)載的變化或者負(fù)載的時(shí)間變化。還需要提供能夠有效地利用具有不同特性的計(jì)算資源的計(jì)算方法,例如使用具有每個(gè)服務(wù)器不同數(shù)量的處理器、每個(gè)處理器不同數(shù)量的處理器內(nèi)核等的服務(wù)器,以有效地支持同質(zhì)和異質(zhì)環(huán)境。還期望使基于圖的計(jì)算快速啟動(dòng)。提供這種效率和適應(yīng)性的一個(gè)方面是在創(chuàng)建圖時(shí)(在設(shè)計(jì)時(shí))開(kāi)發(fā)人員做出的選擇、(在編譯時(shí))編譯器所采取的動(dòng)作和(在運(yùn)行時(shí))運(yùn)行時(shí)系統(tǒng)所采取的動(dòng)作之間提供適當(dāng)?shù)姆蛛x和抽象屏障。
技術(shù)實(shí)現(xiàn)要素:
在一個(gè)方面,一般性地,一種計(jì)算系統(tǒng)包括:存儲(chǔ)系統(tǒng),存儲(chǔ)一個(gè)或多個(gè)基于圖的程序規(guī)范,至少第一基于圖的程序規(guī)范包括對(duì)應(yīng)于任務(wù)的多個(gè)組件和所述多個(gè)組件的端口之間的有向鏈路,所述第一基于圖的程序規(guī)范包括:(1)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第一類(lèi)型的鏈路配置,以及(2)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第二類(lèi)型的鏈路配置,其中所述第二類(lèi)型的鏈路配置不同于所述第一類(lèi)型的鏈路配置。計(jì)算系統(tǒng)包括編譯器,被配置為根據(jù)所述第一基于圖的程序規(guī)范生成目標(biāo)程序規(guī)范,其中所述編譯器識(shí)別不同類(lèi)型的鏈路配置,并且在所述目標(biāo)程序規(guī)范中提供目標(biāo)原語(yǔ)的一次或多次出現(xiàn),用于為流過(guò)具有所述第二類(lèi)型的鏈路配置的鏈路的數(shù)據(jù)元素的每次出現(xiàn)執(zhí)行函數(shù)。計(jì)算系統(tǒng)包括一個(gè)或多個(gè)計(jì)算節(jié)點(diǎn),每個(gè)計(jì)算節(jié)點(diǎn)包括至少一個(gè)處理器,所述計(jì)算節(jié)點(diǎn)中的至少第一計(jì)算節(jié)點(diǎn)被配置為:?jiǎn)?dòng)所述目標(biāo)程序規(guī)范的執(zhí)行,以及對(duì)于與所述目標(biāo)原語(yǔ)的所述一次或多次出現(xiàn)相關(guān)聯(lián)的一個(gè)或多個(gè)組件,在運(yùn)行時(shí)確定以下中的至少一個(gè):(1)對(duì)應(yīng)于組件的任務(wù)的實(shí)例將被調(diào)用的順序,或者(2)執(zhí)行對(duì)應(yīng)于組件的任務(wù)的實(shí)例將所位于的計(jì)算節(jié)點(diǎn)。
各個(gè)方面可以包括以下特征中的一個(gè)或多個(gè)。
所述第一計(jì)算節(jié)點(diǎn)還被配置為:對(duì)于從所述第一基于圖的程序規(guī)范中第一組件的端口到所述第一基于圖的程序規(guī)范中第二組件的端口具有所述第一類(lèi)型的鏈路配置的第一鏈路,串行調(diào)用對(duì)應(yīng)于所述第一組件和所述第二組件的任務(wù),并且對(duì)于從所述第一基于圖的程序規(guī)范中第三組件的端口到所述第一基于圖的程序規(guī)范中第四組件的端口具有所述第二類(lèi)型的鏈路配置的第二鏈路,調(diào)用對(duì)應(yīng)于所述第四組件的任務(wù)的多個(gè)實(shí)例,用于處理由所述第三組件提供的數(shù)據(jù)元素的不同相應(yīng)子集。
所述第一計(jì)算節(jié)點(diǎn)還被配置為將所述多個(gè)實(shí)例中的至少一些實(shí)例分配到多個(gè)計(jì)算節(jié)點(diǎn)中的不同計(jì)算節(jié)點(diǎn)上執(zhí)行。
所述目標(biāo)原語(yǔ)標(biāo)識(shí)與一個(gè)或多個(gè)任務(wù)的任務(wù)集相對(duì)應(yīng)的函數(shù),并且標(biāo)識(shí)與具有所述第二類(lèi)型的鏈路配置的鏈路相對(duì)應(yīng)的數(shù)據(jù)元素的集合。
所述多個(gè)實(shí)例中的至少一些實(shí)例被應(yīng)用于由所述目標(biāo)原語(yǔ)標(biāo)識(shí)的所述集合中的不同的相應(yīng)數(shù)據(jù)元素。
被調(diào)用實(shí)例的數(shù)量等于由所述目標(biāo)原語(yǔ)標(biāo)識(shí)的所述集合中數(shù)據(jù)元素的數(shù)量,并且每個(gè)實(shí)例被應(yīng)用于不同的相應(yīng)數(shù)據(jù)元素。
獨(dú)立于所述第一基于圖的程序規(guī)范中的任何信息來(lái)確定被調(diào)用實(shí)例的數(shù)量。
被調(diào)用實(shí)例的數(shù)量與存儲(chǔ)由所述第一基于圖的程序規(guī)范引用的數(shù)據(jù)的計(jì)算節(jié)點(diǎn)的數(shù)量至少一樣多。
將由所述目標(biāo)原語(yǔ)標(biāo)識(shí)的函數(shù)應(yīng)用于一數(shù)據(jù)元素包括:使用該數(shù)據(jù)元素作為與該函數(shù)相對(duì)應(yīng)的所述一個(gè)或多個(gè)任務(wù)的任務(wù)集的數(shù)據(jù)源來(lái)執(zhí)行所述一個(gè)或多個(gè)任務(wù)。
將所述多個(gè)實(shí)例中的至少一些實(shí)例分配到不同計(jì)算節(jié)點(diǎn)上執(zhí)行包括:在運(yùn)行時(shí)確定所述多個(gè)實(shí)例將在其上執(zhí)行的計(jì)算節(jié)點(diǎn)的數(shù)量。
具有所述第一類(lèi)型的鏈路配置的鏈路向所述編譯器指示將在所鏈接的組件之間傳遞單個(gè)數(shù)據(jù)元素,并且具有所述第二類(lèi)型的鏈路配置的鏈路向所述編譯器指示將在所鏈接的組件之間傳遞多個(gè)數(shù)據(jù)元素。
所述第一基于圖的程序規(guī)范包括由鏈接的組件的相應(yīng)輸入和輸出端口定義的鏈路的第三類(lèi)型的鏈路配置,所述第三類(lèi)型的鏈路配置向所述編譯器指示所鏈接的組件將串行執(zhí)行,并且向所述編譯器指示將在所鏈接的組件的任務(wù)之間傳遞單個(gè)數(shù)據(jù)元素。
所述編譯器被配置為識(shí)別與相應(yīng)組件對(duì)應(yīng)的一個(gè)或多個(gè)任務(wù)的一個(gè)或多個(gè)任務(wù)集。
一個(gè)或多個(gè)任務(wù)的每個(gè)任務(wù)集具有作為數(shù)據(jù)源的數(shù)據(jù)元素的單個(gè)集合,其向一個(gè)或多個(gè)任務(wù)的該任務(wù)集的不同實(shí)例提供不同的數(shù)據(jù)元素。
一個(gè)或多個(gè)任務(wù)的每個(gè)任務(wù)集對(duì)應(yīng)于一個(gè)或多個(gè)節(jié)點(diǎn)的至少一個(gè)有向無(wú)環(huán)圖,其中有向無(wú)環(huán)圖的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于一任務(wù)或被標(biāo)識(shí)的任務(wù)集,并且有向無(wú)環(huán)圖的每個(gè)有向邊對(duì)應(yīng)于具有所述第一類(lèi)型的鏈路配置的鏈路。
一個(gè)或多個(gè)節(jié)點(diǎn)的有向無(wú)環(huán)圖具有單個(gè)根節(jié)點(diǎn)。
每個(gè)計(jì)算節(jié)點(diǎn)被配置為執(zhí)行至少一個(gè)調(diào)度器,用于派生進(jìn)程以執(zhí)行對(duì)應(yīng)隊(duì)列中的任務(wù)。
所述第一計(jì)算節(jié)點(diǎn)被配置為將一個(gè)或多個(gè)任務(wù)從由所述第一計(jì)算節(jié)點(diǎn)執(zhí)行的第二調(diào)度器的隊(duì)列移動(dòng)到由所述第一計(jì)算節(jié)點(diǎn)執(zhí)行的第一調(diào)度器的隊(duì)列中。
所述第一計(jì)算節(jié)點(diǎn)被配置為將一個(gè)或多個(gè)任務(wù)從由所述第一計(jì)算節(jié)點(diǎn)執(zhí)行的調(diào)度器的隊(duì)列移動(dòng)到由第二計(jì)算節(jié)點(diǎn)執(zhí)行的調(diào)度器的隊(duì)列中。
在另一方面中,一般性地,一種方法包括:存儲(chǔ)一個(gè)或多個(gè)基于圖的程序規(guī)范,至少第一基于圖的程序規(guī)范包括對(duì)應(yīng)于任務(wù)的多個(gè)組件和所述多個(gè)組件的端口之間的有向鏈路,所述第一基于圖的程序規(guī)范包括:(1)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第一類(lèi)型的鏈路配置,以及(2)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第二類(lèi)型的鏈路配置,其中所述第二類(lèi)型的鏈路配置不同于所述第一類(lèi)型的鏈路配置。所述方法包括根據(jù)所述第一基于圖的程序規(guī)范生成目標(biāo)程序規(guī)范,并且識(shí)別不同類(lèi)型的鏈路配置,并且在所述目標(biāo)程序規(guī)范中提供目標(biāo)原語(yǔ)的一次或多次出現(xiàn),用于為流過(guò)具有所述第二類(lèi)型的鏈路配置的鏈路的數(shù)據(jù)元素的每次出現(xiàn)執(zhí)行函數(shù)。所述方法包括使用至少一個(gè)計(jì)算節(jié)點(diǎn),啟動(dòng)所述目標(biāo)程序規(guī)范的執(zhí)行,以及對(duì)于與所述目標(biāo)原語(yǔ)的所述一次或多次出現(xiàn)相關(guān)聯(lián)的一個(gè)或多個(gè)組件,在運(yùn)行時(shí)確定以下中的至少一個(gè):(1)對(duì)應(yīng)于組件的任務(wù)的實(shí)例將被調(diào)用的順序,或者(2)執(zhí)行對(duì)應(yīng)于組件的任務(wù)的實(shí)例將所位于的計(jì)算節(jié)點(diǎn)。
在另一方面中,一般性地,一種以非暫時(shí)形式存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上的軟件,所述軟件包括用于使得計(jì)算系統(tǒng)執(zhí)行以下操作的指令:存儲(chǔ)一個(gè)或多個(gè)基于圖的程序規(guī)范,至少第一基于圖的程序規(guī)范包括對(duì)應(yīng)于任務(wù)的多個(gè)組件和所述多個(gè)組件的端口之間的有向鏈路,所述第一基于圖的程序規(guī)范包括:(1)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第一類(lèi)型的鏈路配置,以及(2)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第二類(lèi)型的鏈路配置,其中所述第二類(lèi)型的鏈路配置不同于所述第一類(lèi)型的鏈路配置;根據(jù)所述第一基于圖的程序規(guī)范生成目標(biāo)程序規(guī)范,并且識(shí)別不同類(lèi)型的鏈路配置,并且在所述目標(biāo)程序規(guī)范中提供目標(biāo)原語(yǔ)的一次或多次出現(xiàn),用于為流過(guò)具有所述第二類(lèi)型的鏈路配置的鏈路的數(shù)據(jù)元素的每次出現(xiàn)執(zhí)行函數(shù);以及使用至少一個(gè)計(jì)算節(jié)點(diǎn),啟動(dòng)所述目標(biāo)程序規(guī)范的執(zhí)行,以及對(duì)于與所述目標(biāo)原語(yǔ)的所述一次或多次出現(xiàn)相關(guān)聯(lián)的一個(gè)或多個(gè)組件,在運(yùn)行時(shí)確定以下中的至少一個(gè):(1)對(duì)應(yīng)于組件的任務(wù)的實(shí)例將被調(diào)用的順序,或者(2)執(zhí)行對(duì)應(yīng)于組件的任務(wù)的實(shí)例將所位于的計(jì)算節(jié)點(diǎn)。
各個(gè)方面可以具有一個(gè)或多個(gè)以下優(yōu)點(diǎn)。
本文所描述的技術(shù)還便于在其層級(jí)結(jié)構(gòu)的各個(gè)層級(jí)處使用非常規(guī)技術(shù)特征來(lái)高效處理計(jì)算系統(tǒng)中的大量數(shù)據(jù)。這些技術(shù)特征在計(jì)算系統(tǒng)的各種操作階段(包括設(shè)計(jì)時(shí),編譯時(shí)和運(yùn)行時(shí))一起工作。編程平臺(tái)使得基于圖的程序規(guī)范能夠在設(shè)計(jì)時(shí)指定期望的計(jì)算。編譯時(shí)編譯器準(zhǔn)備目標(biāo)程序規(guī)范,以便在運(yùn)行時(shí)在計(jì)算系統(tǒng)的多個(gè)服務(wù)器之間有效地分配細(xì)粒度任務(wù)。例如,根據(jù)基于圖的程序規(guī)范中的任何控制流和數(shù)據(jù)流約束來(lái)配置多個(gè)任務(wù)。運(yùn)行時(shí)系統(tǒng)支持以提高計(jì)算效率(例如,以給定計(jì)算資源的每單位被處理記錄的數(shù)量為單位)的方式對(duì)并發(fā)執(zhí)行的這些任務(wù)進(jìn)行動(dòng)態(tài)分配。各種技術(shù)特征一起工作以實(shí)現(xiàn)相對(duì)于常規(guī)系統(tǒng)的效率增益。
例如,計(jì)算系統(tǒng)能夠以合并計(jì)算資源的動(dòng)態(tài)優(yōu)化和用戶(hù)設(shè)置的控制流約束和數(shù)據(jù)流約束兩者的方式,使用對(duì)應(yīng)于數(shù)據(jù)處理圖(或其它基于圖的程序規(guī)范)的組件的任務(wù)來(lái)處理數(shù)據(jù)元素?;趫D的程序規(guī)范的組件的子集(“執(zhí)行集”)由編譯器識(shí)別,使得當(dāng)處理記錄的子集時(shí),構(gòu)成組件的單獨(dú)的任務(wù)可以作為單元來(lái)執(zhí)行。為了支持這些執(zhí)行集,使用計(jì)算系統(tǒng)在其不同層級(jí)中內(nèi)置的各種技術(shù)特征?;趫D的程序規(guī)范可以包括鏈接的組件的端口之間的多種類(lèi)型的鏈路配置。然后,編譯器能夠識(shí)別這些不同的鏈路配置并且包括在目標(biāo)程序規(guī)范內(nèi)的適當(dāng)類(lèi)型的目標(biāo)原語(yǔ)的任何出現(xiàn)。目標(biāo)原語(yǔ)(例如,forall(對(duì)于所有)原語(yǔ))使得對(duì)于流過(guò)相應(yīng)鏈路的數(shù)據(jù)元素的每次出現(xiàn),在運(yùn)行時(shí)執(zhí)行對(duì)應(yīng)于執(zhí)行集的函數(shù),如下面更詳細(xì)描述的。運(yùn)行時(shí)系統(tǒng)能夠根據(jù)這些原語(yǔ),確定影響運(yùn)行時(shí)效率的執(zhí)行的方面,諸如對(duì)對(duì)應(yīng)于組件的任務(wù)的實(shí)例將被調(diào)用的順序,和/或執(zhí)行對(duì)應(yīng)于組件的任務(wù)的實(shí)例將所位于的計(jì)算節(jié)點(diǎn)的約束。
當(dāng)執(zhí)行本文所描述的方法時(shí),這些技術(shù)還表現(xiàn)出對(duì)計(jì)算系統(tǒng)的內(nèi)部功能的進(jìn)一步的技術(shù)效果,諸如減少對(duì)存儲(chǔ)器和其他計(jì)算資源的需求,以及減少系統(tǒng)在處理各個(gè)數(shù)據(jù)元素時(shí)的延遲。特別地,這些優(yōu)點(diǎn)有助于數(shù)據(jù)處理圖的高效執(zhí)行。例如,由于在執(zhí)行圖時(shí)由其他進(jìn)程(例如,Unix進(jìn)程)啟動(dòng)多個(gè)進(jìn)程,因而傳統(tǒng)的基于圖的計(jì)算系統(tǒng)可能具有相對(duì)較高的延遲(例如,幾十毫秒的量級(jí)),導(dǎo)致這些進(jìn)程的累積啟動(dòng)時(shí)間。然而,本文描述的技術(shù)通過(guò)允許單個(gè)進(jìn)程內(nèi)的程序代碼直接啟動(dòng)其他程序代碼而不需要進(jìn)程啟動(dòng)開(kāi)銷(xiāo),從而有利于實(shí)現(xiàn)相對(duì)較低的延遲(例如,幾十微秒的數(shù)量級(jí))以及每秒處理的數(shù)據(jù)的更高的吞吐量。有助于數(shù)據(jù)處理圖的高效執(zhí)行的其他方面在以下描述中將顯而易見(jiàn)。
從下面的描述和權(quán)利要求書(shū)中,本發(fā)明的其它特征和優(yōu)點(diǎn)將變得顯而易見(jiàn)。
附圖說(shuō)明
圖1是基于任務(wù)的計(jì)算系統(tǒng)的框圖。
圖2A是具有控制和數(shù)據(jù)端口的數(shù)據(jù)處理圖的一部分的示例。
圖2B-圖2C是具有控制端口和數(shù)據(jù)端口的數(shù)據(jù)處理圖的示例。
圖3A是包括多個(gè)標(biāo)量輸出端口到標(biāo)量輸入端口連接的數(shù)據(jù)處理圖。
圖3B是包括多個(gè)集合輸出端口到集合輸入端口連接的數(shù)據(jù)處理圖。
圖3C是包括集合輸出端口到標(biāo)量輸入端口連接和標(biāo)量輸出端口到集合輸入端口連接的數(shù)據(jù)處理圖。
圖4A是兩個(gè)組件之間的標(biāo)量端口到標(biāo)量端口連接。
圖4B是兩個(gè)組件之間的集合端口到集合端口連接。
圖4C是兩個(gè)組件之間的集合端口到標(biāo)量端口連接,包括執(zhí)行集入口點(diǎn)。
圖4D是兩個(gè)組件之間的標(biāo)量端口到集合端口連接,包括執(zhí)行集出口點(diǎn)。
圖5是應(yīng)用基于堆棧的分配算法的數(shù)據(jù)處理圖。
圖6是應(yīng)用基于全局映射的分配算法的數(shù)據(jù)處理圖。
圖7是具有用戶(hù)定義的執(zhí)行集的數(shù)據(jù)處理圖。
圖8A和圖8B示出了數(shù)據(jù)處理圖中的“相同集”關(guān)系。
圖9是具有復(fù)制數(shù)據(jù)元素的入口點(diǎn)的數(shù)據(jù)處理圖。
圖10A-圖10C示出了用戶(hù)界面工作流。
圖11A是具有非法執(zhí)行集的數(shù)據(jù)處理圖。
圖11B是具有非法執(zhí)行集循環(huán)的數(shù)據(jù)處理圖。
圖12A-圖12B是數(shù)據(jù)處理圖和對(duì)應(yīng)的控制圖的示例的圖。
圖13A-圖13B是示例性執(zhí)行狀態(tài)機(jī)的狀態(tài)轉(zhuǎn)換圖。
圖14是一組處理引擎的圖。
具體實(shí)施方式
參考圖1,基于任務(wù)的計(jì)算系統(tǒng)100使用高級(jí)程序規(guī)范110來(lái)控制計(jì)算平臺(tái)150的計(jì)算資源和存儲(chǔ)資源,以執(zhí)行由程序規(guī)范110指定的計(jì)算。編譯器/解釋器120接收高級(jí)程序規(guī)范110并生成可由基于任務(wù)的運(yùn)行時(shí)接口/控制器140執(zhí)行的形式的基于任務(wù)的規(guī)范130。編譯器/解釋器120識(shí)別一個(gè)或多個(gè)“組件”的一個(gè)或多個(gè)“執(zhí)行集”,其可以單獨(dú)地或作為單元被實(shí)例化為要應(yīng)用于多個(gè)數(shù)據(jù)元素中每一個(gè)元素的細(xì)粒度任務(wù)。如下面更詳細(xì)描述的,編譯或解釋進(jìn)程的一部分涉及識(shí)別這些執(zhí)行集并且準(zhǔn)備所述執(zhí)行集用于執(zhí)行。應(yīng)當(dāng)理解,編譯器/解釋器120可以使用包括諸如解析高級(jí)程序規(guī)范110、驗(yàn)證語(yǔ)法、類(lèi)型檢查數(shù)據(jù)格式、生成任何錯(cuò)誤或警告以及準(zhǔn)備基于任務(wù)的規(guī)范130之類(lèi)的步驟的各種算法中的任何算法,并且例如編譯器/解釋器120可以利用各種技術(shù)來(lái)優(yōu)化在計(jì)算平臺(tái)150上執(zhí)行的計(jì)算的效率。由編譯器/解釋器120生成的目標(biāo)程序規(guī)范本身可以是將由系統(tǒng)100的另一部分進(jìn)一步處理(例如,進(jìn)一步編譯、解釋等)以產(chǎn)生基于任務(wù)的規(guī)范130的中間形式。下面的討論概述了這種變換的一個(gè)或多個(gè)示例,但是當(dāng)然,例如由編譯器設(shè)計(jì)的技術(shù)人員將理解的,用于變換的其他方法也是可能的。
通常,計(jì)算平臺(tái)150由多個(gè)計(jì)算節(jié)點(diǎn)152(例如,提供分布式計(jì)算資源和分布式存儲(chǔ)資源這二者的個(gè)體服務(wù)器計(jì)算機(jī))組成,從而實(shí)現(xiàn)高度并行性。如下面進(jìn)一步詳細(xì)討論的,在高級(jí)程序規(guī)范110中表示的計(jì)算在計(jì)算平臺(tái)150上被執(zhí)行為相對(duì)細(xì)粒度的任務(wù),進(jìn)一步實(shí)現(xiàn)指定計(jì)算的高效并行執(zhí)行。
1 數(shù)據(jù)處理圖
在一些實(shí)施例中,高級(jí)程序規(guī)范110是稱(chēng)為“數(shù)據(jù)處理圖”的一種基于圖的程序規(guī)范,其包括一組“組件”,每個(gè)組件指定要對(duì)數(shù)據(jù)執(zhí)行的總體數(shù)據(jù)處理計(jì)算的一部分。組件例如在編程用戶(hù)界面和/或計(jì)算的數(shù)據(jù)表示中表示為圖中的節(jié)點(diǎn)。與一些基于圖的程序規(guī)范(例如在上述背景技術(shù)中描述的數(shù)據(jù)流圖)不同,數(shù)據(jù)處理圖可以包括代表數(shù)據(jù)傳送或控制傳送中的任何一個(gè)或兩者的節(jié)點(diǎn)之間的鏈路。指示鏈路特性的一種方式是在組件上提供不同類(lèi)型的端口。鏈路是從上游組件的輸出端口耦合到下游組件的輸入端口的有向鏈路。端口具有表示如何從鏈路寫(xiě)入和讀取數(shù)據(jù)元素和/或如何控制組件以處理數(shù)據(jù)的特性的指示符。
這些端口可以具有多個(gè)不同的特性。端口的一個(gè)特性是其作為輸入端口或輸出端口的方向性。有向鏈路表示從上游組件的輸出端口傳送到下游組件的輸入端口的數(shù)據(jù)和/或控制。允許開(kāi)發(fā)人員將不同類(lèi)型的端口鏈接在一起。數(shù)據(jù)處理圖的一些數(shù)據(jù)處理特性取決于不同類(lèi)型的端口如何鏈接在一起。例如,如下面更詳細(xì)描述的,不同類(lèi)型的端口之間的鏈路可以導(dǎo)致提供層級(jí)形式的并行性的不同“執(zhí)行集”中的組件的嵌套子集。某些數(shù)據(jù)處理特性由端口的類(lèi)型所暗示。組件可能具有的不同類(lèi)型的端口包括:
·集合輸入或輸出端口,意味著組件的實(shí)例將分別讀取或?qū)懭雽⑼ㄟ^(guò)耦合到該端口的鏈路的集合(collection)的所有數(shù)據(jù)元素。對(duì)于在它們的集合端口之間具有單個(gè)鏈路的一對(duì)組件,通常允許下游組件在上游組件正在寫(xiě)入數(shù)據(jù)元素時(shí)讀取這些數(shù)據(jù)元素,從而實(shí)現(xiàn)上游組件和下游組件之間的流水線(xiàn)并行性。如下面更詳細(xì)描述的,數(shù)據(jù)元素也可以被重新排序,這使得并行化具有效率。在一些圖形表示中,例如在編程圖形界面中,這樣的集合端口通常由組件處的正方形連接符指示。
·標(biāo)量輸入或輸出端口,意味著組件的一個(gè)實(shí)例將分別從耦合到端口的鏈路讀取或?qū)懭胫炼嘁粋€(gè)數(shù)據(jù)元素。對(duì)于在其標(biāo)量端口之間具有單個(gè)鏈路的一對(duì)組件,在上游組件已經(jīng)完成執(zhí)行之后通過(guò)使用作為控制傳送的單個(gè)數(shù)據(jù)元素的傳送來(lái)強(qiáng)制下游組件的串行執(zhí)行。在一些圖形表示中,例如在編程圖形界面中,這樣的標(biāo)量端口通常由該組件處的三角形連接符指示。
·控制輸入或輸出端口,類(lèi)似于標(biāo)量輸入或輸出,但是不需要發(fā)送數(shù)據(jù)元素,并且用于在組件之間通信控制的傳送。對(duì)于具有在它們的控制端口之間的鏈路的一對(duì)組件,在上游組件已經(jīng)完成執(zhí)行之后強(qiáng)制下游組件的串行執(zhí)行(即使那些組件也具有集合端口之間的鏈路)。在一些圖形表示中,例如在編程圖形界面中,這樣的控制端口通常由組件處的圓形連接符指示。
這些不同類(lèi)型的端口實(shí)現(xiàn)了數(shù)據(jù)處理圖的靈活設(shè)計(jì),允許數(shù)據(jù)流和控制流與端口類(lèi)型的重疊屬性的強(qiáng)大組合。特別地,存在兩種類(lèi)型的端口(稱(chēng)為“數(shù)據(jù)端口”):集合端口和標(biāo)量端口,用于傳送一些形式的數(shù)據(jù);還存在兩種類(lèi)型的端口(稱(chēng)為“串行端口”):標(biāo)量端口和控制端口,用于強(qiáng)制串行執(zhí)行。數(shù)據(jù)處理圖通常將具有作為“源組件”而沒(méi)有任何連接的輸入數(shù)據(jù)端口的一個(gè)或多個(gè)組件,以及作為“宿(sink)組件”而沒(méi)有任何連接的輸出數(shù)據(jù)端口的一個(gè)或多個(gè)組件。一些組件將具有連接的輸入和輸出數(shù)據(jù)端口。在一些實(shí)施例中,不允許圖具有循環(huán),因此必須是有向無(wú)環(huán)圖(DAG)。該特征可以用于利用DAG的某些特性,如下面更詳細(xì)描述的。
在數(shù)據(jù)處理圖的組件上使用專(zhuān)用控制端口還使得能夠靈活控制計(jì)算的不同部分,這種靈活控制使用某些其他控制流技術(shù)是不可能實(shí)現(xiàn)的。例如,能夠在數(shù)據(jù)流圖之間應(yīng)用依賴(lài)性約束的作業(yè)控制解決方案無(wú)法提供由定義單個(gè)數(shù)據(jù)流圖內(nèi)的組件之間的依賴(lài)性約束的控制端口實(shí)現(xiàn)的精細(xì)粒度控制。此外,將組件分配到順序運(yùn)行的不同階段的數(shù)據(jù)流圖不允許對(duì)單個(gè)組件排序方面的靈活性。例如,使用簡(jiǎn)單階段不可能的嵌套控制拓?fù)淇梢允褂帽疚拿枋龅目刂贫丝诤蛨?zhí)行集來(lái)定義。這種更大的靈活性也可以潛在地通過(guò)允許更多的組件盡可能地并發(fā)運(yùn)行來(lái)提高性能。
通過(guò)以不同的方式連接不同類(lèi)型的端口,開(kāi)發(fā)人員能夠在數(shù)據(jù)處理圖的組件的端口之間指定不同類(lèi)型的鏈路配置。例如,一種類(lèi)型的鏈路配置可以對(duì)應(yīng)于連接到相同類(lèi)型的端口的特定類(lèi)型的端口(例如,標(biāo)量到標(biāo)量鏈路),另一種類(lèi)型的鏈路配置可以對(duì)應(yīng)于連接到不同類(lèi)型的端口的特定類(lèi)型的端口(例如,集合到標(biāo)量鏈路)。這些不同類(lèi)型的鏈接配置既用作開(kāi)發(fā)人員在視覺(jué)上識(shí)別與數(shù)據(jù)處理圖的一部分相關(guān)聯(lián)的預(yù)期行為的方式,又用作向編譯器/解釋器120指示啟用該行為所需的對(duì)應(yīng)類(lèi)型的編譯進(jìn)程的方式。雖然本文描述的示例使用用于不同類(lèi)型的端口的獨(dú)特形狀以可視地表示不同類(lèi)型的鏈路配置,但是系統(tǒng)的其他實(shí)現(xiàn)方式可以通過(guò)提供不同類(lèi)型的鏈路并且為每種類(lèi)型的鏈路分配獨(dú)特的視覺(jué)指示符(例如,厚度,線(xiàn)型,顏色等)來(lái)區(qū)分不同類(lèi)型的鏈路配置的行為。然而,為了用上面列出的三種類(lèi)型的端口使用鏈路類(lèi)型而不是端口類(lèi)型來(lái)表示相同種類(lèi)的鏈路配置,將存在多于三種類(lèi)型的鏈路(例如,標(biāo)量到標(biāo)量、集合到集合、控制到控制、集合到標(biāo)量、標(biāo)量到集合、標(biāo)量到控制等)。其他示例可以包括不同類(lèi)型的端口,但是沒(méi)有在數(shù)據(jù)處理圖內(nèi)可視地明確指示端口類(lèi)型。
編譯器/解釋器120執(zhí)行準(zhǔn)備數(shù)據(jù)處理圖用于執(zhí)行的過(guò)程。第一過(guò)程是執(zhí)行集發(fā)現(xiàn)預(yù)處理過(guò)程,用于識(shí)別組件的潛在的嵌套執(zhí)行集的層級(jí)結(jié)構(gòu)。第二過(guò)程是控制圖生成過(guò)程,用于為每個(gè)執(zhí)行集生成對(duì)應(yīng)的控制圖,編譯器/解釋器120將使用該控制圖來(lái)形成控制代碼,該控制代碼將在運(yùn)行時(shí)有效地實(shí)現(xiàn)狀態(tài)機(jī),用于控制每個(gè)執(zhí)行集內(nèi)的組件的執(zhí)行。下面將更詳細(xì)地描述這些過(guò)程中的每一個(gè)。
具有至少一個(gè)輸入數(shù)據(jù)端口的組件指定要對(duì)每個(gè)輸入數(shù)據(jù)元素或集合(或其多個(gè)輸入端口上的一元組的數(shù)據(jù)元素和/或集合)執(zhí)行的處理。這種規(guī)范的一種形式是作為將要對(duì)一個(gè)或一元組輸入數(shù)據(jù)元素和/或集合執(zhí)行的過(guò)程。如果組件具有至少一個(gè)輸出數(shù)據(jù)端口,則其可以產(chǎn)生對(duì)應(yīng)的一個(gè)或一元組輸出數(shù)據(jù)元素和/或集合??梢砸愿呒?jí)的基于語(yǔ)句的語(yǔ)言(例如,使用Java源語(yǔ)句或例如在美國(guó)專(zhuān)利8,069,129“Editing and Compiling Business Rules(編輯和編譯業(yè)務(wù)規(guī)則)”中使用的數(shù)據(jù)操作語(yǔ)言(DML))來(lái)指定這樣的過(guò)程,或者可以以一些完全或部分編譯的形式提供(例如,如Java Bytecode(Java字節(jié)碼))。例如,組件可以具有工作過(guò)程,所述工作過(guò)程的自變量包括其輸入數(shù)據(jù)元素和/或集合及其輸出數(shù)據(jù)元素和/或集合,或更一般地,包括對(duì)這樣的數(shù)據(jù)元素或集合或?qū)^(guò)程或數(shù)據(jù)對(duì)象的引用(本文稱(chēng)為“句柄”),所述引用用于獲取輸入并提供輸出數(shù)據(jù)元素或集合。
工作過(guò)程可以有各種類(lèi)型。本文不希望限制可以指定的過(guò)程的類(lèi)型,一種類(lèi)型的工作過(guò)程根據(jù)記錄格式指定對(duì)數(shù)據(jù)元素的離散計(jì)算。單個(gè)數(shù)據(jù)元素可以是來(lái)自表格(或其他類(lèi)型的數(shù)據(jù)集)的記錄,并且記錄的集合可以是表中的所有記錄。例如,具有單個(gè)標(biāo)量輸入端口和單個(gè)標(biāo)量輸出端口的組件的一種類(lèi)型的工作過(guò)程包括接收一個(gè)輸入記錄,對(duì)該記錄執(zhí)行計(jì)算,以及提供一個(gè)輸出記錄。另一種類(lèi)型的工作過(guò)程可以指定從多個(gè)標(biāo)量輸入端口接收的一元組輸入記錄如何被處理以形成在多個(gè)標(biāo)量輸出端口上發(fā)出的輸出記錄的一元組。
由數(shù)據(jù)處理圖指定的計(jì)算的語(yǔ)義定義固有地是平行的,因?yàn)樗硎緦?duì)由圖定義的計(jì)算的處理的順序和并發(fā)性的約束和/或無(wú)約束。因此,計(jì)算的定義不要求結(jié)果等同于計(jì)算步驟的某種順序排序。另一方面,計(jì)算的定義確實(shí)提供了需要對(duì)計(jì)算的部分進(jìn)行排序的特定約束以及對(duì)計(jì)算的部分的并行執(zhí)行的限制。
在數(shù)據(jù)處理圖的討論中,假定將組件的多個(gè)實(shí)例實(shí)現(xiàn)為運(yùn)行時(shí)系統(tǒng)中的分開(kāi)的“任務(wù)”,作為表示排序和并行約束的方式。在討論基于圖的規(guī)范本身的特性之后,將更全面地進(jìn)行將數(shù)據(jù)處理圖實(shí)現(xiàn)為基于任務(wù)的規(guī)范的更具體討論,其實(shí)現(xiàn)與語(yǔ)義定義一致的計(jì)算。
通常,數(shù)據(jù)處理圖中的每個(gè)組件將在圖的執(zhí)行期間在計(jì)算平臺(tái)中被多次實(shí)例化。每個(gè)組件的實(shí)例的數(shù)量可以取決于該組件被分配給多個(gè)執(zhí)行集中的哪一個(gè)。當(dāng)實(shí)例化組件的多個(gè)實(shí)例時(shí),多于一個(gè)實(shí)例可以并行執(zhí)行,并且不同的實(shí)例可以在系統(tǒng)中的不同計(jì)算節(jié)點(diǎn)中執(zhí)行。組件的互連(包括端口的類(lèi)型)決定由指定的數(shù)據(jù)處理圖允許的并行處理的性質(zhì)。
盡管如下文所述,在組件的不同實(shí)例的執(zhí)行之間通常不保持狀態(tài),但在系統(tǒng)中提供某些規(guī)定用于明確地引用可以跨越組件的多個(gè)實(shí)例的執(zhí)行的持久存儲(chǔ)。
在工作過(guò)程指定如何處理單個(gè)記錄以產(chǎn)生單個(gè)輸出記錄并且端口被指示為集合端口的示例中,可以執(zhí)行組件的單個(gè)實(shí)例,并且迭代工作過(guò)程以處理連續(xù)的記錄以生成連續(xù)的輸出記錄。在這種情況下,可能從迭代到迭代在組件內(nèi)維持狀態(tài)。
在工作過(guò)程指定如何處理單個(gè)記錄以產(chǎn)生單個(gè)輸出記錄并且端口被指示為標(biāo)量端口的示例中,可以執(zhí)行組件的多個(gè)實(shí)例,并且在工作過(guò)程的多次執(zhí)行之間沒(méi)有為不同的輸入記錄保持狀態(tài)。
此外,在一些實(shí)施例中,系統(tǒng)支持不遵循上面介紹的最細(xì)粒度規(guī)范的工作過(guò)程。例如,工作過(guò)程可以在內(nèi)部實(shí)現(xiàn)迭代,例如,其通過(guò)標(biāo)量端口接受單個(gè)記錄并通過(guò)集合端口提供多個(gè)輸出記錄。
如上所述,存在兩種類(lèi)型的數(shù)據(jù)端口:集合端口和標(biāo)量端口,用于傳送一些形式的數(shù)據(jù);還存在兩種類(lèi)型的串行端口:標(biāo)量端口和控制端口,用于強(qiáng)制串行執(zhí)行。在一些情況下,一種類(lèi)型的端口可以通過(guò)鏈路連接到另一類(lèi)型的端口。這些情況中的一些將在下面描述。在某些情況下,一種類(lèi)型的端口將鏈接到同一類(lèi)型的端口。兩個(gè)控制端口之間的鏈路(稱(chēng)為“控制鏈路”)在鏈接的組件之間施加串行執(zhí)行排序,而不需要通過(guò)鏈路發(fā)送數(shù)據(jù)。兩個(gè)數(shù)據(jù)端口之間的鏈路(稱(chēng)為“數(shù)據(jù)鏈路”)提供數(shù)據(jù)流,并且還在標(biāo)量端口的情況下強(qiáng)制串行執(zhí)行排序約束,并且在集合端口的情況下不需要串行執(zhí)行排序。典型的組件通常具有至少兩種端口,包括輸入和輸出數(shù)據(jù)端口(集合端口或標(biāo)量端口)以及輸入和輸出控制端口。控制鏈路將上游組件的控制端口連接到下游組件的控制端口。類(lèi)似地,數(shù)據(jù)鏈路將上游組件的數(shù)據(jù)端口連接到下游組件的數(shù)據(jù)端口。
開(kāi)發(fā)人員可以使用圖形用戶(hù)界面從一組組件中指定特定的數(shù)據(jù)處理計(jì)算,每個(gè)組件執(zhí)行特定的任務(wù)(例如,數(shù)據(jù)處理任務(wù))。開(kāi)發(fā)人員通過(guò)在顯示屏幕上顯示的畫(huà)布區(qū)域上組裝數(shù)據(jù)處理圖來(lái)進(jìn)行這樣的指定。這涉及將組件放置在畫(huà)布上,用適當(dāng)?shù)逆溌愤B接它們的各個(gè)端口,以及適當(dāng)?shù)嘏渲媒M件。以下簡(jiǎn)單示例說(shuō)明了在具有單對(duì)集合端口和單對(duì)控制端口的組件的情況下的某些行為。
圖2a示出了被組裝的數(shù)據(jù)處理圖的一部分包括第一組件210A的示例,第一組件210A具有輸入控制端口212A和輸出控制端口214A以及輸入集合端口216A和輸出集合端口218A??刂奇溌?20A,222A將輸入控制端口212A和輸出控制端口214A連接到數(shù)據(jù)處理圖中其他組件的控制端口。類(lèi)似地,數(shù)據(jù)鏈路224A,226A將輸入集合端口216A和輸出集合端口218A連接到數(shù)據(jù)處理圖中其他組件的端口。集合端口216A,218A在圖中表示為矩形,而控制端口212A,214A用圓形表示。
通常,輸入集合端口216A接收要由組件210A處理的數(shù)據(jù),并且輸出集合端口214提供已經(jīng)由組件210A處理的數(shù)據(jù)。在集合端口的情況下,所述數(shù)據(jù)通常是未指定數(shù)量的數(shù)據(jù)元素的無(wú)序集合。在整體計(jì)算的特定實(shí)例中,集合可以包括多個(gè)數(shù)據(jù)元素,或單個(gè)數(shù)據(jù)元素,或沒(méi)有數(shù)據(jù)元素。在一些實(shí)現(xiàn)方式中,集合與確定集合中的元素是無(wú)序的還是有序的(并且如果有序的話(huà),什么決定順序)的參數(shù)相關(guān)聯(lián)。如下面將更詳細(xì)地描述的,對(duì)于無(wú)序集合,數(shù)據(jù)元素由數(shù)據(jù)鏈路的接收側(cè)的組件處理的順序可以不同于數(shù)據(jù)鏈路的發(fā)送側(cè)的組件提供這些數(shù)據(jù)元素的順序。因此,在集合端口的情況下,它們之間的數(shù)據(jù)鏈路用作數(shù)據(jù)元素的“包”,從其中可以以任意順序拉取數(shù)據(jù)元素,而不同于以特定順序?qū)?shù)據(jù)元素從一個(gè)組件移動(dòng)到另一個(gè)組件的“傳送帶”。
控制鏈路用于在控制端口之間傳送控制信息,其確定組件是否開(kāi)始執(zhí)行以及何時(shí)開(kāi)始執(zhí)行。例如,控制鏈接222A指示組件210B將在組件210A已經(jīng)完成之后開(kāi)始執(zhí)行(即,以串行順序),或者指示組件210B將不開(kāi)始執(zhí)行(即,被“禁止”)。因此,雖然沒(méi)有數(shù)據(jù)通過(guò)控制鏈路發(fā)送,但是它可以被視為向接收側(cè)的組件發(fā)送信號(hào)。發(fā)送該信號(hào)的方式可以根據(jù)實(shí)現(xiàn)方式而變化,并且在一些實(shí)現(xiàn)方式中可以涉及在組件之間發(fā)送控制消息。其他實(shí)現(xiàn)方式可以不涉及發(fā)送實(shí)際的控制消息,而是可以改為涉及直接調(diào)用進(jìn)程或調(diào)取與由接收側(cè)的組件表示的任務(wù)相關(guān)聯(lián)的函數(shù)的進(jìn)程(或者在禁止的情況下省略這種調(diào)用或函數(shù)調(diào)取)。
鏈接控制端口的能力因此使得開(kāi)發(fā)人員能夠控制由數(shù)據(jù)處理圖的不同組件表示的數(shù)據(jù)處理計(jì)算的不同部分之間的相對(duì)排序。另外,使用組件上的控制端口提供這種排序機(jī)制使得能夠混合與數(shù)據(jù)流和控制流相關(guān)聯(lián)的邏輯。實(shí)際上,這使得數(shù)據(jù)能夠用于做出關(guān)于控制的決定。
在圖2A所示的示例中,控制端口連接到其他控制端口,并且數(shù)據(jù)端口連接到其他數(shù)據(jù)端口。然而,數(shù)據(jù)端口上的數(shù)據(jù)固有地?cái)y帶兩種不同種類(lèi)的信息。第一種是數(shù)據(jù)本身,第二種是數(shù)據(jù)的存在。該第二種信息可以用作控制信號(hào)。結(jié)果,通過(guò)使標(biāo)量數(shù)據(jù)端口能夠連接到控制端口,可以提供額外的靈活性。
圖2B示出了示例性數(shù)據(jù)處理圖230,其利用了由將標(biāo)量端口連接到控制端口的能力所賦予的靈活性。
數(shù)據(jù)處理圖230的特征如下:標(biāo)記為“計(jì)算日期信息”的第一組件231,標(biāo)記為“制作每月報(bào)告?”的第二組件232,標(biāo)記為“制作每周報(bào)告”的第三組件233,標(biāo)記為“每月報(bào)告”的第四組件234,標(biāo)記為“制作每周報(bào)告?”的第五組件235和標(biāo)記為“每周報(bào)告”的第六組件236。數(shù)據(jù)處理圖230執(zhí)行過(guò)程,該過(guò)程總是產(chǎn)生每日?qǐng)?bào)告、每日?qǐng)?bào)告和每周報(bào)告、或所有三種報(bào)告。關(guān)于這些結(jié)果中的哪些將發(fā)生的決定取決于對(duì)由第一組件231提供的某些日期信息的評(píng)估。因此,圖2B示出了有效地控制執(zhí)行的數(shù)據(jù)的示例。
當(dāng)?shù)谝唤M件231將日期信息從輸出標(biāo)量端口提供到第二組件232的輸入標(biāo)量端口和第三組件233的輸入標(biāo)量端口時(shí),執(zhí)行開(kāi)始。沒(méi)有連接的輸入控制端口的第二組件232立即工作。包括第三組件233的所有其他組件具有連接的輸入控制端口,并且必須等待由適當(dāng)?shù)恼刂菩盘?hào)激活。
第二組件232檢查該日期信息并確定是否適合制作每月報(bào)告。有兩種可能的結(jié)果:需要每月報(bào)告,或者不需要。第二組件232和第三組件233都具有兩個(gè)輸出標(biāo)量端口,并且都被配置為執(zhí)行選擇函數(shù),該選擇函數(shù)提供數(shù)據(jù)元素,該數(shù)據(jù)元素在一個(gè)輸出標(biāo)量端口(即,所選端口)上用作正控制信號(hào)并且在另一個(gè)輸出標(biāo)量端口上用作負(fù)控制信號(hào)。
如果基于日期信息,第二組件232確定不需要每月報(bào)告,則第二組件232將數(shù)據(jù)元素從其底部輸出標(biāo)量端口發(fā)送到第三組件233的輸入控制端口。該數(shù)據(jù)元素被解釋為正控制信號(hào),其向第三組件233指示第二組件232已經(jīng)完成了對(duì)由第一組件231提供的數(shù)據(jù)的處理,并且第三組件233現(xiàn)在可以開(kāi)始處理其接收的日期信息數(shù)據(jù)。
另一方面,如果第二組件232基于由第一組件231提供的日期信息確定需要每月報(bào)告,則第二組件232改為將被解釋為正控制信號(hào)的數(shù)據(jù)元素從其輸出標(biāo)量端口發(fā)送到第四組件234的輸入控制端口。雖然數(shù)據(jù)元素不僅僅是控制信號(hào),但是第四組件234將其視為正控制信號(hào),因?yàn)樗惶峁┙o其輸入控制端口。第四組件234忽略數(shù)據(jù)元素中的實(shí)際數(shù)據(jù),并且僅使用數(shù)據(jù)元素的存在作為正控制信號(hào)。
第四組件234繼續(xù)創(chuàng)建每月報(bào)告。在完成時(shí),第四組件234從其輸出控制端口輸出控制信號(hào)到第三組件233的輸入控制端口。這告訴第三組件233它(即第三組件233)現(xiàn)在可以開(kāi)始處理第一組件231提供給它的日期信息。
因此,第三組件233將總是最終經(jīng)由其輸入標(biāo)量端口處理由第一組件231提供的數(shù)據(jù)。唯一的區(qū)別在于哪個(gè)組件觸發(fā)它開(kāi)始處理:是第二組件232還是第四組件234。這是因?yàn)榈谌M件233上的兩個(gè)輸入控制端口將使用OR邏輯進(jìn)行組合,使得在任一端口(或兩者)接收的正控制信號(hào)將觸發(fā)處理。
圖230的其余部分以基本上相同的方式操作,只是第三組件233接管第二組件232的角色,第六組件236接管第四組件234的角色。
在被其輸入控制端口處來(lái)自第二組件232或第四組件234的控制信號(hào)激活時(shí),第三組件233通過(guò)將第一組件231連接到第三組件233的數(shù)據(jù)鏈路檢查由第一組件231提供的日期信息。如果第三組件233基于日期信息確定不需要每周報(bào)告,則第三組件233將被解釋為正控制信號(hào)的數(shù)據(jù)元素從其輸出標(biāo)量端口之一發(fā)送到第五組件235的輸入控制端口。
另一方面,如果第三組件233確定需要每周報(bào)告,則第三組件233將被解釋為正控制信號(hào)的數(shù)據(jù)元素從其另一輸出標(biāo)量端口發(fā)送到第六組件236的輸入控制端口。第六組件236繼續(xù)創(chuàng)建每周報(bào)告。在完成時(shí),第六組件236將被解釋為正控制信號(hào)的數(shù)據(jù)元素從其輸出標(biāo)量端口發(fā)送到第五組件235的輸入控制端口。
因此,第五組件235將總是最終執(zhí)行,唯一的區(qū)別是第三組件233還是第六組件236最終觸發(fā)第五組件235開(kāi)始執(zhí)行。在從第三組件233或第六組件236接收到控制信號(hào)時(shí),第五組件235創(chuàng)建每日?qǐng)?bào)告。
圖2C還示出了標(biāo)量和集合數(shù)據(jù)端口的使用。
圖2C示出了數(shù)據(jù)處理圖240,其具有標(biāo)記為“輸入文件”的第一組件241,標(biāo)記為“從請(qǐng)求獲取文件名”的第二組件242,標(biāo)記為“讀取文件”的第三組件243,標(biāo)記為“是壞記錄?”的第四組件244,標(biāo)記為“無(wú)效記錄”的第五組件245,標(biāo)記為“生成壞記錄文件名”的第六組件246,標(biāo)記為“任何驗(yàn)證錯(cuò)誤?”的第七組件247和標(biāo)記為“發(fā)送警報(bào)”的第八組件248。此圖旨在將壞記錄寫(xiě)入文件,并在檢測(cè)到這種壞記錄時(shí)發(fā)送警報(bào)。
組件241和243是用作數(shù)據(jù)的源的組件的示例,并且組件245是用作數(shù)據(jù)的宿(接收器)的組件的示例。組件241和243使用可以以文件系統(tǒng)(諸如本地文件系統(tǒng)或分布式文件系統(tǒng))中的各種格式中的任一種存儲(chǔ)的輸入文件作為其源。輸入文件組件讀取文件的內(nèi)容,并從該文件產(chǎn)生記錄的集合。標(biāo)量輸入端口(如組件243所示)提供指定要讀取的文件的位置(例如,路徑或統(tǒng)一資源定位符)和要使用的記錄格式的數(shù)據(jù)元素。在一些情況下,位置和記錄格式可以作為參數(shù)提供給輸入文件組件,在這種情況下,輸入標(biāo)量端口不需要連接到任何上游組件,并且不需要顯示(對(duì)于組件241也是如此)。集合輸出端口(如組件241和243兩者上的所示)提供記錄的集合。類(lèi)似地,輸出文件組件(諸如組件245)將通過(guò)輸入集合端口接收的記錄的集合寫(xiě)到輸出文件(其位置和記錄格式可以可選地由輸入標(biāo)量端口指定)。輸入文件組件或輸出文件組件還可以包括鏈接到另一組件(諸如組件245)的控制端口的控制輸入或輸出端口。
在所示的數(shù)據(jù)處理圖240中,較大的虛線(xiàn)矩形內(nèi)的組件是執(zhí)行集(execution set)的一部分。此執(zhí)行集包含嵌套在其中的另一個(gè)執(zhí)行集。該嵌套執(zhí)行集也在虛線(xiàn)矩形內(nèi)示出,其僅包含第四組件244。下面更詳細(xì)地討論執(zhí)行集。
在操作中,第一組件241讀取輸入文件。當(dāng)?shù)谝唤M件241正在執(zhí)行時(shí),第一組件241經(jīng)由從輸出集合數(shù)據(jù)端口到第二組件242的輸入集合數(shù)據(jù)端口的數(shù)據(jù)鏈路將輸入文件內(nèi)的記錄的集合提供給第二組件。第二組件242的不同實(shí)例和其他下游組件(它們?cè)谕粓?zhí)行集中)可以針對(duì)集合中的每個(gè)記錄執(zhí)行,如下面將更詳細(xì)描述的。由于第二組件242沒(méi)有連接到其控制輸入的任何東西,所以第二組件242立即開(kāi)始處理。在完成時(shí),第二組件242在其輸出標(biāo)量端口上提供文件名。該文件名在相應(yīng)輸入標(biāo)量端口處由第三組件243和第六組件246兩者接收。
第三組件243立即讀取由文件名標(biāo)識(shí)的文件,并且在輸出集合端口上提供文件的內(nèi)容以用于遞送到第四組件244的實(shí)例的輸入標(biāo)量端口。同時(shí),第六組件246接收相同的文件名并輸出另一文件名,其提供到連接于第五組件245和第七組件247的對(duì)應(yīng)輸入標(biāo)量端口的輸出標(biāo)量端口上。
在從第六組件246接收到文件名和從第四組件244接收到壞記錄時(shí),第五組件245將壞記錄寫(xiě)入文件名由第六組件246標(biāo)識(shí)的輸出文件。
第七組件247是唯一一個(gè)在其數(shù)據(jù)輸入端口接收數(shù)據(jù)時(shí)沒(méi)有準(zhǔn)備好被啟動(dòng)執(zhí)行的組件。當(dāng)?shù)谖褰M件245完成對(duì)輸出文件的寫(xiě)入時(shí),第五組件245將控制信號(hào)從其控制輸出端口發(fā)送到第七組件247的輸入控制端口。如果第七組件247確定存在錯(cuò)誤,則第七組件247提供數(shù)據(jù)到第八組件248的輸入標(biāo)量端口。這使得第八組件248生成警報(bào)。這提供了控制端口用于限制數(shù)據(jù)處理圖中的某些組件的執(zhí)行的示例。
應(yīng)當(dāng)清楚的是,當(dāng)一組多個(gè)上游組件都已達(dá)到特定狀態(tài)時(shí),基于一個(gè)組件的狀態(tài)控制另一個(gè)組件中的處理的能力使得該組件可以控制處理。例如,數(shù)據(jù)處理圖可以支持去往或來(lái)自同一控制端口的多個(gè)控制鏈路??商娲?,在一些實(shí)現(xiàn)方式中,組件可以包括多個(gè)輸入和輸出控制端口。默認(rèn)邏輯可以被編譯器/解釋器120應(yīng)用。開(kāi)發(fā)人員還可以提供用于確定如何組合控制信號(hào)的定制邏輯。這可以通過(guò)適當(dāng)?shù)夭贾媒M合邏輯以應(yīng)用于上游組件的各種控制鏈路,并且僅當(dāng)達(dá)到某個(gè)邏輯狀態(tài)時(shí)(例如,在默認(rèn)OR邏輯的情況下,當(dāng)所有上游組件已經(jīng)完成時(shí),并且當(dāng)至少一個(gè)上游組件已經(jīng)發(fā)送激活控制信號(hào)時(shí))觸發(fā)組件的啟動(dòng)來(lái)實(shí)現(xiàn)。
通常,控制信號(hào)可以是觸發(fā)處理開(kāi)始或觸發(fā)處理禁止的信號(hào)。前者是“正控制信號(hào)”,后者是“負(fù)控制信號(hào)”。然而,如果使用組合邏輯來(lái)確定是否應(yīng)該調(diào)用任務(wù)(觸發(fā)處理的開(kāi)始),則邏輯可以“反轉(zhuǎn)”通常的解釋?zhuān)沟脙H當(dāng)所有輸入提供負(fù)控制信號(hào)時(shí)調(diào)用任務(wù)。通常,組合邏輯可以提供用于確定與控制圖對(duì)應(yīng)的狀態(tài)機(jī)中的下一狀態(tài)的任意“真值表”,下面將更詳細(xì)描述。
未連接的控制端口可以被分配默認(rèn)狀態(tài)。在一個(gè)實(shí)施例中,默認(rèn)狀態(tài)對(duì)應(yīng)于正控制信號(hào)。如下面更詳細(xì)地描述的,這可以通過(guò)在表示數(shù)據(jù)處理圖的控制圖中使用隱式開(kāi)始組件和結(jié)束組件來(lái)實(shí)現(xiàn)。
各種組件上的不同類(lèi)型的數(shù)據(jù)端口允許數(shù)據(jù)以不同的方式在組件之間通過(guò)鏈路傳遞,這取決于鏈接這些組件的輸入和輸出端口的類(lèi)型。如上所述,標(biāo)量端口表示至多單個(gè)數(shù)據(jù)元素(即,0或1個(gè)數(shù)據(jù)元素)的生產(chǎn)(對(duì)于標(biāo)量輸出端口)或消耗(對(duì)于標(biāo)量輸入端口)。而集合端口表示一組潛在的多個(gè)數(shù)據(jù)元素的生產(chǎn)(對(duì)于集合輸出端口)或消耗(對(duì)于集合輸入端口)。通過(guò)在單個(gè)數(shù)據(jù)處理圖中支持兩種類(lèi)型的數(shù)據(jù)端口,可以更有效地分配計(jì)算資源,并且可以在任務(wù)之間生成更復(fù)雜的控制流和數(shù)據(jù)流,從而允許開(kāi)發(fā)人員容易地指示期望的行為。
參考圖3A,數(shù)據(jù)處理圖300包括一連串三個(gè)連接的組件:第一組件(A1)302,第二組件(B1)304和第三組件(C1)306。第一組件包括集合型輸入端口308以及標(biāo)量型輸出端口310。第二組件304包括標(biāo)量型輸入端口312和標(biāo)量型輸出端口314。第三組件包括標(biāo)量型輸入端口316和集合型輸出端口318。
第一鏈路320將第一組件302的標(biāo)量輸出端口310連接到第二組件304的標(biāo)量輸入端口312,這允許數(shù)據(jù)在第一組件302和第二組件304之間傳遞,并且同時(shí)強(qiáng)制第一組件302和第二組件304的串行執(zhí)行。類(lèi)似地,第二鏈路322將第二組件304的標(biāo)量輸出端口314連接到第三組件306的標(biāo)量輸入端口316,這允許數(shù)據(jù)在第二組件304和第三組件306之間傳遞,并且強(qiáng)制第二組件304和第三組件306的串行執(zhí)行。
由于圖3A中標(biāo)量端口的互連,第二組件304僅在第一組件302完成之后開(kāi)始執(zhí)行(并且在第一鏈路320上傳遞單個(gè)數(shù)據(jù)元素),并且第三組件306僅在第二組件304完成之后開(kāi)始執(zhí)行(并且在第二鏈路322上傳遞單個(gè)數(shù)據(jù)元素)。也就是說(shuō),數(shù)據(jù)處理圖中三個(gè)組件中的每一個(gè)以嚴(yán)格的順序A1/B1/C1運(yùn)行一次。
在一些示例中,一個(gè)或多個(gè)組件可以被置于禁止?fàn)顟B(tài),這意味著一個(gè)或多個(gè)組件不執(zhí)行,并因此不將任何數(shù)據(jù)元素從其輸出端口傳遞出去。例如,通過(guò)確保將不執(zhí)行任何有用處理的組件不需要專(zhuān)用于它們的計(jì)算資源(例如,進(jìn)程或存儲(chǔ)器),使得能夠禁止組件,避免浪費(fèi)資源。具有僅連接到被禁止組件的輸出端口的標(biāo)量輸入端口的任何組件不會(huì)執(zhí)行,因?yàn)樗鼈儾唤邮諗?shù)據(jù)。例如,如果第一組件302被置于禁止?fàn)顟B(tài),則第二組件304的標(biāo)量輸入端口312不從第一組件302的標(biāo)量輸出端口310接收數(shù)據(jù),因此不執(zhí)行。由于第二組件304不執(zhí)行,因此第三組件306的標(biāo)量輸入端口316不接收來(lái)自第二組件304的標(biāo)量輸出端口314的數(shù)據(jù),并且也不執(zhí)行。因此,在兩個(gè)標(biāo)量端口之間傳遞的數(shù)據(jù)也用作正控制信號(hào),類(lèi)似于在兩個(gè)鏈接的控制端口之間發(fā)送的信號(hào)。
在圖3A的示例性數(shù)據(jù)處理圖中,第一組件302的輸入端口308和第三組件318的輸出端口恰好是集合端口,其對(duì)連接它們的標(biāo)量端口強(qiáng)加的第一組件302、第二組件304和第三組件306的串行執(zhí)行行為沒(méi)有影響。
通常,集合端口用于在組件之間傳遞數(shù)據(jù)元素的集合(collection),并且同時(shí)可以向運(yùn)行時(shí)系統(tǒng)授予重新排序該集(set)中的數(shù)據(jù)元素的許可。允許對(duì)無(wú)序集合的數(shù)據(jù)元素重新排序,因?yàn)閷?duì)從一個(gè)數(shù)據(jù)元素到另一個(gè)數(shù)據(jù)元素的計(jì)算的狀態(tài)沒(méi)有依賴(lài)性,或者如果存在處理每個(gè)數(shù)據(jù)元素時(shí)被訪(fǎng)問(wèn)的全局狀態(tài),則最終狀態(tài)獨(dú)立于處理這些數(shù)據(jù)元素的順序。此重新排序的許可提供了將關(guān)于并行化的決策推遲到運(yùn)行時(shí)的靈活性。
參考圖3B,數(shù)據(jù)處理圖324包括一連串三個(gè)連接的組件:第一組件(A2)326、第二組件(B2)328和第三組件(C2)330。第一組件326包括集合型輸入端口332和集合型輸出端口334。第二組件328包括集合型輸入端口336和集合型輸出端口338。第三組件330包括集合型輸入端口340和集合型輸出端口342。
三個(gè)組件326、328、330中的每一個(gè)指定如何處理一個(gè)或多個(gè)輸入元素的集合以生成一個(gè)或多個(gè)輸出元素的集合。在特定輸入元素和特定輸出元素之間并不必然存在一一對(duì)應(yīng)關(guān)系。例如,第一組件326和第二組件328之間的數(shù)據(jù)元素344的第一集合中的多個(gè)數(shù)據(jù)元素可以不同于第二組件328和第三組件330之間的數(shù)據(jù)元素346的第二集合中的多個(gè)數(shù)據(jù)元素。對(duì)集合端口之間的連接施加的唯一約束是集合中的每個(gè)數(shù)據(jù)元素從一個(gè)集合端口傳遞到另一個(gè)集合端口,同時(shí)允許第一組件326和第二組件328之間以及第二組件328和第三組件330之間相對(duì)于它們被處理的順序任意重新排序。可替代地,在其他示例中,集合端口可以可選地被配置為保持順序。在該示例中,三個(gè)組件326、328、330一同啟動(dòng)并且并發(fā)運(yùn)行,從而允許流水線(xiàn)并行性。
參照?qǐng)D1描述的編譯器/解釋器120被配置為識(shí)別集合端口到集合端口連接,并且以適合于正在執(zhí)行的計(jì)算的方式將計(jì)算轉(zhuǎn)換為可執(zhí)行代碼。集合數(shù)據(jù)鏈路的無(wú)序性質(zhì)使得編譯器/解釋器120在如何實(shí)現(xiàn)這一點(diǎn)方面具有靈活性。例如,如果對(duì)于第二組件328,恰好基于單個(gè)輸入元素計(jì)算每個(gè)輸出元素(即,沒(méi)有跨數(shù)據(jù)元素維持的狀態(tài)),則編譯器/解釋器120可以允許運(yùn)行時(shí)系統(tǒng)通過(guò)對(duì)每個(gè)數(shù)據(jù)元素實(shí)例化多達(dá)一個(gè)組件的實(shí)例來(lái)動(dòng)態(tài)地并行化數(shù)據(jù)元素的處理(例如,取決于運(yùn)行時(shí)可用的計(jì)算資源)??蛇x地,在特殊情況下,可以在具有多個(gè)輸入集合端口的組件中跨數(shù)據(jù)元素維護(hù)狀態(tài)。但在一般情況下,可以允許運(yùn)行時(shí)系統(tǒng)對(duì)組件的任務(wù)并行化。例如,如果運(yùn)行時(shí)系統(tǒng)檢測(cè)到?jīng)]有被維持的全局狀態(tài),則可以允許對(duì)任務(wù)并行化。一些組件還可以被配置為支持維持狀態(tài),在這種情況下可以不允許并行化。如果集合是無(wú)序的,則不需要在數(shù)據(jù)元素之間保持順序意味著第二組件328的每個(gè)實(shí)例一旦可用就可以向第三組件330提供其輸出數(shù)據(jù)元素,并且第三組件330可以在第二組件328的所有實(shí)例已經(jīng)完成之前開(kāi)始處理這些數(shù)據(jù)元素。
在一些示例中,圖開(kāi)發(fā)者可以明確地指示可以通過(guò)將一個(gè)組件的集合型輸出端口連接到另一個(gè)組件的標(biāo)量型輸入端口來(lái)動(dòng)態(tài)地并行化數(shù)據(jù)集合中數(shù)據(jù)元素的處理。這種指示還要求在集合的不同元素的處理之間無(wú)需維持狀態(tài)。參考圖3C,數(shù)據(jù)處理圖348包括一連串三個(gè)連接的組件:第一組件(A3)350、第二組件(B3)352和第三組件(C3)354。第一組件350包括集合型輸入端口356和集合型輸出端口358。第二組件352包括標(biāo)量型輸入端口360和標(biāo)量型輸出端口362。第三組件354包括集合型輸入端口364和集合型輸出端口366。
第一組件的集合型輸出端口358通過(guò)第一鏈路368連接到第二組件352的標(biāo)量型輸入端口360,并且第二組件352的標(biāo)量型輸出端口362通過(guò)第二連接370連接到集合型輸入端口364。如下面更詳細(xì)描述的,從集合型輸出端口到標(biāo)量型輸入端口的鏈路意味著進(jìn)入執(zhí)行集的入口點(diǎn),并且從標(biāo)量型輸出端口到集合型輸入端口的鏈路意味著執(zhí)行集的出口點(diǎn)。非常普遍的情況是,如下面更詳細(xì)地描述的,包括在執(zhí)行集中的多個(gè)組件可以由運(yùn)行時(shí)控制器動(dòng)態(tài)地并行化以處理來(lái)自數(shù)據(jù)元素集合的數(shù)據(jù)元素。
在圖3C中,第一組件350的集合型輸出端口358和第二組件352的標(biāo)量型輸入端口360之間的鏈路368意味著進(jìn)入執(zhí)行集的入口點(diǎn)。第二組件352的標(biāo)量型輸出端口362和第三組件354的集合型輸入端口364之間的鏈路370意味著執(zhí)行集的出口點(diǎn)。也就是說(shuō),第二組件352是執(zhí)行集中的唯一組件。
由于第二組件352包括在執(zhí)行集中,因此針對(duì)從第一組件350的集合型輸出端口358接收的每個(gè)數(shù)據(jù)元素啟動(dòng)第二組件352的單獨(dú)實(shí)例。至少一些單獨(dú)的實(shí)例可以并行地運(yùn)行,這取決于直到運(yùn)行時(shí)才能做出的決策。在該示例中,第一組件(350)和第三組件(354)一同啟動(dòng)并且并發(fā)運(yùn)行,而第二組件(352)針對(duì)通過(guò)鏈路368接收的集合內(nèi)的每個(gè)數(shù)據(jù)元素運(yùn)行一次??商娲兀槍?duì)集合中每多個(gè)數(shù)據(jù)元素的元組,第二組件352運(yùn)行一次。
2 執(zhí)行集
如上面參照?qǐng)D1所描述的,編譯器/解釋器120對(duì)數(shù)據(jù)處理圖實(shí)施執(zhí)行集發(fā)現(xiàn)預(yù)處理過(guò)程,以準(zhǔn)備用于執(zhí)行的數(shù)據(jù)處理圖。在一般意義上,如本文所使用的,術(shù)語(yǔ)“執(zhí)行集”是指可以作為單元被調(diào)用并應(yīng)用于數(shù)據(jù)的一部分(諸如輸出集合端口的數(shù)據(jù)元素的一部分)的一個(gè)或多個(gè)組件的集合。因此,對(duì)于每個(gè)輸入數(shù)據(jù)元素(或呈現(xiàn)給執(zhí)行集的一個(gè)或多個(gè)輸入端口的多個(gè)輸入數(shù)據(jù)元素的元組)實(shí)施執(zhí)行集中的每個(gè)組件的至多一個(gè)實(shí)例。在執(zhí)行集內(nèi),通過(guò)到標(biāo)量和控制端口的鏈路強(qiáng)加排序約束,只要不違反排序約束,就允許執(zhí)行集中組件的并行執(zhí)行。由編譯器/解釋器120為執(zhí)行集準(zhǔn)備的代碼可以包括指示在執(zhí)行代碼時(shí)如何實(shí)施與組件相對(duì)應(yīng)的任務(wù)(例如,并行度)的嵌入信息(例如,注釋或修改符)。在對(duì)接收到的集合中多個(gè)數(shù)據(jù)元素的元組執(zhí)行執(zhí)行集的一個(gè)實(shí)例的示例中,所述元組可包括例如固定數(shù)量的數(shù)據(jù)元素或共享一些特性(例如,公共鍵值)的多個(gè)數(shù)據(jù)元素。在存在被允許并行執(zhí)行的至少一些組件的示例中,可以使用多個(gè)任務(wù)來(lái)實(shí)現(xiàn)執(zhí)行集,例如,用于作為整體的執(zhí)行集的任務(wù),以及用于一個(gè)或多個(gè)組件的實(shí)例的并發(fā)執(zhí)行的一個(gè)或多個(gè)子任務(wù)。因此,表示執(zhí)行集的不同實(shí)例的任務(wù)本身可以被分解成甚至更細(xì)粒度的任務(wù),例如具有可以并發(fā)執(zhí)行的子任務(wù)。用于不同執(zhí)行集的任務(wù)通??梢元?dú)立并行地執(zhí)行。因此,如果大型數(shù)據(jù)集有例如一百萬(wàn)條記錄,則可能有一百萬(wàn)個(gè)獨(dú)立的任務(wù)。一些任務(wù)可以在計(jì)算平臺(tái)150的不同節(jié)點(diǎn)152上執(zhí)行。任務(wù)可以使用可以被有效地并發(fā)執(zhí)行的輕量線(xiàn)程來(lái)執(zhí)行,甚至在單個(gè)節(jié)點(diǎn)152上也是如此。
通常,由分配算法標(biāo)識(shí)的執(zhí)行集(即,除根執(zhí)行集之外的執(zhí)行集)通過(guò)在執(zhí)行集的邊界處的“驅(qū)動(dòng)”標(biāo)量數(shù)據(jù)端口來(lái)接收數(shù)據(jù)元素。對(duì)于在執(zhí)行集的驅(qū)動(dòng)輸入標(biāo)量數(shù)據(jù)端口處接收的每個(gè)數(shù)據(jù)元素,執(zhí)行集內(nèi)的每個(gè)組件執(zhí)行一次(如果激活)或根本不執(zhí)行(如果禁止)。執(zhí)行集的多個(gè)實(shí)例可以被實(shí)例化并且并行地執(zhí)行以處理從上游集合端口對(duì)執(zhí)行集可用的多個(gè)數(shù)據(jù)元素??梢栽谶\(yùn)行時(shí)確定執(zhí)行集的并行度(并且包括不使執(zhí)行集并行化的可能決策),并且并行度僅受到運(yùn)行時(shí)可用的計(jì)算資源的限制。執(zhí)行集的獨(dú)立實(shí)例的各個(gè)輸出在執(zhí)行集的(多個(gè))輸出端口處被聚集,而不管順序如何,并且被提供給下游組件??商娲?,在其他實(shí)施例中,可以識(shí)別不同于根執(zhí)行集的不需要驅(qū)動(dòng)輸入標(biāo)量數(shù)據(jù)端口的執(zhí)行集(在一些情況下,基于用戶(hù)輸入)。這樣的沒(méi)有驅(qū)動(dòng)輸入標(biāo)量數(shù)據(jù)端口的執(zhí)行集如果合適的話(huà)可以使用本文所述的過(guò)程在單個(gè)實(shí)例中執(zhí)行(例如,下面描述的鎖定的執(zhí)行集)或在多個(gè)實(shí)例中并行地執(zhí)行。例如,可以設(shè)置確定執(zhí)行集將被執(zhí)行的次數(shù)和/或?qū)⒈粓?zhí)行的執(zhí)行集的并行實(shí)例的數(shù)量的參數(shù)。
非常常見(jiàn)的情況是,執(zhí)行集發(fā)現(xiàn)過(guò)程使用確定數(shù)據(jù)處理圖內(nèi)的組件的子集的分配算法,所述子集將被應(yīng)用為對(duì)數(shù)據(jù)元素的無(wú)序集合的輸入元素的集。分配算法遍歷數(shù)據(jù)處理圖并基于分配規(guī)則將每個(gè)組件分配給子集。如在以下示例中清楚可見(jiàn)的,給定數(shù)據(jù)處理圖可以包括嵌套在執(zhí)行集層級(jí)結(jié)構(gòu)的不同級(jí)別中的多個(gè)執(zhí)行集。
在本文所述的數(shù)據(jù)處理圖中,存在兩種類(lèi)型的數(shù)據(jù)端口:標(biāo)量數(shù)據(jù)端口和集合數(shù)據(jù)端口。通常,如果一對(duì)鏈接的組件(即,圖4A到圖4D的上游組件A 402和下游組件B 404)通過(guò)相同類(lèi)型的端口之間的鏈路連接,則在默認(rèn)情況下它們將在相同的執(zhí)行集中(除非它們由于另一個(gè)原因在不同的執(zhí)行集中)。在圖4A中,組件A 402具有輸出端口406,該端口具有標(biāo)量類(lèi)型,并且組件B 404具有輸入端口408,該端口具有標(biāo)量類(lèi)型。由于組件A 402和組件B 404之間的鏈路410連接兩個(gè)標(biāo)量型端口,因此在該示例中組件A 402和組件B 404處于相同的執(zhí)行集中。在圖4A中,由于組件A 402和組件B 404之間的鏈路是標(biāo)量到標(biāo)量鏈路,所以0個(gè)數(shù)據(jù)元素或1個(gè)數(shù)據(jù)元素通過(guò)鏈路410在上游組件A 402和下游組件B 404之間傳遞。在上游組件A 402的處理完成時(shí),通過(guò)鏈路410傳遞數(shù)據(jù)元素,除非上游組件A 402被禁止(如上所述),在這種情況下沒(méi)有數(shù)據(jù)元素通過(guò)鏈路410傳遞。
參考圖4B,組件A 402具有輸出端口412,該端口具有集合類(lèi)型,并且組件B 404具有輸入端口414,該端口具有集合類(lèi)型。由于組件A 402和組件B 404之間的鏈路410連接兩個(gè)集合型端口,因此在該示例中組件A 402和組件B 404也處于相同的執(zhí)行集中。在圖4B中,由于組件A 402和組件B 404之間的鏈路410是集合到集合鏈路,所以通過(guò)鏈路410在上游組件和下游組件之間傳遞一組數(shù)據(jù)元素。
當(dāng)鏈路兩端的端口類(lèi)型之間存在不匹配時(shí),執(zhí)行集層級(jí)結(jié)構(gòu)的級(jí)別中存在隱性更改。具體地,不匹配的端口表示在執(zhí)行集層級(jí)結(jié)構(gòu)的特定級(jí)別處的執(zhí)行集的入口點(diǎn)或出口點(diǎn)。在一些示例中,執(zhí)行集入口點(diǎn)被定義為集合型輸出端口和標(biāo)量型輸入端口之間的鏈路。在圖4C中,在組件A 402和組件B 404之間的鏈路410處示出了執(zhí)行組入口點(diǎn)424的一個(gè)示例,這是因?yàn)榻M件A 402的輸出端口416是集合型端口,而組件B 404的輸入端口418是標(biāo)量型端口。
在一些示例中,執(zhí)行集出口點(diǎn)被定義為標(biāo)量型輸出端口和集合型輸入端口之間的鏈路。參考圖4D,在組件A 402與組件B 404之間的鏈路410處示出了執(zhí)行組出口點(diǎn)426的一個(gè)示例,這是因?yàn)榻M件A 402的輸出端口420是標(biāo)量型端口,而組件B 404的輸入端口422是集合型端口。
在編譯器/解釋器120進(jìn)行編譯和/或解釋之前實(shí)現(xiàn)的分配算法使用執(zhí)行集入口點(diǎn)和執(zhí)行集出口點(diǎn)來(lái)發(fā)現(xiàn)數(shù)據(jù)處理圖中存在的執(zhí)行集。
2.1基于堆棧的分配算法
為了說(shuō)明的目的,在第一示例中,數(shù)據(jù)處理圖具有簡(jiǎn)單的一維圖結(jié)構(gòu),并且使用基于堆棧的算法示出更簡(jiǎn)單的分配算法。在基于堆棧的分配算法中,數(shù)據(jù)處理圖中的每個(gè)組件用一個(gè)或多個(gè)“ID字符串”標(biāo)記,該“ID字符串”由以分隔字符‘/’分隔的整數(shù)組成。分隔字符‘/’出現(xiàn)在給定組件的ID字符串中的次數(shù)確定執(zhí)行集層級(jí)結(jié)構(gòu)中的組件的級(jí)別。在一些示例中,組件可以具有多個(gè)輸入鏈路,并且因此可以具有多個(gè)ID字符串。在這種情況下,算法具有下面更詳細(xì)描述的規(guī)則,用于確定使用哪個(gè)ID字符串。
在基于堆棧的分配算法的一個(gè)示例中,編譯器/解釋器120根據(jù)以下過(guò)程在上游到下游方向上遍歷數(shù)據(jù)處理圖。最初,最上游的組件用ID字符串‘0’標(biāo)記,指示它是執(zhí)行集層級(jí)結(jié)構(gòu)中根級(jí)別上的組件。
然后遍歷從最上游組件到最下游組件的路徑上的鏈路和組件。如果遇到上游組件的集合型輸出端口和下游組件的集合型輸入端口之間的鏈路,則上游組件的ID字符串被傳播到下游組件。類(lèi)似地,如果遇到上游組件的標(biāo)量型輸出端口和下游組件的標(biāo)量型輸入端口之間的鏈路,則上游組件的ID字符串被傳播到下游組件。
如果遇到上游組件的集合型輸出端口和下游組件的標(biāo)量型輸入端口之間的鏈路,則向下游組件分配包括上游組件的標(biāo)記其末尾附加‘/n’的標(biāo)記,其中n是<所有現(xiàn)有ID字符串整數(shù)中最大的整數(shù)>+l。如果遇到上游組件的標(biāo)量型輸出端口和下游組件的集合型輸入端口之間的鏈路,則向下游組件分配包括上游組件的標(biāo)記去除其最右邊的ID字符串整數(shù)(以及其分隔字符‘/’)的標(biāo)記。
在一些示例中,各種條件可以被認(rèn)為是非法的,并且將導(dǎo)致算法中的錯(cuò)誤(例如,如果組件在執(zhí)行集層級(jí)結(jié)構(gòu)中相同級(jí)別上具有兩個(gè)不同的ID字符串,或者在執(zhí)行集中存在循環(huán))。
參考圖5,將上述基于堆棧的分配算法應(yīng)用于示例性數(shù)據(jù)處理圖550,導(dǎo)致發(fā)現(xiàn)兩個(gè)執(zhí)行集(除了根以外,“0級(jí)”執(zhí)行集551):第一“1級(jí)”執(zhí)行集570和嵌套在第一“1級(jí)”執(zhí)行集670內(nèi)的第二“2級(jí)”執(zhí)行集572。為了實(shí)現(xiàn)兩個(gè)執(zhí)行集570、572的發(fā)現(xiàn),基于堆棧的分配算法首先標(biāo)記最上游組件,具有ID字符串‘0’的第一數(shù)據(jù)集656。然后基于堆棧的分配算法遍歷通過(guò)數(shù)據(jù)處理圖550的一維路徑的組件。在遍歷該路徑時(shí),基于堆棧的分配算法首先遍歷從第一數(shù)據(jù)集556到第一組件558的鏈路。由于第一數(shù)據(jù)集556的輸出端口是集合型輸出端口,并且第一組件558的輸入端口是標(biāo)量型輸入端口,所以第一組件558被分配ID字符串‘0/1’,其是第一數(shù)據(jù)集556的ID字符串在其末尾附加‘/1’的標(biāo)記,其中1是所有現(xiàn)有ID字符串整數(shù)的最大值+1。通常,將‘/1’附加到第一組件558的ID字符串是從根“0級(jí)”執(zhí)行集551到“1級(jí)”執(zhí)行集570的轉(zhuǎn)換的指示。在一些示例中,該轉(zhuǎn)換使用第一執(zhí)行集入口點(diǎn)指示符557表示。
然后,分配算法遍歷從第一組件558到第二組件560的鏈路。由于第一組件558的輸出端口是集合型輸出端口并且第二組件560的輸入端口是標(biāo)量型輸入端口,所以第二組件560被分配ID字符串‘0/1/2’,其是第一組件558的ID字符串其末尾附加‘/2’,其中2是所有現(xiàn)有ID字符串整數(shù)的最大值+1。通常,將‘/2’附加到第二組件560的ID字符串是從“1級(jí)”執(zhí)行集570到“2級(jí)”執(zhí)行集572的轉(zhuǎn)換的指示。在一些示例中,該轉(zhuǎn)換使用第二執(zhí)行集入口點(diǎn)指示符559表示。
然后,分配算法遍歷從第二組件560到第三組件562的鏈路。由于第二組件560的輸出端口是標(biāo)量型輸出端口,并且第三組件562的輸入端口是標(biāo)量型輸入端口,所以第二組件560的ID字符串(即,‘0/1/2’)被傳播到第三組件562。
然后,分配算法遍歷從第三組件562到第四組件564的鏈路。由于第三組件562的輸出端口是標(biāo)量型輸出端口,并且第四組件564的輸入端口是集合型輸入端口,所以第四組件被分配ID字符串‘0/1’,其是第三組件562的ID字符串去除其最右邊ID字符串‘2’(及其分隔字符‘/’)的ID字符串。通常,從第三組件562的ID字符串中去除‘/2’是從“2級(jí)”執(zhí)行集572到“1級(jí)”執(zhí)行集570的轉(zhuǎn)換的指示。在一些示例中,該轉(zhuǎn)換使用第一執(zhí)行集出口點(diǎn)指示符563表示。
然后,分配算法遍歷從第四組件564到第五組件566的鏈路。由于第四組件564的輸出端口是標(biāo)量型輸出端口,并且第五組件566的輸入端口是集合型輸入端口,所以第五組件566被分配ID字符串‘0’,其是第四組件564的ID字符串去除其最右邊的ID字符串整數(shù)(及其分隔字符‘/’)。通常,從第四組件564的ID字符串中去除‘/1’是從“1級(jí)”執(zhí)行集570到根“0級(jí)”執(zhí)行集551的轉(zhuǎn)換的指示。在一些示例中,該轉(zhuǎn)換使用第二執(zhí)行集出口點(diǎn)指示符565來(lái)表示。
最后,分配算法遍歷從第五組件566到第二數(shù)據(jù)集568的鏈路。由于第五組件566的輸出端口是集合型輸出端口,并且第二數(shù)據(jù)集568的輸入端口是集合型輸入端口,所以第五組件566的ID字符串(即,‘0’)被傳播到第二數(shù)據(jù)集568。
在一些示例中,除了入口點(diǎn)指示符和出口點(diǎn)指示符之外,可以使用用戶(hù)界面內(nèi)的附加視覺(jué)提示在視覺(jué)上表示數(shù)據(jù)元素的集合的流和個(gè)體標(biāo)量數(shù)據(jù)元素之間的變化。例如,表示鏈路的線(xiàn)在集合端口和指示符之間可以更粗,而在指示符和標(biāo)量端口之間更細(xì)。
基于堆棧的分配算法的結(jié)果包括數(shù)據(jù)處理圖550的版本,其中每個(gè)組件用ID字符串標(biāo)記。在圖5的示例中,第一數(shù)據(jù)集556、第二數(shù)據(jù)集568和第五組件566都用ID字符串‘0’標(biāo)記。第一組件558和第四組件564用ID字符串‘0’標(biāo)記。第二組件560和第三組件562各自用ID字符串‘0/1/2’標(biāo)記。
每個(gè)唯一ID字符串表示執(zhí)行集層級(jí)結(jié)構(gòu)中的唯一執(zhí)行集。具有ID字符串‘0’的那些組件被分組到執(zhí)行層級(jí)中的根“0級(jí)”執(zhí)行集551中。具有ID字符串‘0/1’的那些組件被分組到嵌套在根執(zhí)行集651中的“1級(jí)”執(zhí)行集670中(其中‘0/1’可以被讀取為嵌套在執(zhí)行集0中的執(zhí)行集1)。具有ID字符串‘0/1/2’的那些組件被分組到“2級(jí)”執(zhí)行集572,其嵌套在根“0級(jí)”執(zhí)行集551和“1級(jí)”執(zhí)行集570內(nèi)。
2.2基于全局映射的分配算法
在一些示例中,對(duì)于更一般的數(shù)據(jù)處理圖,基于堆棧的分配算法可能不足以正確地確定執(zhí)行集的層級(jí)結(jié)構(gòu)。例如,在一般的數(shù)據(jù)處理圖中,任何給定的組件可以具有多個(gè)輸入端口和/或多個(gè)輸出端口,使一般的數(shù)據(jù)處理圖與基于堆棧的方法不兼容。在這樣的示例中,使用基于全局映射的分配算法來(lái)確定執(zhí)行集層級(jí)結(jié)構(gòu)。
基于全局映射的分配算法利用數(shù)據(jù)處理圖被限制為有向無(wú)環(huán)圖的事實(shí)??梢允褂猛?fù)渑判蚝蟮捻樞騺?lái)處理有向無(wú)環(huán)圖,以確保圖的每個(gè)組件僅在緊鄰該組件的上游的所有組件被處理之后得到處理。由于已知已經(jīng)處理了組件的緊接上游的所有組件,所以可以通過(guò)選擇該組件直接上游的(在執(zhí)行集層級(jí)結(jié)構(gòu)中)最深嵌套組件的ID字符串來(lái)確定該組件的ID字符串。
在一些示例中,基于全局映射的分配算法使用諸如Kahn算法的標(biāo)準(zhǔn)拓?fù)渑判蛩惴▉?lái)獲得給定數(shù)據(jù)處理圖的拓?fù)渑判蚝蟮捻樞?。Kahn算法通過(guò)以下偽代碼概述:
L←將要包含被排序元素的空列表
S←沒(méi)有進(jìn)入邊的所有節(jié)點(diǎn)的集合
只要S是非空的,進(jìn)行以下動(dòng)作:
從S去除節(jié)點(diǎn)n
將n添加到L的尾部
對(duì)于具有n到m的邊e的每個(gè)節(jié)點(diǎn)m,進(jìn)行以下動(dòng)作:
從圖中去除邊e
如果m沒(méi)有其它進(jìn)入邊,則
將m插入S
如果圖具有多個(gè)邊,則
返回錯(cuò)誤(圖具有至少一個(gè)循環(huán))
否則
返回L(拓?fù)渑判蚝蟮捻樞?
在確定拓?fù)渑判蚝蟮捻樞蛑?,基于全局映射的分配算法以拓?fù)渑判蚝蟮捻樞虮闅v數(shù)據(jù)處理圖的組件,以確定每個(gè)組件的適當(dāng)ID字符串(或簡(jiǎn)稱(chēng)ID號(hào))。特別地,當(dāng)遍歷組件時(shí),數(shù)據(jù)處理圖的每個(gè)組件將其ID字符串復(fù)制到其輸出端口。直接位于上游組件下游且沒(méi)有由于執(zhí)行集入口點(diǎn)或執(zhí)行集出口點(diǎn)而與上游組件分離的組件從上游組件的輸出端口讀取ID字符串,并使用該ID字符串作為其ID字符串。
對(duì)于由于執(zhí)行集入口點(diǎn)而與下游組件分離的上游組件,在執(zhí)行集入口點(diǎn)處分配新的ID字符串,并將其提供給下游組件以用作其ID字符串。上游組件的ID字符串到下游組件的ID字符串的映射(即,父/子映射)被存儲(chǔ)在全局映射數(shù)據(jù)存儲(chǔ)中以供以后使用。
對(duì)于由于執(zhí)行集出口點(diǎn)而與下游組件分離的上游組件,上游組件的輸出端口處的ID字符串由執(zhí)行集出口點(diǎn)讀取。然后查詢(xún)?nèi)钟成鋽?shù)據(jù)存儲(chǔ)以確定輸出端口處的ID字符串的父ID字符串。將父ID字符串提供給下游組件以用作其ID字符串。
參考圖6,使用上述基于全局映射的分配算法來(lái)分析示例性一般二維數(shù)據(jù)處理圖628的一個(gè)示例。數(shù)據(jù)處理圖628包括第一數(shù)據(jù)集(D1)632,第一組件(C1)638,第二組件(C2)640,第三組件(C3)645,第四組件(C4)646,第五組件(C5)642,第六組件(C6)644和第二數(shù)據(jù)集(D2)634。在將ID字符串分配給數(shù)據(jù)處理圖表628的各個(gè)組件之前,將拓?fù)渑判蛩惴?例如,Kahn算法)應(yīng)用于數(shù)據(jù)處理圖,得到以下拓?fù)渑判蚝蟮捻樞颍篋1,C1,C2,C3,C4,C5,C6,D2。
利用確定的拓?fù)渑判蚝蟮捻樞?,基于全局映射的分配算法以拓?fù)渑判蚝蟮捻樞虮闅v數(shù)據(jù)處理圖的組件,以確定每個(gè)組件的適當(dāng)ID字符串,從而導(dǎo)致發(fā)現(xiàn)“1級(jí)”執(zhí)行集630和“2級(jí)”執(zhí)行集631(除了根“0級(jí)”執(zhí)行集以外)。為了實(shí)現(xiàn)兩個(gè)執(zhí)行集630、631的發(fā)現(xiàn),基于全局映射的分配算法首先標(biāo)記最上游組件,具有ID字符串‘0’的第一數(shù)據(jù)集(D1)632。然后基于堆棧的分配算法以拓?fù)渑判蚝蟮捻樞虮闅v數(shù)據(jù)處理圖628的組件和鏈路。
基于全局映射的分配算法首先遍歷從第一數(shù)據(jù)集(D1)632到第一組件(C1)638的鏈路。由于第一數(shù)據(jù)集(D1)632的輸出端口是集合型輸出端口,并且第一組件(C1)638的輸入端口是集合型輸入端口,所以沒(méi)有標(biāo)識(shí)執(zhí)行集入口點(diǎn)或出口點(diǎn),并且從第一數(shù)據(jù)集(D1)632的輸出端口讀取第一數(shù)據(jù)集(D1)632的ID字符串(即‘0’)并且將該ID字符串分配給第一組件(C1)638。
然后,分配算法遍歷第一組件(C1)638和第二組件(C2)640之間的鏈路。由于第一組件(C1)638的輸出端口是集合型輸出端口,并且第二組件(C2)640的輸入端口是標(biāo)量型輸入端口,所以在兩個(gè)組件638、640之間標(biāo)識(shí)第一執(zhí)行集入口點(diǎn)639。在第一執(zhí)行集入口點(diǎn)639處,分配新的ID字符串(即,‘1’),并且該ID字符串被分配作為第二組件(C2)640的ID字符串。第一執(zhí)行集入口點(diǎn)639的父ID字符串(即‘0’)到第一執(zhí)行集入口點(diǎn)639的子ID字符串(即‘1’)的映射653被存儲(chǔ)在全局映射數(shù)據(jù)存儲(chǔ)649中以供以后使用。
然后,分配算法遍歷從第二組件(C2)640到第三組件(C3)645的鏈路。由于第二組件(C2)640的輸出端口是集合型輸出端口,并且第三組件645的輸入端口是標(biāo)量型輸入端口,所以在兩個(gè)組件640、645之間標(biāo)識(shí)第二執(zhí)行集入口點(diǎn)641。在第二執(zhí)行集入口點(diǎn)641處,分配新的ID字符串(即,‘2’)并將其分配作為第三組件(C3)645的ID字符串。第二執(zhí)行集入口點(diǎn)641的父ID字符串(即,‘1’)到第二執(zhí)行集入口點(diǎn)641的子ID字符串(即‘2’)的映射651被存儲(chǔ)在全局映射數(shù)據(jù)存儲(chǔ)649中以供以后使用。
然后,分配算法遍歷從第三組件(C3)645到第四組件(C4)646的鏈路。由于第三組件(C3)645的輸出端口是集合型輸出端口,并且第四組件(C4)646的輸入端口是集合型輸入端口,所以未識(shí)別執(zhí)行集入口點(diǎn)或出口點(diǎn),并且從第三組件(C3)645的輸出端口讀取第三組件(C3)645的ID字符串(即,‘2’)645并且將其分配給第四組件(C4)646。
然后,分配算法遍歷從第四組件(C4)646到第五組件(C5)642的鏈路。由于第四組件(C4)646的輸出端口是標(biāo)量型輸出端口,并且第五組件(C5)642的輸入端口是集合型輸入端口,所以在兩個(gè)組件646、642之間識(shí)別第一執(zhí)行集出口點(diǎn)647。在第一執(zhí)行集出口點(diǎn)647處,從第四組件(C4)646的輸出端口讀取第四組件(C4)646的ID字符串并且該ID字符串用于查詢(xún)?nèi)钟成鋽?shù)據(jù)存儲(chǔ)649。全局映射數(shù)據(jù)存儲(chǔ)649返回與第二執(zhí)行集入口點(diǎn)641相關(guān)聯(lián)地存儲(chǔ)的父子關(guān)系651(即,‘1/2’)。父/子關(guān)系651中的父ID字符串(即,‘1’)被分配作為第五組件(C5)642的ID字符串。
然后,分配算法遍歷從第五組件(C5)642到第六組件(C6)644的鏈路。由于第五組件(C5)642的輸出端口是標(biāo)量型輸出端口,并且第六組件(C6)644的輸入端口是集合型輸入端口,所以在兩個(gè)組件642、644之間識(shí)別第二執(zhí)行集出口點(diǎn)643。在第二執(zhí)行集出口點(diǎn)643處,從第五組件(C5)642的輸出端口讀取第五組件(C5)642的ID字符串并且該ID字符串用于查詢(xún)?nèi)钟成鋽?shù)據(jù)存儲(chǔ)649。全局映射數(shù)據(jù)存儲(chǔ)649返回與第一執(zhí)行集進(jìn)入點(diǎn)639相關(guān)聯(lián)存儲(chǔ)的父/子關(guān)系653(即,‘0/1’)。父/子關(guān)系653中的父ID字符串(即,‘0’)被分配作為第六組件(C6)644的ID字符串。
最后,分配算法遍歷從第六組件(C6)644到第二數(shù)據(jù)集(D2)634的鏈路。由于第六組件(C6)644的輸出端口是集合型輸出端口,并且第二數(shù)據(jù)集(D2)634的輸入端口是集合型輸入端口,所以沒(méi)有識(shí)別執(zhí)行集入口點(diǎn)或出口點(diǎn),并且從第六組件(C6)644的輸出端口讀取第六組件(C6)644的ID字符串(即‘0’)并且將其分配給第二數(shù)據(jù)集(D2)634。
基于全局映射的分配算法的結(jié)果包括數(shù)據(jù)處理圖628的版本,其中每個(gè)組件用ID字符串標(biāo)記。在圖6的示例中,第一數(shù)據(jù)集(D1)632,第一組件(C1)638,第六組件(C6)644和第二數(shù)據(jù)集(D2)634都用ID字符串‘0’標(biāo)記。第二組件(C2)640和第五組件(C5)642都用ID字符串‘1’標(biāo)記。第三組件(C3)645和第四組件(C4)646都用ID字符串‘2’標(biāo)記。
每個(gè)唯一的ID字符串表示執(zhí)行集層級(jí)結(jié)構(gòu)中的唯一執(zhí)行集。具有ID字符串‘0’的那些組件被分組到執(zhí)行層級(jí)結(jié)構(gòu)中的根“0級(jí)”執(zhí)行集629中。具有ID字符串‘1’的那些組件被分組到嵌套在根執(zhí)行集629內(nèi)的“1級(jí)”執(zhí)行集630中。具有ID字符串‘2’的那些組件被分組到“2級(jí)”執(zhí)行集631,“2級(jí)”執(zhí)行集631嵌套在根“0級(jí)”執(zhí)行集629內(nèi),并且進(jìn)一步嵌套在“1級(jí)”執(zhí)行集630內(nèi)。
2.3用戶(hù)定義的執(zhí)行集
在上述示例中,(多個(gè))分配算法用于自動(dòng)發(fā)現(xiàn)存在于數(shù)據(jù)處理圖中的執(zhí)行集,而無(wú)需任何用戶(hù)干預(yù)。然而,在一些示例中,用戶(hù)可能需要除了由分配算法提供的功能之外的功能。在這種情況下,用戶(hù)可以明確地添加執(zhí)行集入口點(diǎn)和出口點(diǎn),以明確定義執(zhí)行集開(kāi)始和/或結(jié)束的位置。參考圖7,數(shù)據(jù)處理圖776包括第一數(shù)據(jù)集774,第一組件778,第二組件780和第二數(shù)據(jù)集790。將上述分配算法應(yīng)用于數(shù)據(jù)處理圖776將導(dǎo)致發(fā)現(xiàn)包括第一組件778和第二組件780的單個(gè)執(zhí)行集。然而,在這種情況下,用戶(hù)已明確定義了用于數(shù)據(jù)處理圖776的兩個(gè)執(zhí)行集(即,第一執(zhí)行集782和第二執(zhí)行集786)。具體地,用戶(hù)已經(jīng)將執(zhí)行集出口點(diǎn)組件784插入到從第一組件778的輸出端口出來(lái)的鏈路中,并且已經(jīng)將執(zhí)行集入口點(diǎn)788插入到進(jìn)入第二組件780的輸入端口的鏈路中。通過(guò)將執(zhí)行集出口點(diǎn)784和執(zhí)行集入口點(diǎn)788添加到第一組件778和第二組件780之間的鏈路,用戶(hù)實(shí)質(zhì)上已經(jīng)將原本單個(gè)執(zhí)行集分解為兩個(gè)單獨(dú)的執(zhí)行集782、786。
在一些示例中,用戶(hù)為數(shù)據(jù)處理圖定義所有執(zhí)行集入口點(diǎn)和出口點(diǎn)。在其他示例中,用戶(hù)定義一些執(zhí)行集入口點(diǎn)和出口點(diǎn),然后將其留給分配算法以發(fā)現(xiàn)數(shù)據(jù)處理圖的其余執(zhí)行集入口點(diǎn)和出口點(diǎn)。
2.4相同集關(guān)系
在一些示例中,用戶(hù)可能希望明確地指定給定組件屬于哪個(gè)執(zhí)行集。例如,如圖8A所示,數(shù)據(jù)處理圖892包括從創(chuàng)建數(shù)據(jù)組件896和讀表組件898接收數(shù)據(jù)元素的第一執(zhí)行集894。這些組件類(lèi)似于輸入文件組件,不同之處在于它們具有用于它們提供的數(shù)據(jù)元素的集合的不同的源。對(duì)于創(chuàng)建數(shù)據(jù)組件896,沒(méi)有用來(lái)指定文件位置的標(biāo)量輸入端口,而是存在用來(lái)指定多個(gè)記錄數(shù)據(jù)元素將如何產(chǎn)生的(可選的)標(biāo)量輸入端口,并且還存在用來(lái)指定每個(gè)數(shù)據(jù)元素將如何生成的參數(shù)。對(duì)于讀表組件898,沒(méi)有用來(lái)指定文件位置的標(biāo)量輸入端口,而是存在用來(lái)指定數(shù)據(jù)庫(kù)中的表的(可選的)標(biāo)量輸入端口。第一執(zhí)行集894包括第一組件891和第二組件893,它們一起處理來(lái)自創(chuàng)建數(shù)據(jù)組件896和讀表組件898的數(shù)據(jù)元素,以生成提供給第一數(shù)據(jù)集899的輸出。
在圖8A中,讀表組件898在第一執(zhí)行集894外部,意味著它運(yùn)行一次,并從其集合型輸出端口輸出數(shù)據(jù)元素的集合。數(shù)據(jù)元素的集合遍歷第一執(zhí)行集894的邊界,并被提供給第一組件891上的集合型輸入端口。對(duì)于執(zhí)行集894中的組件的每個(gè)并行實(shí)例,在第一組件891上的集合型輸入端口處創(chuàng)建數(shù)據(jù)元素集合的副本。通常,無(wú)論鏈路來(lái)自集合端口、標(biāo)量端口還是控制端口,被分配給不同執(zhí)行集的組件之間的鏈路將數(shù)據(jù)元素或控制元素復(fù)制到流入執(zhí)行集的鏈路的所有實(shí)例,并且從流出執(zhí)行集的鏈路的所有實(shí)例聚集數(shù)據(jù)元素或控制元素。數(shù)據(jù)元素被聚集成集合,并且控制元素被聚集成向量,該向量可以根據(jù)下游組件的控制邏輯被適當(dāng)?shù)靥幚?包括可能將其標(biāo)示為錯(cuò)誤)。
參考圖8B,在一些示例中,用戶(hù)可以要求對(duì)執(zhí)行集894中的組件的每個(gè)并行實(shí)例執(zhí)行讀表組件898。為了實(shí)現(xiàn)該功能,用戶(hù)可以在讀表組件898和第一組件891之間指定“相同集”關(guān)系。作為用戶(hù)指定“相同集”關(guān)系的結(jié)果,讀表組件898被移動(dòng)到與第一組件891相同的執(zhí)行集(即,第一執(zhí)行集894)。由于讀表組件898被包括在第一執(zhí)行集894中,所以第一執(zhí)行集894中的組件的每個(gè)并行實(shí)例執(zhí)行讀表組件898的實(shí)例。
在一些示例中,用戶(hù)可以通過(guò)從與源執(zhí)行集相關(guān)聯(lián)的菜單選擇目標(biāo)執(zhí)行集,或者通過(guò)將組件從源執(zhí)行集拖動(dòng)到目標(biāo)執(zhí)行集(例如,經(jīng)由下面更詳細(xì)描述的用戶(hù)界面)來(lái)指定“相同集”關(guān)系。在一些示例中,實(shí)施錯(cuò)誤檢查以驗(yàn)證被拖拽的組件可以合法地位于目標(biāo)執(zhí)行集中。例如,可以在要彼此具有“相同集”關(guān)系的任何兩個(gè)組件上強(qiáng)加的一個(gè)可能的要求是,必須具有通過(guò)數(shù)據(jù)處理圖的包括這些組件的至少一個(gè)路徑。
2.5集合數(shù)據(jù)復(fù)制
在一些示例中,執(zhí)行集中的多個(gè)組件可以各自具有經(jīng)由執(zhí)行集入口點(diǎn)連接到上游組件的單個(gè)集合輸出端口的標(biāo)量輸入端口。類(lèi)似地,執(zhí)行集中的多個(gè)組件可以各自具有連接到執(zhí)行集下游的組件的單個(gè)集合輸入端口的標(biāo)量輸出端口。
在一些示例中,為了從多個(gè)組件的集合型輸出端口向標(biāo)量輸入端口提供相同的數(shù)據(jù),執(zhí)行集入口點(diǎn)從集合為每個(gè)標(biāo)量輸入端口創(chuàng)建每個(gè)數(shù)據(jù)元素的復(fù)制本,并且將復(fù)制本提供到它們相應(yīng)的標(biāo)量輸入端口。類(lèi)似地,為了合并由多個(gè)組件的標(biāo)量輸出端口(來(lái)自執(zhí)行集的不同的相應(yīng)迭代)輸出的數(shù)據(jù),執(zhí)行集出口點(diǎn)可以從多個(gè)標(biāo)量輸出端口接收輸出數(shù)據(jù)元素,合并輸出數(shù)據(jù)元素,然后將合并的輸出數(shù)據(jù)元素提供到下游組件的集合輸入端口。通常,下游組件的集合輸入端口被配置為處理合并的數(shù)據(jù)元素。
如圖9所示,數(shù)據(jù)處理圖923包括第一數(shù)據(jù)集924,第二數(shù)據(jù)集926和執(zhí)行集928。執(zhí)行集928包括兩個(gè)組件:第一組件930和第二組件932。第一數(shù)據(jù)集924具有集合輸出端口934,其連接到執(zhí)行集928的執(zhí)行集入口點(diǎn)936并向其提供數(shù)據(jù)元素的集合。第二數(shù)據(jù)集926具有集合輸入端口938,集合輸入端口938連接到執(zhí)行集合928的執(zhí)行集出口點(diǎn)940并從其接收數(shù)據(jù)元素的集合。
在執(zhí)行集928內(nèi),第一組件930具有第一標(biāo)量輸入端口942,并且第二組件932具有第二標(biāo)量輸入端口944。第一標(biāo)量輸入端口942和第二標(biāo)量輸入端口944均連接到執(zhí)行集入口點(diǎn)936并從該執(zhí)行集入口點(diǎn)936接收各個(gè)數(shù)據(jù)元素。如上文所述,執(zhí)行集入口點(diǎn)936復(fù)制從集合輸出端口934接收的數(shù)據(jù)元素,以向連接到執(zhí)行集入口點(diǎn)936的每個(gè)標(biāo)量輸入端口提供數(shù)據(jù)元素集合的每個(gè)數(shù)據(jù)元素的復(fù)制本。在圖9中,執(zhí)行集入口點(diǎn)936創(chuàng)建每個(gè)數(shù)據(jù)元素的兩個(gè)復(fù)制本,并將其中一個(gè)復(fù)制本提供給第一標(biāo)量輸入端口942,將另一個(gè)復(fù)制本提供給第二標(biāo)量輸入端口944。從圖中可以看出,在一些示例中,圖形用戶(hù)界面中的執(zhí)行集入口點(diǎn)936的可視表示提供了由執(zhí)行集入口點(diǎn)936創(chuàng)建了數(shù)據(jù)元素的多少?gòu)?fù)制本的表示。此外,在其他示例中,表示復(fù)制本的不同副本的不同入口點(diǎn)指示符可以被分離,并且圍繞執(zhí)行集的邊界分布為與執(zhí)行集內(nèi)需要從饋送給該執(zhí)行集的集合輸出端口提供的每個(gè)復(fù)制的數(shù)據(jù)元素的副本的組件一樣多的組件。
第一組件930和第二組件932處理它們各自的數(shù)據(jù)元素,并且經(jīng)由標(biāo)量輸出端口946、948將它們各自處理后的數(shù)據(jù)元素提供給執(zhí)行集出口點(diǎn)940。在一些示例中,執(zhí)行集出口點(diǎn)940將處理后的數(shù)據(jù)元素分組成對(duì),將處理后的數(shù)據(jù)元素對(duì)輸出到第二數(shù)據(jù)集926的集合輸入端口938。從圖中可以看出,在一些示例中,圖形用戶(hù)界面中的執(zhí)行集出口點(diǎn)940的可視表示提供了關(guān)于由執(zhí)行集入口點(diǎn)936分組了多少數(shù)據(jù)元素的復(fù)制本的表示。
2.6資源鎖定
在一些示例中,給定執(zhí)行集中的組件可以在并行實(shí)例中運(yùn)行多次。在一些示例中,并行運(yùn)行實(shí)例的組件可能需要訪(fǎng)問(wèn)共享資源。為了防止競(jìng)爭(zhēng)情況以及與訪(fǎng)問(wèn)共享資源的多個(gè)進(jìn)程相關(guān)的其他問(wèn)題,可以使用鎖定機(jī)制(latching mechanism)。通常,鎖定機(jī)制允許執(zhí)行集中的組件的一個(gè)實(shí)例在共享資源上獲得時(shí)長(zhǎng)為該實(shí)例完成運(yùn)行時(shí)間的運(yùn)行時(shí)鎖定。在實(shí)例使共享資源鎖定期間,只有實(shí)例中的組件才能訪(fǎng)問(wèn)該共享資源,并且其他實(shí)例的組件必須等待鎖定被解除。實(shí)例完成后,它會(huì)解除運(yùn)行時(shí)鎖定,從而允許其他實(shí)例訪(fǎng)問(wèn)共享資源。鎖定機(jī)制必須在單個(gè)執(zhí)行集內(nèi)鎖定和解鎖共享資源(例如,使用上游端處的顯式鎖定組件和下游端處的顯式解鎖組件)。在一些實(shí)施例中,這樣的“鎖定的執(zhí)行集”不能被嵌套,也不能彼此重疊。
2.7其他
注意,雖然基于全局映射的分配算法是關(guān)于二維數(shù)據(jù)處理圖描述的,但是也可以使用該算法來(lái)發(fā)現(xiàn)一維數(shù)據(jù)處理圖的執(zhí)行集。
通常,執(zhí)行集可以任意嵌套。
通常,執(zhí)行集具有為執(zhí)行集的每個(gè)實(shí)例從鏈接的輸出集合端口接收到的至多一個(gè)驅(qū)動(dòng)數(shù)據(jù)元素。然而,如果跨越執(zhí)行集的邊界顯式地或隱式地復(fù)制相同的數(shù)據(jù)元素,則多個(gè)標(biāo)量輸入端口可以接收該相同的數(shù)據(jù)元素。
通常,具有跨越執(zhí)行集的邊界的鏈路的所有輸出標(biāo)量端口具有來(lái)自執(zhí)行集的多個(gè)實(shí)例中的每一個(gè)的所有數(shù)據(jù)元素,這些數(shù)據(jù)元素被聚集到提供給鏈接的輸入采集端口的同一集合中。但是,如果執(zhí)行集僅具有單個(gè)實(shí)例,則具有跨越執(zhí)行集的邊界的鏈路的輸出標(biāo)量端口可以鏈接到輸入標(biāo)量端口。
通常,相同類(lèi)型的兩個(gè)端口之間的鏈路可以遍歷執(zhí)行集邊界,假設(shè)執(zhí)行集的遍歷不會(huì)導(dǎo)致數(shù)據(jù)處理圖中的任何循環(huán)。
在一些示例中,默認(rèn)地為每個(gè)執(zhí)行集分配唯一標(biāo)識(shí)符(例如,‘1’)。在其他示例中,每個(gè)執(zhí)行集可以被分配執(zhí)行集ID路徑(例如,‘1/3/6’)。在一些示例中,用戶(hù)明確地提供執(zhí)行集ID字符串。執(zhí)行集ID字符串不一定是唯一的。在執(zhí)行集ID字符串不是唯一的情況下,執(zhí)行集ID字符串可以與其父、祖父節(jié)點(diǎn)等的執(zhí)行集ID字符串組合,從而形成唯一的ID字符串。
在一些示例中,基于全局映射的分配算法導(dǎo)致組件被分配對(duì)應(yīng)于最深嵌套執(zhí)行集的ID字符串。在一些示例中,當(dāng)為執(zhí)行集被分配了執(zhí)行集ID路徑時(shí),執(zhí)行集ID路徑不一定是唯一的。為了補(bǔ)償執(zhí)行集ID路徑不唯一的情況,對(duì)執(zhí)行集ID路徑施加約束,要求給定執(zhí)行集上游的執(zhí)行集ID路徑必須是“兼容的”,其中兩個(gè)執(zhí)行集ID路徑是兼容當(dāng)且僅當(dāng)它們是相同的,或者一個(gè)是另一個(gè)的適當(dāng)前綴。例如:
·/1/2/3和/1/2/3兼容
·/1/2/3和/1/2兼容
·/1/2和/1/2/3兼容
·1/2/3和/1兼容
·1/2/3和1/4不兼容
·/1/2/3和/1/4/5不兼容
上述實(shí)施例基本上沒(méi)有對(duì)標(biāo)量塊的實(shí)例的執(zhí)行強(qiáng)加排序/并發(fā)約束。但是,在一些實(shí)施例中,提供其他輸入以控制從饋送給執(zhí)行集的集合接收的數(shù)據(jù)元素的子集的允許并發(fā)性和所需串行化。在一些實(shí)施例中,可以對(duì)數(shù)據(jù)元素的一些子集強(qiáng)加根據(jù)部分排序的順序處理。
在默認(rèn)情況下,執(zhí)行集的實(shí)例可以完全并行地運(yùn)行。然而,在一些情況下,用戶(hù)可能期望不同的行為。例如,如果正在處理的數(shù)據(jù)是帳戶(hù)級(jí)數(shù)據(jù),則用戶(hù)可能希望對(duì)每個(gè)帳戶(hù)內(nèi)的數(shù)據(jù)強(qiáng)制某些限制。例如,用戶(hù)可能想強(qiáng)制串行執(zhí)行。在這種情況下,可以允許跨帳戶(hù)的任何并行度,但是不能同時(shí)(即,并發(fā)地)處理同一帳戶(hù)的兩個(gè)數(shù)據(jù)元素??蛇x地,附加限制可以是有序處理,使得相同帳戶(hù)的兩個(gè)數(shù)據(jù)元素不得根據(jù)由鍵限定的順序或者通過(guò)例如接收的順序來(lái)進(jìn)行無(wú)序處理。
為了實(shí)現(xiàn)這一點(diǎn),可以為執(zhí)行集提供串行化鍵。具有相同串行化鍵值的所有數(shù)據(jù)元素必須串行處理,并且在某些情況下必須按照明確定義的順序處理。運(yùn)行時(shí)系統(tǒng)對(duì)具有相同串行化鍵的數(shù)據(jù)元素強(qiáng)制串行執(zhí)行的一種方式是通過(guò)串行化鍵來(lái)對(duì)執(zhí)行集實(shí)例進(jìn)行分區(qū):將其驅(qū)動(dòng)數(shù)據(jù)元素具有特定串行化鍵(或串行化鍵的哈希值)的實(shí)例分配為在特定計(jì)算節(jié)點(diǎn)152上執(zhí)行。在運(yùn)行時(shí),系統(tǒng)可以通過(guò)掃描數(shù)據(jù)元素的集合來(lái)確保工作均勻分布在多個(gè)計(jì)算節(jié)點(diǎn)152上,以確??蛇\(yùn)行任務(wù)的隊(duì)列保持充滿(mǎn)。在不需要明確定義的順序(例如在集合中)的情況下,順序可以是與它們從輸出端口(甚至集合輸出端口)產(chǎn)生的順序相同的順序,或者與控制串行化鍵組內(nèi)的處理順序的不同的校對(duì)鍵相關(guān)聯(lián)的順序相同的順序。在一些情況下,可以通過(guò)提供預(yù)定義的值作為串行化鍵來(lái)強(qiáng)制執(zhí)行集完全串行運(yùn)行。
在一些實(shí)施例中,可以表面保持順序被保留,即使沒(méi)有嚴(yán)格根據(jù)該順序?qū)嵤┨幚硪彩侨绱恕H绻麍?zhí)行集的輸入和輸出兩者處的數(shù)據(jù)與特定順序(例如,向量?jī)?nèi)的元素的順序)相關(guān)聯(lián),則用戶(hù)可能希望保留該順序。即使在數(shù)據(jù)元素的處理中沒(méi)有串行化,也可以例如使用處理數(shù)據(jù)元素時(shí)與數(shù)據(jù)元素一起攜帶的排序鍵來(lái)對(duì)輸出數(shù)據(jù)元素進(jìn)行排序,以恢復(fù)與對(duì)應(yīng)的一組輸入數(shù)據(jù)元素相關(guān)聯(lián)的排序??商娲?,并行產(chǎn)生的輸出數(shù)據(jù)元素可以以與它們進(jìn)入執(zhí)行集的順序相同的順序合并,而不一定需要實(shí)施顯式排序操作。
與為執(zhí)行集準(zhǔn)備的執(zhí)行代碼相關(guān)聯(lián)的各種計(jì)算特性可以由編譯器/解釋器120來(lái)配置,可以有或沒(méi)有來(lái)自用戶(hù)的輸入。例如,上述用于指示如何實(shí)施與特定執(zhí)行集內(nèi)的組件相對(duì)應(yīng)的任務(wù)的嵌入信息可以包括以下任何內(nèi)容。所述信息可以包括指示任務(wù)將完全串行執(zhí)行(即,沒(méi)有并行性)的編譯器注釋。所述信息可以包括指示以與排序約束所允許的并行性一樣多的并行性來(lái)實(shí)施任務(wù)的編譯器注釋。所述信息可以包括指示與相同鍵值相關(guān)的任務(wù)被串行執(zhí)行并且與不同鍵值相關(guān)的任務(wù)被并行執(zhí)行的編譯器注釋(即,如上所述按鍵串行化)。
編譯器注釋或修改符可以用于指示各種計(jì)算特性中的任何一種:
·并發(fā)性(例如,如上所述的并行、串行、按鍵串行)
·不同執(zhí)行集之間的優(yōu)先性(precedence)(例如,一個(gè)執(zhí)行集的所有任務(wù)發(fā)生在另一執(zhí)行集的所有任務(wù)之后)
·事務(wù)性(例如,執(zhí)行集的任務(wù)作為數(shù)據(jù)庫(kù)事務(wù)(database transaction)處理)
·資源鎖定(例如,執(zhí)行集的任務(wù)通過(guò)特定資源(例如共享變量)實(shí)施,鎖住,允許任務(wù)將資源作為原子單元訪(fǎng)問(wèn))
·排序(例如,保留數(shù)據(jù)元素之間的排序)
·元組大小(例如,將由執(zhí)行集的每個(gè)實(shí)例操作的數(shù)據(jù)元素的數(shù)量)
編譯器/解釋器120可以基于自動(dòng)分析作為整體的執(zhí)行集或數(shù)據(jù)處理圖的屬性,和/或基于接收來(lái)自用戶(hù)的輸入(例如,圖中的用戶(hù)注釋)確定這些特性。例如,如果在執(zhí)行集中引用鍵值,則編譯器注釋可以指示按鍵串行化。如果在執(zhí)行集內(nèi)使用資源,則編譯器修改符可以在該執(zhí)行集之前/之后允許鎖定/解鎖該資源。如果在執(zhí)行集內(nèi)存在數(shù)據(jù)庫(kù)操作,則執(zhí)行集的每個(gè)實(shí)例可以被配置為作為數(shù)據(jù)庫(kù)事務(wù)執(zhí)行。如果可以在編譯時(shí)確定可用的核的數(shù)量,則編譯器注釋可以指示每個(gè)核將對(duì)由數(shù)量為等于集合的總大小除以核的數(shù)量的數(shù)據(jù)項(xiàng)組成的數(shù)據(jù)項(xiàng)元組執(zhí)行執(zhí)行集的實(shí)例。
編譯器注釋和修改符可以被添加到以目標(biāo)語(yǔ)言準(zhǔn)備的代碼,諸如合適的高級(jí)語(yǔ)言(例如,DML)或低級(jí)可執(zhí)行代碼,或數(shù)據(jù)處理圖的目標(biāo)中間形式。例如,編譯器/解釋器120可以將組件插入到明確指示到執(zhí)行集的入口點(diǎn)或出口點(diǎn)的數(shù)據(jù)處理圖中,或者用來(lái)開(kāi)始/結(jié)束事務(wù)的組件可以放置在用于處理事務(wù)的組件集的入口/出口點(diǎn),或者組件可以用于鎖定/解鎖資源??商娲兀幾g器/解釋器120可以將修改符添加為修改類(lèi)型的數(shù)據(jù)流鏈路。
3 數(shù)據(jù)處理圖的用戶(hù)界面
在一些示例中,用戶(hù)界面允許用戶(hù)通過(guò)將組件拖動(dòng)到畫(huà)布上并使用鏈路將組件的端口連接在一起來(lái)開(kāi)發(fā)數(shù)據(jù)處理圖。在一些示例中,用戶(hù)界面在用戶(hù)開(kāi)發(fā)數(shù)據(jù)處理圖時(shí)重復(fù)地將上述分配算法應(yīng)用于數(shù)據(jù)處理圖。例如,當(dāng)用戶(hù)向正在開(kāi)發(fā)的數(shù)據(jù)處理圖中添加組件時(shí),分配算法可以應(yīng)用于具有被添加組件的圖。然后可以將由分配算法發(fā)現(xiàn)的結(jié)果執(zhí)行集顯示為例如圍繞用戶(hù)界面中的組件繪制的框,或者顯示為包圍組件的任意形狀的區(qū)域,其可以通過(guò)用于在同一執(zhí)行集中呈現(xiàn)包含多個(gè)組件的區(qū)域的唯一的顏色、陰影、紋理或標(biāo)記來(lái)區(qū)分。在一些示例中,用戶(hù)然后可以通過(guò)向執(zhí)行集添加組件或從執(zhí)行集中去除組件來(lái)修改由分配算法發(fā)現(xiàn)的執(zhí)行集。在一些示例中,分配算法驗(yàn)證修改后的執(zhí)行集是合法的。例如,各種端口之間可以存在組件和鏈路的一些配置,其可以潛在地以各種合法方式中的任一種劃分為多個(gè)執(zhí)行集。在這樣的模糊情況下,分配算法可以默認(rèn)地選擇執(zhí)行集的一個(gè)分配,但是用戶(hù)可能已經(jīng)期望進(jìn)行執(zhí)行集的不同分配,在這種情況下,用戶(hù)可以修改分配(例如,通過(guò)插入出口點(diǎn)以在組件鏈中更早地關(guān)閉執(zhí)行集)??商娲兀峙渌惴梢员慌渲脼樽R(shí)別其中可能有多個(gè)合法分配的模糊配置,并且提示用戶(hù)輸入以選擇一個(gè)配置。
參考圖10A,用戶(hù)已將三個(gè)組件(第一數(shù)據(jù)集1022,第一計(jì)算組件1024和第二數(shù)據(jù)集1026)拖動(dòng)到數(shù)據(jù)處理圖開(kāi)發(fā)用戶(hù)界面的畫(huà)布1028上。用戶(hù)還沒(méi)有使用鏈路將組件1022、1024、1026的端口連接在一起,并且分配算法尚未在數(shù)據(jù)處理圖中發(fā)現(xiàn)任何執(zhí)行集(除了根執(zhí)行集)。
參考圖10B,當(dāng)用戶(hù)用鏈路將組件1022、1024、1026的端口連接在一起時(shí),分配算法自動(dòng)發(fā)現(xiàn)第一執(zhí)行集1030,第一執(zhí)行集1030包括第一計(jì)算組件1024。通過(guò)用戶(hù)界面將第一執(zhí)行集1030顯示給用戶(hù)。當(dāng)用戶(hù)繼續(xù)向圖中添加組件和鏈路時(shí),分配算法自動(dòng)發(fā)現(xiàn)執(zhí)行集,并通過(guò)用戶(hù)界面顯示執(zhí)行集。
參考圖10C,在一些示例中,用戶(hù)可能需要打破鏈路(例如,將另一組件插入到鏈路中)。在這樣的示例中,如果分配算法被允許重新分析數(shù)據(jù)處理圖,則第一執(zhí)行集1030將被去除,可能導(dǎo)致用戶(hù)的工作中斷和丟失。
為了避免這種中斷,當(dāng)用戶(hù)從數(shù)據(jù)處理圖中去除流或組件時(shí),可以不執(zhí)行分配算法,而是保持其余組件及它們的執(zhí)行集關(guān)聯(lián)未受影響。例如,在圖10C中,其輸入和輸出端口斷開(kāi),第一組件1024仍然包括在第一執(zhí)行集1030中。在一些示例中,當(dāng)斷開(kāi)的組件被重新連接時(shí),則允許分配算法自動(dòng)地發(fā)現(xiàn)和顯示與重新連接的組件相關(guān)聯(lián)的任何執(zhí)行集。
在一些示例中,如果數(shù)據(jù)處理圖的組件不具有明確的(例如,用戶(hù)定義的)執(zhí)行集指定,則允許分配算法發(fā)現(xiàn)組件屬于哪個(gè)執(zhí)行集。否則,如果組件具有明確的用戶(hù)定義的執(zhí)行集指定,則不允許分配算法選擇該組件包括在哪個(gè)執(zhí)行集中。例如,如果用戶(hù)將組件手動(dòng)移動(dòng)到給定的執(zhí)行集中,則不允許分配算法將該組件包括在除用戶(hù)指定的執(zhí)行集之外的任何執(zhí)行集中。也就是說(shuō),對(duì)數(shù)據(jù)處理圖的任何用戶(hù)修改不能被分配算法重寫(xiě)(overridden)。
在一些示例中,用戶(hù)界面允許用戶(hù)使用手勢(shì)或通過(guò)輸入設(shè)備進(jìn)行的其他交互來(lái)將組件提升到給定執(zhí)行集中和/或?qū)⒔M件從給定執(zhí)行集中降級(jí)。在一些示例中,用戶(hù)可以使用菜單選項(xiàng)或其他提示來(lái)提升或降級(jí)組件。在其他示例中,用戶(hù)可以簡(jiǎn)單地將組件拖動(dòng)到用戶(hù)界面中的期望執(zhí)行集中。
在一些示例中,用戶(hù)界面允許用戶(hù)為數(shù)據(jù)處理圖中的執(zhí)行集指定一個(gè)或多個(gè)約束。例如,用戶(hù)可以將執(zhí)行約束為在給定時(shí)間并行運(yùn)行不超過(guò)N次。
在一些示例中,編譯器/解釋器120接收包括手動(dòng)定義的執(zhí)行集和由分配算法發(fā)現(xiàn)的執(zhí)行集的混合的數(shù)據(jù)處理圖的表示。
在一些示例中,用戶(hù)可以使用界面定義另一類(lèi)型的執(zhí)行集,稱(chēng)為啟用/禁止執(zhí)行集。例如,用戶(hù)可以圍繞他們希望被包括在啟用/禁止執(zhí)行集中的一個(gè)或多個(gè)組件繪制框。啟用/禁止執(zhí)行集包括一個(gè)或多個(gè)組件并且具有標(biāo)量輸入端口。如果上游組件的標(biāo)量輸出端口向啟用/禁止執(zhí)行集的標(biāo)量輸入端口提供一個(gè)數(shù)據(jù)元素,則允許啟用/禁止執(zhí)行集中的組件執(zhí)行。如果上游組件的標(biāo)量輸出端口向啟用/禁止執(zhí)行集的標(biāo)量輸入端口提供零數(shù)據(jù)元素,則啟用/禁止執(zhí)行集中包括的組件被禁止。任何執(zhí)行集(包括啟用/禁止執(zhí)行集)可以包括控制輸入和輸出端口,其可用于確定整個(gè)執(zhí)行集是否將被執(zhí)行以及是否將控制信號(hào)傳播到其他組件或執(zhí)行集。如果執(zhí)行集被并行化(即具有多個(gè)實(shí)例),則在執(zhí)行任何實(shí)例之前必須激活輸入控制端口,并且在所有實(shí)例完成執(zhí)行之后激活輸出控制端口。在一些示例中,通過(guò)將端口的可視表示放置在執(zhí)行集的邊界上來(lái)提供這些輸入和輸出控制端口。在其他示例中,通過(guò)將這些輸入和輸出控制端口放置在執(zhí)行集前方的附加組件上來(lái)提供這些輸入和輸出控制端口。例如,該附加的“對(duì)于所有組件”可以(例如,由用戶(hù)界面自動(dòng)地或由用戶(hù)手動(dòng)地)插入在上游集合輸出數(shù)據(jù)端口和入口點(diǎn)指示符之間,或者代替入口點(diǎn)指示符(即,在上游集合輸出數(shù)據(jù)端口和驅(qū)動(dòng)輸入標(biāo)量數(shù)據(jù)端口之間)。
如上文參照?qǐng)D7注意到的,在一些示例中,用戶(hù)可以通過(guò)沿著數(shù)據(jù)處理圖的流放置執(zhí)行集入口點(diǎn)和出口點(diǎn)組件來(lái)明確地定義執(zhí)行集入口點(diǎn)和出口點(diǎn)。
在一些示例中,用戶(hù)界面提供實(shí)時(shí)反饋以在他們的圖包括非法操作時(shí)通知用戶(hù)。例如,如果存在由在用戶(hù)指定的執(zhí)行集中的組件引起的沖突,則分配算法可以通過(guò)用戶(hù)界面向用戶(hù)發(fā)出警告。為了提供實(shí)時(shí)反饋,分配算法將驗(yàn)證規(guī)則應(yīng)用于數(shù)據(jù)處理圖以通知用戶(hù)數(shù)據(jù)處理圖是否合法。參考圖11A,非法數(shù)據(jù)處理圖配置1195的一個(gè)示例包括兩個(gè)數(shù)據(jù)源:將數(shù)據(jù)元素的第一集合饋送到第一執(zhí)行集1197中的第一組件1102的標(biāo)量端口的第一數(shù)據(jù)源1191,以及將數(shù)據(jù)元素的第二集合饋送到第二執(zhí)行集1199中的第二組件1104的標(biāo)量端口的第二數(shù)據(jù)源1198。第二執(zhí)行集1199輸出數(shù)據(jù)元素的第三集合,然后該第三集合被輸入到第一執(zhí)行集1197中的第三組件1106的標(biāo)量數(shù)據(jù)端口。由于兩個(gè)不同的數(shù)據(jù)元素的集合連接到第一執(zhí)行集1197中的不同標(biāo)量端口,所以沒(méi)有辦法知道應(yīng)該實(shí)例化第一執(zhí)行集1197中的組件的多少并行實(shí)例(因?yàn)獒槍?duì)存在于第一執(zhí)行集1197的邊界處的每個(gè)數(shù)據(jù)元素生成組件的一個(gè)實(shí)例)。在一些示例中,通過(guò)在例如第二組件1104上顯示錯(cuò)誤指示符1108來(lái)通知用戶(hù)此沖突。
參考圖11B,非法數(shù)據(jù)處理配置1110的另一示例包括將數(shù)據(jù)元素的集合饋送到第一執(zhí)行集1116中的第一組件1114的標(biāo)量輸入端口的數(shù)據(jù)源1112。第一組件1114的標(biāo)量輸出將其輸出作為數(shù)據(jù)的集合提供到第一執(zhí)行集1116外部的第二組件1118的集合端口。第二組件1118從集合型輸出端口將數(shù)據(jù)元素的集合提供到第一執(zhí)行集1116中的第三組件1120的標(biāo)量數(shù)據(jù)端口。
通過(guò)從第一執(zhí)行集1116外的第一組件1114的集合型輸出端口傳遞數(shù)據(jù)元素的集合,在第二組件1118處處理數(shù)據(jù)元素的集合,然后將處理后的數(shù)據(jù)元素的集合傳遞回第三組件1120的標(biāo)量端口,定義了“執(zhí)行集循環(huán)”。
通常,執(zhí)行集循環(huán)是非法的,因?yàn)樗鼈儾焕趫?zhí)行排序。例如,通常允許具有進(jìn)入執(zhí)行集或離開(kāi)執(zhí)行集的附加流,因?yàn)閷?duì)于輸入而言,輸入數(shù)據(jù)可以在執(zhí)行集被執(zhí)行之前得到緩存,對(duì)于輸出而言,輸出數(shù)據(jù)可以在執(zhí)行集完成執(zhí)行之后被聚集。但是,如果需要外部組件在執(zhí)行集之前和之后運(yùn)行,則這是不可能的。
在一些示例中,通過(guò)在一個(gè)或多個(gè)組件上顯示錯(cuò)誤指示符1108來(lái)通知用戶(hù)執(zhí)行集循環(huán)。
在一些示例中,如果每個(gè)執(zhí)行集入口點(diǎn)與至少一個(gè)對(duì)應(yīng)的執(zhí)行集出口點(diǎn)不匹配,則數(shù)據(jù)處理圖被認(rèn)為是非法的??商娲?,具有入口點(diǎn)但沒(méi)有對(duì)應(yīng)出口點(diǎn)的執(zhí)行集可以被允許作為用戶(hù)定義的執(zhí)行集,即使其不會(huì)被分配算法自動(dòng)識(shí)別。在這些情況下,在(一個(gè)或多個(gè))最下游組件完成執(zhí)行之后,執(zhí)行集可以結(jié)束(而不提供任何輸出數(shù)據(jù)元素)。在一些示例中,如果每個(gè)鎖定操作不與對(duì)應(yīng)的解鎖操作匹配,則數(shù)據(jù)處理圖被認(rèn)為是非法的。可替代地,如果沒(méi)有明確指定,則可以推斷解鎖操作,并且如果推斷的解鎖操作將需要在與鎖定操作不同的執(zhí)行集中,則僅指示為非法。在一些示例中,如果鎖定操作及其對(duì)應(yīng)的解鎖操作不存在于同一執(zhí)行集中,則數(shù)據(jù)處理圖被認(rèn)為是非法的。
4控制圖的狀態(tài)機(jī)
在為執(zhí)行準(zhǔn)備數(shù)據(jù)處理圖的過(guò)程中,編譯器/解釋器120還在控制圖生成過(guò)程中生成控制圖。在一些實(shí)現(xiàn)方式中,生成控制圖包括生成用于執(zhí)行與各個(gè)組件相對(duì)應(yīng)的任務(wù)的可執(zhí)行代碼和與確定任務(wù)之間的數(shù)據(jù)流和控制流的各種組件間鏈路相對(duì)應(yīng)的代碼。這包括由編譯器/解釋器120發(fā)現(xiàn)的執(zhí)行集的層級(jí)結(jié)構(gòu)中的數(shù)據(jù)傳送和控制傳送。
生成這樣的可執(zhí)行代碼的一部分包括在一些數(shù)據(jù)結(jié)構(gòu)表示中為每個(gè)執(zhí)行集生成對(duì)應(yīng)的控制圖,包括任何啟用/禁止執(zhí)行集。執(zhí)行集內(nèi)的任何嵌套執(zhí)行集被視為表示該嵌套執(zhí)行集的單個(gè)組件,用于生成控制圖。此代表性組件的端口對(duì)應(yīng)于嵌套執(zhí)行集內(nèi)連接到跨越嵌套執(zhí)行集邊界的鏈路的組件的端口。編譯器/解釋器120然后將使用該控制圖來(lái)生成控制代碼。這個(gè)生成的控制代碼有效地實(shí)現(xiàn)了在運(yùn)行時(shí)控制執(zhí)行的狀態(tài)機(jī)。特別地,一旦執(zhí)行開(kāi)始,則該生成的控制代碼控制組件或端口何時(shí)從該狀態(tài)機(jī)的一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài)。
圖12A示出了編譯器/解釋器120如何將根執(zhí)行集的第一組件對(duì)1202和第二組件對(duì)1204組合成控制圖1206的示例。在該示例中,第一組件對(duì)1202包括由相應(yīng)集合數(shù)據(jù)端口1212、1214連接的第一組件1208和第二組件1210。第二組件對(duì)1204包括由相應(yīng)標(biāo)量數(shù)據(jù)端口1220、1222連接的第三組件1216和第四組件1218。
編譯器/解釋器120通過(guò)添加開(kāi)始組件1224和完成組件1226并且按照數(shù)據(jù)處理圖的拓?fù)涞闹甘緦⒔M件連接到開(kāi)始組件1224和完成組件1226來(lái)創(chuàng)建控制圖。開(kāi)始組件和完成組件不執(zhí)行任何計(jì)算任務(wù),但編譯器/解釋器120將使用開(kāi)始組件和完成組件來(lái)管理控制信號(hào),該控制信號(hào)將用于開(kāi)始某些組件的執(zhí)行并確定執(zhí)行集中的所有組件何時(shí)已完成執(zhí)行。
為了確定特定組件是否需要連接到開(kāi)始組件1224,編譯器/解釋器120檢查至該組件的輸入,以基于到上游串行端口的現(xiàn)有鏈路確定該組件是否沒(méi)有被指定開(kāi)始執(zhí)行,如上所述,上游串行端口包括控制端口和標(biāo)量端口。
例如,如果組件沒(méi)有至其控制輸入端口的鏈路,則它可能永遠(yuǎn)不會(huì)開(kāi)始執(zhí)行,因?yàn)閷⒂肋h(yuǎn)不會(huì)有控制信號(hào)來(lái)指示它開(kāi)始。另一方面,即使沒(méi)有控制輸入,也可能取決于組件具有的數(shù)據(jù)輸入的類(lèi)型,針對(duì)數(shù)據(jù)的到達(dá)而觸發(fā)該組件的執(zhí)行。例如,如果組件具有標(biāo)量輸入端口,則即使在其控制輸入端口處沒(méi)有控制信號(hào),一旦該組件在其標(biāo)量輸入端口處看到數(shù)據(jù),該組件仍將開(kāi)始執(zhí)行。另一方面,如果組件只有集合數(shù)據(jù)輸入,那么這種情況不會(huì)發(fā)生。如果這樣的組件不具有用來(lái)觸發(fā)執(zhí)行的控制輸入或標(biāo)量數(shù)據(jù)輸入,則它將需要至開(kāi)始組件1224的連接。
在圖12A的上下文中,第一組件1208既不具有控制輸入也不具有標(biāo)量數(shù)據(jù)輸入。因此,第一組件1208將無(wú)法自己開(kāi)始執(zhí)行。因此,第一組件1208必須鏈接到開(kāi)始組件1224。第三組件1216同樣既不具有控制輸入也不具有標(biāo)量數(shù)據(jù)輸入。因此,第三組件1216也必須鏈接到開(kāi)始組件1224。
第四組件1218沒(méi)有控制輸入。但是它被連接以從第三組件1216接收標(biāo)量數(shù)據(jù)輸入。因此,它將在通過(guò)其輸入標(biāo)量端口1222接收到數(shù)據(jù)時(shí)開(kāi)始執(zhí)行。因此,第四組件1218不需要連接到開(kāi)始組件1224。
第二組件1210被配置為從第一組件1208接收數(shù)據(jù)。然而,在輸入集合端口1214而不是在輸入標(biāo)量端口處接收該數(shù)據(jù)。結(jié)果,類(lèi)似于第一組件,第二組件1210也必須連接到開(kāi)始組件1224。
編譯器/解釋器120還需要識(shí)別哪些組件將需要連接到完成組件1226。
通常,當(dāng)組件缺少控制輸出鏈路或(任何類(lèi)型的)數(shù)據(jù)輸出鏈路時(shí),將組件連接到完成組件1226。在圖12A的左側(cè)的圖中,僅第二組件1210和第四組件1218滿(mǎn)足該條件。因此,如圖12A的右側(cè)所示,僅這兩個(gè)組件連接到完成組件1226。
圖12B類(lèi)似于圖12A,不同的是在圖的左側(cè)的第一組件1208和第三組件1216之間存在控制鏈路。與規(guī)則一致,不再需要在得到的替代控制圖1206'中將第三組件1216連接到開(kāi)始組件1224。
控制圖有效地定義分布式狀態(tài)機(jī),其中組件及其串行端口響應(yīng)于上游組件和串行端口發(fā)生的轉(zhuǎn)換從一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài)。通常,上游組件將從一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài),導(dǎo)致其輸出串行端口轉(zhuǎn)換,這使得下游組件的鏈接串行輸入端口轉(zhuǎn)換,這使得這些下游組件轉(zhuǎn)換,等等。下面參照用于組件及其串行端口的狀態(tài)轉(zhuǎn)換圖更詳細(xì)地描述用于實(shí)現(xiàn)該行為的特定類(lèi)型的狀態(tài)機(jī)的一個(gè)示例。
為了提供對(duì)狀態(tài)機(jī)的轉(zhuǎn)換的控制,編譯器/解釋器120移植額外的控制代碼到用于執(zhí)行由特定組件表示的任務(wù)的代碼中。如本文所使用的,“移植(graft)”意指前附、后附或既前附又后附的控制代碼。前附的控制代碼在本文被稱(chēng)為“前序(prologue)”代碼,而后附的控制代碼被稱(chēng)為“結(jié)束(epilogue)”代碼。組件的前序代碼在組件執(zhí)行其任務(wù)之前執(zhí)行。組件的結(jié)束代碼在組件610A已經(jīng)完成執(zhí)行其任務(wù)之后執(zhí)行。
移植的控制代碼檢查所存儲(chǔ)的狀態(tài)信息,例如累加器的值(例如,計(jì)數(shù)器倒計(jì)數(shù)到指示輸入已為調(diào)用組件準(zhǔn)備就緒的值)或標(biāo)志的狀態(tài)(例如,設(shè)置為指示組件已被禁止的值的標(biāo)志),以確定是否使一個(gè)或多個(gè)下游組件執(zhí)行其相應(yīng)的任務(wù)。
在一個(gè)實(shí)施例中,前序代碼監(jiān)視上游輸出串行端口的狀態(tài),并更新組件的輸入串行端口的狀態(tài)和組件的狀態(tài),而結(jié)束代碼在組件完成實(shí)施其任務(wù)之后更新組件的輸出串行端口。
在另一個(gè)實(shí)施例中,代替監(jiān)視上游輸出串行端口的下游組件的前序代碼,上游組件的結(jié)束代碼更新下游輸入串行端口的集合狀態(tài),并監(jiān)視該集合狀態(tài)以觸發(fā)下游組件的前序代碼在適當(dāng)?shù)臅r(shí)間(例如當(dāng)初始化為輸入串口數(shù)量的計(jì)數(shù)器達(dá)到零時(shí))執(zhí)行。可替代地,代替計(jì)數(shù)器從輸入端口的數(shù)量倒計(jì)數(shù)(或向上計(jì)數(shù)到輸入端口的數(shù)量),可以使用另一形式的累加器來(lái)存儲(chǔ)用于觸發(fā)組件的狀態(tài)信息,例如存儲(chǔ)表示不同組件的不同端口的狀態(tài)的位的位圖。
作為該移植的控制代碼的結(jié)果,基于在特定組件的執(zhí)行開(kāi)始和結(jié)束時(shí)一個(gè)或多個(gè)上游邏輯狀態(tài)的集合的發(fā)生,任務(wù)的完成自動(dòng)導(dǎo)致以與由控制圖表示的數(shù)據(jù)控制依賴(lài)性一致的方式、并且以允許多個(gè)組件的并發(fā)操作并且允許使用條件控制邏輯來(lái)控制的方式自動(dòng)執(zhí)行其他任務(wù)。
圖13A和圖13B示出了可用于組件(圖13A的狀態(tài)轉(zhuǎn)換圖1300)和其串行端口(圖13B的狀態(tài)轉(zhuǎn)換圖1310)的示例性狀態(tài)機(jī)的狀態(tài)轉(zhuǎn)換圖。這兩個(gè)狀態(tài)轉(zhuǎn)換圖是類(lèi)似的,不同之處在于,由于活動(dòng)狀態(tài)1304與正在進(jìn)行的執(zhí)行相關(guān)聯(lián),并且由于只有組件而不是端口實(shí)施執(zhí)行,所以只有組件可以處于活動(dòng)狀態(tài)1304。
將描述兩個(gè)狀態(tài)轉(zhuǎn)換圖的所有可能狀態(tài),以及遵循狀態(tài)之間的每個(gè)轉(zhuǎn)換所需的條件,需要參考圖13A和圖13B。在狀態(tài)轉(zhuǎn)換圖的此描述中涉及的所有輸入和輸出端口均是串行端口,因?yàn)榭刂茍D中的組件僅需要鏈接串行端口(而不是集合端口)。控制圖中的特定組件可以處于狀態(tài)轉(zhuǎn)換圖1300中的四個(gè)邏輯狀態(tài)之一。第一狀態(tài)是未決(pending)狀態(tài)1302。這是當(dāng)與控制圖相關(guān)聯(lián)的執(zhí)行集開(kāi)始執(zhí)行時(shí),組件開(kāi)始的狀態(tài)。如果組件的任何輸入端口處于未決狀態(tài)1312,則組件保持未決狀態(tài)1302。如果組件恰好沒(méi)有輸入端口,則它在未決狀態(tài)1302中開(kāi)始,但是立即有資格從未決狀態(tài)1302轉(zhuǎn)換出。
從未決狀態(tài)1302,組件可以轉(zhuǎn)換到活動(dòng)狀態(tài)1304或禁止?fàn)顟B(tài)1306。
如果組件沒(méi)有輸入端口處于未決狀態(tài)1312并且并非其所有輸入端口都處于禁止?fàn)顟B(tài)1316(即,至少一個(gè)輸入端口處于完成狀態(tài)1314),則組件轉(zhuǎn)換到活動(dòng)狀態(tài)1304。端口默認(rèn)為“必需”,但可標(biāo)記為“可選”??蛇x端口可以保持未連接到另一個(gè)端口,而不會(huì)導(dǎo)致錯(cuò)誤(雖然可能有警告)。未連接的任何可選端口自動(dòng)地處于完成狀態(tài)1314。只要組件仍在執(zhí)行其任務(wù),該組件就保持在活動(dòng)狀態(tài)1304。當(dāng)組件處于活動(dòng)狀態(tài)1304時(shí),其多個(gè)輸出端口可以在不同時(shí)間轉(zhuǎn)換或一起從未決狀態(tài)1312轉(zhuǎn)換到完成狀態(tài)1314或禁止?fàn)顟B(tài)1316。在完成其任務(wù)的執(zhí)行時(shí),組件轉(zhuǎn)換從活動(dòng)狀態(tài)1304轉(zhuǎn)換到完成狀態(tài)1308。
如果組件的任務(wù)已經(jīng)完成執(zhí)行,并且其所有輸出端口被“決斷(resolved)”,即不再未決,則組件轉(zhuǎn)換到完成狀態(tài)1308。
如果由于定制控制邏輯,或由于其所有輸入端口被禁止,或由于禁止了其所需輸入端口中的至少一個(gè),或由于組件中的未處理錯(cuò)誤而導(dǎo)致該組件的前序已觸發(fā)至禁止?fàn)顟B(tài)1306的轉(zhuǎn)換,則該組件處于禁止?fàn)顟B(tài)1306。組件的所有輸出端口也決斷到禁止?fàn)顟B(tài)1316以向下游傳播這種禁止。
對(duì)于端口,狀態(tài)轉(zhuǎn)換規(guī)則取決于端口是輸入端口還是輸出端口。
端口的初始狀態(tài)是未決狀態(tài)1312。輸入端口通常跟隨它所鏈接到的上游輸出端口的狀態(tài)。因此,當(dāng)上游輸出端口轉(zhuǎn)換時(shí),在控制圖中鏈接到該輸出端口的輸入端口轉(zhuǎn)換到相同的狀態(tài)。輸出端口保持未決,直到組件在其活動(dòng)狀態(tài)期間確定輸出端口應(yīng)決斷到什么狀態(tài)。
如上所述,輸入端口跟隨它們所鏈接的上游輸出端口。因此,對(duì)于鏈接到單個(gè)上游輸出端口的輸入端口,當(dāng)其所鏈接的上游輸出端口轉(zhuǎn)換到完成狀態(tài)1314時(shí),該輸入端口轉(zhuǎn)換到完成狀態(tài)1314。如果輸入端口通過(guò)多個(gè)鏈路鏈接到多個(gè)上游輸出端口,則輸入端口在其上游輸出端口中的至少一個(gè)轉(zhuǎn)換到完成狀態(tài)1314之后轉(zhuǎn)換到完成狀態(tài)1314。否則,如果所有上游輸出端口轉(zhuǎn)換到禁止?fàn)顟B(tài)1316,則輸入端口轉(zhuǎn)換到禁止?fàn)顟B(tài)1316。一些實(shí)施例使用與該默認(rèn)“或邏輯”不同的其他邏輯來(lái)確定是將輸入端口轉(zhuǎn)換到完成狀態(tài)1314還是禁止?fàn)顟B(tài)1316(例如,“與邏輯”,其中僅當(dāng)所有上游輸出端口處于完成狀態(tài)1314時(shí)輸入端口才轉(zhuǎn)換到完成狀態(tài)1314)。如果組件的輸入數(shù)據(jù)端口決斷為完成狀態(tài)1314,則數(shù)據(jù)元素準(zhǔn)備就緒供該組件處理。如果組件的輸出數(shù)據(jù)端口決斷為完成狀態(tài)1314,則數(shù)據(jù)元素準(zhǔn)備就緒從該組件向下游發(fā)送。
與輸入端口跟隨它們所鏈接到的上游輸出端口的狀態(tài)的規(guī)則一致,當(dāng)與其鏈接的上游輸出端口決斷為禁止?fàn)顟B(tài)1316時(shí),輸入端口決斷為禁止?fàn)顟B(tài)1316。輸出端口決斷為禁止?fàn)顟B(tài)1316,或者因?yàn)榛顒?dòng)的組件計(jì)算出的結(jié)果確定輸出端口應(yīng)當(dāng)被禁止,或者為了使得禁止從上游被禁止組件向下游傳播,或者如果組件中存在未處理的錯(cuò)誤。在一些實(shí)施例中,編譯器可以通過(guò)禁止根在被禁止組件處的下游組件的樹(shù)來(lái)優(yōu)化執(zhí)行,而不必一個(gè)組件接一個(gè)組件地向下游傳播禁止。
在其他實(shí)施例中,可以使用各種替代狀態(tài)機(jī),其中集合端口之間的鏈路也可以包括在控制圖中。在一些這樣的實(shí)施例中,集合端口的狀態(tài)轉(zhuǎn)換圖可以包括除未決狀態(tài)、完成狀態(tài)和禁止?fàn)顟B(tài)之外的活動(dòng)狀態(tài),諸如在組件的狀態(tài)轉(zhuǎn)移圖1300中。當(dāng)集合端口(作為輸出端口)產(chǎn)生數(shù)據(jù)或(作為輸入端口)消耗數(shù)據(jù)時(shí),集合端口處于活動(dòng)狀態(tài)。對(duì)于輸入集合端口,例如,一旦確定不是所有輸入端口都將被禁止,就可以在上游產(chǎn)生第一數(shù)據(jù)元素時(shí)觸發(fā)活動(dòng)狀態(tài)。在一些實(shí)施例中,沒(méi)有集合端口的禁止?fàn)顟B(tài)。包括集合端口的狀態(tài)轉(zhuǎn)換的控制圖中的組件所遵循的轉(zhuǎn)換規(guī)則可以以與為輸入標(biāo)量端口或控制端口處理完成狀態(tài)相同的方式來(lái)處理輸入集合端口的活動(dòng)狀態(tài)。
5 計(jì)算平臺(tái)
回看圖1,數(shù)據(jù)處理圖的組件的實(shí)例在執(zhí)行數(shù)據(jù)處理圖的情境中被派生(spawn)為任務(wù),并且通常在計(jì)算平臺(tái)150的多個(gè)計(jì)算節(jié)點(diǎn)152中執(zhí)行。如下面更詳細(xì)討論的,控制器140提供這些任務(wù)的調(diào)度和執(zhí)行軌跡的監(jiān)督控制方面,以便實(shí)現(xiàn)例如與計(jì)算負(fù)荷的分配,通信或輸入/輸出開(kāi)銷(xiāo)的減少以及存儲(chǔ)器資源的使用相關(guān)的系統(tǒng)的性能目標(biāo)。
通常,在由編譯器/解釋器120翻譯之后,整個(gè)計(jì)算被表達(dá)為可由計(jì)算平臺(tái)150執(zhí)行的目標(biāo)語(yǔ)言的過(guò)程的基于任務(wù)的規(guī)范130。這些過(guò)程利用原語(yǔ),諸如“派生(spawn)”和“等待”,并且可以在過(guò)程中包括原語(yǔ),或調(diào)用由程序員為高級(jí)(例如,基于圖的)程序規(guī)范110中的組件指定的工作過(guò)程。
在許多情況下,組件的每個(gè)實(shí)例被實(shí)現(xiàn)為任務(wù),其中一些任務(wù)實(shí)現(xiàn)單個(gè)組件的單個(gè)實(shí)例,一些任務(wù)實(shí)現(xiàn)執(zhí)行集的多個(gè)組件的單個(gè)實(shí)例,以及一些任務(wù)實(shí)現(xiàn)組件的連續(xù)實(shí)例。來(lái)自組件及其實(shí)例的特定映射取決于編譯器/解釋器的特定設(shè)計(jì),使得所得到的執(zhí)行保持與計(jì)算的語(yǔ)義定義一致。
通常,運(yùn)行時(shí)環(huán)境中的多個(gè)任務(wù)被分層級(jí)排列,例如,一個(gè)頂級(jí)任務(wù)派生多個(gè)任務(wù),例如,一個(gè)任務(wù)用于數(shù)據(jù)處理圖的每個(gè)頂級(jí)組件。類(lèi)似地,執(zhí)行集的計(jì)算可以具有用于處理整個(gè)集合的一個(gè)任務(wù),其中多個(gè)(即許多)子任務(wù)分別用于處理集合的元素。
在運(yùn)行時(shí)環(huán)境中,已經(jīng)派生的每個(gè)任務(wù)可以處于一組可能狀態(tài)之一。在第一次派生時(shí),任務(wù)在被初始執(zhí)行之前處于派生狀態(tài)。在執(zhí)行時(shí),它處于執(zhí)行狀態(tài)。任務(wù)時(shí)而可能處于暫停狀態(tài)。例如,在某些實(shí)現(xiàn)方式中,調(diào)度器可以在任務(wù)已經(jīng)超過(guò)處理器利用的量、正在等待資源等時(shí)將任務(wù)置于暫停狀態(tài)。在一些實(shí)現(xiàn)方式中,任務(wù)的執(zhí)行不被搶占,并且任務(wù)必須放棄控制。有三個(gè)暫停子狀態(tài):可運(yùn)行,被阻止和已做完。例如,如果任務(wù)在完成其計(jì)算之前放棄控制,則任務(wù)是可運(yùn)行的。當(dāng)例如在父任務(wù)檢索到任務(wù)的返回值之前該任務(wù)完成其處理時(shí),該任務(wù)是已做完的。如果任務(wù)正在等待該任務(wù)外部的事件,例如另一個(gè)任務(wù)的完成(例如,因?yàn)樗呀?jīng)使用了“等待”原語(yǔ))或數(shù)據(jù)記錄的可用性(例如,阻止in.read()或out.write()函數(shù)的一次執(zhí)行),則任務(wù)是被阻止的。
再次參考圖1,每個(gè)計(jì)算節(jié)點(diǎn)152具有一個(gè)或多個(gè)處理引擎154。在至少一些實(shí)現(xiàn)方式中,每個(gè)進(jìn)程引擎與在計(jì)算節(jié)點(diǎn)150上執(zhí)行的單個(gè)操作系統(tǒng)進(jìn)程相關(guān)聯(lián)。取決于計(jì)算節(jié)點(diǎn)的特性,在單個(gè)計(jì)算節(jié)點(diǎn)上執(zhí)行多個(gè)處理引擎可能是有效的。例如,計(jì)算節(jié)點(diǎn)可以是具有多個(gè)單獨(dú)處理器的服務(wù)器計(jì)算機(jī),或者服務(wù)器計(jì)算機(jī)可以具有帶多個(gè)處理器內(nèi)核的單個(gè)處理器,或者可以是具有多個(gè)內(nèi)核的多個(gè)處理器的組合。在任何情況下,執(zhí)行多個(gè)處理引擎都可能比在計(jì)算節(jié)點(diǎn)152上僅使用單個(gè)處理引擎更有效。
處理引擎的一個(gè)示例托管在虛擬機(jī)的情境中。一種類(lèi)型的虛擬機(jī)是Java虛擬機(jī)(JVM),其提供在其中可以執(zhí)行以Java Bytecode(Java字節(jié)碼)的編譯形式指定的任務(wù)的環(huán)境。但是也可以使用其他形式的處理引擎,其可以使用或可以不使用虛擬機(jī)架構(gòu)。
參考圖14,計(jì)算節(jié)點(diǎn)152的每個(gè)處理引擎154具有一個(gè)或多個(gè)運(yùn)行器1450。每個(gè)運(yùn)行器1450使用一個(gè)或多個(gè)進(jìn)程或進(jìn)程線(xiàn)程來(lái)執(zhí)行可運(yùn)行任務(wù)。在一些實(shí)現(xiàn)方式中,每個(gè)運(yùn)行器具有相關(guān)聯(lián)的進(jìn)程線(xiàn)程,但是運(yùn)行器與線(xiàn)程的這種關(guān)聯(lián)不是必需的。在任何時(shí)候,每個(gè)運(yùn)行器正在執(zhí)行計(jì)算的最多一個(gè)可運(yùn)行任務(wù)。每個(gè)運(yùn)行器具有單獨(dú)的可運(yùn)行隊(duì)列1466。計(jì)算的每個(gè)可運(yùn)行任務(wù)在系統(tǒng)的運(yùn)行器1450的一個(gè)可運(yùn)行隊(duì)列1466中。每個(gè)運(yùn)行器1450具有調(diào)度器/解釋器1460,其監(jiān)視當(dāng)前運(yùn)行的任務(wù),并且當(dāng)該任務(wù)將狀態(tài)改變?yōu)橐炎鐾?,被阻止或暫停時(shí),從運(yùn)行隊(duì)列1466中選擇另一個(gè)任務(wù)并執(zhí)行它。任務(wù)與運(yùn)行器相關(guān)聯(lián),并且不可運(yùn)行的運(yùn)行器的任務(wù)被保持在可運(yùn)行隊(duì)列1466之外,例如,如圖中所示,在被阻止和已做完隊(duì)列1468中。
例如,當(dāng)初始化處理引擎154時(shí),可以創(chuàng)建運(yùn)行器1450,為每個(gè)引擎創(chuàng)建預(yù)配置數(shù)量的運(yùn)行器。如下所述,在一些實(shí)現(xiàn)方式中,可以向處理引擎添加或去除運(yùn)行器,并且甚至在數(shù)據(jù)處理圖的執(zhí)行期間,可以從計(jì)算平臺(tái)150添加和去除處理引擎本身。然而,對(duì)于下面的初始描述,我們假設(shè)處理引擎的數(shù)量以及每個(gè)處理引擎內(nèi)運(yùn)行器的數(shù)量保持恒定。
作為示例,對(duì)數(shù)據(jù)處理圖的處理開(kāi)始于在頂層任務(wù)中執(zhí)行主過(guò)程。例如,基于任務(wù)的控制器140指示與處理引擎1450之一的監(jiān)視器1452通信的計(jì)算節(jié)點(diǎn)中的一個(gè)開(kāi)始執(zhí)行主過(guò)程。在該示例中,監(jiān)視器1452將用于執(zhí)行主過(guò)程的任務(wù)放置在處理引擎之一的可運(yùn)行隊(duì)列1466中。在該示例中,運(yùn)行器是空閑的(即,此時(shí)沒(méi)有其他任務(wù)在運(yùn)行,并且在可運(yùn)行隊(duì)列中沒(méi)有其他可運(yùn)行任務(wù)),所以該運(yùn)行器的調(diào)度器/解釋器1460從可運(yùn)行隊(duì)列中取出該任務(wù)并且開(kāi)始執(zhí)行任務(wù)。當(dāng)以需要解釋的語(yǔ)言表達(dá)過(guò)程時(shí),調(diào)度器/解釋器1460解釋過(guò)程的連續(xù)語(yǔ)句。
在該示例中,主過(guò)程的第一語(yǔ)句為支持無(wú)序集合的流的鏈路創(chuàng)建鏈路緩存器1470(即,分配存儲(chǔ)器),其在該示例中包括無(wú)序無(wú)界緩存器,即緩存器1,緩存器2和緩存器3??梢允褂酶鞣N方法創(chuàng)建這種類(lèi)型的組件間鏈路,并且管理用于這些鏈路的相關(guān)聯(lián)的計(jì)算資源(包括鏈路緩存器1470),其包括其上游端口是集合端口的任何鏈路。在一些示例中,鏈路緩存器1470包括用于表示集合的源的輸出集合端口的緩存器和用于表示集合的目標(biāo)的輸入集合端口的單獨(dú)緩存器。這些緩存器可以在開(kāi)始處理集合之前在運(yùn)行時(shí)分配,并且在對(duì)集合的處理結(jié)束之后被解除分配(即,釋放用于緩存器的內(nèi)存)。在該示例中,這些鏈路緩存器1470被分配在其中任務(wù)的運(yùn)行器正在執(zhí)行的處理引擎154的存儲(chǔ)器中。通常,其中創(chuàng)建緩存器的存儲(chǔ)器在半導(dǎo)體隨機(jī)存取存儲(chǔ)器(RAM)中,盡管在一些實(shí)現(xiàn)方式中,諸如磁盤(pán)之類(lèi)的其他存儲(chǔ)設(shè)備可以用于存儲(chǔ)至少一些緩存數(shù)據(jù)。注意,在其他方法中,緩存器對(duì)運(yùn)行器本身而言可以是本地的。在實(shí)踐中,如果處理引擎154被實(shí)現(xiàn)為操作系統(tǒng)進(jìn)程,則緩存器被創(chuàng)建為該進(jìn)程的地址空間中的存儲(chǔ)器區(qū)域。因此,直接基于硬件地址對(duì)緩存器的訪(fǎng)問(wèn)限于在該進(jìn)程內(nèi)執(zhí)行的指令。注意,在這種方法中,如果多個(gè)運(yùn)行器將能夠讀取或?qū)懭刖彺嫫?,則可能對(duì)緩存器需要至少進(jìn)行一些同步和訪(fǎng)問(wèn)控制,例如使用鎖(lock)或信號(hào)量(semaphore)。在其中每個(gè)運(yùn)行器在操作系統(tǒng)進(jìn)程內(nèi)被實(shí)現(xiàn)為單個(gè)線(xiàn)程的方法中,緩存器可以與特定運(yùn)行器相關(guān)聯(lián),并且所有訪(fǎng)問(wèn)可以被限制到該運(yùn)行器,從而避免來(lái)自多個(gè)線(xiàn)程的潛在爭(zhēng)用。在下面的討論中,我們假設(shè)可以從處理引擎中的任何運(yùn)行器訪(fǎng)問(wèn)緩存器,并且實(shí)現(xiàn)適當(dāng)?shù)脑L(fǎng)問(wèn)控制以允許這樣的共享訪(fǎng)問(wèn)。
主進(jìn)程的后續(xù)步驟涉及派生或主過(guò)程調(diào)用的forall(用于所有)原語(yǔ)。通常,至少在默認(rèn)情況下,任務(wù)或子任務(wù)的派生使得這些任務(wù)最初在與父進(jìn)程相同的運(yùn)行器中形成。例如,派生的Work_Read_External_Data(工作讀取外部數(shù)據(jù))任務(wù)在同一個(gè)運(yùn)行器上派生。在任務(wù)正在訪(fǎng)問(wèn)外部數(shù)據(jù)的程度上,任務(wù)可以利用至該外部數(shù)據(jù)的I/O接口1464。例如,該接口可以包括到外部數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)數(shù)據(jù)連接的端點(diǎn)等的開(kāi)放連接。這樣的I/O接口可以綁定到特定的運(yùn)行器,因此使用該接口的任務(wù)可能需要訪(fǎng)問(wèn)僅來(lái)自該運(yùn)行器的接口,如下面在運(yùn)行器之間任務(wù)的潛在遷移的情境中進(jìn)一步討論的。在該示例中,我們假設(shè)任務(wù)以合理計(jì)量的方式填充緩存器1,并且不會(huì)例如通過(guò)使緩存器1增長(zhǎng)超過(guò)處理引擎的容量而“淹沒(méi)(overwhelm)”系統(tǒng)。下面還討論對(duì)控制方面的方法,例如,以避免資源的擁塞或耗盡。
與Work_Read_External_Data任務(wù)的執(zhí)行并發(fā)地,forall_Work A導(dǎo)致針對(duì)從緩存器1讀取的每個(gè)記錄派生任務(wù)。特別地,“forall”原語(yǔ)引起由要執(zhí)行原語(yǔ)的自變量標(biāo)識(shí)的任務(wù)的多個(gè)實(shí)例,其中實(shí)例的數(shù)量通常由在運(yùn)行時(shí)接收的數(shù)據(jù)元素的數(shù)量確定,并且其中它們被執(zhí)行的位置和它們被調(diào)用的順序可以不受編譯器限制而用于在之后的運(yùn)行時(shí)確定。如上所述,在默認(rèn)情況下,這些任務(wù)也在相同的運(yùn)行器1450上創(chuàng)建,并且在沒(méi)有其他控制的情況下,與從緩存器1可得到的數(shù)據(jù)一樣快地派生這些任務(wù)。Work_B和Work_Read_External_Data的任務(wù)類(lèi)似地在相同的運(yùn)行器上創(chuàng)建。
注意,基于任務(wù)的規(guī)范使用“forall”原語(yǔ),而沒(méi)有明確地指定運(yùn)行時(shí)控制器將如何實(shí)現(xiàn)任務(wù)的分布,以導(dǎo)致所有數(shù)據(jù)待處理。如上所述,運(yùn)行時(shí)控制器可以使用的一種方法是在同一計(jì)算節(jié)點(diǎn)上派生單獨(dú)的任務(wù),然后依賴(lài)于遷移特征以使得任務(wù)在分開(kāi)的節(jié)點(diǎn)上執(zhí)行,從而平衡負(fù)載??梢允褂闷渌椒ǎ渲小癴orall”原語(yǔ)導(dǎo)致在多個(gè)節(jié)點(diǎn)上直接執(zhí)行多個(gè)任務(wù)。在游標(biāo)(cursor)定義內(nèi)存數(shù)據(jù)庫(kù)的表的行的基于索引的子集的情況下,游標(biāo)“forall”原語(yǔ)的實(shí)現(xiàn)可以使得游標(biāo)被分割成多個(gè)部分,每個(gè)部分與存儲(chǔ)在不同節(jié)點(diǎn)上的記錄相關(guān)聯(lián),并且為不同節(jié)點(diǎn)上的游標(biāo)的單獨(dú)部分派生任務(wù),從而導(dǎo)致處理和數(shù)據(jù)存儲(chǔ)的局部性。但是應(yīng)當(dāng)理解,可以在運(yùn)行時(shí)控制器和分布式計(jì)算平臺(tái)的一個(gè)或多個(gè)實(shí)施例中實(shí)現(xiàn)多種方法來(lái)執(zhí)行在作為編譯器120輸出的基于任務(wù)的規(guī)范130中使用的“forall”原語(yǔ)。在一些示例中,方法的選擇可以取決于例如基于記錄的數(shù)量,計(jì)算節(jié)點(diǎn)上的數(shù)據(jù)分布,節(jié)點(diǎn)上的負(fù)載等的運(yùn)行時(shí)決策。在任何情況下,用于實(shí)現(xiàn)“forall”原語(yǔ)的方法不一定對(duì)于數(shù)據(jù)處理圖的開(kāi)發(fā)人員或編譯器的設(shè)計(jì)者是已知的。
系統(tǒng)的特征在于任務(wù)可以在創(chuàng)建運(yùn)行器之后在運(yùn)行器之間傳送。非常一般地,這種任務(wù)傳送的一種方式是通過(guò)“挪用”或“拉動(dòng)”機(jī)制來(lái)實(shí)現(xiàn)的,其中空閑或至少輕微加載的運(yùn)行器使得來(lái)自另一運(yùn)行器的任務(wù)被傳送給它。雖然可以使用各種標(biāo)準(zhǔn),但是運(yùn)行器可運(yùn)行隊(duì)列1466中的多個(gè)可運(yùn)行任務(wù)可以基于本地標(biāo)準(zhǔn)(諸如在其可運(yùn)行隊(duì)列中是否有少于閾值數(shù)量的任務(wù))來(lái)確定該運(yùn)行器是否應(yīng)當(dāng)尋求從其他運(yùn)行器挪用的任務(wù)。在一些實(shí)現(xiàn)方式中,更全局性的決策進(jìn)程可用于在多個(gè)運(yùn)行器上重新平衡任務(wù)隊(duì)列,但總體效果是類(lèi)似的。
在至少一些實(shí)施例中,將任務(wù)從一個(gè)運(yùn)行器挪用到另一個(gè)運(yùn)行器不是必然涉及轉(zhuǎn)移該任務(wù)的所有數(shù)據(jù)。例如,只有當(dāng)前執(zhí)行“框架”中可訪(fǎng)問(wèn)的數(shù)據(jù)(例如,用于從當(dāng)前程序范圍可訪(fǎng)問(wèn)的局部和全局變量的數(shù)據(jù),例如當(dāng)前子例程調(diào)用)與引用一起打包回任務(wù)“主(home)”運(yùn)行器。此數(shù)據(jù)足以在遷移的目標(biāo)運(yùn)行器處創(chuàng)建任務(wù)的可運(yùn)行副本,并且目標(biāo)可運(yùn)行隊(duì)列中的條目準(zhǔn)備好在在該運(yùn)行器中執(zhí)行。
當(dāng)遷移的運(yùn)行器完成執(zhí)行時(shí),或者通過(guò)從局部變量可用的程序范圍返回該遷移的運(yùn)行器耗盡了傳送到該運(yùn)行器的數(shù)據(jù)時(shí),任務(wù)被傳送回主運(yùn)行器,其中用于任務(wù)的數(shù)據(jù)被合并,并且任務(wù)再次在其主運(yùn)行器處可運(yùn)行。
注意,在單個(gè)處理引擎內(nèi)傳送任務(wù)期間,運(yùn)行器之間的通信可以通過(guò)本地存儲(chǔ)器(即,避免磁盤(pán)或網(wǎng)絡(luò)通信),從而消耗相對(duì)少的資源。在允許處理引擎之間進(jìn)行挪用和遷移的實(shí)現(xiàn)方式中,在從一個(gè)運(yùn)行器轉(zhuǎn)換到另一個(gè)運(yùn)行器時(shí),任務(wù)消耗相對(duì)較少的資源,例如,主要消耗處理引擎之間的通信資源而不是計(jì)算資源。此外,這種通信的等待時(shí)間相對(duì)不顯著,因?yàn)橹鬟\(yùn)行器和目標(biāo)運(yùn)行器被假定為在傳送期間忙于計(jì)算,主運(yùn)行器是因?yàn)槠淇蛇\(yùn)行隊(duì)列被大量填充并且因此不可能空,而目標(biāo)運(yùn)行器是因?yàn)榕灿檬窃陬A(yù)期在目標(biāo)處的可運(yùn)行隊(duì)列被清空的情況下進(jìn)行的。
在與圖2A-圖2B中所示的計(jì)算相關(guān)聯(lián)的任務(wù)的執(zhí)行的示例中,任務(wù)挪用機(jī)制將用于計(jì)算的負(fù)載分布在一個(gè)或多個(gè)處理引擎的運(yùn)行器上。然而,注意,某些數(shù)據(jù)訪(fǎng)問(wèn)被限于特定運(yùn)行器(或可能限于特定處理引擎)。例如,如上文所述,緩存器2的數(shù)據(jù)可以由單個(gè)運(yùn)行器(或可能一組運(yùn)行器)訪(fǎng)問(wèn),然而可能需要寫(xiě)入緩存器2的Work_A任務(wù)可能已經(jīng)被無(wú)法寫(xiě)入緩存器2的運(yùn)行器挪用。在這樣的情況下,當(dāng)任務(wù)需要采取必須在與當(dāng)前正在執(zhí)行的任務(wù)所在的運(yùn)行器不同的運(yùn)行器上執(zhí)行的動(dòng)作時(shí),以“遷移”或“推動(dòng)”方式將任務(wù)遷移到合適的運(yùn)行器。
在至少一些示例中,計(jì)算平臺(tái)150支持一組全局變量對(duì)(鍵,值)的全局?jǐn)?shù)據(jù)存儲(chǔ)。該數(shù)據(jù)存儲(chǔ)可以分布在多個(gè)計(jì)算節(jié)點(diǎn)(或處理引擎)上的存儲(chǔ)器(例如,RAM或磁盤(pán))上。鍵的名稱(chēng)空間是全局的,因?yàn)殒I的規(guī)范在所有計(jì)算節(jié)點(diǎn)152及其運(yùn)行器1450處具有相同的含義。這些變量的值在任務(wù)被實(shí)例化、執(zhí)行和終止時(shí)持續(xù),從而提供了一種在任務(wù)之間傳遞信息的方式,而不需要經(jīng)由共同的父任務(wù)將這種信息從一個(gè)任務(wù)傳遞到另一個(gè)任務(wù)。如下所述,根據(jù)鍵對(duì)進(jìn)行的訪(fǎng)問(wèn)被控制,使得值的使用和更新不會(huì)導(dǎo)致任務(wù)之間的沖突。在一些示例中,任務(wù)對(duì)于它們的一些或全部執(zhí)行而獲得對(duì)特定(鍵,值)對(duì)的獨(dú)占訪(fǎng)問(wèn)。
通常,(鍵,值)對(duì)的存儲(chǔ)是分布的,并且任何特定(鍵,值)對(duì)與特定計(jì)算節(jié)點(diǎn)152相關(guān)聯(lián)。例如,(鍵,值)對(duì)存儲(chǔ)在該計(jì)算節(jié)點(diǎn)處的分布式表存儲(chǔ)1480中。在一些實(shí)現(xiàn)方式中,派生原語(yǔ)允許指定鍵和從相關(guān)聯(lián)的變量到任務(wù)的局部變量的映射。當(dāng)指定一個(gè)鍵時(shí),派生的任務(wù)在其執(zhí)行的持續(xù)時(shí)間內(nèi)獲得對(duì)鍵的獨(dú)占訪(fǎng)問(wèn)。在執(zhí)行開(kāi)始之前,將值從存儲(chǔ)傳遞到任務(wù)的本地上下文中,并且在執(zhí)行完成后,本地上下文中的值將被傳遞回全局存儲(chǔ)。如果一個(gè)派生原語(yǔ)指定另一個(gè)正在執(zhí)行的任務(wù)使用的鍵,則這個(gè)新派生的任務(wù)將被阻止,直到它可以獲得對(duì)該鍵的獨(dú)占訪(fǎng)問(wèn)。在一些實(shí)現(xiàn)方式中,每個(gè)計(jì)算節(jié)點(diǎn)可以確定特定鍵的主節(jié)點(diǎn),并且當(dāng)請(qǐng)求派生任務(wù)時(shí),該請(qǐng)求由(鍵,值)對(duì)駐留的計(jì)算節(jié)點(diǎn)處理,并且任務(wù)的執(zhí)行將最初在該節(jié)點(diǎn)開(kāi)始。在替代實(shí)施例中,用于獲得對(duì)這種全局共享(鍵,值)對(duì)的類(lèi)似的獨(dú)占訪(fǎng)問(wèn)的其他方法不是必然涉及在與存儲(chǔ)相同的位置發(fā)起任務(wù),例如通過(guò)傳送獨(dú)占訪(fǎng)問(wèn)的請(qǐng)求并且隨后使用更新的鍵值來(lái)傳送獨(dú)占訪(fǎng)問(wèn)的釋放。任務(wù)可以創(chuàng)建新的(鍵,值)對(duì),在默認(rèn)情況下,在創(chuàng)建新(鍵,值)對(duì)時(shí)新的(鍵,值)對(duì)存儲(chǔ)在任務(wù)運(yùn)行的節(jié)點(diǎn)上。
全局狀態(tài)變量的一種用途是在執(zhí)行集合的連續(xù)記錄的函數(shù)期間進(jìn)行聚集。例如,全局存儲(chǔ)維護(hù)分配給鍵的值的窗口,而不是作為單項(xiàng)的值。因此,在編程模型中,可以將值添加到與鍵相關(guān)聯(lián)地維護(hù)的歷史中,并且可以提供先前添加的值的函數(shù)。值的窗口可以根據(jù)項(xiàng)目的數(shù)量(即,最后的100項(xiàng))定義,通過(guò)時(shí)間窗口定義(即,例如在最后10分鐘中添加的項(xiàng)目,由值被添加時(shí)的時(shí)間定義或由每個(gè)值被添加時(shí)提供的顯式時(shí)間戳定義)。注意,編程模型不需要明確刪除落在窗口外的舊值,窗口的定義允許實(shí)現(xiàn)自動(dòng)執(zhí)行這樣的刪除。編程模型包括用于創(chuàng)建這種基于窗口的鍵控全局變量的多個(gè)原語(yǔ)(例如,定義窗口的性質(zhì)和范圍),將值添加到鍵以及值的窗口的計(jì)算函數(shù)(例如,最大值,平均值,不同值的數(shù)量,等等)。一些原語(yǔ)將針對(duì)鍵的新值的添加和窗口函數(shù)的返回(例如,將新值添加到鍵并返回添加的最后100個(gè)值的平均值)組合。
在至少一些示例中,全局存儲(chǔ)還包括經(jīng)由稱(chēng)為句柄的標(biāo)識(shí)符訪(fǎng)問(wèn)的面向記錄的共享數(shù)據(jù)。例如,句柄可以標(biāo)識(shí)數(shù)據(jù)記錄的源或宿,或者作為另一示例,句柄可以標(biāo)識(shí)數(shù)據(jù)集中的特定記錄。通常,句柄被鍵入,因?yàn)榫浔c(diǎn)提供了訪(fǎng)問(wèn)數(shù)據(jù)的方式,并且還提供被訪(fǎng)問(wèn)的數(shù)據(jù)結(jié)構(gòu)的定義。例如,句柄可以具有與其相關(guān)聯(lián)的數(shù)據(jù)記錄的字段(列)結(jié)構(gòu)。
在至少一些示例中,全局存儲(chǔ)器(例如,在計(jì)算節(jié)點(diǎn)的存儲(chǔ)器中)包括針對(duì)多行類(lèi)型化數(shù)據(jù)的一個(gè)或多個(gè)表的表存儲(chǔ),其中該表格或表格的特定記錄經(jīng)由稱(chēng)為句柄的標(biāo)識(shí)符被訪(fǎng)問(wèn)。表的行類(lèi)型可以是具有向量、記錄向量等的層級(jí)記錄類(lèi)型。在一些示例中,表可以具有提供對(duì)行的哈希或B樹(shù)(有序)訪(fǎng)問(wèn)的一個(gè)或多個(gè)索引,并且游標(biāo)可以基于表、索引或索引和鍵值創(chuàng)建。行可以單獨(dú)插入、更新或刪除。為了支持事務(wù)處理,任務(wù)可以鎖定一個(gè)或多個(gè)表的一行或多行,例如,用于在對(duì)數(shù)據(jù)處理圖的組件的處理期間讀取或更新訪(fǎng)問(wèn)。表可以被視為用于數(shù)據(jù)并行操作的集合,例如,作為數(shù)據(jù)處理圖中的數(shù)據(jù)的源或目標(biāo)。通常,對(duì)表進(jìn)行索引,并且可以基于產(chǎn)生游標(biāo)的索引來(lái)選擇表的行的子集,然后使用該游標(biāo)來(lái)提供所選擇的行作為數(shù)據(jù)源。在一些示例中,另外的原語(yǔ)對(duì)任務(wù)可用,用于諸如分割游標(biāo)和估計(jì)與句柄相關(guān)聯(lián)的記錄的數(shù)量的動(dòng)作。當(dāng)提供游標(biāo)作為用于執(zhí)行集的數(shù)據(jù)源時(shí),游標(biāo)可以被分割成多個(gè)部分,每個(gè)部分將表的一些行提供給執(zhí)行集的對(duì)應(yīng)實(shí)例,從而提供并行性并且適當(dāng)?shù)胤指钣螛?biāo)使得能夠在存儲(chǔ)行的節(jié)點(diǎn)上執(zhí)行。數(shù)據(jù)表還可以由實(shí)現(xiàn)事務(wù)的任務(wù)訪(fǎng)問(wèn),使得維護(hù)數(shù)據(jù)表的修改,以便在任務(wù)之外不可見(jiàn),直到由任務(wù)明確地提交這些修改。在一些示例中,可以通過(guò)鎖定表的一個(gè)或多個(gè)行來(lái)實(shí)現(xiàn)這樣的事務(wù)支持,而在其他示例中,可以實(shí)現(xiàn)涉及行的多個(gè)版本的更復(fù)雜的方法,以比可以?xún)H使用鎖定提供更高的潛在并發(fā)性。
文件、數(shù)據(jù)流和內(nèi)存表都是被稱(chēng)為集合的示例。讀取器任務(wù)從集合中讀取記錄,并且寫(xiě)入器任務(wù)將記錄寫(xiě)入集合。一些任務(wù)既是讀取器又是寫(xiě)入器。
如上所述,表示集合的流可以使用內(nèi)存緩存器在運(yùn)行時(shí)系統(tǒng)中實(shí)現(xiàn)??商娲兀诟鞣N實(shí)現(xiàn)方式中可以使用任何形式的存儲(chǔ),包括數(shù)據(jù)庫(kù)內(nèi)的表或分布式存儲(chǔ)系統(tǒng)。在一些實(shí)現(xiàn)方式中,使用內(nèi)存中分布式數(shù)據(jù)庫(kù)。在一些實(shí)現(xiàn)方式中,編譯器以不是必然暴露給數(shù)據(jù)處理圖的開(kāi)發(fā)人員的方式使用內(nèi)存表來(lái)實(shí)現(xiàn)這樣的流。例如,編譯器可以使上游組件填充表的多個(gè)行,并且下游組件讀取先前填充的行,從而實(shí)現(xiàn)無(wú)序數(shù)據(jù)流。運(yùn)行時(shí)間控制器可以調(diào)用與執(zhí)行集相對(duì)應(yīng)的任務(wù)的多個(gè)實(shí)例,從而通過(guò)以數(shù)據(jù)元素被接收到存儲(chǔ)中的順序不同的順序從存儲(chǔ)中取出這些數(shù)據(jù)元素,對(duì)來(lái)自上游集合端口的驅(qū)動(dòng)數(shù)據(jù)元素進(jìn)行處理,防止某些形式的阻塞。例如,可以調(diào)用任務(wù)的實(shí)例而不阻止任何特定的其他實(shí)例調(diào)用任何實(shí)例(即,直到任何特定的其他實(shí)例完成處理一個(gè)或多個(gè)數(shù)據(jù)元素之后)。
通常,集合中的記錄可以在該記錄中的數(shù)據(jù)被首次寫(xiě)入之前具有句柄。例如,可以將表設(shè)置為索引的一組記錄的目標(biāo),并且即使在寫(xiě)入那些記錄的數(shù)據(jù)之前,各個(gè)記錄也可以具有句柄。
6 實(shí)現(xiàn)方式
上述方法可以例如使用執(zhí)行合適的軟件指令的可編程計(jì)算系統(tǒng)來(lái)實(shí)現(xiàn),或者可以在諸如現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)或一些混合形式的合適的硬件中實(shí)現(xiàn)。例如,在編程方法中,軟件可以包括在一個(gè)或多個(gè)編程或可編程計(jì)算系統(tǒng)(其可以是諸如分布式、客戶(hù)端/服務(wù)器或網(wǎng)格的各種架構(gòu))上執(zhí)行的一個(gè)或多個(gè)計(jì)算機(jī)程序中的過(guò)程,每個(gè)計(jì)算系統(tǒng)包括至少一個(gè)處理器,至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)(包括易失性和/或非易失性存儲(chǔ)器和/或存儲(chǔ)元件),至少一個(gè)用戶(hù)界面(用于使用至少一個(gè)輸入設(shè)備或端口接收輸入,并且用于使用至少一個(gè)輸出設(shè)備或端口提供輸出)。軟件可以包括例如提供與數(shù)據(jù)處理圖的設(shè)計(jì)、配置和執(zhí)行相關(guān)的服務(wù)的更大程序的一個(gè)或多個(gè)模塊。程序的模塊(例如,數(shù)據(jù)處理圖的組件)可以被實(shí)現(xiàn)為符合存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)模型的數(shù)據(jù)結(jié)構(gòu)或其他有組織的數(shù)據(jù)。
軟件可以使用持續(xù)一段時(shí)間(例如,動(dòng)態(tài)存儲(chǔ)器裝置(例如動(dòng)態(tài)RAM)的刷新周期之間的時(shí)間)的介質(zhì)的物理特性(例如,表面凹坑和平臺(tái)、磁疇或電荷等)以非暫時(shí)性形式存儲(chǔ),例如被實(shí)施在易失性或非易失性存儲(chǔ)介質(zhì)或任何其它非暫時(shí)性介質(zhì)中。在準(zhǔn)備加載指令時(shí),軟件可以提供在有形、非暫時(shí)性介質(zhì)上,例如CD-ROM或其他計(jì)算機(jī)可讀介質(zhì)(例如,可由通用或?qū)S糜?jì)算系統(tǒng)或設(shè)備讀取),或者可以通過(guò)網(wǎng)絡(luò)的通信介質(zhì)被遞送(例如,被編碼成傳播信號(hào))到其被執(zhí)行的計(jì)算系統(tǒng)的有形、非暫時(shí)性介質(zhì)??梢栽趯?zhuān)用計(jì)算機(jī)上或使用諸如協(xié)處理器或現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)或特定的專(zhuān)用集成電路(ASIC)的專(zhuān)用硬件來(lái)執(zhí)行處理中的一些或全部。處理可以以分布式方式實(shí)現(xiàn),其中由軟件指定的計(jì)算的不同部分由不同的計(jì)算元件執(zhí)行。每個(gè)這樣的計(jì)算機(jī)程序優(yōu)選地存儲(chǔ)在或下載到可由通用或?qū)S每删幊逃?jì)算機(jī)訪(fǎng)問(wèn)的存儲(chǔ)設(shè)備的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(例如,固態(tài)存儲(chǔ)器或介質(zhì),或磁介質(zhì)或光介質(zhì))上,用于當(dāng)計(jì)算機(jī)讀取存儲(chǔ)設(shè)備介質(zhì)以執(zhí)行本文所述的處理時(shí),配置和操作計(jì)算機(jī)。本發(fā)明的系統(tǒng)還可以被認(rèn)為可實(shí)現(xiàn)為配置有計(jì)算機(jī)程序的有形的、非暫時(shí)性介質(zhì),其中如此配置的介質(zhì)使得計(jì)算機(jī)以特定和預(yù)定義的方式操作以執(zhí)行本文描述的一個(gè)或多個(gè)處理步驟。
已經(jīng)描述了本發(fā)明的多個(gè)實(shí)施例。然而,應(yīng)當(dāng)理解,前述描述旨在說(shuō)明而不是限制本發(fā)明的范圍,本發(fā)明的范圍由所附權(quán)利要求的范圍限定。因此,其他實(shí)施例也在所附權(quán)利要求的范圍內(nèi)。例如,在不脫離本發(fā)明的范圍的情況下可以進(jìn)行各種修改。另外,上述的一些步驟可以是與順序無(wú)關(guān)的,并且因此可以以與所描述的順序不同的順序來(lái)執(zhí)行。
權(quán)利要求書(shū)(按照條約第19條的修改)
1.一種計(jì)算系統(tǒng),包括:
存儲(chǔ)系統(tǒng),存儲(chǔ)一個(gè)或多個(gè)基于圖的程序規(guī)范,至少第一基于圖的程序規(guī)范包括對(duì)應(yīng)于任務(wù)的多個(gè)組件和所述多個(gè)組件的端口之間的有向鏈路,所述第一基于圖的程序規(guī)范包括:
(1)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第一類(lèi)型的鏈路配置,以及
(2)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第二類(lèi)型的鏈路配置,其中所述第二類(lèi)型的鏈路配置不同于所述第一類(lèi)型的鏈路配置;
編譯器,被配置為根據(jù)所述第一基于圖的程序規(guī)范生成目標(biāo)程序規(guī)范,其中所述編譯器識(shí)別不同類(lèi)型的鏈路配置,并且在所述目標(biāo)程序規(guī)范中提供目標(biāo)原語(yǔ)的一次或多次出現(xiàn),用于為流過(guò)具有所述第二類(lèi)型的鏈路配置的鏈路的數(shù)據(jù)元素的每次出現(xiàn)執(zhí)行函數(shù);以及
一個(gè)或多個(gè)計(jì)算節(jié)點(diǎn),每個(gè)計(jì)算節(jié)點(diǎn)包括至少一個(gè)處理器,所述計(jì)算節(jié)點(diǎn)中的至少第一計(jì)算節(jié)點(diǎn)被配置為:
啟動(dòng)所述目標(biāo)程序規(guī)范的執(zhí)行,以及
對(duì)于與所述目標(biāo)原語(yǔ)的所述一次或多次出現(xiàn)相關(guān)聯(lián)的一個(gè)或多個(gè)組件,在運(yùn)行時(shí)確定以下中的至少一個(gè):(1)對(duì)應(yīng)于組件的任務(wù)的實(shí)例將被調(diào)用的順序,或者(2)執(zhí)行對(duì)應(yīng)于組件的任務(wù)的實(shí)例將所位于的計(jì)算節(jié)點(diǎn)。
2.根據(jù)權(quán)利要求1所述的計(jì)算系統(tǒng),其中所述第一計(jì)算節(jié)點(diǎn)還被配置為:
對(duì)于從所述第一基于圖的程序規(guī)范中第一組件的端口到所述第一基于圖的程序規(guī)范中第二組件的端口具有所述第一類(lèi)型的鏈路配置的第一鏈路,串行調(diào)用對(duì)應(yīng)于所述第一組件和所述第二組件的任務(wù),并且
對(duì)于從所述第一基于圖的程序規(guī)范中第三組件的端口到所述第一基于圖的程序規(guī)范中第四組件的端口具有所述第二類(lèi)型的鏈路配置的第二鏈路,調(diào)用對(duì)應(yīng)于所述第四組件的任務(wù)的多個(gè)實(shí)例,用于處理由所述第三組件提供的數(shù)據(jù)元素的不同相應(yīng)子集。
3.根據(jù)權(quán)利要求2所述的計(jì)算系統(tǒng),其中所述第一計(jì)算節(jié)點(diǎn)還被配置為將所述多個(gè)實(shí)例中的至少一些實(shí)例分配到多個(gè)計(jì)算節(jié)點(diǎn)中的不同計(jì)算節(jié)點(diǎn)上執(zhí)行。
4.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的計(jì)算系統(tǒng),其中所述目標(biāo)原語(yǔ)標(biāo)識(shí)與一個(gè)或多個(gè)任務(wù)的任務(wù)集相對(duì)應(yīng)的函數(shù),并且標(biāo)識(shí)與具有所述第二類(lèi)型的鏈路配置的鏈路相對(duì)應(yīng)的數(shù)據(jù)元素的集合。
5.根據(jù)當(dāng)從屬于權(quán)利要求2或3時(shí)的權(quán)利要求4所述的計(jì)算系統(tǒng),其中所述多個(gè)實(shí)例中的至少一些實(shí)例被應(yīng)用于由所述目標(biāo)原語(yǔ)標(biāo)識(shí)的所述集合中的不同的相應(yīng)數(shù)據(jù)元素。
6.根據(jù)權(quán)利要求5所述的計(jì)算系統(tǒng),其中被調(diào)用實(shí)例的數(shù)量等于由所述目標(biāo)原語(yǔ)標(biāo)識(shí)的所述集合中數(shù)據(jù)元素的數(shù)量,并且每個(gè)實(shí)例被應(yīng)用于不同的相應(yīng)數(shù)據(jù)元素。
7.根據(jù)權(quán)利要求5所述的計(jì)算系統(tǒng),其中獨(dú)立于所述第一基于圖的程序規(guī)范中的任何信息來(lái)確定被調(diào)用實(shí)例的數(shù)量。
8.根據(jù)權(quán)利要求7所述的計(jì)算系統(tǒng),其中被調(diào)用實(shí)例的數(shù)量與存儲(chǔ)由所述第一基于圖的程序規(guī)范引用的數(shù)據(jù)的計(jì)算節(jié)點(diǎn)的數(shù)量至少一樣多。
9.根據(jù)權(quán)利要求5至8中任一項(xiàng)所述的計(jì)算系統(tǒng),其中將由所述目標(biāo)原語(yǔ)標(biāo)識(shí)的函數(shù)應(yīng)用于一數(shù)據(jù)元素包括:使用該數(shù)據(jù)元素作為與該函數(shù)相對(duì)應(yīng)的所述一個(gè)或多個(gè)任務(wù)的任務(wù)集的數(shù)據(jù)源來(lái)執(zhí)行所述一個(gè)或多個(gè)任務(wù)。
10.根據(jù)權(quán)利要求3所述的計(jì)算系統(tǒng)或當(dāng)從屬于權(quán)利要求3時(shí)的權(quán)利要求4至9中任一項(xiàng)所述的計(jì)算系統(tǒng),其中將所述多個(gè)實(shí)例中的至少一些實(shí)例分配到不同計(jì)算節(jié)點(diǎn)上執(zhí)行包括:在運(yùn)行時(shí)確定所述多個(gè)實(shí)例將在其上執(zhí)行的計(jì)算節(jié)點(diǎn)的數(shù)量。
11.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的計(jì)算系統(tǒng),其中具有所述第一類(lèi)型的鏈路配置的鏈路向所述編譯器指示將在所鏈接的組件之間傳遞單個(gè)數(shù)據(jù)元素,并且具有所述第二類(lèi)型的鏈路配置的鏈路向所述編譯器指示將在所鏈接的組件之間傳遞多個(gè)數(shù)據(jù)元素。
12.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的計(jì)算系統(tǒng),其中所述第一基于圖的程序規(guī)范包括由鏈接的組件的相應(yīng)輸入和輸出端口定義的鏈路的第三類(lèi)型的鏈路配置,所述第三類(lèi)型的鏈路配置向所述編譯器指示所鏈接的組件將串行執(zhí)行,并且向所述編譯器指示將在所鏈接的組件的任務(wù)之間傳遞單個(gè)數(shù)據(jù)元素。
13.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的計(jì)算系統(tǒng),其中所述編譯器被配置為識(shí)別與相應(yīng)組件對(duì)應(yīng)的一個(gè)或多個(gè)任務(wù)的一個(gè)或多個(gè)任務(wù)集。
14.根據(jù)權(quán)利要求13所述的計(jì)算系統(tǒng),其中一個(gè)或多個(gè)任務(wù)的每個(gè)任務(wù)集具有作為數(shù)據(jù)源的數(shù)據(jù)元素的單個(gè)集合,其向一個(gè)或多個(gè)任務(wù)的該任務(wù)集的不同實(shí)例提供不同的數(shù)據(jù)元素。
15.根據(jù)權(quán)利要求13所述的計(jì)算系統(tǒng),其中一個(gè)或多個(gè)任務(wù)的每個(gè)任務(wù)集對(duì)應(yīng)于一個(gè)或多個(gè)節(jié)點(diǎn)的至少一個(gè)有向無(wú)環(huán)圖,其中有向無(wú)環(huán)圖的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于一任務(wù)或被標(biāo)識(shí)的任務(wù)集,并且有向無(wú)環(huán)圖的每個(gè)有向邊對(duì)應(yīng)于具有所述第一類(lèi)型的鏈路配置的鏈路。
16.根據(jù)權(quán)利要求15所述的計(jì)算系統(tǒng),其中一個(gè)或多個(gè)節(jié)點(diǎn)的有向無(wú)環(huán)圖具有單個(gè)根節(jié)點(diǎn)。
17.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的計(jì)算系統(tǒng),其中每個(gè)計(jì)算節(jié)點(diǎn)被配置為執(zhí)行至少一個(gè)調(diào)度器,用于派生進(jìn)程以執(zhí)行對(duì)應(yīng)隊(duì)列中的任務(wù)。
18.根據(jù)權(quán)利要求17所述的計(jì)算系統(tǒng),其中所述第一計(jì)算節(jié)點(diǎn)被配置為將一個(gè)或多個(gè)任務(wù)從由所述第一計(jì)算節(jié)點(diǎn)執(zhí)行的第二調(diào)度器的隊(duì)列移動(dòng)到由所述第一計(jì)算節(jié)點(diǎn)執(zhí)行的第一調(diào)度器的隊(duì)列中。
19.根據(jù)權(quán)利要求17所述的計(jì)算系統(tǒng),其中所述第一計(jì)算節(jié)點(diǎn)被配置為將一個(gè)或多個(gè)任務(wù)從由所述第一計(jì)算節(jié)點(diǎn)執(zhí)行的調(diào)度器的隊(duì)列移動(dòng)到由第二計(jì)算節(jié)點(diǎn)執(zhí)行的調(diào)度器的隊(duì)列中。
20.一種方法,包括:
存儲(chǔ)一個(gè)或多個(gè)基于圖的程序規(guī)范,至少第一基于圖的程序規(guī)范包括對(duì)應(yīng)于任務(wù)的多個(gè)組件和所述多個(gè)組件的端口之間的有向鏈路,所述第一基于圖的程序規(guī)范包括:
(1)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第一類(lèi)型的鏈路配置,以及
(2)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第二類(lèi)型的鏈路配置,其中所述第二類(lèi)型的鏈路配置不同于所述第一類(lèi)型的鏈路配置;
根據(jù)所述第一基于圖的程序規(guī)范生成目標(biāo)程序規(guī)范,并且識(shí)別不同類(lèi)型的鏈路配置,并且在所述目標(biāo)程序規(guī)范中提供目標(biāo)原語(yǔ)的一次或多次出現(xiàn),用于為流過(guò)具有所述第二類(lèi)型的鏈路配置的鏈路的數(shù)據(jù)元素的每次出現(xiàn)執(zhí)行函數(shù);以及
使用至少一個(gè)計(jì)算節(jié)點(diǎn),
啟動(dòng)所述目標(biāo)程序規(guī)范的執(zhí)行,以及
對(duì)于與所述目標(biāo)原語(yǔ)的所述一次或多次出現(xiàn)相關(guān)聯(lián)的一個(gè)或多個(gè)組件,在運(yùn)行時(shí)確定以下中的至少一個(gè):(1)對(duì)應(yīng)于組件的任務(wù)的實(shí)例將被調(diào)用的順序,或者(2)執(zhí)行對(duì)應(yīng)于組件的任務(wù)的實(shí)例將所位于的計(jì)算節(jié)點(diǎn)。
21.一種以非暫時(shí)形式存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上的軟件,所述軟件包括用于使得計(jì)算系統(tǒng)執(zhí)行以下操作的指令:
存儲(chǔ)一個(gè)或多個(gè)基于圖的程序規(guī)范,至少第一基于圖的程序規(guī)范包括對(duì)應(yīng)于任務(wù)的多個(gè)組件和所述多個(gè)組件的端口之間的有向鏈路,所述第一基于圖的程序規(guī)范包括:
(1)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第一類(lèi)型的鏈路配置,以及
(2)由鏈接的組件的相應(yīng)輸出端口和輸入端口定義的第二類(lèi)型的鏈路配置,其中所述第二類(lèi)型的鏈路配置不同于所述第一類(lèi)型的鏈路配置;
根據(jù)所述第一基于圖的程序規(guī)范生成目標(biāo)程序規(guī)范,并且識(shí)別不同類(lèi)型的鏈路配置,并且在所述目標(biāo)程序規(guī)范中提供目標(biāo)原語(yǔ)的一次或多次出現(xiàn),用于為流過(guò)具有所述第二類(lèi)型的鏈路配置的鏈路的數(shù)據(jù)元素的每次出現(xiàn)執(zhí)行函數(shù);以及
使用至少一個(gè)計(jì)算節(jié)點(diǎn),
啟動(dòng)所述目標(biāo)程序規(guī)范的執(zhí)行,以及
對(duì)于與所述目標(biāo)原語(yǔ)的所述一次或多次出現(xiàn)相關(guān)聯(lián)的一個(gè)或多個(gè)組件,在運(yùn)行時(shí)確定以下中的至少一個(gè):(1)對(duì)應(yīng)于組件的任務(wù)的實(shí)例將被調(diào)用的順序,或者(2)執(zhí)行對(duì)應(yīng)于組件的任務(wù)的實(shí)例將所位于的計(jì)算節(jié)點(diǎn)。
22.根據(jù)權(quán)利要求1所述的計(jì)算系統(tǒng),其中所述編譯器為具有所述第二類(lèi)型的鏈路配置的每個(gè)鏈路提供所述目標(biāo)原語(yǔ)的出現(xiàn),而不為具有所述第一類(lèi)型的鏈路配置的任何鏈路提供所述目標(biāo)原語(yǔ)的出現(xiàn)。