專利名稱:一種基于gpu的文本數(shù)據(jù)挖掘系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實(shí)用新型屬于文本數(shù)據(jù)挖掘系統(tǒng)領(lǐng)域,尤其是一種可以應(yīng)用于各種行業(yè)的基于 GPU的文本數(shù)據(jù)挖掘系統(tǒng)。
背景技術(shù):
1999-2000年間,計算機(jī)科學(xué)家,與諸如醫(yī)療成像和電磁等領(lǐng)域的研究人員,開始 使用GPU(圖形處理器)來運(yùn)行通用計算應(yīng)用程序。他們發(fā)現(xiàn)GPU(圖形處理器)具備的卓越 浮點(diǎn)性能可為眾多科學(xué)應(yīng)用程序帶來顯著的性能提升。這一發(fā)現(xiàn)掀起了被稱作GPGPU(圖 形處理器通用計算)的浪潮。GPU的處理核心SP基于傳統(tǒng)的處理器核心設(shè)計,能夠進(jìn)行整數(shù),浮點(diǎn)計算,邏輯運(yùn) 算等操作,從硬體設(shè)計上看就是一種完全為多線程設(shè)計的處理核心,擁有復(fù)數(shù)的管線平臺 設(shè)計,完全勝任每線程處理單指令的工作。GPU內(nèi)的線程分成多種,包括像素、幾何以及運(yùn)算三種不同的類型,在三維圖像處 理模式下,大量的線程同時處理一個渲染以達(dá)到最大化的效率,所以像GTX 200 GPU的核心 內(nèi)很大一部分面積都作為計算之用,和CPU上大部分面積都被緩存所占據(jù)有所不同,大約 估計在CPU上有20%的晶體管是用作運(yùn)算之用的,而GTX 200 GPU上有80%的晶體管用作 運(yùn)算。GPU處理的首要目標(biāo)是運(yùn)算以及數(shù)據(jù)吞吐量,而CPU內(nèi)部晶體管的首要目的是降低處 理的延時以及保持管線繁忙,這也決定了 GPU在密集行計算比起CPU來更有優(yōu)勢。CUDA(Compute Unified Device Architecture,統(tǒng)一計算架構(gòu))是一種由 NVIDIA 公司推出的通用并行計算架構(gòu),該架構(gòu)使GPU能夠解決復(fù)雜的計算問題。它包含了 CUDA指 令集架構(gòu)(ISA)以及GPU內(nèi)部的并行計算引擎。開發(fā)人員現(xiàn)在可以使用C以及C++語言來 為CUDA架構(gòu)編寫程序,C語言是應(yīng)用最廣泛的一種高級編程語言。所編寫出的程序于是就 可以在支持CUDA 的處理器上以超高性能運(yùn)行。隨著顯卡的發(fā)展,GPU越來越強(qiáng)大,而且GPU為顯示圖像做了優(yōu)化。在計算上已經(jīng) 超越了通用的CPU。如此強(qiáng)大的芯片如果只是作為顯卡就太浪費(fèi)了,因此NVIDIA公司推出 CUDA,讓顯卡可以用于圖像計算以外的目的。正是由于GPU本身的通用特性和CUDA提供的方便的開發(fā)環(huán)境,各種各樣的企業(yè)級 應(yīng)用程序正在利用NVIDIA GPU的大規(guī)模并行CUDA架構(gòu)來實(shí)現(xiàn)更高生產(chǎn)率。它在數(shù)據(jù)挖掘 領(lǐng)域起著重要的作用,尤其是文本數(shù)據(jù)挖掘。
發(fā)明內(nèi)容本實(shí)用新型的目的在于克服現(xiàn)有技術(shù)的不足,提供一種快速、高效的數(shù)據(jù)挖掘,從 而快速得到有價值的數(shù)據(jù),方便決策者快速的響應(yīng)市場需求,在市場競爭中取得有利地位, 并且實(shí)現(xiàn)基于GPU硬件和CUDA架構(gòu)的文本數(shù)據(jù)挖掘系統(tǒng)。為了解決上述技術(shù)問題,本實(shí)用新型是通過以下技術(shù)方案實(shí)現(xiàn)的一種基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),包括終端工作站、交換機(jī)、主機(jī)服務(wù)器和存儲陣列,其特征在于,所述主機(jī)服務(wù)器設(shè)置有CPU和GPU,所述GPU設(shè)有通用并行計算模塊,所 述交換機(jī)分別與主機(jī)服務(wù)器、存儲陣列,終端工作站連接;所述的通用并行計算模塊具有統(tǒng) 一計算架構(gòu)單元。進(jìn)一步地,交換機(jī)設(shè)有交換通信模塊;終端工作站包括CPU、終端通信模塊、終端 人機(jī)交互設(shè)備;主機(jī)服務(wù)器還包括服務(wù)器通信模塊和服務(wù)器人機(jī)交互設(shè)備;存儲陣列包括 存儲模塊和存儲通信模塊;交換通信模塊分別與終端通信模塊、服務(wù)器通信模塊、存儲通信 模塊連接。用戶指令通過人機(jī)交互設(shè)備發(fā)送到終端工作站的CPU,再經(jīng)終端通訊模塊、交換機(jī) 到主機(jī)服務(wù)器;主機(jī)服務(wù)器發(fā)出提取文本數(shù)據(jù)請求的指令,依次經(jīng)過服務(wù)器通訊模塊、交換 機(jī)到達(dá)所述存儲陣列;存儲陣列發(fā)出文本數(shù)據(jù),依次經(jīng)過存儲通信模塊、交換機(jī)到達(dá)主機(jī)服 務(wù)器,發(fā)送到主機(jī)服務(wù)器的GPU,進(jìn)入到GPU通用并行計算模塊的統(tǒng)一計算架構(gòu)單元。統(tǒng)一 計算架構(gòu)單元對文本數(shù)據(jù)進(jìn)行挖掘。終端通訊模塊、服務(wù)器通訊模塊、存儲通信模塊、交換通信模塊是網(wǎng)卡和/或光纖 連接器。網(wǎng)卡為千兆或萬兆網(wǎng)卡。網(wǎng)卡為有線或無線網(wǎng)卡。終端人機(jī)交互設(shè)備包括顯示屏、鍵盤、鼠標(biāo)。終端工作站的數(shù)量是2-32臺。主機(jī)服務(wù)器還包括主機(jī)內(nèi)存;主機(jī)服務(wù)器的GPU還包括GPU全局內(nèi)存;主機(jī)服務(wù) 器的CPU與主機(jī)內(nèi)存連接、主機(jī)內(nèi)存與GPU全局內(nèi)存之間連接,GPU全局內(nèi)存與GPU通用并 行計算模塊的統(tǒng)一計算架構(gòu)單元連接。GPU還設(shè)有通用API接口,GPU通過通用API接口與應(yīng)用程序進(jìn)行通信。設(shè)計GPGPUS的算法關(guān)鍵之一就是讓所有的處理單元都能工作起來。NVIDIA公司 就是要確保資源的高利用率,使處理器能夠高效的利用資源,這樣就可以并行處理更多的 工作流。使用延時隱藏技術(shù),一個處理單元停滯在內(nèi)存當(dāng)中,這樣就可以簡單的切換到另一 個地方派發(fā)工作單元。為了在NVIDIA公司的圖形處理器(GPU)中充分利用大量的流處理器,可以使用64 位操作系統(tǒng)批量處理文件。第一內(nèi)核輸入的是原始數(shù)據(jù)流。被分配的區(qū)會處理每個文件流。 在內(nèi)核中,每個特殊字符都會被替換成統(tǒng)一的特殊字符然后被忽略。這樣就可以有效地進(jìn) 行全局內(nèi)存訪問了。這個標(biāo)記流會被送到第二內(nèi)核,然后剝離附加部分。在這個內(nèi)核中,通 過統(tǒng)一計算架構(gòu)單元(CUDA)多線程處理技術(shù)間將文件流平均分配、處理。哈希表是種數(shù)據(jù) 結(jié)構(gòu),是一種數(shù)據(jù)元素以散列方式組織的存儲結(jié)構(gòu),它可以提供快速的插入操作和查找操 作,是應(yīng)用得非常廣泛的數(shù)據(jù)結(jié)構(gòu),它解決了在有限程序空間內(nèi)容納總數(shù)有限,但索引取值 范圍非常大的數(shù)據(jù)項(xiàng)的設(shè)計要求。本實(shí)用新型的文本數(shù)據(jù)挖掘系統(tǒng),也是設(shè)置有哈希表的。內(nèi)核需要通過DMA(直接內(nèi)存訪問)讓大量的數(shù)據(jù)在主機(jī)和GPU間移動。第一,處 理大量的文檔/文件,尤其是當(dāng)總文件長度大于GPU全局內(nèi)存的時候,一旦他們被完全建 立,文件哈希表就會被刷新出主機(jī)內(nèi)存。第二,在每個批次進(jìn)程開始的時候,文件的原始數(shù) 據(jù)都會從主機(jī)內(nèi)存送到GPU全局內(nèi)存中。為了減少內(nèi)存的開銷,可以讓CPU/GPU聯(lián)合協(xié)作。 在每批迭代的時候,CPU的線程首先發(fā)送前兩個內(nèi)核的異步。在GPU全局內(nèi)存調(diào)用下一個寫入文件哈希表緩存的內(nèi)核之前,它會等待前一批的DMA把舊表傳送到主機(jī)內(nèi)存的完成信 號。在GPU忙于產(chǎn)生該文件哈希表和將標(biāo)記插入到全局表中時,CPU可以從磁盤上預(yù)取下 一批文件,并且把他們復(fù)制到其他文件流的緩沖區(qū)。在結(jié)束批處理迭代時,CPU會再次處理 內(nèi)存異步問題,將文件的哈希表復(fù)制到主機(jī)的內(nèi)存中。僅在下一批迭代的時候,完成DMA的 同步。通過這種方式,輸入到GPU的文檔原始數(shù)據(jù)與DMA的時間部分重疊,并且將哈希表復(fù) 制到當(dāng)前的批次和流預(yù)處理的下一批次重疊。為了進(jìn)一步減少DMA的開銷,可以減少文件哈希表的大小。這就不同于在GPU全 局內(nèi)存中駐留但不必復(fù)制到主機(jī)并且直到執(zhí)行結(jié)束的全局表。該哈希文件包含一個表頭和 一個數(shù)組,如果它們屬于同一個桶,那么它們就可以在內(nèi)部鏈接成一個列表。表頭是用來確 定桶的大小,并找到每個桶的第一項(xiàng)。與此相反,全局哈希表把大的數(shù)組平均分到桶中。由 于特殊限制,無論多大的庫,都可以選擇足夠大小的桶,以避免溢出。另外一項(xiàng)努力就是減少文件哈希表的大小以避免長期儲存單詞。相反,每個條目 都是簡單的維護(hù)一個索引指向相應(yīng)的條目,這些條目實(shí)際上是長期保存在當(dāng)前的全局表 中。為了在插入和搜索中減少哈希鍵的哈希計算,關(guān)鍵在于作為“無符號長”保存。為了 進(jìn)一步減少哈希碰撞的概率(兩個時期共享相同的鍵),增加一個“無符號整數(shù)”,作為身 份驗(yàn)證,以幫助作為區(qū)分條件。獲取哈希表的途徑有兩種,一種是通過原子操作(Atomic Operations)來獲取,一種是不通過原子操作來獲取。第一種,通過原子操作獲取哈希表。通過原子操作獲得哈希表有兩個步驟。第一 步,該文件流均勻分布在統(tǒng)一計算架構(gòu)單元(CUDA)線程集上。這些線程都是被選擇用來最 大化GPU的利用率。緩存用來儲存中間的哈希表,這些哈希表的結(jié)構(gòu)布局很接近于當(dāng)前的 全局哈希表,但是一個較小的桶K是對桶ID排序的條件。在線程流中遇到一個新的名詞和 獲取桶ID時,它會發(fā)出一個原子(同時原子加1)來影響桶的大小。下一步,中間的哈希表減少到最后,更簡潔的文件哈希表就會展現(xiàn)。每個CUDA線 程,遍歷一個桶中處于中間的哈希表,重復(fù)計算,如果發(fā)現(xiàn)一個新的名詞,那么就儲存在項(xiàng) 目中的數(shù)組中。然后推進(jìn)桶鏈接列表的新條目。由于不同的線程操作不相交的桶,所以每 條桶鏈表訪問相互互斥,這就避免了寫入線程之間的沖突。第二種,不通過原子操作獲取哈希表。在GPU的支持下,文件流首先分成小包,每 個包都被送到不同的哈希包塊中,這些哈希包塊都是被線程所擁有的。通過給每個線程一 個單獨(dú)的散列哈希表,我們可以保證線程之間的寫保護(hù)。線程被重新分配給不同的分表,在 此步驟上發(fā)現(xiàn)相同的條件,生成每個桶的統(tǒng)計信息。處理的桶大小信息,將分表合并成最終 的哈希表。以上兩個處理哈希標(biāo)記的程序,不需要任何其他文件資料。因此,在不同的GPU 塊,每個文件可同時獨(dú)立處理。通過植入CUDA技術(shù)的GPU,取得了很高倍數(shù)的加速,GPU能夠提供大規(guī)模并行計
笪弁。本實(shí)用新型的有益效果是(1)本實(shí)用新型能夠快速得到有價值的數(shù)據(jù),方便決策者快速的響應(yīng)市場需求,在 市場競爭中取得有利地位;(2)通過GPU的超強(qiáng)的并行計算能力,實(shí)現(xiàn)快速、有效地數(shù)據(jù)挖掘;[0033](3)利用千兆網(wǎng)線和光纖實(shí)現(xiàn)快速的數(shù)據(jù)傳輸。
圖1為本實(shí)用新型所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng)的整體結(jié)構(gòu)圖;圖2為本實(shí)用新型所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng)的終端工作站的數(shù)據(jù)流程示 意圖;圖3為本實(shí)用新型所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng)的主機(jī)服務(wù)器數(shù)據(jù)流程示意 圖;圖4為本實(shí)用新型所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng)的CPU/GPU聯(lián)合協(xié)作示意框 圖;圖5為本實(shí)用新型所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng)的CPU/GPU聯(lián)合協(xié)作處理文 本數(shù)據(jù)時的數(shù)據(jù)流程示意圖。
具體實(shí)施方式
為更進(jìn)一步闡述本實(shí)用新型為達(dá)成預(yù)定目的所采取的技術(shù)手段及功效,以下結(jié)合 附圖,詳細(xì)說明如后。如圖1所示,為本實(shí)用新型所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng)的整體結(jié)構(gòu)圖。終 端工作站1可有多臺,從終端工作站11、終端工作站12到終端工作站In,本實(shí)用新型的優(yōu) 選數(shù)量為2臺到32臺。同樣地,主機(jī)服務(wù)器3也可以有多臺,如主機(jī)服務(wù)器31、主機(jī)服務(wù)器 32到主機(jī)服務(wù)器3η等。同樣地,存儲陣列4也可以有多臺,如存儲陣列41、存儲陣列42到 存儲陣列4η。終端工作站通過人機(jī)交互設(shè)備接收用戶指令后,通過終端工作站本機(jī)的CPU對請 求進(jìn)行預(yù)處理,然后通過終端工作站的終端通訊模塊將請求發(fā)送交換機(jī),交換機(jī)將請求發(fā) 送給主機(jī)服務(wù)器,主機(jī)服務(wù)器根據(jù)用戶指令,向存儲陣列發(fā)出提取文本數(shù)據(jù)請求,存儲陣列 將文本數(shù)據(jù)通過交換機(jī)回傳至主機(jī)服務(wù)器,通過主機(jī)服務(wù)器的GPU對文本數(shù)據(jù)進(jìn)行挖掘。 具體步驟為Si、終端工作站向主機(jī)服務(wù)器發(fā)送請求;S2、主機(jī)服務(wù)器監(jiān)聽并接收交換機(jī)轉(zhuǎn)來的 終端工作站請求;S3、主機(jī)服務(wù)器向存儲陣列發(fā)送提取文本數(shù)據(jù)請求;S4、存儲陣列接收交 換機(jī)轉(zhuǎn)來的主機(jī)服務(wù)器提取文本數(shù)據(jù)請求;S5、存儲陣列向主機(jī)服務(wù)器發(fā)送文本數(shù)據(jù);S6、 主機(jī)服務(wù)器接收交換機(jī)轉(zhuǎn)來的文本數(shù)據(jù)并計算;S7、主機(jī)服務(wù)器發(fā)送結(jié)果給終端工作站; S8、終端工作站接收交換機(jī)轉(zhuǎn)來的主機(jī)服務(wù)器計算結(jié)果。如圖2所示,為本實(shí)用新型所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng)的終端工作站的數(shù) 據(jù)流程示意圖。終端工作站的數(shù)據(jù)流程為首先掃描人機(jī)交互設(shè)備,例如鍵盤、鼠標(biāo)、觸摸 屏等,看是否有請求產(chǎn)生并發(fā)出,當(dāng)用戶有請求發(fā)出后,內(nèi)存將存儲相關(guān)數(shù)據(jù),判斷是否有 效請求,如果是有效請求,則終端工作站的CPU則對請求進(jìn)行預(yù)處理,成功處理后發(fā)送到網(wǎng) 卡,由網(wǎng)卡將處理后的請求發(fā)送到主機(jī)服務(wù)器。當(dāng)人機(jī)交互設(shè)備沒有發(fā)出請求、請求被判斷 為無效請求或者終端工作站的CPU對請求處理不成功時,均返回待機(jī)。如圖3所示,為本實(shí)用新型所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng)的主機(jī)服務(wù)器數(shù)據(jù) 流程示意圖。主機(jī)服務(wù)器的數(shù)據(jù)流程為主機(jī)服務(wù)器接收終端工作站的請求,成功接收請求后,通過主機(jī)服務(wù)器的服務(wù)器通信模塊向存儲陣列發(fā)送取得文本數(shù)據(jù)的請求,存儲陣列響 應(yīng)后,主機(jī)服務(wù)器接收存儲陣列的數(shù)據(jù)并存入內(nèi)存,然后主機(jī)服務(wù)器的GPU開始高速并行計算。如圖4所示,為本實(shí)用新型所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng)的CPU/GPU聯(lián)合協(xié) 作示意框圖。主機(jī)服務(wù)器的CPU與主機(jī)內(nèi)存連接、主機(jī)內(nèi)存與GPU全局內(nèi)存之間連接,GPU 全局內(nèi)存與GPU通用并行計算模塊的統(tǒng)一計算架構(gòu)單元連接。文本數(shù)據(jù)信號依次通過主機(jī) 服務(wù)器CPU、主機(jī)內(nèi)存、GPU全局內(nèi)存進(jìn)入統(tǒng)一計算架構(gòu)單元進(jìn)行數(shù)據(jù)挖掘處理。如圖5所示,為本實(shí)用新型所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng)的CPU/GPU聯(lián)合協(xié) 作處理文本數(shù)據(jù)時的數(shù)據(jù)流程示意圖。CPU/GPU的聯(lián)合協(xié)作是迭代處理的。第一批文件的處理流程為CPU從磁盤(例如硬盤)上獲取文件數(shù)據(jù)到主機(jī)內(nèi)存; CPU創(chuàng)建文件哈希表;通過DMA將文件數(shù)據(jù)從主機(jī)內(nèi)存?zhèn)鬏數(shù)紾PU全局內(nèi)存中;在GPU中文 件流被平均分配到多個文件流緩沖區(qū);GPU調(diào)用內(nèi)核將哈希表存儲到哈希表緩存,并且將 標(biāo)記插入到全局表中;CUDA線程就對文件流進(jìn)行挖掘;挖掘完畢后,將挖掘結(jié)果傳輸?shù)街?機(jī)內(nèi)存。其后批次的數(shù)據(jù)也是根據(jù)同樣的流程處理的CPU從磁盤(例如硬盤)上獲取文 件數(shù)據(jù)到主機(jī)內(nèi)存;CPU創(chuàng)建文件哈希表;通過DMA將文件數(shù)據(jù)從主機(jī)內(nèi)存?zhèn)鬏數(shù)紾PU全局 內(nèi)存中;在GPU中文件流被平均分配到多個文件流緩沖區(qū);GPU調(diào)用內(nèi)核將哈希表存儲到哈 希表緩存,并且將標(biāo)記插入到全局表中;判斷前一批文件是否挖掘完畢,如果挖掘完畢,則 CUDA線程就對文件流進(jìn)行挖掘;如果尚未挖掘完畢,則等待前一批文件挖掘完畢,CUDA線 程再對文件流進(jìn)行挖掘。與此同時,CPU在磁盤(例如硬盤)上獲取下一批文件數(shù)據(jù)到主機(jī)內(nèi)存。顯然上述具體實(shí)施方式
不是對本實(shí)用新型的限制,上述一種基于GPU的文本數(shù)據(jù) 挖掘系統(tǒng)還可以有其他許多變化。雖然已經(jīng)結(jié)合上述例子詳細(xì)討論了本實(shí)用新型,但應(yīng)該 理解到業(yè)內(nèi)專業(yè)人士可以顯而易見地想到的一些雷同,代替方案,均落入本實(shí)用新型權(quán)利 要求所限定的保護(hù)范圍之內(nèi)。
權(quán)利要求一種基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),其特征在于,包括終端工作站、交換機(jī)、主機(jī)服務(wù)器和存儲陣列,所述主機(jī)服務(wù)器設(shè)置有CPU和GPU,所述GPU設(shè)有通用并行計算模塊,所述交換機(jī)分別與主機(jī)服務(wù)器、存儲陣列,終端工作站連接;所述的通用并行計算模塊設(shè)置有統(tǒng)一計算架構(gòu)單元。
2.根據(jù)權(quán)利要求1所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述交換機(jī)設(shè)有交 換通信模塊;所述終端工作站包括CPU、終端通信模塊、終端人機(jī)交互設(shè)備;所述主機(jī)服務(wù) 器還包括服務(wù)器通信模塊和服務(wù)器人機(jī)交互設(shè)備;所述存儲陣列包括存儲模塊和存儲通信 模塊;所述交換通信模塊分別與終端通信模塊、服務(wù)器通信模塊、存儲通信模塊連接。
3.根據(jù)權(quán)利要求2所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述終端通訊模 塊、服務(wù)器通訊模塊、存儲通信模塊、交換通信模塊是網(wǎng)卡和/或光纖連接器。
4.根據(jù)權(quán)利要求3所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述網(wǎng)卡是千兆或 萬兆網(wǎng)卡。
5.根據(jù)權(quán)利要求4所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述網(wǎng)卡是有線網(wǎng)卡。
6.根據(jù)權(quán)利要求4所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述網(wǎng)卡是無線網(wǎng)卡。
7.根據(jù)權(quán)利要求4所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述終端人機(jī)交互 設(shè)備包括顯示屏、鍵盤、鼠標(biāo)。
8.根據(jù)權(quán)利要求7所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述終端工作站是 2—32 臺 ο
9.根據(jù)權(quán)利要求1-8任一項(xiàng)所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述主 機(jī)服務(wù)器還包括主機(jī)內(nèi)存;所述主機(jī)服務(wù)器的GPU還包括GPU全局內(nèi)存;主機(jī)服務(wù)器的CPU 與主機(jī)內(nèi)存連接、主機(jī)內(nèi)存與GPU全局內(nèi)存之間連接,GPU全局內(nèi)存與設(shè)置在GPU通用并行 計算模塊上的統(tǒng)一計算架構(gòu)單元連接。
10.根據(jù)權(quán)利要求9所述基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述GPU還設(shè)有 通用API接口。
專利摘要一種基于GPU的文本數(shù)據(jù)挖掘系統(tǒng),包括終端工作站、交換機(jī)、主機(jī)服務(wù)器和存儲陣列。其中,所述主機(jī)服務(wù)器設(shè)置有CPU和GPU,所述GPU設(shè)有通用并行計算模塊,所述交換機(jī)分別與主機(jī)服務(wù)器、存儲陣列,終端工作站連接;所述的通用并行計算模塊具有統(tǒng)一計算架構(gòu)單元。本實(shí)用新型提供一種快速、高效的數(shù)據(jù)挖掘,從而快速得到有價值的數(shù)據(jù),方便決策者快速的響應(yīng)市場需求,在市場競爭中取得有利地位,并且實(shí)現(xiàn)基于GPU硬件和CUDA架構(gòu)的文本數(shù)據(jù)挖掘系統(tǒng)。
文檔編號G06F15/167GK201681385SQ201020167478
公開日2010年12月22日 申請日期2010年4月22日 優(yōu)先權(quán)日2010年4月22日
發(fā)明者周曉輝 申請人:周曉輝