專利名稱:一種基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于一種信息管理技術(shù)領(lǐng)域,涉及一種基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法。
背景技術(shù):
計算機網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的快速發(fā)展,直接推動著現(xiàn)代教學朝網(wǎng)絡(luò)化、數(shù)字化的方向不斷轉(zhuǎn)變,極大的豐富了我們的學習資源和學習手段。同時,這種轉(zhuǎn)變所帶來的機遇與挑戰(zhàn)也吸引了國內(nèi)外廣大學者的關(guān)注,促成了互聯(lián)網(wǎng)數(shù)字學習行為新概念的提出以及 OCff, OLI等學術(shù)或商業(yè)的教學產(chǎn)品的研制成功。目前,對互聯(lián)網(wǎng)數(shù)字學習行為的研究大都集中在數(shù)字學習的相關(guān)理論研究,即對互聯(lián)網(wǎng)數(shù)字學習環(huán)境下的參與者成員關(guān)系以及成員活動規(guī)律進行研究,從而為學習資源的有效利用提供理論依據(jù);互聯(lián)網(wǎng)數(shù)字學習平臺的構(gòu)建,即研究如何在相關(guān)理論的基礎(chǔ)上,使用現(xiàn)有技術(shù)將學習資源進行整合,從而方便用戶學習使用,并通常提供一定的反饋機制;數(shù)字學習與新領(lǐng)域的交叉結(jié)合,即研究如何將數(shù)字學習與其他領(lǐng)域的現(xiàn)有技術(shù)相結(jié)合,從而為數(shù)字學習平臺系統(tǒng)的構(gòu)建提供技術(shù)支持。由此可見,數(shù)字學習研究重點也逐漸從學習平臺、資源的開發(fā)轉(zhuǎn)向?qū)W習行為的信息采集、保存、分析上。尤其是互聯(lián)網(wǎng)環(huán)境下學生的數(shù)字學習行為變得越來越個性化、虛擬化、協(xié)作化,呈現(xiàn)出與傳統(tǒng)學習完全不同的特性。對學生學習行為進行深入全面地研究,有利于教育資源的開發(fā);有利于教師對課程的組織;有利于對教與學做出有效的評價;有利于實驗教學示范中心網(wǎng)絡(luò)教育平臺的開發(fā)。當前對于數(shù)字學習行為的研究要么是處于底層的、表象的、輔助性的研究,在數(shù)據(jù)的收集和分析方法上還存在著一定的不足之處,真正地對數(shù)字學習行為進行系統(tǒng)的研究則很少。在現(xiàn)有的研究中,國內(nèi)外學者所采取的數(shù)據(jù)收集方式大致上可以分為兩種途徑調(diào)查問卷和日志獲取。這兩種數(shù)據(jù)收集途徑的不足之處在于調(diào)查問卷方式由于其數(shù)據(jù)來源具有較大的主觀性,因此數(shù)據(jù)的準確性與調(diào)查者的自身素質(zhì)和被調(diào)查者的樣本數(shù)量及分布規(guī)律有著很大的關(guān)系;日志獲取方式雖然其數(shù)據(jù)來源具有客觀性,但是由于只能將學習資源鎖定在有限的資源平臺中,且無法對用戶的本機操作行為進行記錄分析,因而研究結(jié)果往往與資源平臺的性質(zhì)相關(guān),其結(jié)論很難具有通用性。而由于受其數(shù)據(jù)收集方式的限制,現(xiàn)有研究對高校學生在上機學習中的一些問題沒有給出令人滿意的研究結(jié)論,如學生在上機學習時的學習和娛樂情況如何?學生上機的行為都有哪些?學生上機學習的效率問題等。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法,該方法以高校學生的行為科學和行為理論為基礎(chǔ),引入代理服務(wù)器(Agent)、對應(yīng)分析法等關(guān)鍵技術(shù),構(gòu)建了采集和保存互聯(lián)網(wǎng)數(shù)字學習行為信息平臺,應(yīng)用統(tǒng)計學的方法分析與評價高校學生互聯(lián)網(wǎng)數(shù)字學習行為新特征,還可將本方法延伸到大型儀器設(shè)備在線績效評價等。為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案為提供一種基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法,該方法基于TCP/IP的可編程系統(tǒng),該系統(tǒng)開發(fā)出操作系統(tǒng)的代理程序,代理系統(tǒng)駐留在目標系統(tǒng)中,監(jiān)視駐留系統(tǒng)中發(fā)生的各類事件,并對不同類型的數(shù)據(jù)進行采集;它還可修改代理服務(wù)器的配置,控制采集的數(shù)據(jù)類型;數(shù)據(jù)類型包括基于硬件網(wǎng)關(guān)型數(shù)據(jù)、基礎(chǔ)資源型數(shù)據(jù)、數(shù)據(jù)庫訪問型數(shù)據(jù)、網(wǎng)站訪問型數(shù)據(jù);其特征在于代理服務(wù)器部署在各個子網(wǎng)上,按照統(tǒng)一的格式,實時或定時的進行“拉入”操作; 將采集到的行為數(shù)據(jù)封裝、打包、存入數(shù)據(jù)倉庫;在獲得初始數(shù)據(jù)之后,還需要對數(shù)據(jù)進行關(guān)聯(lián)處理和歸一化處理,將采集到的數(shù)據(jù)轉(zhuǎn)換為易于分析處理的數(shù)據(jù)形式;關(guān)聯(lián)處理和歸一化處理主要步驟分為去噪、關(guān)聯(lián)、標記三個過程。較佳地,該數(shù)據(jù)采集方法包括客戶端數(shù)據(jù)產(chǎn)生及代理服務(wù)器的數(shù)據(jù)采集處理;客戶端數(shù)據(jù)產(chǎn)生包括以下步驟(1)客戶端啟動,運行程序;(2)與服務(wù)器端進行連接;(3)向服務(wù)器發(fā)送校驗代碼,在服務(wù)器端注冊此客戶端;(4)校驗機器時間;(5)客戶端向操作系統(tǒng)注冊窗口監(jiān)聽器、進程活動監(jiān)聽器以及網(wǎng)絡(luò)監(jiān)聽器;(6)運行監(jiān)聽器;(7) 一旦客戶端得到指定類型的活動后,就按指定類型的活動方式采集用戶數(shù)字學習行為的詳細信息,并記錄到客戶端緩存,進入步驟(8);(8)如果監(jiān)聽器運行超過指定時間,則向服務(wù)器端發(fā)送用戶活動記錄,發(fā)送成功后,清空已發(fā)送信息的緩存記錄;服務(wù)器端工作流程(1)服務(wù)器端程序啟動;(2)程序初始化,包括校驗時間、加載客戶機身份校驗數(shù)據(jù)、網(wǎng)絡(luò)可用性校驗;(3)啟動服務(wù),開啟數(shù)據(jù)接收端口,準備接受客戶端數(shù)據(jù);(4)循環(huán)檢驗客戶端發(fā)送數(shù)據(jù)請求,一旦檢驗到請求,則交付步驟( 處理;(5)檢驗客戶端合法性,如果合法,交付步驟(6)處理;(6)服務(wù)器端接受數(shù)據(jù);(7)服務(wù)器端獲得數(shù)據(jù)之后,還需要對數(shù)據(jù)進行關(guān)聯(lián)處理和歸一化處理,將采集到的數(shù)據(jù)轉(zhuǎn)換為易于分析處理的數(shù)據(jù)形式;關(guān)聯(lián)處理和歸一化處理的主要步驟分為去噪、關(guān)聯(lián)、標記三個過程;(a)去噪RTs屬于同一天且差值為15分鐘的文件歸為1組,統(tǒng)計出該組的文件數(shù)目和RTs最大的文件對應(yīng)的Mtime,進而得到該組記錄相對與接收端的開始時間MRTs = Mtime-OTH ;RTs, Ts, Te IfiE^ MRTs, MTs, MTe, Jt^ MTs = Ts+Δ T, MTe = Te+Δ Τ, ΔΤ = MRTs-RTs,將記錄修正為 Record =〈Title,MTs, offset〉,其中 offset = MTe-MTs ;該組其他文件刪除(去噪);(b)關(guān)聯(lián)將SJ按照同一天同一時間段(上午或下午)和身份進行分組,成員數(shù)量超過班級總?cè)藬?shù)1/3的認為是課堂學習記錄,并提取分類集合class = <username, identity, inTime, outTime, tName> ;對分類集合中的每條記錄,如滿足TName相同且inTimeOiTs<outTime的記錄,作為該條記錄所對應(yīng)的行為記錄集合Behavior =〈username,inTime, List<Record ;根據(jù)SJ和用戶身份信息將行為記錄集合、班級信息和課表信息進行關(guān)聯(lián);(c)標記對行為數(shù)據(jù)集中的所有記錄進行分類,對每條記錄按照既定類型進行劃分并標記,即將記錄修改為R<Title,MTs, offset, Type, Value〉。參照CNNIC的劃分類型,共分為 11類資源下載、桌面、娛樂、郵箱、學習、搜索、即時通信、獲取信息、購物、SNS、其他;標記的賦值,則根據(jù)此條記錄是否與學習相關(guān)來進行,其中與學習相關(guān)記為1,無法判定記為0, 與娛樂相關(guān)記為-1。本發(fā)明一種基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法,該方法以高校學生的行為科學和行為理論為基礎(chǔ),引入代理服務(wù)器(Agent)、對應(yīng)分析法等關(guān)鍵技術(shù),構(gòu)建了采集和保存互聯(lián)網(wǎng)數(shù)字學習行為信息平臺,應(yīng)用統(tǒng)計學的方法分析與評價高校學生互聯(lián)網(wǎng)數(shù)字學習行為新特征,還可將本方法延伸到大型儀器設(shè)備在線績效評價等。
圖1為本發(fā)明基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法的數(shù)據(jù)獲取示意框圖;圖2為本發(fā)明基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法的客戶端數(shù)據(jù)采集流程示意圖;圖3為本發(fā)明基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法的服務(wù)端數(shù)據(jù)采集流程示意具體實施例方式下面結(jié)合優(yōu)選實施例對本發(fā)明作進一步說明,但本發(fā)明決不限于下述實施例。如圖1、2、3所示,基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法,該方法基于TCP/IP的可編程系統(tǒng), 該系統(tǒng)開發(fā)出操作系統(tǒng)的代理程序,代理系統(tǒng)駐留在目標系統(tǒng)中,監(jiān)視駐留系統(tǒng)中發(fā)生的各類事件,并對不同類型的數(shù)據(jù)進行采集;它還可修改代理服務(wù)器的配置,控制采集的數(shù)據(jù)類型;數(shù)據(jù)類型包括基于硬件網(wǎng)關(guān)型數(shù)據(jù)、基礎(chǔ)資源型數(shù)據(jù)、數(shù)據(jù)庫訪問型數(shù)據(jù)、網(wǎng)站訪問型數(shù)據(jù);其中,代理服務(wù)器部署在各個子網(wǎng)上,按照統(tǒng)一的格式,實時或定時的進行“拉入”操作; 將采集到的行為數(shù)據(jù)封裝、打包、存入數(shù)據(jù)倉庫;在獲得初始數(shù)據(jù)之后,還需要對數(shù)據(jù)進行關(guān)聯(lián)處理和歸一化處理,將采集到的數(shù)據(jù)轉(zhuǎn)換為易于分析處理的數(shù)據(jù)形式;關(guān)聯(lián)處理和歸一化處理主要步驟分為去噪、關(guān)聯(lián)、標記三個過程。該數(shù)據(jù)采集方法包括客戶端數(shù)據(jù)產(chǎn)生及代理服務(wù)器的數(shù)據(jù)采集處理;客戶端數(shù)據(jù)產(chǎn)生包括以下步驟(1)客戶端啟動,運行程序;(2)與服務(wù)器端進行連接;(3)向服務(wù)器發(fā)送校驗代碼,在服務(wù)器端注冊此客戶端;(4)校驗機器時間;(5)客戶端向操作系統(tǒng)注冊窗口監(jiān)聽器、進程活動監(jiān)聽器以及網(wǎng)絡(luò)監(jiān)聽器;
(6)運行監(jiān)聽器; (7) 一旦客戶端得到指定類型的活動后,就按指定類型的活動方式采集用戶數(shù)字學習行為的詳細信息,并記錄到客戶端緩存,進入步驟(8);(8)如果監(jiān)聽器運行超過指定時間,則向服務(wù)器端發(fā)送用戶活動記錄,發(fā)送成功后,清空已發(fā)送信息的緩存記錄;服務(wù)器端工作流程(1)服務(wù)器端程序啟動;(2)程序初始化,包括校驗時間、加載客戶機身份校驗數(shù)據(jù)、網(wǎng)絡(luò)可用性校驗;(3)啟動服務(wù),開啟數(shù)據(jù)接收端口,準備接受客戶端數(shù)據(jù);(4)循環(huán)檢驗客戶端發(fā)送數(shù)據(jù)請求,一旦檢驗到請求,則交付步驟(5)處理;(5)檢驗客戶端合法性,如果合法,交付步驟(6)處理;(6)服務(wù)器端接受數(shù)據(jù);(7)服務(wù)器端獲得數(shù)據(jù)之后,還需要對數(shù)據(jù)進行關(guān)聯(lián)處理和歸一化處理,將采集到的數(shù)據(jù)轉(zhuǎn)換為易于分析處理的數(shù)據(jù)形式;關(guān)聯(lián)處理和歸一化處理的主要步驟分為去噪、關(guān)聯(lián)、標記三個過程;(a)去噪RTs屬于同一天且差值為15分鐘的文件歸為1組,統(tǒng)計出該組的文件數(shù)目和RTs最大的文件對應(yīng)的Mtime,進而得到該組記錄相對與接收端的開始時間MRTs = Mtime-OTH ;RTs, Ts, Te jfiE^J MRTs, MTs, MTe, Jt ψ MTs = Ts+Δ Τ, MTe = Te+Δ Τ, ΔΤ = MRTs-RTs,將記錄修正為 Record =〈Title,MTs, offset〉,其中 offset = MTe-MTs ;該組其他文件刪除(去噪);(b)關(guān)聯(lián)將SJ按照同一天同一時間段(上午或下午)和身份進行分組,成員數(shù)量超過班級總?cè)藬?shù)1/3的認為是課堂學習記錄,并提取分類集合class = <username, identity, inTime, outTime, tName> ;對分類集合中的每條記錄,如滿足TName相同且inTime<MTs<outTime的記錄,作為該條記錄所對應(yīng)的行為記錄集合Behavior =〈username,inTime, List<Record ;根據(jù)SJ和用戶身份信息將行為記錄集合、班級信息和課表信息進行關(guān)聯(lián);(c)標記對行為數(shù)據(jù)集中的所有記錄進行分類,對每條記錄按照既定類型進行劃分并標記,即將記錄修改為R<Title,MTs, offset, Type, Value〉。參照CNNIC的劃分類型,共分為 11類資源下載、桌面、娛樂、郵箱、學習、搜索、即時通信、獲取信息、購物、SNS、其他。標記的賦值,則根據(jù)此條記錄是否與學習相關(guān)來進行,其中與學習相關(guān)記為1,無法判定記為0, 與娛樂相關(guān)記為-1。術(shù)語說明AP :Access Point,無線接入點;C,Count,某組記錄的文件數(shù)量;CNNIC, China Internet Network Information Center, ψHSKN^ff ΕΦ
ΔΤ :Delta Time,時間間隔,MRTs =Master Runner,s start Time —組記錄相對與接收端的開始時間,MTe =Modified Time of client,修正后的客戶端時間記錄,Mtime =Master Server,s Time,主控服務(wù)器系統(tǒng)時間,MTs =Modified Time of server,修正后的系統(tǒng)時間記錄,OCff =Open Course Ware,開放課件工具,OLI =Open Learning hitiative,開放學習倡議,offset :off set,偏置量,RTs =Runner' s Time,一組記錄的開始記錄時間,SJ =Student Journal,學生上機日志,SNS, Social Networking Services,社會網(wǎng)絡(luò)服務(wù),TName Target Client,s Name,客戶端名稱,Te :Time of client,客戶端時間,TH =Time hit,設(shè)定的一組記錄錄制時間,Ts :Time of server 服務(wù)器時間。本方法采集的數(shù)據(jù)主要包括用戶上機記錄和用戶操作記錄。其中,用戶上機記錄通過該中心的機房管理系統(tǒng)獲得,記為學生上機日志記錄集SJ = <Username, Identity, InTime, OutTime, TName〉,其中Username學生學號,Identity身份(學生所在的班級名稱),^iTime學生開始上機時間,OutTime學生下機時間,TName實驗中心為每臺設(shè)備(計算機)分配的客戶端名稱。用戶操作記錄通過客戶端計算機機上安裝的代理程序獲得?;驹硎峭ㄟ^代理程序獲得操作系統(tǒng)的窗口句柄,在每次窗口變化時觸發(fā)事件,獲得當前的窗口標題 (Windows Title)、時間(Time),以及其他相關(guān)信息,如進程狀態(tài)、網(wǎng)絡(luò)連接數(shù)據(jù)等,然后將信息發(fā)送至服務(wù)器端。以上所揭露的僅為本發(fā)明的較佳實施例而已,當然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬于本發(fā)明所涵蓋的范圍。
權(quán)利要求
1.一種基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法,該方法基于TCP/IP的可編程系統(tǒng),該系統(tǒng)開發(fā)出操作系統(tǒng)的代理程序,代理系統(tǒng)駐留在目標系統(tǒng)中,監(jiān)視駐留系統(tǒng)中發(fā)生的各類事件,并對不同類型的數(shù)據(jù)進行采集;它還可修改代理服務(wù)器的配置,控制采集的數(shù)據(jù)類型;數(shù)據(jù)類型包括基于硬件網(wǎng)關(guān)型數(shù)據(jù)、基礎(chǔ)資源型數(shù)據(jù)、數(shù)據(jù)庫訪問型數(shù)據(jù)、網(wǎng)站訪問型數(shù)據(jù);其特征在于代理服務(wù)器部署在各個子網(wǎng)上,按照統(tǒng)一的格式,實時或定時的進行“拉入”操作;將采集到的行為數(shù)據(jù)封裝、打包、存入數(shù)據(jù)倉庫;在獲得初始數(shù)據(jù)之后,還需要對數(shù)據(jù)進行關(guān)聯(lián)處理和歸一化處理,將采集到的數(shù)據(jù)轉(zhuǎn)換為易于分析處理的數(shù)據(jù)形式;關(guān)聯(lián)處理和歸一化處理主要步驟分為去噪、關(guān)聯(lián)、標記三個過程。
2.根據(jù)權(quán)利要求1所述的基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法,其特征在于該數(shù)據(jù)采集方法包括客戶端數(shù)據(jù)產(chǎn)生及代理服務(wù)器的數(shù)據(jù)采集處理;客戶端數(shù)據(jù)產(chǎn)生包括以下步驟(1)客戶端啟動,運行程序;(2)與服務(wù)器端進行連接;(3)向服務(wù)器發(fā)送校驗代碼,在服務(wù)器端注冊此客戶端;(4)校驗機器時間;(5)客戶端向操作系統(tǒng)注冊窗口監(jiān)聽器、進程活動監(jiān)聽器以及網(wǎng)絡(luò)監(jiān)聽器;(6)運行監(jiān)聽器;(7)一旦客戶端得到指定類型的活動后,就按指定類型的活動方式采集用戶數(shù)字學習行為的詳細信息,并記錄到客戶端緩存,進入步驟(8);(8)如果監(jiān)聽器運行超過指定時間,則向服務(wù)器端發(fā)送用戶活動記錄,發(fā)送成功后,清空已發(fā)送信息的緩存記錄;服務(wù)器端工作流程(1)服務(wù)器端程序啟動;(2)程序初始化,包括校驗時間、加載客戶機身份校驗數(shù)據(jù)、網(wǎng)絡(luò)可用性校驗;(3)啟動服務(wù),開啟數(shù)據(jù)接收端口,準備接受客戶端數(shù)據(jù);(4)循環(huán)檢驗客戶端發(fā)送數(shù)據(jù)請求,一旦檢驗到請求,則交付步驟( 處理;(5)檢驗客戶端合法性,如果合法,交付步驟(6)處理;(6)服務(wù)器端接受數(shù)據(jù);(7)服務(wù)器端獲得數(shù)據(jù)之后,還需要對數(shù)據(jù)進行關(guān)聯(lián)處理和歸一化處理,將采集到的數(shù)據(jù)轉(zhuǎn)換為易于分析處理的數(shù)據(jù)形式;關(guān)聯(lián)處理和歸一化處理的主要步驟分為去噪、關(guān)聯(lián)、標記三個過程;(a)去噪RTs屬于同一天且差值為15分鐘的文件歸為1組,統(tǒng)計出該組的文件數(shù)目和RTs最大的文件對應(yīng)的Mtime,進而得到該組記錄相對與接收端的開始時間MRTs = Mtime-OTH ;將 RTs, Ts、Te 修正為 MRTs, MTs, MTe,其中 MTs = Ts+ Δ Τ, MTe = Te+Δ Τ, Δ T = MRTs-RTs,將記錄修正為 Record =〈Title,MTs, offset〉,其中 offset = MTe-MTs ;該組其他文件刪除;(b)關(guān)聯(lián)將SJ按照同一天同一時間段和身份進行分組,成員數(shù)量超過班級總?cè)藬?shù)1/3的認為是課堂學習記錄,并提取分類集合 class =〈username, identity, inTime, outTime, tName> ; 對分類集合中的每條記錄,如滿足TName相同且inTime<MTs<outTime的記錄,作為該條記錄所對應(yīng)的行為記錄集合 Behavior =〈username, inTime, List<Record>> ; 根據(jù)SJ和用戶身份信息將行為記錄集合、班級信息和課表信息進行關(guān)聯(lián); (c)標記對行為數(shù)據(jù)集中的所有記錄進行分類,對每條記錄按照既定類型進行劃分并標記,即將記錄修改為R<Title,MTs, offset, Type, Value〉;參照CNNIC的劃分類型,共分為11類: 資源下載、桌 面、娛樂、郵箱、學習、搜索、即時通信、獲取信息、購物、SNS ;標記的賦值,則根據(jù)此條記錄是否與學習相關(guān)來進行,其中與學習相關(guān)記為1,無法判定記為0,與娛樂相關(guān)記為-1。
全文摘要
本發(fā)明公開了一種基于互聯(lián)網(wǎng)數(shù)據(jù)采集的方法,該方法代理服務(wù)器部署在各個子網(wǎng)上,按照統(tǒng)一的格式,實時或定時的進行“拉入”操作;將采集到的行為數(shù)據(jù)封裝、打包、存入數(shù)據(jù)倉庫;在獲得初始數(shù)據(jù)之后,還需要對數(shù)據(jù)進行關(guān)聯(lián)處理和歸一化處理,將采集到的數(shù)據(jù)轉(zhuǎn)換為易于分析處理的數(shù)據(jù)形式;關(guān)聯(lián)處理和歸一化處理主要步驟分為去噪、關(guān)聯(lián)、標記三個過程。該方法以高校學生的行為科學和行為理論為基礎(chǔ),引入代理服務(wù)器(Agent)、對應(yīng)分析法等關(guān)鍵技術(shù),構(gòu)建了采集和保存互聯(lián)網(wǎng)數(shù)字學習行為信息平臺。
文檔編號H04L29/06GK102315991SQ201110311090
公開日2012年1月11日 申請日期2011年10月14日 優(yōu)先權(quán)日2011年10月14日
發(fā)明者杜文才, 沈重, 程啟凱 申請人:海南大學