本發(fā)明屬于文本檢索糾錯,具體是基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng)。
背景技術:
1、隨著互聯(lián)網技術的迅猛發(fā)展,文本數(shù)據(jù)量呈爆炸性增長,使得傳統(tǒng)的文本檢索和糾錯方法面臨巨大挑戰(zhàn)。現(xiàn)有的文本檢索系統(tǒng)通常采用基于關鍵詞的檢索方式,雖然能夠快速地定位到包含特定關鍵詞的文本,但在處理海量文本數(shù)據(jù)時,檢索效率和準確性往往不盡如人意。;基于此,為了解決上述問題,本發(fā)明提供了基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng)。
技術實現(xiàn)思路
1、為了解決上述方案存在的問題,本發(fā)明提供了基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng)。
2、本發(fā)明的目的可以通過以下技術方案實現(xiàn):
3、基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng),包括數(shù)據(jù)源模塊、文本檢索模塊和糾錯模塊;
4、所述數(shù)據(jù)源模塊用于確定文本數(shù)據(jù)源,并基于糾錯記錄建立數(shù)據(jù)源優(yōu)化庫。
5、進一步地,文本數(shù)據(jù)源的確定方法包括:
6、確定各待選數(shù)據(jù)源,根據(jù)用戶的文本糾錯需求設置相應的模擬糾錯文本集合以及對應的標準糾錯結果;
7、通過各待選數(shù)據(jù)源對模擬糾錯文本集合進行糾錯模擬,獲得各待選數(shù)據(jù)源對應的糾錯模擬數(shù)據(jù),將糾錯模擬數(shù)據(jù)與標準糾錯結果進行比較,確定未糾錯數(shù)據(jù)和糾錯錯誤數(shù)據(jù);
8、根據(jù)未糾錯數(shù)據(jù)和糾錯錯誤數(shù)據(jù)設置對應的未糾錯值和錯誤值;
9、根據(jù)公式計算各待選數(shù)據(jù)源的待選值;
10、式中:py為待選值;b1、b2均為比例系數(shù),取值范圍為0<b1≤1,0<b2≤1;wa為未糾錯值;wb為錯誤值;az為綜合值;e為自然常數(shù);
11、將各待選數(shù)據(jù)源按照從高到低的順序進行排序,獲得推薦列表,用戶根據(jù)推薦列表確定應用的文本數(shù)據(jù)源。
12、進一步地,糾錯錯誤數(shù)據(jù)的確定方法包括:
13、建立糾錯判斷模型,糾錯判斷模型的表達式為:
14、;
15、式中:s為輸入數(shù)據(jù),輸入數(shù)據(jù)為糾錯模擬數(shù)據(jù)與標準糾錯結果;輸出數(shù)據(jù)為糾錯判斷值cw(s);
16、通過糾錯判斷模型對糾錯模擬數(shù)據(jù)與標準糾錯結果進行分析,獲得各糾錯判斷值;
17、根據(jù)糾錯判斷值確定糾錯錯誤數(shù)據(jù)。
18、進一步地,數(shù)據(jù)源優(yōu)化庫的建立方法包括:
19、實時獲取糾錯記錄,識別糾錯記錄中的各糾錯修正數(shù)據(jù)以及各糾錯修正數(shù)據(jù)對應的文本特征;統(tǒng)計各糾錯修正數(shù)據(jù)的修正次數(shù);
20、將糾錯修正數(shù)據(jù)和文本特征均相同的各糾錯修正數(shù)據(jù)整合為單元修正數(shù)據(jù),并將單元修正數(shù)據(jù)對應的各糾錯修正數(shù)據(jù)的修正次數(shù)之和標記為單元修正值;
21、識別相同的各單元修正數(shù)據(jù),對相同的各單元修正數(shù)據(jù)進行合并篩選;
22、將剩余的各單元修正數(shù)據(jù)按照單元修正值從高到低的順序進行排序,獲得第一序列;
23、按照第一序列中各單元修正數(shù)據(jù)的排序依次計算各單元修正數(shù)據(jù)的優(yōu)化值,直到優(yōu)化值低于閾值x2為止;
24、建立數(shù)據(jù)庫,將優(yōu)化值大于閾值x2的各單元修正數(shù)據(jù)儲存到數(shù)據(jù)庫中,將當前的數(shù)據(jù)庫標記為數(shù)據(jù)源優(yōu)化庫。
25、進一步地,對相同的各單元修正數(shù)據(jù)進行合并篩選的方法包括:
26、識別各單元修正數(shù)據(jù)的文本特征,計算各文本特征之間的相似度,將相似度大于閾值x1的單元修正數(shù)據(jù)進行合并,并計算新的單元修正值,整合新的單元修正數(shù)據(jù)的文本特征;
27、依此類推,直到沒有符合合并要求的單元修正數(shù)據(jù)為止;完成合并篩選。
28、進一步地,優(yōu)化值的計算方法包括:
29、識別單元修正數(shù)據(jù)的單元修正值,將獲得的單元修正值標記為xz;
30、根據(jù)公式計算對應的優(yōu)化值;
31、式中:yh為優(yōu)化值。
32、所述文本檢索模塊用于進行文本檢索,獲取用戶的文本檢索需求對文本檢索需求進行特征分析,獲得各檢索特征數(shù)據(jù);基于各檢索特征數(shù)據(jù)和預設的特征評估模型進行文本檢索,獲得各檢索特征數(shù)據(jù)的特征評估值均為1的文本數(shù)據(jù),標記為檢索文本;
33、對各檢索文本進行排序,獲得檢索列表;將檢索列表向用戶進行展示。
34、進一步地,特征評估模型的表達式為:
35、;
36、式中:q為輸入數(shù)據(jù),輸入數(shù)據(jù)為檢索特征數(shù)據(jù);輸出數(shù)據(jù)為相應檢索特征數(shù)據(jù)對應的特征評估值tp(q)。
37、進一步地,檢索特征數(shù)據(jù)包括文本主體,文本數(shù)據(jù)的文本主體確定方法包括:
38、步驟sa1:建立文本分析模型,將確定文本主體的文本數(shù)據(jù)標記為參照數(shù)據(jù);
39、步驟sa2:采集需要進行文本主體確定的文本數(shù)據(jù),將文本數(shù)據(jù)與參照數(shù)據(jù)進行等同評估,獲得對應等同評估結果,等同評估結果包括視為等同和不視為等同;
40、步驟sa3:當?shù)韧u估結果為視為等同時,不進行文本主體分析,標記相應參照數(shù)據(jù)對應的文本主體;
41、當?shù)韧u估結果為不視為等同時,通過文本分析模型對文本數(shù)據(jù)進行分析,獲得對應的文本主體;
42、將相應的文本數(shù)據(jù)標記為參照數(shù)據(jù),并返回步驟sa2。
43、所述糾錯模塊用于對檢索文本進行糾錯,基于文本數(shù)據(jù)源和數(shù)據(jù)源優(yōu)化庫建立糾錯模型;通過糾錯模型對檢索文本進行糾錯分析。
44、與現(xiàn)有技術相比,本發(fā)明的有益效果是:
45、通過數(shù)據(jù)源模塊、文本檢索模塊和糾錯模塊之間的相互配合,實現(xiàn)對文本數(shù)據(jù)的智能檢索;同時通過預先迭代確定文本數(shù)據(jù)的文本主體,提高文本檢索效率,而且基于多檢索特征數(shù)據(jù)進行檢索,便于用戶提高檢索精度,極大的縮小檢索范圍,提高檢索精度。
1.基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng),其特征在于,包括數(shù)據(jù)源模塊、文本檢索模塊和糾錯模塊;
2.根據(jù)權利要求1所述的基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng),其特征在于,文本數(shù)據(jù)源的確定方法包括:
3.根據(jù)權利要求2所述的基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng),其特征在于,糾錯錯誤數(shù)據(jù)的確定方法包括:
4.根據(jù)權利要求1所述的基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng),其特征在于,數(shù)據(jù)源優(yōu)化庫的建立方法包括:
5.根據(jù)權利要求4所述的基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng),其特征在于,對相同的各單元修正數(shù)據(jù)進行合并篩選的方法包括:
6.根據(jù)權利要求4所述的基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng),其特征在于,優(yōu)化值的計算方法包括:
7.根據(jù)權利要求1所述的基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng),其特征在于,特征評估模型的表達式為:
8.根據(jù)權利要求1所述的基于互聯(lián)網平臺的文本檢索糾錯大數(shù)據(jù)處理系統(tǒng),其特征在于,檢索特征數(shù)據(jù)包括文本主體,文本數(shù)據(jù)的文本主體確定方法包括: