欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

動態(tài)文檔匹配和合并的制作方法

文檔序號:12288206閱讀:305來源:國知局
動態(tài)文檔匹配和合并的制作方法與工藝

本申請在35 USC 119(e)之下要求對提交于2014年1月21日且題為“System and Method for Dynamic Document Matching and Merging(用于動態(tài)文檔匹配和合并的系統(tǒng)和方法)”的美國臨時專利申請序列號61/929,787的益處和優(yōu)先權,通過引用將其整體并入本文。

技術領域

本公開大體涉及用于匹配和合并異類文檔的系統(tǒng)和方法。



背景技術:

關于實體(諸如對象、公司、想法等)的數(shù)據(jù),可以存儲在多個異類數(shù)據(jù)源中。為了能夠?qū)碜援愵愒吹年P于實體的數(shù)據(jù)聚集到單個數(shù)據(jù)存儲中,必要的是嘗試從各種數(shù)據(jù)源搜集各種數(shù)據(jù)并且然后確定一種方式以將來自異類數(shù)據(jù)源的針對特定實體的數(shù)據(jù)組合到單個數(shù)據(jù)存儲中。

在健康護理產(chǎn)業(yè)中,關于每一個健康護理提供者(諸如醫(yī)生、臨床醫(yī)學家、護士、醫(yī)院、醫(yī)療實踐等)的信息/數(shù)據(jù)可以存儲在多個異類數(shù)據(jù)源中。關于健康護理提供者的信息/數(shù)據(jù)可以包括例如評論、指導、評分等。用于針對健康護理提供者的數(shù)據(jù)/信息的異類數(shù)據(jù)源可以包括針對醫(yī)療護理和醫(yī)療救助服務(CMS)國家規(guī)劃和提供者枚舉系統(tǒng)(NPPES)數(shù)據(jù)的公共可獲得的中心到來自美國醫(yī)療協(xié)會(AMA)的私人治療(curated)和許可數(shù)據(jù),以及其它異類數(shù)據(jù)源。

為了成功地將來自這些各種數(shù)據(jù)源的數(shù)據(jù)集成到單個數(shù)據(jù)存儲中所必需面對的問題可以包括:

? 盡管提供者文檔被結(jié)構化,但是跨數(shù)據(jù)源的可用數(shù)據(jù)字段是異種的;

? 不存在跨數(shù)據(jù)源鏈接提供者文檔的強識別符。甚至提供者的名稱可能出于以下數(shù)個原因而可疑:

○ 名稱可能合法地改變

○ 非正式變化(即,昵稱)

○ 由于人為錯誤所致的錯誤拼寫

○ 來自非羅馬字母表的不一致定位

○ 具有相同名稱的多個提供者

? 沒有單個數(shù)據(jù)源可以被相信為權威的,因為不存在適當位置中的中央機制以在提供者信息隨時間改變時更新每一個所涉及的組織;

? 因為不存在用于更新提供者信息的中央機制,所以從NPPES、AMA和其它中可獲得的數(shù)據(jù)總是變得缺乏同步,甚至在共同可獲得的數(shù)據(jù)字段之中;

? 盡管來自NPPES、AMA和其它中的數(shù)據(jù)提供其自身的提供者目錄的最高等級視圖,但是它們也已經(jīng)組合來自潛在地數(shù)千個較低等級源的數(shù)據(jù),并且錯誤可能已經(jīng)傳播通過其自身的系統(tǒng);

? 美國存在多于一百萬個單獨的健康護理提供者,并且所有提供者的數(shù)據(jù)的手動管理和檢查是不可行的。

因而,期望的是提供用于動態(tài)數(shù)據(jù)識別和組合的系統(tǒng)和方法,使得例如來自針對健康護理提供者的異類數(shù)據(jù)源的數(shù)據(jù)可以組合到單個數(shù)據(jù)存儲中。

附圖說明

圖1是用于匹配和合并文檔的方法的最高等級過程流;

圖2是用于匹配和合并文檔的系統(tǒng)的實現(xiàn)的示例;

圖3圖示了在圖2中示出的系統(tǒng)的更多細節(jié);

圖4圖示了可以使用在圖1中示出的過程匹配和合并的源提供者文檔的示例;

圖5圖示了可以使用在圖1中示出的過程匹配和合并的經(jīng)對準和結(jié)構化的提供者文檔的示例;

圖6圖示了匹配集的示例;

圖7是來自具有由圖1中所示的方法而生成的起源的經(jīng)合并的文檔的摘錄的示例;以及

圖8是來自具有由圖1中的方法所生成的起源和排名值的經(jīng)合并的文檔的摘錄的示例。

具體實施方式

本公開特別適用于其中健康護理提供者數(shù)據(jù)得以匹配和合并的健康護理系統(tǒng),并且將在該上下文中描述本公開。然而,將領會到,系統(tǒng)和方法具有更大的實用性,因為系統(tǒng)和方法可以與期望能夠為其匹配和合并來自異類數(shù)據(jù)源的關于實體的數(shù)據(jù)的任何類型的實體一起使用。此外,系統(tǒng)和方法可以使用在期望能夠為其匹配和合并來自異類數(shù)據(jù)源的關于實體的數(shù)據(jù)的任何產(chǎn)業(yè)中。出于本公開的目的,實體可以是對象、想法、專業(yè)者、人員、企業(yè)、商業(yè)實體等。

在示例健康護理實施例中,健康護理系統(tǒng)可以具有提供健康護理定價透明度并將消費者直接連接到健康護理提供者的目標。為了提供健康護理定價透明度,健康護理系統(tǒng)需要維持健康護理提供者的全面且最新的目錄。為了建立該提供者目錄,從異類源組合數(shù)據(jù),異類源的范圍從用于醫(yī)療護理和醫(yī)療救助服務(CMS)國家規(guī)劃和提供者枚舉系統(tǒng)(NPPES)數(shù)據(jù)的公共可獲得的中心到來自美國醫(yī)療協(xié)會(AMA)的私人治療和許可數(shù)據(jù),以及其它異類源。這些數(shù)據(jù)采取以每一提供者為基礎的結(jié)構化記錄的形式,其在本文中稱為供者文檔

系統(tǒng)和方法提供計算過程以匹配來自引用相同提供者的異類源的提供者文檔并且將那些文檔合并到單個全面視圖中,而同時針對每一個可用數(shù)據(jù)字段考慮數(shù)據(jù)源的相對可信賴度。所生成的單個全面視圖為健康護理消費者以及應用域中的從業(yè)者促進更加準確的服務購買和推薦體驗。動態(tài)地匹配具有數(shù)據(jù)衛(wèi)生學度量的異類數(shù)據(jù)源的能力在評估用于對將在健康護理系統(tǒng)的市場中列出的從業(yè)者排名的行為和評分中是關鍵的。這種改進的匹配模型進一步促進側(cè)面(faceted)搜索范例,很像人們將在互聯(lián)網(wǎng)市場場所處搜索相機購買那樣。

系統(tǒng)可以包括以下組件中的一個或多個:

? 多個提供者文檔匹配器算法;

? 用于提供關于匹配算法結(jié)果的隨機采樣的人為驗證反饋的方法;

? 從人為驗證反饋循環(huán)所建立的統(tǒng)計模型,其用于選擇和組合來自匹配算法的結(jié)果匹配集;

? 合并包含在每一個所選擇的匹配集內(nèi)的原始提供者文檔的方法,從而維持用于經(jīng)合并的文檔中的每一個字段/值對的起源;

? 解算用于經(jīng)合并的提供者文檔中的可用字段的沖突值的方法;

? 用于經(jīng)由允許異類數(shù)據(jù)集的優(yōu)化和分布式處理的變換管線而分布這些過程的提取變換加載(ETL)方法;

? 利用消息隊列和企業(yè)服務總線來動態(tài)地處理ETL信息的分布式過程。

圖1是用于匹配和合并文檔的方法100的最高等級過程流。實現(xiàn)過程流的系統(tǒng)設計成允許多個匹配器算法以便利用每一個算法的相對強度而同時補償其單獨的弱點。例如,嚴格的匹配器可以利用傳記識別符的統(tǒng)計學上有意義的組合,諸如人員全名以及出生日期和出生地點的每一個組成,其將產(chǎn)生搜索空間中的幾個假陽性,如果搜索空間中的實際匹配文檔缺少出生信息或全名的任何組成(例如,中間名)的話又將產(chǎn)生假陰性。相反地,允許人員名稱中的變化(例如,昵稱)的松散匹配器將在減少假陰性方面更加成功,但是將產(chǎn)生多得多的假陽性。

例如,系統(tǒng)可以使用貝葉斯身份解算,其中針對被確定為用于確定匹配的最佳特征的文檔中的字段的子集而指定比較器和權重范圍。當評估文檔對時,使用所指定的比較器來比較文檔中的每一個字段,并且結(jié)果縮放至所指定的權重范圍,從而導致用于字段的加權匹配分數(shù)。使用貝葉斯定理組合這些加權字段匹配分數(shù)以提供用于兩個文檔的總體匹配分數(shù)。如果該文檔匹配分數(shù)在指定閾值之上,則兩個文檔被視為是匹配,否則它們被視為是不匹配。

作為另一示例,系統(tǒng)可以使用ElasticSearch。ElasticSearch是基于Apache Lucene(開源信息檢索軟件庫)的分布式、RESTful、自由/開源搜索服務器。為了使用Elasticsearch執(zhí)行文檔匹配,首先使用Elasticsearch API對文檔的集群“編索引”。然后,迭代文檔的集群,從而基于來自迭代文檔的選擇字段而構造精準布爾查詢。如果必要的字段存在于該“查詢”文檔中,則對照Elasticsearch索引發(fā)出查詢,并且結(jié)果指示被保存到結(jié)果集群中的正匹配。對于集群去重復,迭代的集群可以是經(jīng)編索引的相同集群。替換地,對于記錄“鏈接”,可以迭代完全不同的集群。

在運行匹配器算法的整體之前,源文檔(圖1中的原生文件)中的每一個被導入102并且分配有唯一識別符。那些識別符屬于文檔,因為它們在適當?shù)那闆r下被變換104例如以對準詞匯(即,字段名稱),并且以去歸一化文檔內(nèi)的邏輯數(shù)據(jù)結(jié)構(例如,對“地址”子文檔內(nèi)的郵件地址的組成分組)。圖4和5分別示出了源提供者文檔及其經(jīng)對準/結(jié)構化的版本的示例。

在初始數(shù)據(jù)清除之后,每一個匹配器算法可以對照來自所有源(我們的搜索空間)的N個提供者文檔的整個集合而運行(匹配器過程106)。這可以被看作使用M個規(guī)范數(shù)據(jù)源文檔作為我們想要針對其尋找搜索空間中的對應匹配的查詢文檔的查詢序列,從而導致M個匹配集(參見圖6,其針對匹配集的示例)。最終,所匹配的文檔將折疊到規(guī)范文檔中以提供更新、統(tǒng)一的數(shù)據(jù)視圖。替換實施例可以使用N個搜索空間文檔作為查詢文檔而運行匹配器算法以執(zhí)行去重復,但是出于將提供者文檔的多個源折疊到全面目錄中的目的,我們跨所有匹配器實例而使用查詢文檔的相同集合。

所生成的匹配集不包含實際匹配文檔,而是包含對匹配文檔的存儲位置和唯一識別符的引用,如圖6中所示。唯一識別符是指在初始導入102期間被分配給匹配文檔的那些。附加地,匹配集已經(jīng)關聯(lián)用于通過其而產(chǎn)生匹配器算法的匹配器算法的起源元數(shù)據(jù),包括算法的識別符和特定于其實例的參數(shù)。匹配器起源用于通過選擇和組合匹配集的統(tǒng)計模型而區(qū)分匹配集結(jié)果。

可以使用由匹配器整體產(chǎn)生的匹配集的隨機樣本的人為評估的結(jié)果來構造統(tǒng)計模型。人為評估器可以呈現(xiàn)有查詢文檔以及與匹配集所表示的匹配文檔的每一個成對式組合。評估器確定兩個文檔是否引用相同提供者,并且存儲確定(或分數(shù))以用于將來的引用??赡艿氖牵ヅ浼_和不正確的匹配二者。

匹配分數(shù)的集群形成用于建立統(tǒng)計模型的訓練數(shù)據(jù)、連同用于訓練數(shù)據(jù)中的每一個文檔的特征向量的基礎。例如,特征向量的示例可以是:

用于訓練數(shù)據(jù)集中的一個記錄的特征向量的稀疏表示。這示出了ppd_quarterly_startup源中的提供者文檔與nppes_npi源中的提供者文檔正確地匹配。field_distances數(shù)據(jù)結(jié)構中的字段名稱的存在指示所述字段存在于兩個文檔中,并且相關聯(lián)的數(shù)字是兩個文檔中的字段值之間的萊文斯坦距離。這些字段名稱是基于圖5中的示例,其是具有經(jīng)變換的詞匯的來自圖4的數(shù)據(jù)。

這些特征(以及整個訓練數(shù)據(jù)集的所有特征)是用于貝葉斯分類器的預測器。

特征向量可以包括單獨數(shù)據(jù)點,諸如文檔源、可用文檔字段、查詢和匹配文檔之間的字段相似性。貝葉斯推論然后可以用于確定如在匹配集中呈現(xiàn)的所提出的匹配是否被預測為有效的。通過單獨地考慮匹配集中的每一個匹配,可能接受或拒絕子集。當跨匹配器而使用查詢文檔的相同集合時,針對每一個查詢文檔而跨所有匹配器所接受的匹配能夠被組合到完整的匹配集中。

在過程中的這一點處,仍舊通過引用感興趣的文檔來表示經(jīng)組合的匹配集。下一步驟是組合所引用的文檔(108)(包括查詢和匹配文檔二者)到單個文檔中,其中來自所有字段的值存在于每一個中。針對所有字段/值組合而維持起源以追蹤其源。將新的唯一識別符分配給所得經(jīng)合并的文檔,甚至是在合并源自于單一匹配集的情況下。

經(jīng)合并的文檔可以具有用于任何給定字段的沖突值。過程因而可以具有解算過程110以解算這樣的沖突并且根據(jù)每一個值的正確性中的置信度而對值排名。解算過程110可以使用啟發(fā)法的組合而達成,包括多數(shù)決定原則(值支持)、用于數(shù)據(jù)源的預確定置信度(例如,用于從業(yè)者許可數(shù)據(jù)的信賴狀態(tài)醫(yī)療板)、或者再次從人為反饋建立的統(tǒng)計模型。例如,“多數(shù)決定原則”解算器將基于針對給定數(shù)據(jù)字段最經(jīng)常發(fā)生哪一值而確定用于給定字段的最一致數(shù)據(jù)值。將需要至少三個源來確定“獲勝者”。對于圖8中的經(jīng)合并的文檔,該解算器將把來自ppd_quarterly_startup_dbq和state_licensures_TX源的“名稱”字段評分為0.66,因為三者當中的這兩個(first_name、middle_name、last_name)元組相同。state_licensure_KS將評分為0.33,因為其僅在三者當中發(fā)生一次。在該情況下,獲勝者可以是ppd_quarterly_startup或state_licensures_TX,因為其分數(shù)相同。

被匹配器整體用作查詢文檔的規(guī)范文檔現(xiàn)在具有來自折疊的匹配文檔的字段/值組合,連同用于每一個的排名。如由系統(tǒng)輸出的這些新文檔的消費者可以選擇在適當?shù)那闆r下利用排名值,最簡單的情況僅取最高排名值。替換地,與排名值組合的文檔可以被預留,如用于顯示在側(cè)面瀏覽系統(tǒng)中以供用戶探查。在健康護理示例設想下,經(jīng)組合的文檔可以存儲在用于健康護理提供者的主目錄112中。

圖2是用于匹配和合并文檔的系統(tǒng)200的實現(xiàn)的示例,并且圖3圖示了在圖2中示出的系統(tǒng)的更多細節(jié)。系統(tǒng)200可以具有一個或多個數(shù)據(jù)源202,諸如數(shù)據(jù)源1、數(shù)據(jù)源2...數(shù)據(jù)源N,如在圖2中所示,可以從所述數(shù)據(jù)源拉取關于特定實體的數(shù)據(jù)。在健康護理示例設想下,實體可以是健康護理提供者,并且一個或多個數(shù)據(jù)源可以是用于醫(yī)療護理和醫(yī)療救助服務(CMS)國家規(guī)劃和提供者枚舉系統(tǒng)(NPPES)數(shù)據(jù)的公共可獲得的中心和/或來自美國醫(yī)療協(xié)會(AMA)的私人治療和許可數(shù)據(jù)。在健康護理示例設想下,數(shù)據(jù)源中的數(shù)據(jù)可以采取在每一提供者的基礎上的結(jié)構化記錄的形式,其在本文中稱為提供者文檔。

一個或多個數(shù)據(jù)源202可以在地理上分散或共位于一處,但是每一個可以具有到通信路徑204的連接并且可以被實現(xiàn)為基于軟件或硬件的數(shù)據(jù)存儲或數(shù)據(jù)庫。一個或多個數(shù)據(jù)源202可以具有由后端單元206通過通信路徑204從數(shù)據(jù)源202所獲得的數(shù)據(jù)。通信路徑204可以是允許后端單元206從數(shù)據(jù)源收集數(shù)據(jù)的任何有線或無線網(wǎng)絡,諸如互聯(lián)網(wǎng)、無線數(shù)據(jù)或計算機網(wǎng)絡、有線數(shù)據(jù)網(wǎng)絡等。

可以使用一個或多個云計算資源或者一個或多個服務器計算資源(諸如至少處理器和存儲器)來實現(xiàn)后端單元206。后端單元還可以包括多個組件,其中每一個組件執(zhí)行一個或多個過程以實現(xiàn)系統(tǒng)的匹配和合并功能性。每一個組件可以是多個計算機代碼行,其可以駐存在云計算資源或者一個或多個服務器計算資源的存儲器中并且由云計算資源或者一個或多個服務器計算資源的處理器執(zhí)行。替換地,每一個組件可以是實現(xiàn)所描述的操作和過程的硬件片段。例如,每一個組件可以是可編程邏輯器件、具有微代碼的微處理器或微控制器、專用集成電路等。

后端單元206的組件可以包括可以執(zhí)行以上參照圖1所描述的導入和變換過程102、104的導入和變換組件206A,以及可以容納以上描述的執(zhí)行圖1中的匹配過程106的一個或多個匹配器算法的匹配器組件206B。后端單元206的組件還可以包括可以執(zhí)行合并過程110的合并組件206C,以及可以執(zhí)行以上參照圖1描述的解算過程112的解算器組件206D。

除所述組件之外,后端單元206可以耦合到貯存庫208,其可以存儲匹配集、經(jīng)合并的文檔以及具有排名值的經(jīng)合并的文檔。在健康護理示例設想下,貯存庫208還可以存儲基于具有排名值的經(jīng)合并的文檔的健康護理提供者目錄。

圖3圖示了當用于健康護理示例設想時的系統(tǒng),其中健康護理提供者數(shù)據(jù)從異類數(shù)據(jù)源生成。因而,如圖3中所示,每一個異類數(shù)據(jù)源可以具有包含關于特定健康護理提供者的數(shù)據(jù)的一個或多個提供者文檔。類似于圖1中所示的過程,提供者文檔可以被導入并且變換成經(jīng)對準、結(jié)構化的提供者數(shù)據(jù),其可以存儲在圖2中所示的貯存庫208中。如上文所述,可以使用一個或多個匹配器來匹配經(jīng)對準、結(jié)構化的提供者數(shù)據(jù)文檔,并且每一個匹配器生成匹配集(其示例在圖6中示出)。用于每一個匹配器的匹配集(具有起源)可以存儲在貯存庫中,并且可以執(zhí)行如上文所述的人為驗證過程。

一旦人為審閱過程完成,經(jīng)組合、接受的匹配及其匹配集就可以與來自匹配集的起源合并在一起。在圖7中示出來自這樣的文檔的摘錄的示例。具有起源的那些經(jīng)合并的文檔可以是未解算的,并且那些文檔可以輸入到解算器206D,其然后生成具有排名值的經(jīng)合并的文檔。在圖8中示出來自具有排名值起源的經(jīng)合并的文檔的摘錄的示例。

盡管前述內(nèi)容已經(jīng)參照本發(fā)明的特定實施例,但是本領域技術人員將領會到,可以進行該實施例中的改變而不脫離本公開的精神和原理,本公開的范圍由隨附權利要求限定。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
大冶市| 乐东| 枣庄市| 桂东县| 景洪市| 二手房| 如皋市| 贞丰县| 霍州市| 福建省| 七台河市| 宁明县| 株洲县| 浮梁县| 镇沅| 磐石市| 东乌珠穆沁旗| 岳普湖县| 灌阳县| 天祝| 安平县| 亳州市| 临武县| 曲松县| 灵石县| 依安县| 赞皇县| 河间市| 霍州市| 乐陵市| 达日县| 贵德县| 绥化市| 陆丰市| 怀仁县| 虎林市| 金沙县| 台南市| 莎车县| 五大连池市| 肇庆市|