專利名稱::用于從網絡數(shù)據(jù)中生成詞匯的系統(tǒng)和方法
技術領域:
:本公開一般地涉及通信領域,更具體地,涉及從網絡數(shù)據(jù)中生成詞匯。
背景技術:
:在當今社會,通信領域變得越來越重要。尤其,有效率地收集、關聯(lián)和組織信息的能力對于組件制造商、系統(tǒng)設計者以及網絡操作者的造成顯著障礙。該障礙由于過多的貧乏的語言模式、俚語和不適當?shù)恼Z法甚至變得更困難在當今公司環(huán)境中全部這些好像是普遍存在的。因為新的通信平臺和技術變得可用,應當開發(fā)新的協(xié)議以便優(yōu)化這些新興的協(xié)議的使用。在內容(尋求智能地組織該內容)在網絡中傳播的數(shù)據(jù)監(jiān)視情形中出現(xiàn)了ー些問題。為了提供本公開和特征以及它們的優(yōu)勢的更完整的理解,參考了與附圖相結合的如下說明,其中相同的參考數(shù)字表示相同的部分,其中圖I是依據(jù)一個實施例的用于從網絡數(shù)據(jù)生成詞匯的通信系統(tǒng)的簡化的框圖;圖2是依據(jù)一個實施例的可以出現(xiàn)在通信系統(tǒng)中的示例提取的簡化的框圖;以及圖3是圖示了與通信系統(tǒng)相關聯(lián)的一系列示例步驟的簡化的流程圖。具體實施方式概覽在一個示例中提供了ー種方法,該方法包括接收在網絡環(huán)境中傳播的數(shù)據(jù)和將數(shù)據(jù)分離為ー個或者多個字段。評估這些字段中的至少ー些以便識別這些字段內的名詞和名詞短語。該方法還包括基于白名單和黑名單識別在名詞和名詞短語內所選擇的單詞。白名單包括要被加標記的多個指定的單詞,并且黑名單包括將不被加標記的多個拒絕的單詞。為所選擇的被加標記的名詞和名詞短語而生成合成物。如果合成物被準許,則將合成物合并在白名單中。在更具體的實施例中,這些字段包括題目字段、概念字段、文本字段以及作者字段。該方法可以將與該數(shù)據(jù)相關聯(lián)的文檔分離為第一段和第二段,該第一段包括概念字段,該第二段包括其他字段。因此,可以基于在數(shù)據(jù)中檢查到的停止單詞的配置的列表將數(shù)據(jù)中的一個或者多個詞移除。還可以基干與多個終端用戶相關聯(lián)的數(shù)據(jù)集合建議將詞包括在白名單中或者黑名單中。示例實施例圖I是用于從網絡數(shù)據(jù)中生成詞匯的通信系統(tǒng)10的簡化框圖。圖I可以包括終端用戶12,該終端用戶操作被配置為與互聯(lián)網協(xié)議(IP)網絡14連接的計算機設備。另外,設置了管理員20,其中管理員20有通過IP網絡18與該架構連接的能力。還提供了與圖I相結合的一個示例工作流程30,當通過通信系統(tǒng)10接收到并且智能地處理了文件(及其內容)時,該示例工作流程跟蹤該文檔(及其內容)。通信系統(tǒng)10還可以包括網絡協(xié)作平臺(NCP)32,其包括白名單/黑名單添加模塊34、反饋環(huán)模塊36以及管理員建議接ロ38。圖I還包括中央引擎40,其包括輕量級目錄訪問協(xié)議(LDAP)元件42、詞匯饋送器模塊44、流元件50、新興詞匯主題元件46以及表格寫服務元件48。圖I還包括網絡探測器54,其包括先進先出(FIFO)元件56、文本提取模塊58、黑名單60、文本類型過濾器62、名詞短語提取器模塊64、白名單66、文檔分離器元件68以及清除主題模塊70??梢詫⒍鄠€網絡探測器54設置在網絡內的多個位置,該設備可以基于尋求對多少信息加標記,多種網絡元件的容量等。注意轉到本公開的示例實施例的示例流程和基礎設施之前,提供了該架構的工作流程的簡要概覽。一些自動詞匯產生協(xié)議試圖解決手動建立詞匯的問題。大部分方法是耗時,不靈活并且難以管理的(例如,在針對白名単、黑名單等添加/刪除/修改條目的上下文中)。通信系統(tǒng)10可以提供能夠為通過給定的網絡的內容提供有效的標簽添加的架構。該架構提供了靈活性,這是因為該架構可以被配置為保護雇員隱私和敏感內容,例如,其中僅僅匹配受控的商業(yè)詞匯的內容可以被提取和合適地索引。另外,通信系統(tǒng)10提供了詞匯建立機制,該機制與演進的商業(yè)方言聯(lián)合。這意味著(在一般意義上),受控的詞匯是自動地并且快速地隨新的/浮現(xiàn)的商業(yè)內容來演進的活動的實體。本架構的ー個方面包括名詞短語提取組件,可以將其與過濾機制和流訪問計數(shù)一起來提供以恢復受歡迎的和/或新詞匯條目。在示例實現(xiàn),前提可以包括令該架構建議潛在詞匯候選的單詞和短語。可以給予多單詞短語比單個單詞術語更大的權重。將這些單詞包括在白名單中還是黑名單中的決定取決于詞匯管理員。管理員還可以通過標記單詞以供添加到管理員停止單詞的列表中,決定這些單詞是否應當永遠不引起他的注意。這可以采取反饋環(huán)的形式,例如,從NCP用戶接ロ到網絡探測器/中央引擎(依賴停止單詞移除組件可以駐留的位置)。在示例實施例中,僅將詞匯的某個數(shù)據(jù)字段(例如,單詞)加標記。如本說明書中在這里使用的,術語“數(shù)據(jù)”意味著包括在網絡環(huán)境中傳播的任何合適格式的任何信息(視頻、文本、音頻、多媒體、語音等)??梢詫⑻囟ǖ淖侄卧O置在反映具體網絡內容的白名單中。在示例實現(xiàn)中,管理員20可以開發(fā)某個表示隱私問題,特權內容等的字段,使得最終的文檔或者文件的合成物將反映能夠在公司(潛在地公開)環(huán)境中的雇員間共享的信息。在某實現(xiàn)中,該文檔的合成物(即,數(shù)據(jù))可以幫助識別與具體主題領域相關聯(lián)的專家;然而,存在通信系統(tǒng)10可以應用到其中的無數(shù)的更多的應用。如本說明書中在這里使用的,術語“合成物”可以為任何的對象、位置、數(shù)據(jù)庫、資料庫、服務器、文件、表格等,其可以將通過通信系統(tǒng)10生成的結果提供給管理員20。轉到圖I的基礎設施,IP網絡14和18表示用于接收和發(fā)送通過通信系統(tǒng)10的信息分組的互連通信路徑的一系列點或者節(jié)點。IP網絡14和18提供服務器(和或終端用戶)之間的通信接ロ,它可以是任何的局域網(LAN)、無線LAN(WLAN)、城域網(MAN)、虛擬LAN(VLAN)、虛擬專用網(VPN)、廣域網(WAN),或者便利在網絡環(huán)境中通信的任何其它的適當?shù)募軜嫽蛘呦到y(tǒng)。在本公開的具體實施例中IP網絡14和18可以實現(xiàn)的TCP/IP通信語言協(xié)議;然而,或者IP網絡14和18可以實現(xiàn)用于發(fā)送和接收在通信系統(tǒng)10中的數(shù)據(jù)分組的任何其它的合適的通信協(xié)議。注意網絡探測器54可以容易地成為本架構的某實施例中的服務器的一部分。在示例實現(xiàn)中,網絡探測器54是便利或者幫助協(xié)作詞匯建立操作的網絡元件,如在這里說明的。如本說明書中在這里使用的,術語“網絡元件”意味著包括網絡裝置、服務器、路由器、開關、網關、橋、負載均衡器、防火墻、處理器、模塊、或者任何其它的合適的設備、組件、元件或者可操作的物體以在網絡環(huán)境中交換信息。此外,網絡元件可以包括任何合適的硬件、軟件、組件、模塊、接ロ或者便利了它們的操作的物體。這可以將允許有效的數(shù)據(jù)或者信息交換的適當?shù)乃惴ê屯ㄐ艆f(xié)議包括在內。在示例實現(xiàn)中,網絡探測器54包括軟件(例如,如名詞短語提取器模塊64的一部分)以實現(xiàn)詞匯建立操作,如本公開中在這里概述的。在其它實施例中,可以向任何前述元件外部地設置該特征,或者將該特征包括在一些其它網絡設備中以實現(xiàn)預期的功能?;蛘?,為了實現(xiàn)操作ー些元件可以包括能夠協(xié)作的軟件(或者互補軟件),如這里概述的。在其它實施例中,任何的圖I的設備還可以包括任何合適的算法、硬件、軟件、組件、模塊、接ロ或者便利了這些詞匯建立操作的物體。參考圖2和圖3以下將詳細描述通信系統(tǒng)10的更多的可操作能力。轉到圖2,圖2是網絡探測器80的示例實現(xiàn)的簡化框圖,其使用名詞短語提取器模塊84處理ー些示例文檔。網絡探測器80在該具體地配置中包括存儲器元件86和處理器88。在用于討論目的簡化示例的操作中,可以在網絡探測器80上執(zhí)行提取和處理操作,其中可以稍后向NCP32、合適的管理員接ロ等提供那些結果。(注意,如本說明書中在這里使用的,術語“分離”被用于包括在數(shù)據(jù)流中的數(shù)據(jù)段的提取、劃分、邏輯分離等。如本說明書中在這里使用的術語“加標記”,被用于包括與數(shù)據(jù)相關聯(lián)的任何類型的加標簽、維護、識別等。)如圖2中描述的,“概念”字段可以被創(chuàng)建,并且其包括從文檔提取的(例如,從逗號分離的)名詞短語列表。在第一示例中,概念字段包括記號,該記號諸如(文本)蘋果電腦是計算機;(概念)蘋果電腦,計算機。在第二實例中,該概念字段包括記號諸如(文本)綠蘋果好;(概念)綠蘋果。在示例中,名詞短語提取器模塊64可以在任何文本字段中找到名詞短語。在更具體的實現(xiàn)中,將代詞和單個單詞排除使其不成為名詞短語。名詞短語可以是指代人,地點或者事的句子的一部分。在大多數(shù)句子中,主題和目標(如果存在ー個)是名詞短語。最低限度的,名詞短語可以由名詞(例如,“水”或者“寵物”)或者代詞(例如,“我們”或者“你們”)組成。較長的名詞短語也可以包括限定詞(例如,“每ー只狗”),形容詞(例如,“綠蘋果”)或者其它上述的,形容詞的名詞(例如,“計算機監(jiān)視器修理手冊”),以及其它種類的單詞。將它們稱為名詞短語是因為中心詞(即,如果存在任何的短語的剩余部分的單詞,那么將其修改)是名詞或者代詞。針對搜索和其它語言應用,名詞短語是有用的,這是因為通過名詞短語可以承載文本中的許多感興趣的信息。大多數(shù)捜索查詢是在一些給定的主題范圍中包括的名詞短語。因此,知道了在文檔內的名詞短語的位置,并且還提取它們是標記應用的重要步驟。對于終端用戶接ロ,可以向管理員周期性地建議將條目添加到詞匯。用于用戶被建議的詞匯的現(xiàn)有的接ロ可以被用于向管理員顯示該條目。在示例實現(xiàn)中,可以在中央引擎40上設置停止單詞移除特征(例如,這可以使得反饋環(huán)的實現(xiàn)更有效)。在其它實例中,將停止單詞移除設置在網絡探測器54上,使得僅向中央引擎40發(fā)送過濾后的字段。概念字段可以像在接收的/收集的文檔中的其它字段ー樣是可訪問的。該概念字段是串字段的值的列表。在以下提供的一些示例的上下文中可以最好地理解與這些操作相關聯(lián)的更多的功能。圖3是圖示與通信系統(tǒng)10相關聯(lián)的示例操作的簡化的流程圖??梢越Y合工作流程30來討論圖3,工作流程30可以跟蹤與通信系統(tǒng)10相關聯(lián)的某些操作。在該具體的流程中,在步驟110處,終端用戶12已經寫了一封包括內容“光交換是驚人的技木”的電子郵件。該電子郵件消息可以橫穿網絡并且在路由器(例如,大型協(xié)作路由器、交換機、交換端ロ分析儀(SPAN)端ロ、或者ー些虛擬專用網絡(VPN)網絡裝置類型)處被接收。這可以通過步驟120來反應。為了捕獲數(shù)據(jù)和/或便利內容識別,可以將網絡探測器54設置在這樣的位置上,如在這里描述的。在該具體的示例中,在步驟130處FIFO元件56可以接收原始格式的數(shù)據(jù)。在步驟140處為了識別與該具體的文檔相關聯(lián)的題目,文本,作者以及統(tǒng)ー資源定位符(URL),提取模塊58提取某些字段。注意對于該具體實例(其中已經發(fā)送了一封電子郵件),URL可以具有空字段。題目可以包括具有所引用的陳述(即,內容)的主題行,或者重要/優(yōu)先的參數(shù),以及文本字段,如以上寫出的。接著該文檔被傳送到黑名單60,黑名單捜索(S卩,評價)該文檔以查看在文檔中是否找到任何的黑名單列出的單詞(步驟150)。如果存在任何的該黑名單列出的單詞,那么將文檔丟棄。在一般意義上,存在由一起工作的黑名單60和白名單66設置的兩個隱私層。在公司環(huán)境中黒名單單詞的示例可以包括“エ資”、“兼井”等,或者可能冒犯公共用戶,妥協(xié)隱私問題,牽涉商業(yè)交易機密等的可能的單詞。注意黑名單(很像白名単)可以基于具體的用戶需求通過管理員20容易地配置。本說明書中在這里使用的術語“白名単”意味著包含尋求作為包含在針對管理員20的單詞的合成物中的目標的任何數(shù)據(jù)。沿用類似的推論,在這里使用的術語“黑名単”意味著包括不應當被包括在單詞的合成物中的條目。假設由于黑名單的檢查沒有將本實例中的文檔丟棄,那么將文檔傳遞到文檔過濾器62。在步驟160處文檔過濾器62執(zhí)行被評估的文檔類型的快速檢查。另外,該組件是可配置為管理員可以容易地識別某種文檔類型為包括更實質的或者有意義的信息(例如,PDF或者Word處理文檔等)。沿用類似的推論,一些文檔(諸如JPEG圖片)不可以提供在相關聯(lián)的文檔內找到實質的詞匯(即,內容)的可能性。可以(實際上)不對這些更加不相干的文檔進行內容評估,并且任何諸如是忽略這些文檔(例如JPEG圖片),還是更加仔細地細查這些文檔的判決將留給管理員20。在示例中,名詞短語提取器模塊64包括自然語言處理(NLP)組件以輔助名詞短語提取器模塊64的操作。注意在文本提取模塊58中類似的技術可以存在以輔助文本提取模塊58對應的操作。名詞短語提取器模塊64的一個目標是從文本中提取有意義的目標,使得該內容可以被聚集并且通過通信系統(tǒng)10被進ー步處理。在該示例中,名詞短語提取器模塊64通過提取術語“光交換”和“技木”來執(zhí)行它的工作。通過步驟170圖示了此。還應注意在圖I的工作流程30中,在該階段已經識別了該概念。在步驟180處一旦該文檔通過名詞短語提取器模塊64,則文檔傳遞到白名單66。當內容通過網絡時,管理員可能希望拾取在內容中的某些白名單單詞。白名單可以用在通信系統(tǒng)10中的多種領域。在該具體的示例中,使用白名單來搜索題目和文本字段。此時,將文檔發(fā)送到文檔分離器元件68。注意在工作流程30中,存在從原始文檔中創(chuàng)建的兩個文檔。在一個實例中,文檔分離器元件68可以接收有包括概念字段的五個字段的文檔(在步驟190處),并且執(zhí)行ー些操作。首先,使用在文檔#1中的概念字段創(chuàng)建文檔#2。第二,從文檔#1移除概念字段。第三,從文檔#2移除除概念字段之外的全部字段。第四,向清除主題模塊70發(fā)送文檔#1和文檔#2。應注意,當考慮了正式陳述(例如,使用正確的英語)時,名詞短語提取器模塊64能夠最好地來操作。俗語或者簡單語言很難從任何的計算機系統(tǒng)的透視中解釋。因為主導該論壇的語言,更加不正式的文件(例如,電子郵件)是更加有問題的。清除主題模塊70被配置為以ー些方式來著手這些語言/語法問題的ー些。在示例實現(xiàn)中,清除主題模塊70可以接收兩個文檔,如以上說明。它傳遞沒有概念字段的文檔#1。針對具有概念字段的文檔#2,它可以被配置為在步驟200處采用停止單詞移除邏輯。在該具體的裝置中,可以移除以下的停止單詞(其在停止單詞列表中可以找到)名、姓、用戶ID;功能停止單詞ー個,那個等;電子郵件停止單詞問候、感謝、親愛的、嗨等;非字母特殊字母、數(shù)字;白名單單詞由管理員配置的在白名単文件中找到的全部單詞;管理員停止單詞管理員拒絕的系統(tǒng)單詞。注意過濾功能停止單詞的操作不同于過濾電子郵件(例如,管理員停止單詞)。例如,不能將“美國銀行(BankofAmerica)”處理為“銀行美國(BankAmerica)”。因此,在某些實例中,不一定需要將在兩個非停止單詞之間的停止單詞移除。此外,在本具體示例中,可以應用以下規(guī)則規(guī)則I:如果找到子串匹配則移除整個名詞短語;規(guī)則2:僅移除違法的罪魁禍首;規(guī)則3:如果找到完全匹配則移除整個名詞短語。具體到本示例,可以按照如下的順序應用規(guī)則丟棄包括非單詞的概念字段(規(guī)則I);丟棄包括(例如,LDAP)條目的概念字段(規(guī)則I);丟棄包括電子郵件停止單詞的概念字段(規(guī)則I);只有當功能停止單詞在概念字段的端的一者上時移除功能停止單詞。不丟棄在之間找到的單詞,重復應用規(guī)則(規(guī)則2)。如果它是與白名單單詞的完全匹配那么丟棄概念字段值(規(guī)則I)。如果它是與管理員停止單詞的完全匹配那么丟棄概念字段值(規(guī)則I)。注意在這些活動期間還可以出現(xiàn)LDAP過濾。例如,如果識別出在LDAP中已經有任何正確的名字,那么過濾器可以丟棄那些條目。在步驟顯示210處詞匯饋送器模塊44可以接收文檔(例如,在中央引擎?zhèn)?。詞匯饋送模塊44轉發(fā)沒有概念字段的文檔,并且對于有概念字段的文檔,詞匯饋送模塊44向流元件50發(fā)送它。在一個實例中,可以將流與基于流協(xié)議(對比表格格式)的存儲技術相關聯(lián)。在其它實例中,可以采用任何其它合適的技術以組織或者幫助處理到來的文檔,內容等。該流可以通過詞匯饋送器模塊44來更新。更具體的,中央引擎40的分析方法(在一個示例中)包括令查詢分析流動數(shù)據(jù)。處理連續(xù)流動數(shù)據(jù)的策略不同于傳統(tǒng)商業(yè)智能方法,其先積累數(shù)據(jù),之后啟動用于匯報和分析的分析查詢。這樣的方法使能異構數(shù)據(jù)的分析而不管數(shù)據(jù)是否在流動,是否被分級等。此外,查詢持續(xù)地和恒定地運行,因此當下游應用可以使用新結果時將新結果進行傳遞。不需要將數(shù)據(jù)進行存儲或者修改,因此系統(tǒng)可以維持巨大的數(shù)據(jù)容量。數(shù)千同時發(fā)生的查詢可以在服務器架構上持續(xù)地并且同時地運行。查詢在實時的和歷史的數(shù)據(jù)上都可以運行??梢詫⒌絹淼臄?shù)據(jù)可選地進行保持以用于重放、回溯測試、挖掘、基準測試等。返回到圖3的流程,在步驟220處,詞匯饋送器模塊44可以讀概念字段(例如,由NLP模塊創(chuàng)建的),并且可以向原始詞匯流(例如,“raw_vocab_stream”(原始_詞匯_流)文件)饋送名詞短語。詞匯饋送器機制可以通過查找在條目的數(shù)目和對應的權重之間的哈希表(hashmap)來計算在概念字段中的主題的每一個的權重,并且接著將饋送的主題,所計算的權重以及時間戳饋送到原始詞匯流中。詞匯饋送器的輸出可以被配置為與詞匯流連接。流將主題聚集到(例如)可以在任何合適的時間幀(例如,每小時)期間內被更新的姆周崩潰的詞匯表(例如,“weekly_collapsed_vocab_table”(姆周_崩潰_詞匯_表)文件)。該表作為輸入到寫服務元件48來服務。至于周期的寫服務,周期的服務可以喚醒到管理員表服務的寫,如以上說明的。該服務針對以下模式是可配置的靜默模式、每小時、每天、每周、毎月。每小時、每天、每周和每月模式指定向管理員建議的在指定間隔上的條目。每小時間隔可以被用于測試目的。靜默模式提供將條目寫入到文件的基于文件的方法,并且不使該靜默模式面向管理員用戶接□。對于表格寫服務元件48,服務層可以針對頂部單詞讀每周崩潰詞匯表并且寫入到管理員用戶接ロ表。管理員用戶接ロ表可以表示用戶建議的詞匯條目和系統(tǒng)建議的詞匯條目之間的共享的表。管理員建議接ロ38可以讀用戶建議的詞匯表(“用戶建議的詞匯表”)以顯示這些條目。該模塊可以向管理員建議將頂部‘η’個單詞添加到詞匯白名単。反饋環(huán)模塊36可以包括被提供以從建議的詞匯條目的表來創(chuàng)建文件的應用程序接ロ。在該示例中,在步驟230處管理員建議接ロ38讀每周崩潰詞匯表以顯示條目。該元件還向管理員20建議將頂部(例如‘η’)個單詞添加到詞匯白名単。為管理員提供用戶接ロ以做出是否向白名單添加條目、是否向黑名單添加條目、或者是否忽略該條目的判決。在示例實現(xiàn)中,管理員不建議新的停止單詞。僅系統(tǒng)建議的(或者用戶建議的)停止單詞可以被拒絕。將反饋環(huán)模塊36耦接到管理員建議接ロ38。在管理員選擇“拒絕它們”選項的情況中,系統(tǒng)可以將條目添加到現(xiàn)有的停止單詞的列表中,并且進一歩將其傳播到網絡探測器54以復制到文件中(例如,管理員停止單詞.txt)。這由步驟240反映。網絡協(xié)作平臺32可以從被建議詞匯條目的表創(chuàng)建文件(例如,經由包括以下的命令通過誰建議=系統(tǒng),以及狀態(tài)=拒絕)。文件是可以被推送到網絡探測器/中央引擎(取決于停止單詞機制駐留的地方)的強制同步文件的一部分。在步驟260處,新興詞匯主題元件46可以查找新興主題(例如,在收獲的文檔內)并且有條理地將新興的和頂部主題添加到架構中以供管理員考慮。可以向管理員20提供這兩個選項。新興主題可以類似于經驗標記使得向管理員20建議在給定的時間間隔(例如,一周)內越來越顯著的主題。注意作為結果的數(shù)據(jù)的ー個用途是為每一単獨的用戶創(chuàng)建動態(tài)文件,該用戶是被跟蹤的,或者通過通信系統(tǒng)10識別的。其它應用可以包括識別給定領域內的某些專家。其他用途可以包括為給定的公司實體建立目錄或者主題領域。還注意到通信系統(tǒng)10可以實時地完成這里概述的應用。另外,到具體主題領域的終端用戶的分配接著可以被發(fā)送到連網站點,該連網站點可以為給定的終端用戶的組群維護個人配置文件。這可以包括諸如Facebook、Linkedln等之類的平臺。通過與提供的架構相關聯(lián)的內容識別操作可以支持動態(tài)配置文件。在其它應用中,視頻、音頻以及多種多媒體文件可以通過通信系統(tǒng)10加標記并且與具體的主題領域,或者特定的終端用戶組相關聯(lián)。在一個實例中,終端用戶和視頻文件(或者音頻文件)都可以被識別以及邏輯地捆綁在一起或者被連接??梢栽诙喾N位置上設置用于提供智能組詞的軟件。在示例實現(xiàn)中,該軟件駐留在諸如網絡探測器54之類的元件中,或者駐留在將該功能降級的另一網絡元件中。在其它示例中,這可以包括將網絡探測器54與應用服務器或者網關,或者一些專有的元件進行組合,其可以設置在(或者接近干)這些識別的網絡元件中,或者這可以設置在給定網絡中使用的任何其它的設備中。在其它實施例中,可以將詞匯建立特征外部地設置到網絡探測器54,或者將其包括在ー些其它網絡設備中,或者將其包括在計算機中以實現(xiàn)這些期望的功能。如之前所識別的,網絡元件可以包括軟件以實現(xiàn)詞匯建立操作,如本文檔中在這里概述的。在某個示例實現(xiàn)中,可以通過在一個或者多個實體介質(例如,專用集成電路(ASIC)、數(shù)字信號處理器(DSP)指令、由處理器執(zhí)行的軟件(該軟件潛在地由目標代碼和源代碼組成),或者其它類似的機器等中設置的嵌入式邏輯)中編碼的邏輯來實現(xiàn)在這里概述的詞匯建立功能。在這些實例中的ー些,存儲器元件(如圖2中示出的)可以存儲被用于在這里描述的操作的數(shù)據(jù)。這包括能夠存儲被執(zhí)行以實施在本說明書中描述的活動的軟件、邏輯、代碼或者處理器指令的存儲器元件。處理器可以執(zhí)行與該數(shù)據(jù)相關聯(lián)的任何類型的指令以實現(xiàn)本說明書中在這里詳細的操作的。在示例中,處理器(如圖2中示出的)可以將元件或者條目(例如數(shù)據(jù))從ー個狀態(tài)或者事件變換為另ー種狀態(tài)或者事件。在另ー示例中,可以利用固定的邏輯或者可編程邏輯(例如,由處理器執(zhí)行的軟件/計算機指令)來實現(xiàn)在這里概述的活動,并且在這里識別的元件可以為以下某個類型可編程處理器、可編程數(shù)字邏輯(例如,現(xiàn)場可編程門陣列(FPGA)、可擦除可編程只讀存儲器(EPROM)、電可擦除可編程ROM(EEPROM)或者包括數(shù)字邏輯、軟件、代碼、電指令、或者它們的任何合適的組合的ASIC。這些元件(例如,網絡元件等)的任何一個可以包括用于存儲信息以在實現(xiàn)如這里概述的詞匯建立操作中使用的存儲器元件。另外,這些設備的每一個可以包括處理器,該處理器可以執(zhí)行軟件或者算法以執(zhí)行如本說明書中在這里討論的詞匯建立活動。這些設備還可以在任何合適的存儲器元件(隨機訪問存儲器(RAM)、ROM、EPROM、EEPROM、ASIC等),軟件、硬件中,或者在任何其它合適的組件、設備、元件、或者適當?shù)牟⑶一诰唧w需求的物體中保持信息。應當將在這里討論的存儲器術語的任何ー個理解為被包括在廣義術語“存儲器元件”中。類似地,應當將在本說明書中描述的潛在的處理元件、模塊和機器的任何一個理解為被包括在廣義術語“處理器”中。每ー網絡元件也可以包括用于在網絡環(huán)境中接收、發(fā)送、和/或通信數(shù)據(jù)或者信息的合適的接ロ。如之前指出的,當信息通過網絡時,通信系統(tǒng)10的ー個配置從終端用戶收集信息。在一個實例中,在這里提出的概念可以向網絡元件(例如,路由器或者交換機)引入兩個主要的功能。首先,網絡元件可以增加信息提取功能。信息提取可以包括多種機制以從網絡業(yè)務中提取有用的信息。這可以包括從諸如電子郵件或者網站業(yè)務之類的網絡業(yè)務提取文本的信息。這些處理還包括重構由多種郵件協(xié)議(例如,微軟交換(MicrosoftExchange,SMTP)或者HTTP(針對網站業(yè)務)承載的文檔,并且接著執(zhí)行文檔文本提取(例如,從PDF文件提取文本,或者從MicrosoftWord文件提取文本)。它還可以包括從豐富的多媒體業(yè)務提取文本信息(例如,經由語音到文本技術從音頻聲音跟蹤來提取文本)。第二,網絡元件可以增加基于實時流的分析處理功能。當在網絡元件上接收到原始數(shù)據(jù)時,可以實時獲取分析信息的實質的量。這是因為對于大多數(shù)使用情況,用戶對聚集的信息感興趣。相比干“存儲和處理”方法這樣的方式可以改善整個系統(tǒng)的效率。在ー種配置中,可以配置流水線信息處理架構,其中流水線級如下網絡收集器、分組分析儀、安全協(xié)議、文本分析儀、安全協(xié)議、網絡連接器、索引等。在網絡收集器的條目中,分組可以進入網絡元件(路由器/刀片開關/跨接端ロ等)并接著被分組分析儀評估。分組分析儀(例如,TCP歸ー化元件)對TCP流進行歸一化,并且應用識別引擎還可以識別應用(例如,http/SIP/email/SMTP等)。當信息流入到系統(tǒng)中時,應用可以暫停信息,其中該信息將進ー步構建伴隨元信息的文檔(文本/附件等)。歸ー化的文檔能夠接著被通過安全協(xié)議發(fā)送到文本分析儀。文本分析儀可以執(zhí)行ー些操作,包括停止單詞移除、白名單過濾器/黑名單丟棄器、實體提取詞匯生成、語義分析儀等,使得將所標記的歸一化的文檔通過安全協(xié)議發(fā)送到索引記錄器(或者到一些其它適當?shù)哪康牡?。網絡連接器可以創(chuàng)建用于搜索活動的元數(shù)據(jù)資料庫。資料庫可以位于索引記錄器的本地,或者可以在存儲區(qū)域網絡(SAN)中設置等。該架構可以包括可以在單個機器中運行或者以分布的方式設置的分離的邏輯塊。注意在這里提出的某些實施例可以提供許多優(yōu)勢。例如,大部分用戶活動通過網絡發(fā)生?,F(xiàn)有的信息發(fā)現(xiàn)方法一般依賴在文檔資料庫上執(zhí)行的文檔爬行操作。然而,因為通過網站執(zhí)行更多的工作,大量信息(給定的終端用戶訪問/處理)可以在ー些形式的網站(即,企業(yè)內部網站入口,外部網站端ロ等)上。因為網站的分布特征,爬行文檔資料庫方法對許多應用不起作用。相反,將通信系統(tǒng)10(在某些實施例中)配置為確認重要的企業(yè)信息(電子郵件,網站業(yè)務等)可以通過網絡元件。因此,網絡元件變?yōu)樽詈玫貎?yōu)勢點以觀察在企業(yè)內的動態(tài)信息,如這里說明的。注意利用這里提供的示例,可以描述兩個,三個,四個或者更多的網絡元件的條目的相互影響。然而,僅為了清楚和示例的目的已經完成了此。在某些情況中,通過僅參考有限數(shù)量的組件或者網絡元件來描述給定的流程集的一個或者多個功能更加容易。應明白圖I的通信系統(tǒng)10(和它的教導)是能夠容易地規(guī)??勺兊?。通信系統(tǒng)10可以容納大量組件,以及更復雜或者精密的裝置和配置。因此,提供的示例不應限制通信系統(tǒng)10的范圍或者禁止通信系統(tǒng)10的廣泛教導,通信系統(tǒng)10被潛在地應用到無數(shù)的其它架構。注意到以下也是重要的參考上述的圖片描述的步驟圖示了可以通過通信系統(tǒng)10或者在通信系統(tǒng)10內執(zhí)行的可能的場景的僅僅ー些。不背離所討論的主題的范圍的情況下,可以適當?shù)貏h除或者移除這些步驟的ー些,或者值得考慮得修改或者改變這些步驟。此外,大量這些操作已經被描述為與(或者并行與)一個或者多個更多的操作來同時執(zhí)行。然而,可以值得考慮得改變這些操作的定時。為了示例和討論的目的已經提供了上述的可操作流程。由通信系統(tǒng)10提供的實質的靈活性在于在不背離所討論的概念的教導的情況下可以提供合適的布置、編排、配置和時序機制。權利要求1.ー種方法,包括接收在網絡環(huán)境中傳播的數(shù)據(jù);將所述數(shù)據(jù)分離為ー個或者多個字段;評估所述字段的至少ー些字段以便識別在所述字段中的名詞和名詞短語;基于白名單和黑名單識別所述名詞和名詞短語中被選擇的詞,其中所述白名單包括要被加標記的多個指定的詞,并且所述黑名單包括將不被加標記的多個拒絕的詞;生成被加標記的選擇的名詞和名詞短語的合成物;以及如果所述合成物被準許,則將所述合成物加入到所述白名單中。2.依據(jù)權利要求I所述的方法,其中,所述字段包括題目字段、概念字段、文本字段、以及作者字段。3.依據(jù)權利要求2所述的方法,還包括將與所述數(shù)據(jù)相關聯(lián)的文檔分離為第一段和第二段,所述第一段包括所述概念字段,所述第二段包括除了所述概念字段之外的字段。4.依據(jù)權利要求I所述的方法,還包括基于被配置的在所述數(shù)據(jù)中識別的停止單詞的列表,移除所述數(shù)據(jù)中的ー個或者多個;ロO5.依據(jù)權利要求I所述的方法,還包括基干與多個終端用戶相關聯(lián)的數(shù)據(jù)集合,建議將詞包括在所述白名單或者所述黑名單中。6.依據(jù)權利要求I所述的方法,還包括識別所述數(shù)據(jù)中的主題范圍;以及向管理實體提供所述主題范圍用于包括在所述合成物中。7.依據(jù)權利要求I所述的方法,還包括基干與所述數(shù)據(jù)相關聯(lián)的文檔類型過濾所述數(shù)據(jù)。8.ー種被編碼在ー個或者多個有形介質中的邏輯,所述ー個或者多個有形介質包括用于執(zhí)行的代碼,所述代碼當被處理器執(zhí)行時可操作執(zhí)行以下操作接收在網絡環(huán)境中傳播的數(shù)據(jù);將所述數(shù)據(jù)分離為ー個或者多個字段;評估所述字段的至少ー些字段以便識別在所述字段中的名詞和名詞短語;基于白名單和黑名單識別所述名詞和名詞短語中被選擇的詞,其中所述白名單包括要被加標記的多個指定的詞,并且所述黑名單包括將不被加標記的多個拒絕的詞;生成被加標記的選擇的名詞和名詞短語的合成物;以及如果所述合成物被準許,則將所述合成物加入到所述白名單中。9.依據(jù)權利要求8所述的邏輯,其中,所述字段包括題目字段、概念字段、文本字段、以及作者字段。10.依據(jù)權利要求9所述的邏輯,所述處理器進ー步可操作為執(zhí)行以下操作將與所述數(shù)據(jù)相關聯(lián)的文檔分離為第一段和第二段,所述第一段包括所述概念字段,所述第二段包括除了所述概念字段之外的字段。11.依據(jù)權利要求8所述的邏輯,所述處理器進ー步可操作為執(zhí)行以下操作基于被配置的在所述數(shù)據(jù)中識別的停止單詞的列表,移除所述數(shù)據(jù)中的ー個或者多個詞。12.依據(jù)權利要求8所述的邏輯,所述處理器進ー步可操作為執(zhí)行以下操作基干與多個終端用戶相關聯(lián)的數(shù)據(jù)集合,建議將詞包括在所述白名單或者所述黑名單中。13.依據(jù)權利要求8所述的邏輯,所述處理器進ー步可操作為執(zhí)行以下操作識別所述數(shù)據(jù)中的主題范圍;以及向管理實體提供所述主題范圍用于包括在所述合成物中。14.依據(jù)權利要求8所述的邏輯,所述處理器進ー步可操作為執(zhí)行以下操作基干與所述數(shù)據(jù)相關聯(lián)的文檔類型過濾所述數(shù)據(jù)。15.ー種裝置,包括存儲器元件;可操作以執(zhí)行指令的處理器;以及被配置為與所述存儲器元件和所述處理器相接ロ的名詞短語提取器模塊,所述名詞短語提取器模塊被配置為接收在網絡環(huán)境中傳播的數(shù)據(jù);將所述數(shù)據(jù)分離為ー個或者多個字段;評估所述字段的至少ー些字段以便識別在所述字段中的名詞和名詞短語;基于白名單和黑名單識別所述名詞和名詞短語中被選擇的詞,其中所述白名單包括要被加標記的多個指定的詞,并且所述黑名單包括將不被加標記的多個拒絕的詞;生成被加標記的選擇的名詞和名詞短語的合成物;以及如果所述合成物被準許,則將所述合成物加入到所述白名單中。16.依據(jù)權利要求15所述的裝置,其中,所述字段包括題目字段、概念字段、文本字段、以及作者字段。17.依據(jù)權利要求16所述的裝置,還包括文檔分離器,該文檔分離器被配置為將與所述數(shù)據(jù)相關聯(lián)的文檔分離為第一段和第二段,所述第一段包括所述概念字段,所述第二段包括除了所述概念之外的字段。18.依據(jù)權利要求15所述的裝置,還包括用戶接ロ,該用戶接ロ被配置為基于與多個終端用戶相關聯(lián)的數(shù)據(jù)集合,建議將詞包括在所述白名單或者所述黑名單中。19.依據(jù)權利要求18所述的裝置,其中,主題范圍在所述數(shù)據(jù)中被識別出,并被提供給在所述用戶接ロ處的管理實體用于包括在所述合成物中。20.依據(jù)權利要求15所述的裝置,還包括文檔過濾器,該文檔過濾器基干與所述數(shù)據(jù)相關聯(lián)的文檔類型過濾所述數(shù)據(jù)。21.—種系統(tǒng),包括網絡元件,該網絡元件包括存儲器元件和可操作以執(zhí)行指令的處理器,其中所述網絡元件被配置為接收在網絡環(huán)境中傳播的數(shù)據(jù);將所述數(shù)據(jù)分離為ー個或者多個字段;評估所述字段的至少ー些字段以便識別在所述字段中的名詞和名詞短語;基于白名單和黑名單識別所述名詞和名詞短語中被選擇的詞,其中所述白名單包括要被加標記的多個指定的詞,并且所述黑名單包括將不被加標記的多個拒絕的詞;生成被加標記的選擇的名詞和名詞短語的合成物;以及維護包括所述合成物的資料庫,其中,所述資料庫被配置為接收與指定的主題范圍相關聯(lián)的一個或者多個搜索查詢。22.依據(jù)權利要求21所述的系統(tǒng),其中,所述網絡元件被配置為移除與在網絡環(huán)境中傳播的所述數(shù)據(jù)相關聯(lián)的ー個或者多個停止單詞,其中,所述停止單詞被包括在停止單詞列表中。23.依據(jù)權利要求21所述的系統(tǒng),其中,所述字段包括題目字段、概念字段、文本字段、以及作者字段。24.依據(jù)權利要求21所述的系統(tǒng),其中,所述網絡元件被配置為重構由電子郵件協(xié)議承載的文檔。25.依據(jù)權利要求21所述的系統(tǒng),其中,所述網絡元件被配置為識別與在網絡中傳播的所述數(shù)據(jù)相關的文檔相關聯(lián)的應用。26.依據(jù)權利要求21所述的系統(tǒng),其中,所述網絡元件被配置為將與所述數(shù)據(jù)相關聯(lián)的文檔分離為第一段和第二段,所述第一段包括所述概念字段,所述第二段包括除了所述概念字段之外的字段。27.依據(jù)權利要求21所述的系統(tǒng),其中,所述網絡元件被配置為如果所述合成物準許,則將所述合成物合并到所述白名單中。28.依據(jù)權利要求21所述的系統(tǒng),其中,所述網絡元件被配置為利用安全協(xié)議將加標記的文檔通信到下ー個目的地。29.依據(jù)權利要求21所述的系統(tǒng),其中,所述網絡元件被配置為基干與多個終端用戶相關聯(lián)的數(shù)據(jù)集合,建議將詞包括在所述白名單或者所述黑名單中。全文摘要在一個示例中提供了一種方法,該方法包括接收在網絡環(huán)境中傳播的數(shù)據(jù),并將數(shù)據(jù)分離成一個或者多個字段。評估這些字段中的至少一些以便識別這些字段內的名詞和名詞短語。該方法還包括基于白名單和黑名單識別在名詞和名詞短語內所選擇的詞。白名單包括要被加標記的多個指定的詞,黑名單包括將不被加標記的多個拒絕的詞。為所選擇的加標記的名詞和名詞短語而生成合成物。如果合成物準許則將合成物合并在白名單中。文檔編號G06F17/30GK102648464SQ201080043794公開日2012年8月22日申請日期2010年9月29日優(yōu)先權日2009年9月30日發(fā)明者克利斯汀·波斯,奎·張,妮塔沙·瓦利亞,山格維魯·阿木蓋姆,索納利·M·薩姆布斯,維吉爾·N·米哈羅維斯,薩蒂施·K·甘努,阿舒拓史·A·馬勒高恩卡申請人:思科技術公司