本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,特別是涉及新聞?wù)脑胍羧コ椒跋到y(tǒng)。
背景技術(shù):
門戶網(wǎng)站會(huì)從具有合作關(guān)系的網(wǎng)站及公共帳號(hào)處搜集新聞,抽取新聞?wù)娘@示給用戶。而在新聞?wù)闹?,可能?huì)存在與新聞主題無(wú)關(guān)的鏈接、廣告信息等噪音需要進(jìn)行去除。
在實(shí)際中,每個(gè)網(wǎng)站或者公共帳號(hào)的噪音的位置和規(guī)則都不相同,這就需要每個(gè)網(wǎng)站或者公共帳號(hào)的運(yùn)營(yíng)人員手工配置xpath(xpath即XML路徑語(yǔ)言,是一種用來確定XML文檔中某部分位置的語(yǔ)言)。
因此,現(xiàn)有的噪音去除方式存在費(fèi)時(shí)費(fèi)力、效率低下的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供新聞?wù)脑胍羧コ椒跋到y(tǒng),以解決上述問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
一方面,本申請(qǐng)的實(shí)施例提供一種新聞?wù)脑胍羧コ椒ǎǎ?/p>
獲取預(yù)設(shè)時(shí)長(zhǎng)內(nèi)、來自同一新聞來源的多個(gè)新聞?wù)臉颖荆?/p>
從所述多個(gè)新聞?wù)臉颖局羞x出N個(gè)新聞?wù)臉颖荆?/p>
從所述N個(gè)新聞?wù)臉颖局胁檎以肼暥温?,將所述噪聲段落作為噪音樣本放入噪音集合;所述噪聲段落包括:n個(gè)新聞?wù)臉颖局写嬖诘南嗤温?,n為小于N大于等于3的正整數(shù),其中N為所述多個(gè)新聞?wù)臉颖镜臄?shù)量;
使用所述噪音集合中的噪聲樣本,對(duì)目標(biāo)新聞?wù)倪M(jìn)行噪音去除處理,得到去除噪音的新聞?wù)?;所述目?biāo)新聞?wù)臑閬碜运鲂侣剚碓吹拇ピ胄侣務(wù)摹?/p>
另一方面,本發(fā)明實(shí)施例提供了一種新聞?wù)脑胍羧コ到y(tǒng),包括:
新聞?wù)臉颖具x取模塊,用于獲取預(yù)設(shè)時(shí)長(zhǎng)內(nèi)、來自同一新聞來源的多個(gè)新聞?wù)臉颖荆乃龆鄠€(gè)新聞?wù)臉颖局羞x出N個(gè)新聞?wù)臉颖荆?/p>
噪聲集合更新模塊,用于從所述N個(gè)新聞?wù)臉颖局胁檎以肼暥温?,將所述噪聲段落作為噪音樣本放入噪音集合;所述噪聲段落包括:n個(gè)新聞?wù)臉颖局写嬖诘南嗤温?,n為小于N大于等于3的正整數(shù),其中N為所述多個(gè)新聞?wù)臉颖镜臄?shù)量;
去噪模塊,用于使用所述噪音集合中的噪聲樣本,對(duì)目標(biāo)新聞?wù)倪M(jìn)行噪音去除處理,得到去除噪音的新聞?wù)?;所述目?biāo)新聞?wù)臑閬碜运鲂侣剚碓吹拇ピ胄侣務(wù)摹?/p>
在本發(fā)明提供的方案中,是將預(yù)設(shè)時(shí)長(zhǎng)內(nèi)、同一新聞來源的n個(gè)新聞?wù)臉颖局械南嗤温渥鳛樵肼晿颖?,并使用噪聲樣本?duì)待去噪新聞?wù)倪M(jìn)行噪音去除處理。在此過程中,不再需要手工配置xpath,提高了噪音去除效率,節(jié)省了時(shí)間和人力。
附圖說明
圖1a和圖1b為本發(fā)明實(shí)施例提供的新聞?wù)脑胍羧コ到y(tǒng)示例性結(jié)構(gòu)圖;
圖2a、圖2b、圖3-5為本發(fā)明實(shí)施例提供的新聞?wù)脑胍羧コ椒ㄊ纠粤鞒虉D。
具體實(shí)施方式
為了方便理解本發(fā)明實(shí)施例,首先在此介紹本發(fā)明實(shí)施例描述中會(huì)引入的幾個(gè)術(shù)語(yǔ):
HBase:HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù);HBase的名字的來源是Hadoop database,即Hadoop數(shù)據(jù)庫(kù);HBase以表的形式存儲(chǔ)數(shù)據(jù),表由行和列組成;HBase通過key/value存儲(chǔ)來支持實(shí)時(shí)分析,以及通過MapReduce支持批處理分析;
列族:Column famil,HBase表中的每個(gè)列,都?xì)w屬與某個(gè)列族;列名都以列族作為前綴;
Hashset:HashSet類,是存在于java.util包中的類,同時(shí)也被稱為集合,該容器中只能存儲(chǔ)不重復(fù)的對(duì)象;
LCS:Longest Common Substring,最長(zhǎng)公共子串。最長(zhǎng)公共子串要求在原字符串中是連續(xù)的。比如兩個(gè)字符串BDCABA和ABCBDAB的最長(zhǎng)公共字符串有BD和AB;
Jaccard:Jaccard系數(shù),又叫Jaccard相似性系數(shù),用來比較樣本集中的相似性和分散性的一個(gè)概率,其應(yīng)用場(chǎng)景可包括過濾相似度很高的新聞(排重),或者網(wǎng)頁(yè)去重;
html:HyperText Markup Language,超級(jí)文本標(biāo)記語(yǔ)言;
Jsoup:Jsoup是一款Java的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容;
MR:MapReduce是Hadoop的分布式計(jì)算框架,可以擴(kuò)展到多個(gè)機(jī)器上執(zhí)行;在MR并行計(jì)算編程模型中,作業(yè)所需處理的數(shù)據(jù)已經(jīng)被劃分為多個(gè)數(shù)據(jù)塊,并以數(shù)據(jù)塊為單位存儲(chǔ)在一個(gè)或多個(gè)服務(wù)器節(jié)點(diǎn)上??蛻籼峤蛔鳂I(yè)后,該作業(yè)將被劃分成與數(shù)據(jù)塊一一對(duì)應(yīng)的任務(wù),這些任務(wù)將被分配到不同的服務(wù)器節(jié)點(diǎn)上并行執(zhí)行;
HDFS:Hadoop Distribute File System,HDFS是Hadoop的分布式文件系統(tǒng);
URL:Uniform Resoure Locator,統(tǒng)一資源定位符;
DP:dynamic programming,動(dòng)態(tài)規(guī)劃。
本發(fā)明實(shí)施例提供了新聞?wù)脑胍羧コ椒跋到y(tǒng)。
其中,上述新聞?wù)脑胍羧コ椒ㄓ尚侣務(wù)脑胍羧コ到y(tǒng)執(zhí)行。
圖1a示出了新聞?wù)脑胍羧コ到y(tǒng)的一種示例性結(jié)構(gòu),包括:新聞?wù)臉颖具x取模塊1和噪聲集合更新模塊2。
此外,在其他實(shí)施例中,請(qǐng)參見圖1b,上述系統(tǒng)還可包括噪聲去除模塊3。
在實(shí)際應(yīng)用中,上述新聞?wù)脑胍羧コ到y(tǒng)中的各模塊,可為獨(dú)立的設(shè)備(例如服務(wù)器、計(jì)算節(jié)點(diǎn)等),也可是服務(wù)器上的功能模塊。
圖2a示出了上述新聞?wù)脑胍羧コb置所執(zhí)行的新聞?wù)脑胍羧コ椒ǖ囊环N示例性流程,包括:
S201:獲取預(yù)設(shè)時(shí)長(zhǎng)內(nèi)、來自同一新聞來源的新聞?wù)模?/p>
在一個(gè)示例中,新聞來源可指網(wǎng)站或公共帳號(hào)。如多個(gè)新聞?wù)臉颖緛碜酝痪W(wǎng)站或公共帳號(hào),則認(rèn)為這多個(gè)新聞?wù)臉颖緛碜酝恍侣剚碓?。上述預(yù)設(shè)時(shí)長(zhǎng)可根據(jù)需要靈活設(shè)計(jì),例如,預(yù)設(shè)時(shí)長(zhǎng)可為一天、三天、五天、一周等。
考慮到每個(gè)網(wǎng)站或者每個(gè)公共帳號(hào)下面的新聞在某段固定時(shí)間(例如一天、三天、一周等)的廣告噪音的內(nèi)容幾乎一樣。因此只需要以某個(gè)公共帳號(hào)或者網(wǎng)站為粒度,考察最近一段時(shí)間內(nèi)的新聞內(nèi)容即可。
在門戶網(wǎng)站從具有合作關(guān)系的網(wǎng)站及公共帳號(hào)處搜集新聞,抽取新聞?wù)娘@示的場(chǎng)景下,上述新聞?wù)目纱鎯?chǔ)在新聞數(shù)據(jù)庫(kù)中(例如HBase)。
步驟201可由上述新聞?wù)脑胍羧コ到y(tǒng)的新聞?wù)臉颖具x取模塊1執(zhí)行。
在具體實(shí)施時(shí),以預(yù)設(shè)時(shí)長(zhǎng)為三天為例,新聞?wù)臉颖具x取模塊1,可以網(wǎng)站名稱或公共帳號(hào)為關(guān)鍵字,從存儲(chǔ)新聞的HBase庫(kù)中查詢,最近三天內(nèi)某網(wǎng)站或公共帳號(hào)的所有新聞?wù)摹?/p>
S202:對(duì)獲取到的新聞?wù)倪M(jìn)行排重,排重后得到的新聞?wù)淖鳛樾侣務(wù)臉颖尽?/p>
排重可指:排除重復(fù)的新聞?wù)摹?/p>
在一個(gè)示例中,排重可具體包括根據(jù)URL進(jìn)行排重和根據(jù)標(biāo)題進(jìn)行排重。
更具體的,在根據(jù)URL進(jìn)行排重時(shí),可使用Hashset類兩兩將新聞?wù)膶?duì)應(yīng)的URL進(jìn)行匹配,如URL完全匹配,則確定這兩個(gè)新聞?wù)南嗤蓪⑵渲幸粋€(gè)去除。
而對(duì)于URL不相同的新聞?wù)?,可再根?jù)標(biāo)題進(jìn)行排重(標(biāo)題排重)。
更具體的,可使用jaccard相似度進(jìn)行標(biāo)題排重,如果兩新聞?wù)牡臉?biāo)題的jaccard相似度大于0.85,則確定這兩個(gè)新聞?wù)南嗤?,可將其中一個(gè)去除。
步驟202可由前述的新聞?wù)臉颖具x取模塊1執(zhí)行。
步驟201和202可概括為:獲取預(yù)設(shè)時(shí)長(zhǎng)內(nèi)、來自同一新聞來源的多個(gè)新聞?wù)臉颖尽?/p>
S203:從多個(gè)新聞?wù)臉颖局羞x出N個(gè)新聞?wù)臉颖荆?/p>
上述時(shí)間指新聞?wù)牡陌l(fā)布時(shí)間。N的具體取值可依據(jù)實(shí)際需求進(jìn)行靈活設(shè)計(jì),例如,N可取10,15、20等等。
更具體的,可按時(shí)間先后順序,從上述多個(gè)新聞?wù)闹羞x出時(shí)間最晚的N個(gè)新聞?wù)臉颖?也即選出最新的TopN的新聞?wù)臉颖?。
在一個(gè)示例中,可使用紅黑樹算法對(duì)新聞?wù)臉颖具M(jìn)行排序(紅黑樹算法可以實(shí)現(xiàn)按時(shí)間排序),也可使用大頂堆排序算法實(shí)現(xiàn)按時(shí)間排序。更具體的,可用MapReduce實(shí)現(xiàn)大頂堆排序。
步驟203也可由前述的新聞?wù)臉颖具x取模塊1執(zhí)行。
S204:從N個(gè)新聞?wù)臉颖局胁檎以肼暥温?,將噪聲段落作為噪音樣本放入噪音集合?/p>
也即,從Top N新聞?wù)臉颖局胁檎页鲈肼暥温洌鳛樵肼晿颖痉湃朐胍艏稀?/p>
在本實(shí)施例中,噪聲段落可指:Top N新聞?wù)臉颖局?,n個(gè)新聞?wù)臉颖镜南嗤温?n為小于N大于等于3的正整數(shù))。
舉例來講,假定N=10,若在選出的10篇新聞?wù)闹?,有其中三篇新聞?wù)拇嬖谙嗤亩温?或稱公共部分),該相同的段落即為噪聲段落。
更具體的,噪聲段落以鍵值對(duì)(key-value)的形式存儲(chǔ)在HBase表的列族中。其中,key為新聞來源,也即,網(wǎng)站名稱或公共帳號(hào),value則為噪聲段落。
由于HBase表是以key-value形式按照列進(jìn)行存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)。對(duì)于相同的key,不同的value會(huì)進(jìn)行覆蓋。所以,可把噪聲段落對(duì)應(yīng)的時(shí)間戳設(shè)置為HBase表的列族,這樣就可令相同key(同一網(wǎng)站名稱或公共帳號(hào))在不同時(shí)間段的噪聲段落都保存在HBase表中。
更具體的,噪聲段落對(duì)應(yīng)的時(shí)間戳為噪聲段落的保存時(shí)刻。
步驟204可由新聞?wù)脑胍羧コ到y(tǒng)的噪聲集合更新模塊2執(zhí)行。
本文后續(xù)還將對(duì)步從N個(gè)新聞?wù)臉颖局胁檎以肼暥温涞木唧w方式進(jìn)行更為詳細(xì)的介紹。
在本發(fā)明其他實(shí)施例中,上述新聞?wù)脑胍羧コ椒ㄟ€可包括如下步驟:
S205:使用噪音集合中的噪聲樣本,對(duì)目標(biāo)新聞?wù)倪M(jìn)行噪音去除處理,得到去除噪音的新聞?wù)摹?/p>
其中,目標(biāo)新聞?wù)臑閬碜酝恍侣剚碓吹拇ピ胄侣務(wù)摹?/p>
舉例來講,假定目標(biāo)新聞?wù)膩碜跃W(wǎng)站A,則使用網(wǎng)站A對(duì)應(yīng)的噪音集合中的噪聲樣本,對(duì)目標(biāo)新聞?wù)倪M(jìn)行去噪。
步驟205可由新聞?wù)脑胍羧コ到y(tǒng)的噪聲去除模塊3執(zhí)行。
可見,在本發(fā)明提供的方案中,是將預(yù)設(shè)時(shí)長(zhǎng)內(nèi)、同一新聞來源的n個(gè)新聞?wù)臉颖局械南嗤温渥鳛樵肼晿颖?,并使用噪聲樣本?duì)待去噪新聞?wù)倪M(jìn)行噪音去除處理。在此過程中,不再需要手工配置xpath,提高了噪音去除效率,節(jié)省了時(shí)間和人力。
下面,將重點(diǎn)介紹如何從N個(gè)新聞?wù)臉颖局胁檎以肼暥温洹?/p>
請(qǐng)參見圖3,在選出最新的Top N的新聞?wù)臉颖竞?,噪聲集合更新模塊2可具體執(zhí)行下述流程:
S2041:對(duì)各新聞?wù)臉颖镜膆tml標(biāo)簽進(jìn)行修正。
html標(biāo)簽可用于判斷新聞?wù)臉颖局卸温涞钠鹗己徒Y(jié)束。而不規(guī)范的html標(biāo)簽可能會(huì)對(duì)新聞?wù)臉颖镜姆侄卧斐捎绊?,進(jìn)而對(duì)噪聲段落提取造成不良影響。因此,需要對(duì)html標(biāo)簽進(jìn)行修正。
更具體的,可使用Jsoup對(duì)不規(guī)范的html標(biāo)簽進(jìn)行修正。
S2042:對(duì)各新聞?wù)臉颖具M(jìn)行分段,得到段落。
考慮到新聞的噪音一般都是以段落為單位出現(xiàn),故按照段落對(duì)新聞?wù)倪M(jìn)行分段。
在分段時(shí),html標(biāo)簽也會(huì)去除。
S2043:對(duì)各段落進(jìn)行句子切分。
更具體的,可根據(jù)段落中的標(biāo)點(diǎn)符號(hào)切分句子。
在切分句子后,可將標(biāo)點(diǎn)符號(hào)去除,當(dāng)然,也可保留標(biāo)點(diǎn)符號(hào)。
S2044:兩兩比較Top N新聞?wù)臉颖局惺欠翊嬖谙嗤亩温?,若是,將相同的段落作為候選段落。
候選段落可放入候選段落集中。
在一個(gè)示例中,可將Top N新聞?wù)臉颖局械拿恳恍侣務(wù)臉颖咀鳛榛鶞?zhǔn)樣本,兩兩比較基準(zhǔn)樣本與其他新聞?wù)臉颖臼欠翊嬖谙嗤亩温?,若是,將相同的段落放入該基?zhǔn)樣本對(duì)應(yīng)的候選段落集中。
換句話說,假定將Top N中的第R個(gè)新聞?wù)臉颖咀鳛榛鶞?zhǔn)樣本,將其分別與第R+1~N新聞?wù)臉颖緝蓛杀容^,將得到的相同的段落放入第R候選段落集中。
舉例來講,假定N=10,可以將新聞?wù)臉颖?作為基準(zhǔn)樣本,分別和其他9篇新聞?wù)臉颖颈容^,將得到的相同的段落放入第一候選段落集中,記為commontcontent 1;
將新聞?wù)臉颖?作為基準(zhǔn)樣本,分別和其他8篇新聞?wù)臉颖?不包含新聞?wù)臉颖?)比較,將得到的相同的段落放入第二候選段落集中,記為commontcontent 2;
將新聞?wù)臉颖?作為基準(zhǔn)樣本,分別和其他7篇新聞?wù)臉颖?不包含新聞?wù)臉颖?和新聞?wù)臉颖?)比較,將得到的相同的段落放入第三候選段落集中,記為commontcontent3;……,依次類推。這樣可得到第一至第九候選段落集。
而在比較任兩個(gè)新聞?wù)臉颖緯r(shí)(為方便起見,稱為第一新聞?wù)臉颖竞偷诙侣務(wù)臉颖?,可將第一新聞?wù)臉颖局械牡趈個(gè)段落(j初始為0)與第二新聞?wù)臉颖局械乃卸温溥M(jìn)行比較(匹配),看是否相同,匹配完后,將j加1,再將與第二新聞?wù)臉颖局械乃卸温溥M(jìn)行匹配,直至將第一新聞?wù)臉颖局械淖詈笠粋€(gè)段落匹配完。其流程可參見圖4。
更具體的,在比較兩段落是否相同時(shí),可依據(jù)下述方式判斷:
對(duì)于整個(gè)段落而言,若兩段落相同的句子占段落的總句數(shù)比例均超過閾值(例如0.9),則認(rèn)為這兩個(gè)段落相同。
舉例來講,第一新聞?wù)臉颖镜亩温銩與第二新聞?wù)臉颖镜亩温銪有10個(gè)句子相同,段落A共有11個(gè)句子,段落B共有11個(gè)句子,則兩段落相同的句子占段落的總句數(shù)比例均超過0.9,則認(rèn)為這兩個(gè)段落相同。
需要說明的是,在比較兩段落時(shí),是將段落中次序相同的句子進(jìn)行比較的。以比較段落A和段落B為例,可將段落A的第一句與段落B的第一句進(jìn)行比較,將段落A的第二句與段落B的第二句進(jìn)行比較,以此類推。
因此,在本發(fā)明其他實(shí)施例中,若兩段落的總句數(shù)不相同,則可直接認(rèn)為這兩段落不相同。舉例來講,段落A共包含6個(gè)句子,段落B共包含5個(gè)句子,則可直接判定兩段落不相同。
S2045:兩兩比較候選段落是否相同,若相同,將相同的候選段落作為噪聲段落放入噪音集合。
噪聲段落如何存儲(chǔ)可參見前述S204的介紹,在此不作贅述。
在一個(gè)示例中,可將第M候選段落集中的候選段落,與第M+1~N-1候選段落集中的候選段落進(jìn)行兩兩比較,將相同的候選段落作為噪聲段落放入噪音集合。
以前述的第一至第九候選段落集為例,可將第一候選段落集中的候選段落,與第二至第九候選段落集中的候選段落進(jìn)行比較,將相同的候選段落作為噪聲段落放入噪音集合;將第二候選段落集中的候選段落,與第三至第九候選段落集中的候選段落進(jìn)行比較,將相同的候選段落作為噪聲段落放入噪音集合;將第三候選段落集中的候選段落,與第四至第九候選段落集中的候選段落進(jìn)行比較,將相同的候選段落作為噪聲段落放入噪音集合;依次類推。
在另一個(gè)示例中,也可將同一候選段落集中的候選段落兩兩比較,將相同的候選段落作為噪聲段落放入噪音集合。
例如,假定,在第一候選集中,新聞?wù)臉颖?與新聞?wù)臉颖?之間存在相同的段落A,新聞?wù)臉颖?與新聞?wù)臉颖?之間存在相同的段落B,新聞?wù)臉颖?與新聞?wù)臉颖?之間存在相同的段落C,新聞?wù)臉颖?與新聞?wù)臉颖?之間存在相同的段落D。
若段落A與段落D相同,則將段落A或段落D作為噪聲段落。
需要說明的是,在本示例中,同一候選段落集合中兩兩比較的候選段落需滿足如下條件:兩兩比較的候選段落對(duì)應(yīng)的新聞?wù)臉颖静煌耆睾稀?/p>
例如,新聞?wù)臉颖?與新聞?wù)臉颖?之間存在相同的段落1和段落2,其對(duì)應(yīng)的新聞?wù)臉颖就耆睾?,因此,即使段?和2相同,也不會(huì)將其作為噪聲段落。
下面將介紹噪聲集合更新模塊2如何判斷兩候選段落是否相同,其可包括如下操作:
對(duì)于任意兩個(gè)候選段落,確定兩個(gè)候選段落中相同句子的總數(shù)x,以及兩候選段落各自包含的句子總數(shù)m;
若x與m的比值大于第一閾值(例如0.9),確定這兩個(gè)候選段落相同。
比較候選段落是否相同與S2044中“比較兩段落是否相同”的方式相類似。
可見,確認(rèn)兩段落相同的基礎(chǔ)是確定兩段落間的句子相同。
那么,如何確定兩個(gè)句子是否相同呢?
以比較兩候選段落為例,假定其中一個(gè)為第一候選段落,另一個(gè)為第二候選段落;則第一候選段落中的第i個(gè)句子與第二候選段落的第i個(gè)句子是否相同可通過如下方式確定:
步驟一,計(jì)算第一候選段落中的第i個(gè)句子與第二候選段落的第i個(gè)句子的最長(zhǎng)公共子串(LCS)。
步驟二,確定第一候選段落中的第i個(gè)句子的長(zhǎng)度P,以及第二候選段落的第i個(gè)句子的長(zhǎng)度p;
這里某句子的長(zhǎng)度,可指句子包含的字符數(shù)或單詞數(shù)或漢字?jǐn)?shù)。
步驟三,若上述LCS的長(zhǎng)度(L)與P的比值大于第二閾值(例如0.9),同時(shí),上述最長(zhǎng)公共子串的長(zhǎng)度與p的比值大于第二閾值,確定第一候選段落中的第i個(gè)句子與第二候選段落的第i個(gè)句子相同。
同理,LCS的長(zhǎng)度,可指LCS包含的字符數(shù)或單詞數(shù)或漢字?jǐn)?shù)。
以第二閾值為0.9為例,假定L/P=0.91,L/p=0.95,則確定第一候選段落中的第i個(gè)句子與第二候選段落的第i個(gè)句子相同。
綜上,對(duì)于兩句子而言,如其LCS長(zhǎng)度占句子總長(zhǎng)度的比例均大于0.9,則認(rèn)為兩個(gè)句子相同。對(duì)于兩個(gè)段落而言,如果相同的句子占段落句子總數(shù)的比例均超過0.9,則認(rèn)為兩個(gè)段落相同。
需要說明的是,無(wú)論是S2044中“兩兩比較Top N新聞?wù)臉颖局惺欠翊嬖谙嗤亩温洹保€是S2045中候選段落的比較,最終都轉(zhuǎn)換成為了LCS問題。在實(shí)際應(yīng)用中,可使用DP算法解決LCS問題。
在實(shí)際工業(yè)生產(chǎn)中,噪聲段落的計(jì)算過程是計(jì)算密集型,如果網(wǎng)站數(shù)量或者公眾帳號(hào)數(shù)量眾多的話,HBase庫(kù)中的新聞進(jìn)行一次噪音計(jì)算將耗費(fèi)特別長(zhǎng)的時(shí)間。例如,6萬(wàn)多個(gè)帳號(hào)的新聞?wù)奶崛≡肼暥温浯蠹s需要5個(gè)小時(shí)。
考慮到可使用MapReduce訪問HBase。則上述所有實(shí)施例中,新聞?wù)脑胍羧コ椒ㄖ械母鞑襟E,可由MapReduce計(jì)算框架的Map函數(shù)和Reduce函數(shù)執(zhí)行。
更具體的,對(duì)于某一個(gè)網(wǎng)站或公眾號(hào)而言,可使用一臺(tái)機(jī)器(服務(wù)器節(jié)點(diǎn))上的Map函數(shù)和Reduce函數(shù),運(yùn)行兩個(gè)MR階段來實(shí)現(xiàn)噪聲段落的計(jì)算,從而實(shí)現(xiàn)前述新聞?wù)臉颖具x取模塊1和噪聲集合更新模塊2的功能。
其中,第一個(gè)MR階段使用大頂堆排序算法對(duì)多個(gè)新聞?wù)倪M(jìn)行排序,并獲取Top N個(gè)新聞?wù)臉颖?即執(zhí)行前述S201-S203),第二個(gè)MR階段則從Top N個(gè)新聞?wù)臉颖局胁檎以肼暥温?,將噪聲段落作為噪音樣本放入噪音集?即執(zhí)行前述的S204,S2041-S2045)。
其中,在第一個(gè)MR階段的map任務(wù)中,一行行讀取數(shù)據(jù)到cleanup函數(shù),由cleanup函數(shù)把數(shù)據(jù)放入treemap中(大頂堆)中,在所有數(shù)據(jù)塊的數(shù)據(jù)讀取完成后,在cleanup函數(shù)中取得top10的新聞?wù)臉颖尽?/p>
在第一個(gè)MR階段的reduce任務(wù)中,采取和map任務(wù)一樣的方式把上述top 10的新聞?wù)臉颖緦懭氲紿DFS上。
第二個(gè)MR階段的map任務(wù),會(huì)讀取第一MR階段寫入到HDFS上的數(shù)據(jù),進(jìn)行相應(yīng)的邏輯和算法處理,得到噪聲段落。例如,前述的分段,去除html格式(標(biāo)簽),按標(biāo)點(diǎn)符號(hào)分句,去除標(biāo)點(diǎn)符號(hào),再使用DP算法計(jì)算兩兩句子相似度,進(jìn)而計(jì)算段落間的相似度等。
在第二個(gè)MR階段的reduce任務(wù),會(huì)把噪聲段落再寫入到HDFS的hbase庫(kù)里。
圖5示出了由MR執(zhí)行噪聲段落計(jì)算及存儲(chǔ)的簡(jiǎn)單的示例性流程。
本領(lǐng)域技術(shù)人員應(yīng)該可以意識(shí)到,在上述一個(gè)或多個(gè)示例中,本發(fā)明所描述的功能可以用硬件、軟件、固件或它們的任意組合來實(shí)現(xiàn)。當(dāng)使用軟件實(shí)現(xiàn)時(shí),可以將這些功能存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中或者作為計(jì)算機(jī)可讀介質(zhì)上的一個(gè)或多個(gè)指令或代碼進(jìn)行傳輸。計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì),其中通信介質(zhì)包括便于從一個(gè)地方向另一個(gè)地方傳送計(jì)算機(jī)程序的任何介質(zhì)。存儲(chǔ)介質(zhì)可以是通用或?qū)S糜?jì)算機(jī)能夠存取的任何可用介質(zhì)。
以上所述的具體實(shí)施方式,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的技術(shù)方案的基礎(chǔ)之上,所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包括在本發(fā)明的保護(hù)范圍之內(nèi)。