技術總結
本發(fā)明提供新聞正文噪音去除方法及裝置。該方法包括:獲取預設時長內、來自同一新聞來源的多個新聞正文樣本;從所述多個新聞正文樣本中選出N個新聞正文樣本;從所述N個新聞正文樣本中查找噪聲段落作為噪音樣本,放入噪音集合;所述噪聲段落包括:n個新聞正文樣本中存在的相同段落,n大于等于3;使用噪音集合中的噪聲樣本,對目標新聞正文進行噪音去除處理;所述目標新聞正文為來自所述新聞來源的待去噪新聞正文。在本發(fā)明提供的方案中,是將預設時長內、同一新聞來源的n個新聞正文樣本中的相同段落作為噪聲樣本,并使用噪聲樣本進行噪音去除處理。在此過程中,不再需要手工配置xpath,提高了噪音去除效率。
技術研發(fā)人員:晉國盼;劉海龍;郗家貞
受保護的技術使用者:北京搜狐新媒體信息技術有限公司
文檔號碼:201710162163
技術研發(fā)日:2017.03.17
技術公布日:2017.06.27