GeneralNewsExtractor(新聞網(wǎng)頁正文通用抽取器)是一個基于《基于文本及符號密度的網(wǎng)頁正文提取方法》論文用Python實現(xiàn)的正文抽取器,可以用來提取 HTML 中正文的內(nèi)容、作者、標題。

項目起源
開發(fā)這個項目,源自于我在知網(wǎng)發(fā)現(xiàn)了一篇關(guān)于自動化抽取新聞類網(wǎng)站正文的算法論文——《基于文本及符號密度的網(wǎng)頁正文提取方法》)
這篇論文中描述的算法看起來簡潔清晰,并且符合邏輯。但由于論文中只講了算法原理,并沒有具體的語言實現(xiàn),所以我使用 Python 根據(jù)論文實現(xiàn)了這個抽取器。并分別使用今日頭條、網(wǎng)易新聞、游民星空、觀察者網(wǎng)、鳳凰網(wǎng)、騰訊新聞、ReadHub、新浪新聞做了測試,發(fā)現(xiàn)提取效果非常出色,幾乎能夠達到100%的準確率。
項目現(xiàn)狀
在論文中描述的正文提取基礎上,我增加了標題、發(fā)布時間和文章作者的自動化探測與提取功能。
目前這個項目是一個非常非常早期的 Demo,發(fā)布出來是希望能夠盡快得到大家的使用反饋,從而能夠更好地有針對性地進行開發(fā)。
本項目取名為抽取器,而不是爬蟲,是為了規(guī)避不必要的風險,因此,本項目的輸入是 HTML,輸出是一個字典。請自行使用恰當?shù)姆椒ǐ@取目標網(wǎng)站的 HTML。
本項目現(xiàn)在不會,將來也不會提供主動請求網(wǎng)站 HTML 的功能。