抓取网页新闻(目录本篇博客又双叒叕为各位分享分享Python库 )
优采云 发布时间: 2021-12-31 02:27抓取网页新闻(目录本篇博客又双叒叕为各位分享分享Python库
)
内容
本博客还为大家分享了一个Python库:GeneralNewsExtractor(GNE),它是一个通用新闻网站文本提取模块,输入一个新闻网页的HTML,输出文本内容、标题、作者、发表时间、正文中图片的地址、正文所在标签的源码。 GNE对今日头条、网易新闻、友民之星、观察家、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百条中文新闻网站的提取非常有效,几乎可以达到100%的准确率。 .
需要明白:GeneralNewsExtractor(GNE)不是爬虫,是为了避免不必要的风险。因此,本项目的输入是HTML源代码,输出是字典。请使用适当的方法自行获取目标网站 HTML。
1、安装模块
GeneralNewsExtractor 模块的安装说明如下:
pip install gne
安装成功的效果如下:
2、提取网页内容
这次打算提取最新时事,选择网易新闻,文章如下图:
右键查看本页源码文章,如下图:
复制源码 接下来,5行代码提取新闻内容,如下图:
from gne import GeneralNewsExtractor
extractor = GeneralNewsExtractor()
html = '你的目标网页正文'
result = extractor.extract(html)
print(result)
效果如下:
如果标题自动提取失败,可以指定XPath,代码如下:
from gne import GeneralNewsExtractor
extractor = GeneralNewsExtractor()
html = '你的目标网页正文'
result = extractor.extract(html, title_xpath='//h5/text()')
print(result)