抓取网页新闻(目录本篇博客又双叒叕为各位分享分享Python库 )

优采云发布时间: 2021-12-31 02:27

　　抓取网页新闻(目录本篇博客又双叒叕为各位分享分享Python库

)

　　内容

　　本博客还为大家分享了一个Python库：GeneralNewsExtractor（GNE），它是一个通用新闻网站文本提取模块，输入一个新闻网页的HTML，输出文本内容、标题、作者、发表时间、正文中图片的地址、正文所在标签的源码。 GNE对今日头条、网易新闻、友民之星、观察家、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百条中文新闻网站的提取非常有效，几乎可以达到100%的准确率。 .

　　需要明白：GeneralNewsExtractor（GNE）不是爬虫，是为了避免不必要的风险。因此，本项目的输入是HTML源代码，输出是字典。请使用适当的方法自行获取目标网站 HTML。

　　1、安装模块

　　GeneralNewsExtractor 模块的安装说明如下：

　　pip install gne

　　安装成功的效果如下：

　　2、提取网页内容

　　这次打算提取最新时事，选择网易新闻，文章如下图：

　　右键查看本页源码文章，如下图：

　　复制源码接下来，5行代码提取新闻内容，如下图：

　　from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()

html = '你的目标网页正文'

result = extractor.extract(html)

print(result)

　　效果如下：

　　如果标题自动提取失败，可以指定XPath，代码如下：

　　from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()

html = '你的目标网页正文'

result = extractor.extract(html, title_xpath='//h5/text()')

print(result)

0

2021-12-31

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(目录本篇博客又双叒叕为各位分享分享Python库 )

0 个评论

发起人

AI时代内容工厂

抓取网页新闻(目录本篇博客又双叒叕为各位分享分享Python库 )

0 个评论

发起人

相关问题