抓取网页新闻(目录本篇博客又双叒叕为各位分享分享Python库 )

优采云 发布时间: 2021-12-31 02:27

  抓取网页新闻(目录本篇博客又双叒叕为各位分享分享Python库

)

  内容

  本博客还为大家分享了一个Python库:GeneralNewsExtractor(GNE),它是一个通用新闻网站文本提取模块,输入一个新闻网页的HTML,输出文本内容、标题、作者、发表时间、正文中图片的地址、正文所在标签的源码。 GNE对今日头条、网易新闻、友民之星、观察家、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百条中文新闻网站的提取非常有效,几乎可以达到100%的准确率。 .

  需要明白:GeneralNewsExtractor(GNE)不是爬虫,是为了避免不必要的风险。因此,本项目的输入是HTML源代码,输出是字典。请使用适当的方法自行获取目标网站 HTML。

  

  1、安装模块

  GeneralNewsExtractor 模块的安装说明如下:

  pip install gne

  安装成功的效果如下:

  

  2、提取网页内容

  这次打算提取最新时事,选择网易新闻,文章如下图:

  

  右键查看本页源码文章,如下图:

  

  

  复制源码 接下来,5行代码提取新闻内容,如下图:

  from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()

html = '你的目标网页正文'

result = extractor.extract(html)

print(result)

  效果如下:

  

  如果标题自动提取失败,可以指定XPath,代码如下:

  from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()

html = '你的目标网页正文'

result = extractor.extract(html, title_xpath='//h5/text()')

print(result)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线