网页新闻抓取(如何快速将不同新闻网站中的大量新闻文章导出到一个)
优采云 发布时间: 2021-12-26 19:07网页新闻抓取(如何快速将不同新闻网站中的大量新闻文章导出到一个)
前几天,公司给我安排了一个新项目,要求抓取网上的新闻文章。为了用最简单、最快捷的方式完成这个任务,特意做了一些准备。
我们都知道有一些Python插件可以帮助我们完成爬虫工作,其中之一就是BeautifulSoup。这是一个非常有用的插件,但是这个插件需要我们深入了解各个新闻平台独特的html结构。像我这种懒惰的人绝对不会这样做。每个网站都要了解框架,太费时间了。向上。
经过大量的搜索,我找到了一个简单的方法来解决这个问题,那就是Newspaper3k!
在本教程中,我将向您展示如何将来自不同新闻网站的大量新闻文章快速抓取到简单的 Python 脚本中。
如何使用Newspaper3k抓取新闻?
首先,我们需要将python插件安装到开发环境中。
提示:我们最好再创建一个虚拟的python环境。
$ pip install newspaper3k
1、基础知识
import newspaperfrom newspaper import Article#将文章下载到内存的基础article = Article("url link to your article")article.download()article.parse()article.nlp()# 输出全文print(article.text)# 输出文本摘要# 因为newspaper3k内置了NLP工具,这一步行之有效print(article.summary)# 输出作者名字print(article.authors)# 输出关键字列表print(article.keywords)#收集文章中其他有用元数据的其他函数article.title # 给出标题article.publish_date #给出文章发表的日期article.top_image # 链接到文章的主要图像article.images # 提供一组图像链接
2、高级:从一个新闻站点下载多篇文章
当我在抓取一堆新闻文章时,我想从一个新闻站点抓取多篇文章,并将所有内容放在一个pandas 数据框中,这样我就可以借助此插件将这些数据导出到.csv 文件中做起来很简单。
import newspaperfrom newspaper import Articlefrom newspaper import Sourceimport pandas as pd# 假设我们要从Gamespot(该网站讨论视频游戏)下载文章gamespot = newspaper.build("https://www.gamespot.com//news/", memoize_articles = False) #我将memoize_articles设置为False,因为我不希望它缓存文章并将其保存到内存中,然后再运行。# 全新运行,每次运行时都基本上执行此脚本final_df = pd.DataFrame()for each_article in gamespot.articles: each_article.download() each_article.parse() each_article.nlp() temp_df = pd.DataFrame(columns = ['Title', 'Authors', 'Text', 'Summary', 'published_date', 'Source']) temp_df['Authors'] = each_article.authors temp_df['Title'] = each_article.title temp_df['Text'] = each_article.text temp_df['Summary'] = each_article.summary temp_df['published_date'] = each_article.publish_date temp_df['Source'] = each_article.source_url final_df = final_df.append(temp_df, ignore_index = True) #从这里可以将此Pandas数据框导出到csv文件final_df.to_csv('my_scraped_articles.csv')
把它做完!爬取很多文章很容易。
使用上面的代码,你可以实现一个for循环来循环大量的报纸资源。创建一个巨大的最终数据框,您可以导出和使用它。
3、多线程网络爬虫
我上面提出的解决方案对某些人来说可能有点慢,因为它是一个接一个地下载文章。如果您有很多新闻来源,则可能需要一些时间来爬行。还有一种方法可以加快这个过程:借助多线程技术,我们可以实现快速爬行。
Python多线程技术解决方案:
注意:在下面的代码中,我为每个源实现了下载限制。运行此脚本时可能需要将其删除。实施此限制是为了允许用户在运行时测试他们的代码。
喜欢边做边学,建议看过这篇文章的大家可以使用上面的代码,自己动手做。从这里,您现在可以使用 Newspaper3k 在线抓取文章。
预防措施:
- 结尾 -
希望以上内容对大家有所帮助。喜欢这篇文章的记得转发+采集
哦~