抓取网页新闻(本站最新发布Python从入门到精通|Python基础教程试听地址 )

优采云发布时间: 2021-11-01 08:09

　　抓取网页新闻(本站最新发布Python从入门到精通|Python基础教程试听地址

)

　　本站Python最新版本从入门到精通| Python基础教程

　　试听地址

　　学习了python的基本语法后，对爬虫产生了浓厚的兴趣。废话不多。今天来爬取网易新闻，实战学习。

　　打开网易新闻，可以发现新闻分为这几个板块：

　　这次选择国内扇区进行爬取文章。

　　1. 准备

　　下载链接

　　了解网络

　　网页色彩鲜艳，漂亮，像一幅水彩画。要抓取数据，首先要知道需要抓取的数据是如何呈现的，就像学习画画一样。在你开始之前，你需要知道这幅画是用什么画的，铅笔还是水彩笔……它可能是各种类型的。是的，但是只有两种方式可以在网页上显示信息：

　　HTML是一种用于描述网页的语言

　　JSON 是一种轻量级的数据交换格式

　　爬取网页信息其实就是向网页发出请求，服务器将数据反馈给你

　　2. 获取动态加载源码

　　导入所需的模块和库：

1 from bs4 import BeautifulSoup

2 import time

3 import def_text_save as dts

4 import def_get_data as dgd

5 from selenium import webdriver

6 from selenium.webdriver.common.keys import Keys

7 from selenium.webdriver.common.action_chains import ActionChains #引入ActionChains鼠标操作类

　　要获取网页信息，我们需要发送一个请求。请求可以帮助我们很好地完成这一点。但是经过仔细观察，我们发现网易新闻是动态加载的。请求返回即时信息。稍后加载到网页上的数据不会返回。在这种情况下，Selenium 可以帮助我们获取更多数据。我们将 selenium 理解为一种自动化测试工具。Selenium 测试直接在浏览器中运行，就像真实用户操作一样。

　　我使用的浏览器是火狐

1 browser = webdriver.Firefox()#根据浏览器切换

2 browser.maximize_window()#最大化窗口

3 browser.get('http://news.163.com/domestic/')

　　这样我们就可以驱动浏览器自动登录网易新闻页面

　　我们的目标自然是一次爬下国内部分，观察网页。当网页不断向下滚动时，将加载新的新闻。在底部，甚至还有一个刷新按钮：

　　这时候使用selenium就可以显示出它的优势了：自动化，模拟鼠标键盘操作：

1 diver.execute_script("window.scrollBy(0,5000)")

2 #使网页向下拉，括号内为每次下拉数值

　　右击网页中的Load More按钮，点击View Element，可以看到

　　通过这个类，可以定位按钮。当遇到按钮时，点击事件可以帮助我们自动点击按钮完成网页刷新

1 # 爬取板块动态加载部分源代码

2

3 info1=[]

4 info_links=[] #存储文章内容链接

5 try:

6 while True :

7 if browser.page_source.find("load_more_btn") != -1 :

8 browser.find_element_by_class_name("load_more_btn").click()

9 browser.execute_script("window.scrollBy(0,5000)")

10 time.sleep(1)

11 except:

12 url = browser.page_source#返回加载完全的网页源码

13 browser.close()#关闭浏览器

　　获取有用信息

　　简单来说，BeautifulSoup 是一个 Python 库。它的主要功能是从网页中抓取数据，可以减轻新手的负担。通过BeautifulSoup解析网页源代码，并添加附带的函数，我们可以方便的检索到我们想要的信息，例如：获取标题、标签和文本内容超链接

　　也可以右键点击文章标题区查看元素：

　　观察网页的结构，发现每个div标签class="news_title"下面是文章的标题和超链接。soup.find_all() 函数可以帮助我们找到我们想要的所有信息，并且可以一次性提取出该级别结构下的内容。最后通过字典，将标签信息一一检索出来。

1 info_total=[]

2 def get_data(url):

3 soup=BeautifulSoup(url,"html.parser")

4 titles=soup.find_all('div','news_title')

5 labels=soup.find('div','ns_area second2016_main clearfix').find_all('div','keywords')

6 for title, label in zip(titles,labels ):

7 data = {

8 '文章标题': title.get_text().split(),

9 '文章标签':label.get_text().split() ,

10 'link':title.find("a").get('href')

11 }

12 info_total.append(data)

13 return info_total

　　4. 获取新闻内容

　　此后，新闻链接被我们取出并存入列表。现在我们需要做的就是使用链接来获取新闻主题内容。新闻主题内容页面静态加载，可以轻松处理请求：

1 def get_content(url):

2 info_text = []

3 info=[]

4 adata=requests.get(url)

5 soup=BeautifulSoup(adata.text,'html.parser')

6 try :

7 articles = soup.find("div", 'post_header').find('div', 'post_content_main').find('div', 'post_text').find_all('p')

8 except :

9 articles = soup.find("div", 'post_content post_area clearfix').find('div', 'post_body').find('div', 'post_text').find_all(

10 'p')

11 for a in articles:

12 a=a.get_text()

13 a= ' '.join(a.split())

14 info_text.append(a)

15 return (info_text)

　　使用try except的原因是网易新闻文章在一定时间前后，文本信息的位置和标签不同，不同的情况要区别对待。

　　最后遍历整个列表以检索所有文本内容：

1 for i in info1 :

2 info_links.append(i.get('link'))

3 x=0 #控制访问文章目录

4 info_content={}# 存储文章内容

5 for i in info_links:

6 try :

7 info_content['文章内容']=dgd.get_content(i)

8 except:

9 continue

10 s=str(info1[x]["文章标题"]).replace('[','').replace(']','').replace("'",'').replace(',','').replace('《','').replace('》','').replace('/','').replace(',',' ')

11 s= ''.join(s.split())

12 file = '/home/lsgo18/PycharmProjects/网易新闻'+'/'+s

13 print(s)

14 dts.text_save(file,info_content['文章内容'],info1[x]['文章标签'])

15 x = x + 1

　　将数据存储到本地txt文件

　　Python提供了一个文件处理函数open()，第一个参数是文件路径，第二个是文件处理方式，“w”方式是只写的（如果文件不存在则创建，如果文件不存在则清空内容）它存在）

1 def text_save(filename, data,lable): #filename为写入CSV文件的路径

2 file = open(filename,'w')

3 file.write(str(lable).replace('[','').replace(']','')+'\n')

4 for i in range(len(data)):

5 s =str(data[i]).replace('[','').replace(']','')#去除[],这两行按数据不同，可以选择

6 s = s.replace("'",'').replace(',','') +'\n' #去除单引号，逗号，每行末尾追加换行符

7 file.write(s)

8 file.close()

9 print("保存文件成功")

　　一个简单的爬虫到目前为止已经成功写好了：

0

2021-11-01

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(本站最新发布Python从入门到精通|Python基础教程试听地址 )

0 个评论

发起人

AI时代内容工厂

抓取网页新闻(本站最新发布Python从入门到精通|Python基础教程试听地址 )

0 个评论

发起人

相关问题