网页爬虫抓取百度图片(《百度热点新闻上》第6期 )
优采云 发布时间: 2021-09-17 19:06网页爬虫抓取百度图片(《百度热点新闻上》第6期
)
在百度热点新闻中,前6条在strong>A下抓取,后30条在各子栏目(国内、国际、本地、娱乐、体育等)下抓取,抓取的特征值为标签下的mon值,C=栏目名称,PN=各栏目下的新闻条数,12个项目显示在一个类别下(8个本地新闻项目),只需查看原创网页即可
完整代码如下所示
import requests
from bs4 import BeautifulSoup
import time
url='http://news.baidu.com/'
res=requests.get(url)
soup = BeautifulSoup(res.text,'lxml')
print('百度新闻python爬虫抓取')
print('头条热点新闻')
sel_a =soup.select('strong a')
for i in range(0,5):
print(sel_a[i].get_text())
print(sel_a[i].get('href'))
print('热点新闻')
titles_b=[]
titlew=""
for i in range(1,31):
sel_b=soup.find_all('a',mon="ct=1&a=2&c=top&pn="+str(i))
titles_b.append(sel_b[0])
for i in range(0,30):
print(titles_b[i].get_text())
print(titles_b[i].get('href'))
titlew=titlew + titles_b[i].get_text() + "\n"
# 获取当前时间
now = time.strftime('%Y-%m-%d', time.localtime(time.time()))
# 输出到文件
with open('news' + now + '.txt', 'a', encoding='utf-8') as file:
file.write(titlew) #只输出标题
在浏览过程中,您可以直接将网页下载到本地进行调试。代码如下:
with open('本地文件路径',encoding='utf-8') as f:
# print(f.read())
soup = BeautifulSoup(f,'lxml')