网页爬虫抓取百度图片(《百度热点新闻上》第6期 )

优采云 发布时间: 2021-09-17 19:06

  网页爬虫抓取百度图片(《百度热点新闻上》第6期

)

  在百度热点新闻中,前6条在strong>A下抓取,后30条在各子栏目(国内、国际、本地、娱乐、体育等)下抓取,抓取的特征值为标签下的mon值,C=栏目名称,PN=各栏目下的新闻条数,12个项目显示在一个类别下(8个本地新闻项目),只需查看原创网页即可

  完整代码如下所示

  import requests

from bs4 import BeautifulSoup

import time

url='http://news.baidu.com/'

res=requests.get(url)

soup = BeautifulSoup(res.text,'lxml')

print('百度新闻python爬虫抓取')

print('头条热点新闻')

sel_a =soup.select('strong a')

for i in range(0,5):

print(sel_a[i].get_text())

print(sel_a[i].get('href'))

print('热点新闻')

titles_b=[]

titlew=""

for i in range(1,31):

sel_b=soup.find_all('a',mon="ct=1&a=2&c=top&pn="+str(i))

titles_b.append(sel_b[0])

for i in range(0,30):

print(titles_b[i].get_text())

print(titles_b[i].get('href'))

titlew=titlew + titles_b[i].get_text() + "\n"

# 获取当前时间

now = time.strftime('%Y-%m-%d', time.localtime(time.time()))

# 输出到文件

with open('news' + now + '.txt', 'a', encoding='utf-8') as file:

file.write(titlew) #只输出标题

  在浏览过程中,您可以直接将网页下载到本地进行调试。代码如下:

  with open('本地文件路径',encoding='utf-8') as f:

# print(f.read())

soup = BeautifulSoup(f,'lxml')

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线