网页爬虫抓取百度图片(《百度热点新闻上》第6期 )

优采云发布时间: 2021-09-17 19:06

　　网页爬虫抓取百度图片(《百度热点新闻上》第6期

)

　　在百度热点新闻中，前6条在strong>A下抓取，后30条在各子栏目（国内、国际、本地、娱乐、体育等）下抓取，抓取的特征值为标签下的mon值，C=栏目名称，PN=各栏目下的新闻条数，12个项目显示在一个类别下（8个本地新闻项目），只需查看原创网页即可

　　完整代码如下所示

　　import requests

from bs4 import BeautifulSoup

import time

url='http://news.baidu.com/'

res=requests.get(url)

soup = BeautifulSoup(res.text,'lxml')

print('百度新闻python爬虫抓取')

print('头条热点新闻')

sel_a =soup.select('strong a')

for i in range(0,5):

print(sel_a[i].get_text())

print(sel_a[i].get('href'))

print('热点新闻')

titles_b=[]

titlew=""

for i in range(1,31):

sel_b=soup.find_all('a',mon="ct=1&a=2&c=top&pn="+str(i))

titles_b.append(sel_b[0])

for i in range(0,30):

print(titles_b[i].get_text())

print(titles_b[i].get('href'))

titlew=titlew + titles_b[i].get_text() + "\n"

# 获取当前时间

now = time.strftime('%Y-%m-%d', time.localtime(time.time()))

# 输出到文件

with open('news' + now + '.txt', 'a', encoding='utf-8') as file:

file.write(titlew) #只输出标题

　　在浏览过程中，您可以直接将网页下载到本地进行调试。代码如下：

　　with open('本地文件路径',encoding='utf-8') as f:

# print(f.read())

soup = BeautifulSoup(f,'lxml')

0

2021-09-17

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册