php正则函数抓取网页连接( 李克强:2020-03-21/n1/c1/html千方百计)
优采云 发布时间: 2021-10-26 14:29php正则函数抓取网页连接(
李克强:2020-03-21/n1/c1/html千方百计)
Python爬虫,使用正则表达式抓取人民网新链接、新标题、新时间
时间:2020-03-21
本文章介绍python爬虫,使用正则表达式抓取人民日报的新链接、标题、时间,主要包括python爬虫,使用正则表达式抓取人民日报的新链接、标题、时间使用实例和应用. 技能总结、基础知识点和注意事项有一定的参考价值,有需要的朋友可以参考。
import requests
import re
res = requests.get('http://politics.people.com.cn/GB/1024/index.html')
content = res.content.decode('GB2312')<br /># 从人民网源代码中查看网页的编码方式,在代码开头部分可以找到<br /># <br /># 即该网站编码方式为GB2312,故上面语句解码使用decode('GB2312')
print(content)
pattern = "(.*?) (.*?)"
news = re.findall(pattern, content)
for i in news:
print(i[0],i[1],i[2])<br /><br />这一小段代码运行后就成功将人民网中新闻的标题,链接,创建时间抓取下来,并保存在列表中,每个列表元素是1个元组,分别保存链接,标题和创建时间。<br />屏幕显示如下:
/n1/2020/0321/c1.html 千方百计加快复苏、稳定就业,为就业创业、灵活就业提供更多机会 2020-03-21
/n1/2020/0321/c1.html 在精准防控疫情的同时,积极有序推进复工复产,稳定和支持市场主体增强经济复苏动力 2020-03-21
/n1/2020/0320/c1.html 李克强:在精准防控疫情的同时,积极有序推进复工复产,稳定和支持市场主体增强经济复苏动力2020-03 -20
/n1/2020/0320/c1.html 李克强:千方百计加快复苏、稳定就业 为就业创业和灵活就业提供更多机会 2020-03-20
…………