网站内容抓取(- )

优采云 发布时间: 2021-09-16 04:02

  网站内容抓取(-

)

  我们的任务:抓取web内容

  1.用户指定的URL

  2.get文章的所有文本@

  urllib的请求模块可以轻松获取URL内容,即向指定页面发送get请求,然后返回HTTP响应

  Python通过re模块提供对正则表达式的支持

  from urllib import request

import re

  用户输入指定的URL

  #地址 绑定(编程期间)

#user_url = "https://news.sina.com.cn/o/2018-12-25/doc-ihmutuee2352838.shtml"

#地址 由用户指定(使用期间)

print("请输入您想查看的url")

user_url = input()

请输入您想查看的url

https://www.cnblogs.com/ms-uap/p/9928254.html

  获取网页HTML信息并进行代码转换

  添加标题信息和反爬虫策略

  我们需要URL的标题和文章@进行分析

  提取标题标记和匹配代码的正则表达式

  title = re.findall('(.*?[\u4e00-\u9fa5]*?.*?)', data_web)

for line in title:

print(line)

系列之1-神经网络的基本工作原理 - UniversalAIPlatform - 博客园

  提取p标记的正则表达式和我的匹配代码

  article = re.findall('(.*?[\u4e00-\u9fa5]*?.*?)', data_web)

for line in article:

print(line)</p>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线