小猪短租数据抓取网页数据工具有很多,比如抓宝宝网的内容

优采云 发布时间: 2022-08-27 07:01

  小猪短租数据抓取网页数据工具有很多,比如抓宝宝网的内容

  抓取网页数据工具有很多,比如抓宝宝网的内容、可以使用其他各类抓包工具等等。所以这次主要分享一下小猪短租的数据抓取。首先打开小猪短租官网(),在“开发者中心”里面找到“抓包工具”,我们可以看到有n多抓包工具。然后点击进入小猪短租“首页”,进去之后网站页面如下图。页面上面显示的是本地上下午价格,后面我们会讲到需要爬取哪些数据。

  

  上图是打开查看相关网页数据,选择首页。查看完网页之后,复制要抓取的链接,我选择的是“上海-中环内-酒店”。下面是查看查看酒店的基本数据,比如备注、房间号,房间类型,地理位置等等。点击不同的链接可以查看更多酒店数据,比如不同类型。我们点击保存图片,然后在上传地址栏粘贴就可以查看图片数据,确保文件名和网址一致。

  看下面,左边是国内,右边是国外。复制了一下网址,左边属于国内的酒店数据,右边是国外的酒店数据。这个链接是英文的,我们不需要那么多的数据。利用谷歌翻译,需要翻译成中文再翻译成英文,然后拷贝就可以查看。翻译结果,建议大家下载下来自己看一下。然后将要去抓取的数据保存到html文件,在浏览器直接就可以打开了。

  

  接下来,我们讲一下请求字符串的部分,因为小猪房源信息是数据量太大,有很多字符串可以请求。这里分享一个字符串函数:find函数,复制self.data返回的元素,利用find函数找到最后一个匹配的字符串。使用这个函数,我们可以获取房源名,作为房源号。利用字符串函数:split函数去分割出需要抓取的数据,比如查找“周”这个字符串,用split函数,我们会获取到“hannike'sema”这个字符串。

<p>那个我们也可以看一下,因为请求打开后,不知道有没有住过。再复制链接,需要的数据复制到html文件就可以看到啦。接下来我们学习写简单的代码,复制需要的字符串到html文件。importrequestsimporttime#保存html文件defread_html(self):url=''response=requests.get(url)returnresponse.text#定义变量cat_data=[]foriinself.data:#字符串重定向字符串tags=pile(r'(?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线