总结:【抓包分析】采集豆瓣排名数据的脚本源码
优采云 发布时间: 2022-10-07 04:16总结:【抓包分析】采集豆瓣排名数据的脚本源码
大家好,我是来自公众号3分钟学院的郭丽媛。今天给大家带来的是数据采集的源码分享。
本期以采集豆瓣排名数据为例:
分析
1、采集的内容:%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=
选择任何类型电影的图表。
其次,尝试获取网页的源代码。
TracePrint url.get("https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=")
三、分析返回值
发现返回值不收录排行榜的内容,也就是说排行榜的内容是动态加载的,无法通过直接读取该URL的网页源码获取。
4.抓包分析,打开浏览器后按f12键,刷新网页,使用浏览器自带的抓包功能对网页进行分析。
根据上图点击网络和标题。之后,因为有很多数据,我们用ctrl+f来搜索。搜索内容为热门电影《美丽人生》的片名,搜索结果有两个:
让我们选择其中一个进行分析,并首先复制URL。
%3A90&action=&start=0&limit=20
我们直接分析问号后面的部分参数:
type=24=> 电影类型:24
interval_id=100%3A90=>视频被点赞:100%-90%(%3A是冒号)
action==> 没有值,暂时无法判断,直译action可以省略
start=0=> 起始位置,第一位开始
limit=20=>显示多少,限制最多20
在这些参数中,需要从原创URL中提取视频类型:(下图红色部分)
%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=
每种类型对应一个数字,比如喜剧是24,动作是5,其他类型可以点击更多类型一个一个看网站。
5.获取网页源代码
TracePrint url.get("https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&start=0&limit=20")
6.网页返回值:
返回值是一个json。这里的提取是先对表进行转换,然后使用键值对进行提取。如果你不在我的公众号(3分钟学校)里搜索json,这里有很多关于json提取的文章教程。
脚本源
dim json= url.get("https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90")Dim table=encode.jsontotable(json)For i = 1 To Len(table)TracePrint table[i]["title"],table[i]["rating"][1]Next
复活节彩蛋
先点看,再上教程,关注“3分钟学”,回复关键词【教程】下载我的基础教程。
新QQ交流群11已创建:936858410,有兴趣可以加入!
vip群①群:242971687(满)
vip群②群:242971687(群费48.8,提供基础教程问答,2118小伙伴已加入付费群)
干货内容:百度SEO网站排名收录怎么做,能不能让百度快速收录
很多站长朋友问我有没有合适的百度文章新闻源,如何免费采集百度新闻。有什么有用的免费百度新闻采集方法?如何做百度SEO网站排名和索引?百度可以快速索引我的网站吗?最近百度采集器这样的问题我听了不下10次,现在我来解释一下我的理解。
百度的索引应该怎么做?对此,我认为首先要从内容的来源网站说起。一个好的稳定的文章来源,会让你的网站更容易被百度收录百度采集器上架,更容易获得更高的SEO排名对于 网站 。
百度飓风算法已上线,旨在打击不良采集行为和站群问题,将覆盖百度搜索下的PC站点、H5站点和智能小程序。对于算法覆盖的站点/智能小程序,将根据违规的严重程度酌情限制搜索结果的显示。
所以,如果你想给你的网站带来更多的流量,提高网站的收录,在拥有好的消息源的同时,必须做相应的伪原创处理,这样百度等搜索引擎可以将您的 网站 内容视为高质量内容的来源。搜索引擎也需要学习新事物,优质的内容会受到搜索引擎的青睐。
为什么选择百度新闻采集
百度新闻质量很高,基本上百度这边收录,很适合百度收录。免费采集百度新闻后,我们会对采集到的内容进行相应的处理,如AI智能伪原创文章,然后发布到网站。我们站长通过手动编辑文章是不可能达到原来的效果的,尤其对于站长网站来说,手动更新简直无法想象。因此,对于站长来说,拥有百度新闻这样可以在网站上自由采集的优质内容源是一件非常幸福的事情。
采集百度新闻优势
百度新闻质量高,经过百度搜索引擎过滤后更符合搜索引擎算法。由于百度搜索引擎精准的采集器做后盾,百度新闻信息丰富,节省了大量人力成本。信息全面、相关,数据量巨大。
免费百度新闻怎么办采集
人类文明是从使用火等工具发展起来的,而人类的优势在于使用工具,所以这里我们也需要使用工具来免费采集百度新闻。让我们的网站始终能够吸引搜索引擎的关注,从而增加网站的索引,网站的SEO排名也会相应提升,网站的流量也随之提升也会有质的变化。
工具操作流程
首先选择新的采集任务,选择百度新闻作为采集来源。然后点击选择百度新闻文章的存放位置。下一步是导入 fetch 关键字。保存任务。最后,您可以查看和监控列表中的 采集 状态。操作很简单,不需要写任何采集规则。
这就是今天的SEO经验分享。下一期,我会继续分享更多真实的SEO干货。我非常认真地做SEO分享。下一期见!