软文采集( Excel催化剂2020-09-17相信大家关注的公众号)
优采云 发布时间: 2022-01-06 08:20软文采集(
Excel催化剂2020-09-17相信大家关注的公众号)
【网页采集实战】用Excel催化剂骗公众号里各种软文,尺寸越大底线越少
Excel催化剂2020-09-17
相信大家关心的公众号里有很多软文。软文 和hard Wide 不一样,比较烦作者。与文章中的插页式广告相比,有明显的广告词可以区分。
软文很隐蔽,有点像名人做P2P广告,背叛粉丝的信任以谋取经济利益。
一些更邪恶的软文甚至终生误导人们。他们以为他们跟随了一位指导正确方法的导师,但最终却吃掉了你信任的收割者。
帐户所有者使用他的信用来兑换货币。大家同时讨厌百度。您可能希望讨厌一些没有底线来出售信用的帐户所有者。清关是个好动作。
如果你熟悉唐诗三百首,不妨采集玩玩,熟悉一下这些软文的标题套路。当你再次遇到他们时,你可以避免他们,节省自己的时间并收取大量的智商税。
数据源
本文内容采集为20次幂【广告文案号搜索】中的内容,具体网址为:。
可能是因为20号电站业主的规模有限,一开始收录的公众号似乎并不多。作为一个教学案例,你还可以玩得开心,
Excel催化剂网页的采集功能方便轻巧,作者本人也经常使用。在采集过于极端,数据量大的时候特别好用。采集的进程不分离。太多的反爬虫技术被屏蔽了。
采集方法
首先简单抓包,得到最终的内容数据json URL,对采集使用http下载方式,构造采集的URL,如下图,最后输入入口URL,让 google 浏览器先打开入口 URL,采集 cookie,然后来 http 提交访问 json URL 下载内容。
因为这个界面的数据量不大,所以总页数只有500页。以后采集新数据就不需要那么多了采集,所以暂停时长能不能调长一点也无所谓,不会被反爬虫盯上。 .
具体用法请参考网页采集功能介绍:
采集 接收到的数据为json格式。有了json文件,下一步就很简单了。使用 Excel 内置的 PowerQuery 文件夹合并数据功能将所有 json 文件合并在一起,并在 Excel 表格中列出它们。导出到 Excel 工作表。
或者直接使用Excel催化剂的json转Excel表格功能,比较简单。有小毛病的时候,文件夹里的文件还得重新做一遍,不像Powerquery可以一键刷新。
完成后,您可以使用Excel的排序和排序来查找您想要查看的内容。如果觉得自己收获的太辛苦了,建议检查一下。
只需去掉数据透视表的重复,开始阅读软文标题三百遍即可找到语感,下次看到类似的就可以避免了。
希望写软文的人不会看到这篇文章。用好的特性给动机不当的人,也是一场灾难。
结束语
出淤泥而不染,大家加油!