软文采集(软文不同于硬广怎么办?如何正确使用软文标题套路?)
优采云 发布时间: 2021-08-28 01:06软文采集(软文不同于硬广怎么办?如何正确使用软文标题套路?)
相信大家关注的公众号里软文掺杂的东西不少。 软文 和hardwide 不一样,让作者很烦。与文章中的插页式广告相比,有明显的广告词可以区分。 软文很隐蔽,有点像名人做P2P广告,出卖粉丝的信任以谋取经济利益。一些更邪恶的软文甚至在他们的一生中误导人们。他们以为他们跟随了一位指导正确方法的导师,但他们最终消耗了你信任的收割者。帐户所有者使用他的信用来兑换货币。大家同时讨厌百度。您可能还会讨厌一些没有底线来出售信用的帐户所有者。清关是个好动作。如果你熟悉唐诗三百首,不妨采集玩玩,熟悉这些软文标题套路。当你再次遇到他们时,你可以避免他们,节省自己的时间并收取大量的智商税。
数据来源
本文采集内容为20次幂【广告文案号搜索】中的内容,具体网址为:。
可能是因为20号电站业主规模有限,收录的公众号一开始似乎很少。作为一个教学案例,你还可以玩得开心,
Excel催化剂网页的采集功能方便轻巧。作者本人也经常使用。在不是采集太极端,数据量大的时候特别有用。 采集进程还没有被各种反爬虫使用过。太多技术被屏蔽了。
采集method
首先简单抓包,得到最终的内容数据json URL,采集使用http下载方式,构造采集的URL,如下图,最后输入入口URL让谷歌浏览器浏览器首先打开入口网址,采集cookie,然后来到http提交访问json网址下载内容。
因为这个界面的数据量不大,所以总页数只有500页。以后采集new数据就不需要采集那么多了,暂停时长能不能再增加一点也无所谓,不会被反爬虫盯上。
具体用法请参考网页采集功能介绍:
采集收到的数据为json格式。有了json文件,下一步也很容易了。使用Excel自带的PowerQuery文件夹合并数据功能,将所有json文件合并在一起,并在Excel表格中列出,导出到Excel工作表。
或者直接使用Excel催化剂的json转Excel表格功能,比较简单。有小毛病的时候,文件夹里的文件还得重新做一遍,不像Powerquery可以一键刷新。
完成后,您可以使用 Excel 进行筛选和排序以找到您想要查看的内容。如果觉得收获太多,建议检查一下。
数据透视表简直是重复,我开始把软文标题读了三百遍才找到语感,下次看到类似的就可以避开了。
希望写软文的人不会来看这篇文章。对动机不正的人使用好的功能也是一场灾难。
结论
每个人都可以有一个立场。笔者的立场是远离所谓的软文商业合作推广,保持公众号的纯洁处所,对Excel Catalyst的粉丝负责。虽然这种做法越来越被*敏*感*词*和变态。
出淤泥而不染,大家鼓励!