采集内容插入词库 除去之前分享的几种现成方式以外方式(组图)

优采云 发布时间: 2021-08-10 19:10

  采集内容插入词库 除去之前分享的几种现成方式以外方式(组图)

  在过去的职业生涯中,抛开创业初期的困惑,在个人和团队成熟之后,我们再也没有被“找项目”的问题所困扰。因为我们有多种方法可以挖掘、采集、统计和捕捉存在于互联网各个角落的商机和业务。对我们来说,更重要的是项目的选择。从我们的角度来看,我们比较了哪个机会更多,哪个潜力更大。除了之前的分享方法,今天我们再分享一个方法。如果以前开采的是需求,那么今天以这种方式开采的就是现成的业务。信息挖掘是网络营销生存的基础,进而进行信息筛选。今天,主要涉及的是信息挖掘。知识点: 1:在百度上搜索时,添加“intitle”,搜索结果的标题必须收录完整的关键词

  

  近年来此功能发生了一些变化。例如,它变得更聪明,知道如何匹配。有时会有一些没有完全收录,但不影响。它通常是相同的。 2:在百度上搜索时,添加“inurl”,搜索结果链接必须收录完整字符:

  

  点击这里查看这些结果,它们必须都是知乎专栏的文章链接。 3:在百度上搜索时,在搜索链接中添加“&rn=50”,一次可以返回50条结果:

  

  基于以上三点,本次文章就是利用这个功能来探寻“那些在互联网上带动流量的商家”。近两年,“私域流量”这个词很流行。每个人都希望将流量安装到他们自己的私有域中,由他们支配,而不是在平台的控制之下。能称为私域流量的地方并不多。基本上都是腾讯的产品占主导地位:微信、QQ、群、公众号、个人网站除了纯粹的买流量和倒卖流量,大部分人不会引流量去诉求。外面的其他地方。所以,每一个吸引流量的人,无论是做什么生意,最终都得想方设法在流量的内容中留下自己的“私域流量”*敏*感*词*。为了向用户解释渠道,在留下*敏*感*词*时必须收录必要的前缀,例如“添加微信”。考虑到平台的屏蔽政策,我们不得不绞尽脑汁想出各种谐音字,比如“加威”、“+薇”等。而这些前缀就是我们今天的关键词。我们必须通过我们呼吁的搜索引擎的特殊订单,以这些前缀批量采集他人的现成业务。 Step 1:采集结合诉求,我们能想到的是:

  

  “inurl”后面的链接是我们要采集的平台。对于这个平台,我们选择了号称“全球最大中文社区”的*敏*感*词*。这个标题有点虚构,但它确实是无名的。在移动端,*敏*感*词*仍然是一个集“社交”和“论坛”于一体的顶级应用。 PC端,作为百度的亲儿子,贴吧占着的百度搜索流量几乎是其他兄弟产品。在NO.1中,如果你搜索一个词,你就有贴吧的身影。另外,大家都知道,在*敏*感*词*drainage,几乎每个互联网新手老手都做过一些事情。那么“inurl”怎么写呢?这个命令的意思是我们要搜索的结果链接必须收录我们填写的字符串,而我们搜索的,我们要出现在标题中的关键词“加微”,就是发布在贴吧主在标题中。 贴吧主贴链接是:

  https://tieba.baidu.com/p/000000000

  每篇博文格式相同,后面的一串数字代表不同的博文。所以“inurl”的值应该是:

  tieba.baidu.com/p/

  这样搜索时只能收录*敏*感*词*的所有主题帖:

  

  以下是我们搜索到的结果:

  

  事情五花八门,只有我们想不到的,没有别人不做的。当然,不是所有的生意都适合我们,也不是所有的生意都适合我们,我们要的是现成的,除了知道他在做什么,还要知道怎么做,所以有必要首先采集所有这些信息进行研究。信息的采集非常简单。不需要熟练,用我之前分享的“网络爬虫”采集即可。如果你不能使用它,这就是门户。看第一步:这个集合,对于每一个搜索结果,我们只需要标题和标题对应的链接:

  

  我们新建一个ws项目(不了解ws的可以在文章上面学习,下面解释部分步骤忽略):

  

  看三个红框的内容:我们在百度上搜索:intitle:"加微" inurl:/p/ intitle:"加微" inurl:/p/ 就是这次搜索的关键词。搜索后,浏览器链接框(第一个红框)中会显示对应的百度链接。一般搜索后显示的链接是这样的:

  

  密集字符串,这是因为链接中收录了各个字段,每个字段都有对应的信息。同时,因为不是每个字段都是必填的,所以上面第一个红框中的链接是我保留了必填字段,其他不需要的字段直接去掉了,这样就清晰多了。链接字段以“&”分隔。除了第一个带有“?”的字段外,其他所有字段都需要用“&”分隔。在上诉的搜索链接中:

  

  等于字段“wd”的值就是我们搜索到的关键词,会有一些“%”和数字,浏览器转义后显示的,不用管,“rn”就是上面的提到 return 50 结果的效果。 “pn”是百度的分页格式,pn=0表示第一页,pn=50表示第二页,以此类推,每页递增50。我们把这个链接复制到其他地方,就会变成以下:

  https://www.baidu.com/s?wd=intitle%3A%22%E5%8A%A0%E5%BE%AE%22%20inurl%3Atieba.baidu.com%2Fp%2F&rn=50&pn=0

  “wd”后的关键词变成一堆乱码。这是浏览器的 URL 编码。不用管,看懂了,现在回头看上图:

  

  这次我们为采集 创建了一个新项目。这个项目的配置不会改变,因为都是采集百度结果页面,但是我们可能会使用采集不同的词,比如“加“伟”和“加味”,如果有词必须改链接不一样,所以每次采集都要改这个“起始网址”。当我们改成其他关键词时:

  

  先将浏览器链接中的“Add Micro”改为“Jiawei”,然后回车搜索。搜索完成后,将浏览器上的链接复制到下方红框中保存即可。可以进行新一轮的采集。当然,“pn”的值需要复制后改变。不能直接等于0。百度的搜索结果最多只能显示76页。我们的搜索(每页返回 50 个项目)最多只会显示 10 页。因此,每次搜索新词时,首先要确认最大的“pn”可以是:

  

  每次点击第5页和第10页,等到没有了,查看上面浏览器链接中的pn,然后按照刚才的链接格式填写“起始地址”,将pn设置为相应的数值。现在我们设置爬取标题的“选择器”:

  

  点击后,标题已经被过滤掉了,保存并启动采集。这就是采集数据。根本不需要技术。如果你不明白,那一定是因为对ws的基本了解还不够。先回看文章学习。你可能会惊讶,一个页面有50条结果,十几页只有几百条结果,而且数据量很小。其实够了,我们把百度每次能返回的最多的结果都采集回来。我们刚才提到的前缀“Add Micro”可以演变成各种形式。根据我们过去所见,我们可以发挥我们的想象力。 ,每一个字都可以捕捉到几十万,仅仅采集上千这些是没有问题的,足够我们去挖掘了。这些词包括但不限于:嘉味、嘉味、嘉味、嘉味、嘉味、+V、vx,以及各种组合。另外我们只搜了微信,还有加群、加Q、关注公众号等,单独公众号就有各种变种,抖音和贴吧的公众号变种更多@。第二步:整理 这是本次测试采集的数据(2000+,标题需要去重):

  

  第一项是“迪拜包机”业务。啧啧啧,这生意还真是大,因为对方在抽流量,所以要说明一下他能提供什么,所以每一个标题都是清晰明了的商业信息。那么如何应用这些数据呢?我们刚刚提到我们需要现成的业务,现在业务在这个表中,我们知道他们在做什么,然后我们需要了解如何去做。由于数据量大,我们需要优先选择。评选标准是:“迪拜包机,有需要的朋友加微150*******6357[UAE]...”这样的标题,我们很清楚他是做什么的,因为“迪拜”和“包机”已经明确说明。 “花式加微188**********8【联通宽带】_Baidu贴吧”就是这样的标题,他没有直接说明商家信息,需要点进去。因此,我们显然优先理解从标题中可以直接看到业务信息的帖子。这两个标题的区别在于没有明确业务信息的标题,标题中有一些常用词,如:add micro、contact、enter、find 这些我的常用词出现在各种标题中,但如果标题里只有这几个字,是没有明确信息的标题。 PS:以下操作需要Python。不知道怎么做的可以先阅读,后续我会慢慢更新一些需要用到的Python小工具。因此,我们首先对所有标题进行细分,并统计词频。这些常用词在很多标题中都能找到,所以很容易通过统计来选择:

  

  如上,在这些高频词汇中,如:百度、加微、需要、欢迎、交流、联系等,对我们了解业务信息没有帮助。当我们看到这些词时,我们认为它们是通用的,那些对我们理解信息没有帮助的可以选择并放入库中。该假设称为:无效词汇。每个标题都分为单词。词根在无效词汇表中进行比较。如果有,则删除,如果没有,则保留。最后,没有明显商家信息的标题会返回空,有商家信息的标题会返回关键信息,然后一一匹配:

  

  如上图,第一列titles是我们采集的,第二列是我们去掉title中的贴吧name字段,第三列是我们得到的第二列分词,去除无效词。的。从中可以看出,如:

  

  红框中的两列标题没有关键信息。它们是一些常用词。单单从标题看不到任何东西,所以计算后返回空。我们稍后会研究这个目标。现在我们过滤掉空的第三列(词干):

  

  最后是我们首先需要了解的数据:

  看“key”栏,一目了然就够了。如果关键词我们有兴趣,直接点击右边对应的百度快照链接进入原帖页面:

  

  以上是朋友给别人推荐的配置。低预算玩游戏会导致闲鱼或微信。当我们对某项业务感兴趣时应该怎么做?直接加微信,加后直接问,或者观察朋友圈一周左右,我们基本了解他的业务。如果我们对他的生意感兴趣,想估算一下他大概能赚多少钱,大致逻辑可以参考我在知乎专栏的第二篇文章文章的第5步。这就是门户:了解了这个或者如果你对业务感兴趣,那么你需要知道如何分流。做这个生意的基本门槛是什么?首先是门槛,需要多少资金,准备什么工具,准备什么资源,操作需要多少时间,需要多少人,具体项目条件不同。您只能根据个人常识和经验进行判断。二是如何疏导交通。这太简单了。在搜索引擎中获取他的*敏*感*词*进行搜索:

  

  

  

  凡是能搜到的地方,都能搜到,只要在网上留下痕迹,大部分都能找到。当然,还有一些排水渠道,我们其实可以想到。这不仅是看通道,也是确认是否可以安全排空。比如有人在贴吧引流。当我们搜索时,它们都是贴吧,但即使这样也很有价值。一个贴吧可以被很多人打广告,也就是说贴吧没有多少人关注。如果没有管理员,他可以带领我们进行交通。不要以为没人关注就没有吸引流量的价值。 贴吧引流不一定是给贴吧的用户看的。别忘了还有搜索。只要我们的帖子不被删,就有机会。被搜查了。有些人专门找这个,很多贴吧都没听说过:

  

  像这样,很少有人关注贴吧,发个长尾字排版的标题。帖子内容开头,看头像,名字设置为微信。内容与标题无关。但是我们一搜他的微信(一些不太好听的字就删了):

  

  说到这里,我们刚刚采集的原创标题收录很多贴吧names:

  

  

  除了标题本身太长,否则里面会收录贴吧名字,我们按照格式提取出来(Excel,Python都可以),里面经常出现的贴吧,是更好的贴吧 @,可能会长时间无人看管。有些人为一篇帖子布置了一个搜索量非常低的长尾词,几乎没有人与他竞争。然后他们发布到贴吧,他们不会被删除。随着时间的推移,他们产生了该领域的大部分长尾帖子。内容,到了这个时候,在这个小众领域,他几乎处于霸主状态,我们随便搜都有他。小改进: 1:结合微信、QQ、群、公众号、扫码等核心词,发挥想象力,想出尽可能多的词进行搜索。想得越多,能找到的信息比别人多,信息鸿沟就是这样出来的。 2:我们展示的是贴吧,除了贴吧,百度知道,豆瓣、简书等都可以采集。 3:正如《词文本向量分类》中介绍的,这是一种广泛的挖掘方法。如果你定义了一个域,你可以结合域的核心词来挖掘:

  

  此时,你可以挖掘的范围是无穷无尽的。 4:搜索引擎可以自定义时间范围,如果你关心及时性:

  

  当然,这次搜索的内容会少很多。题外话:最近发表了一些挖掘思想和方法。想法本身不是目的,落地才是关键。这需要一些基本的能力,所以要知道学习的方向,需要用到哪些。学什么。这些年,经历了很多工作内容,学到了很多工作技能,一直没有整理出来。所以,在接下来的更新中,我会逐渐将文章添加到话题技能普及类中。我在《好东西推荐》里把知乎里的文章删了,因为我考虑了分一两个人来操作的想法。我个人比较喜欢,所以不把文章放在开放平台上传播。公众号比较私密,放在这里给有需要的粉丝。如果你有条件,我建议你尽快尝试。本公众号目前除知乎有签名外,不使用任何引流方式。我倾向于依靠内容来吸引和留住粉丝。如果你觉得我发的文章还行,对你有帮助和启发,请帮我文章点赞分享,谢谢!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线