正确方法:怎么正确使用搜索

优采云 发布时间: 2022-10-26 15:45

  正确方法:怎么正确使用搜索

  如何正确使用搜索

  1、搜索词/品牌词在二三以内,保证更准确的结果;

  2、搜索词不需要区分大小写,搜索Discuz和discuz的结果是一样的;

  3、检索词可以空格分隔,不要输入多余的符号或汉字,如“、”、“和”、“或”、“和”等;

  

  4、尽量使用多个相似的搜索词进行搜索,如自媒体交易平台源码,也可以用自媒体源码代替搜索;

  5、尽量使用特定的搜索词,更快、更准确地搜索到你需要的产品,尽量不要使用或少用具有一般含义的关键词

  6. 搜索多个关键词时,搜索结果为名称收录所有关键词任意顺序的项目;如果关键字是“Empire自媒体 Transaction”,搜索结果将收录三个关键字/word;

  七、巧妙运用关键词组合:

  组合类型1:品牌词+特色词,品牌词如织梦、新云、东一等,特色词如小说、企业、文章等,如“织梦小说”、“文章传送门”等;

  

  组合类型2:功能词+商品词,功能词如手机版采集,商品词如小说、电影等,组合如“手机版小说”、“电影采集”等;

  组合类型3:此外,还可以使用品牌词+商品词,如织梦小说;品牌词+版本号,如Empire 7.0;以及特色词+商品词、新朋友等。

  八、使用过滤器快速找到你想要的源代码:

  使用平台提供的过滤功能,比如要查找品牌织梦的企业站,在过滤器中点击源代码类型中的企业企业,系统品牌的结果为织梦,结果是织梦内核的企业源代码列表,如果系统品牌需要ASP语言或者PHP语言,在系统品牌点击无限制,在开发语言点击你需要的语言,结果将是相应的语言。企业级源码;此功能也适用于商店。

  技术贴:不用写代码的爬虫工具(一) (爬微博案例)

  3

  微博采集

  前两天采集的微博解释了如何使用。

  1.打开明星微博下的评论区,复制网址。

  2. 打开优采云采集器主页,将地址粘贴到地址栏,点击智能采集。

  3、点击后会智能提取网页上的一些字段。

  4.微博需要登录才能继续分页爬取。所以,需要登录。点击预注册。

  点击后会弹出一个框,在这里可以进行和浏览器一样的操作,正常登录账号即可。

  需要注意的是,它提示不要记录个人信息。为安全起见,建议您在使用爬虫工具时,尽量申请小号。一是防止标题,二是大尺寸的安全问题。

  完成后会刷新页面,识别账号,账号已经登录。

  5、爬取的是粉丝的信息,所以属于二级页面的爬取。这个工具好用,只要点击界面就可以不费脑子地操作了,哈哈哈。

  在它的自动识别中,有一列链接,这些链接是粉丝的首页链接,点击采集,会自动跳转到二级页面,也就是粉丝详情页。

  自己添加字段,选择点击查看更多。会自动检测带有url的提示,点击yes,结果如下:

  接下来,为了捕捉粉丝的详细信息,我将向下钻取采集:

  粉丝的所有信息,应有尽有!是不是很简单?

  

  下面的方框有三页,意思是采集对应三页。

  基本信息到这里就讲完了,但是需要注意的是,如果使用上面的操作,最终只有采集首页的粉丝信息会被终止,大约15个粉丝后会自动停止。.

  4

  微博分页机制

  分页,顾名思义,就是按照页面来分隔内容。就像我们现在的网页一样,有一个分页机制。例如,您经常会在 网站 的底部看到 1、2、3、4。. . page,也就是分页机制。

  关于微博的分页机制,很贼。. . 我使用这个工具的大部分时间都浪费在研究如何绕过微博上的分页上。.

  在胡歌的评论下方,你会发现,经过几次尝试,微博的分页技术首先使用了长滑动页面,就像移动端的一些应用程序一样。加载内容。

  在微博的前面,使用了两个向下滑动的页面来加载内容。两段向下滑动后,可以看到浏览器右侧的滚动条会被拉长。当它最终被拉到底部时,“查看更多”按钮将再次出现。操作。

  5

  在 优采云 中模拟滚动分页

  如果要爬取下面的所有数据,需要先进行手动模拟滑动操作。这里在 优采云采集器 中使用了预操作。(预登录右侧的绿色按钮)

  点击后如下图:

  模拟网页滚动的操作,需要滚动两次,所以流程图如下:

  这个滚动组件内置了三个按钮,第一个是滚动方法,第二个是滚动次数,第三个是以秒为单位的间隔。流程图的流程是滚动到屏幕底部,间隔1s,进行两次滚动。

  一共拖了两个滚动组件,就是模拟滚动4次,然后停止等待3s。为了加载网页元素,最后单击保存并退出。页面刷新以查看它正在执行刚刚预加载的脚本流。

  经过上述操作后,有时会出现这种情况:

  我们需要手动干预:

  手动点击,分页自动识别,识别成功。

  上面的整体流程整理,预操作和滚动,向下滚动后加载分页按钮查看更多,通过自动识别分页和识别这个分页按钮,就可以爬取下面的所有粉丝链接内容!

  

  6

  开始爬行

  最后一步是点击右下角的开始采集。

  在弹出的对话框中,防屏蔽选择Smart,其余默认,然后点击开始。可以看到爬虫正在运行。

  运行:

  7

  出口

  关于最终数据,必须导出。至于导出方式,是存储在excel文件还是数据库中,看你的选择。

  7

  总结

  这个小白工具好用吗?但需要注意的是,虽然工具简单,但效率是个问题!这种模拟网页形式的爬虫效率非常低,如果是企业级应用,肯定不适合。.

  当然,免费版效率低下是肯定的。有一个需要花钱的专业版本。估计效率会提高不少,用对应的云平台。

  对于我们每天要采集的数据,免费版就够了!

  在爬取微博的过程中,遇到的困难是需要分析其分页机制。如果分页机制处理不好,当爬取采集不完整时,需要注意。

  使用这个工具,如果研究了微博的分页机制,剩下的网站分页应该不难。

  到了这里。觉得好看的朋友,欢迎留言,好看,评论,转发!

  ▼历届精彩回顾▼

  长按关注

  公众号:米格杂谈

  一个奇怪的公众号

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线