百度搜索结果爬虫实现方式

优采云 发布时间: 2020-05-12 08:03

  

  八爪鱼·云采集服务平台 百度搜索结果爬虫实现方式做 SEO 做流量的朋友,很多百度搜索数据都须要自己去抓取,大家就会选择用 八爪鱼爬虫工具进行百度搜索结果的数据采集,大批量又高效。如何配置百度搜 索的采集任务呢,接下来本文将介绍使用八爪鱼采集百度搜索结果的方式。采集网站:使用功能点:? 分页列表信息采集 ? Xpath ? AJAX 点击和翻页步骤 1:创建采集任务1)进入主界面,选择“自定义模式”八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 12)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 2步骤 2:输入文本1)在页面右上角,打开“流程”,以突显出“流程设计器”和“定制当前操作” 两个蓝筹股。点击搜索框,在操作提示框中,选择“输入文字”八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 32)输入要采集的文本,这里以输入“八爪鱼采集器”为例。完成后,点击“确 定”八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 43)输入的文本手动填充到搜索框后,点击“百度一下”按钮。在操作提示框中, 选择“点击该按键”百度搜索结果爬虫方式图 5此步骤涉及 Ajax 技术。

  打开“高级选项”,勾选“Ajax 加载数据”,设置时间 为“2 秒”。完成后,点击“确定”八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 6步骤 3:创建翻页循环1)将页面下拉到顶部,点击“下一页”按钮,在两侧的操作提示框中,选择“循 环点击下一页”,以完善一个翻页循环八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 72)选中“循环翻页”步骤,打开“高级选项”,将单个元素中的这条 Xpath: //A[@class='n',复制粘贴到火狐浏览器中的相应位置八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 8可以看见,当在第 1 页的时侯,使用此条 Xpath,可以定位到“下一页”百度搜索结果爬虫方式图 9八爪鱼·云采集服务平台 当翻到第 2 页的时侯,使用此条 Xpath,既可定位到“上一页”,又可定位到 “下一页”百度搜索结果爬虫方式图 103)返回八爪鱼采集器,点击“自定义”八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 114)勾选“元素文本=下一页>”百度爬虫,对应生成的 Xpath 为://A[@text()='下一 页']。完成后,点击“确定”八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 125)将修改后的 Xpath://A[@text()='下一页'],再次复制粘贴到火狐浏览器 中。

  可以看见,当翻到第 2 页的时侯,可正常定位到“下一页”,第 3、4、5、 6 等也可正常定位到“下一页”,翻页循环可正常运行八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 13步骤 4:创建列表循环并提取数据1)移动滑鼠,选中页面里第一条搜索结果的区块,再选中页面内另一条搜索结 果的区块。系统会手动辨识并选中,页面里其他搜索结果的区块,以完善一个列 表循环。在操作提示框中,选择“采集以下元素文本”。整个区块里的信息,作 为一个数组,被采集下来八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 142)选中“循环”步骤,打开“高级选项”,将不固定元素列表中的这条 Xpath: //DIV[@id='content_left']/DIV,复制粘贴到火狐浏览器中的相应位置八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 153)将八爪鱼中的 Xpath,复制到火狐浏览器中的相应位置。观察页面,我们不 需要采集的“相关搜索”和“广告”内容也被定位了八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 164 ) 观 察 网 页 源 码 , 我 们 要 采 集 的 区 块 , 具 有 相 同 的 tpl 属 性 , tpl="se_com_default"(如图红框中所示),通过 tpl 属性,可即将采集的县 块与不需要采集的广告、推荐内容分辨开来。

  将 Xpath 修改为: //DIV[@id='content_left']/DIV[@tpl="se_com_default"]。再观察页面, 要采集的内容都被定位了,不需要采集的广告、推荐内容未被定位八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 175)将修改后的 Xpath: //DIV[@id='content_left']/DIV[@tpl="se_com_default"], 复制粘贴到八 爪虾采集器的相应位置。完成后,点击“确定”八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 186)在这里,我们还想采集每条搜索结果的链接 URL。选中页面内一条搜索结果 的链接,在操作提示框中,选择“采集该链接地址”八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 197)字段选择完成后,选中相应的数组,可以进行数组的自定义命名。完成后, 点击左上角的“保存并启动”,选择“启动本地采集”八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 20步骤 5:数据采集及导入1)采集完成后,会跳出提示,选择“导出数据”。选择“合适的导入方法”, 将采集好的数据导入八爪鱼·云采集服务平台 百度搜索结果爬虫方式图 212)这里我们选择 excel 作为导入为格式,数据导入后如下图百度搜索结果爬虫方式图 22八爪鱼·云采集服务平台 相关采集教程: 百度爬虫 百度地图店家采集工具 百度地图数据采集 百度搜索结果抓取和采集详细教程 使用八爪鱼 v7.0 简易模式采集百度百科内容 百度地图店家地址采集 百度文库数据采集方法,以列表页为例 *敏*感*词*内容采集 百度相关搜索关键词采集 百度知道问答采集八爪鱼·云采集服务平台 http://www.bazhuayu.com/tutorial/bdzhidaocj八爪鱼——百万用户选择的网页数据采集器。

   1、操作简单,任何人都可以用:无需技术背景,会上网才能采集。完全可视化 流程,点击滑鼠完成操作,2 分钟即可快速入门。 2、功能强悍,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布 流、Ajax 脚本异步加载数据的网页,均可经过简单设置进行采集。 3、云采集,关机也可以。配置好采集任务后可死机百度爬虫,任务可在云端执行。庞大 云采集集群 24*7 不间断运行,不用害怕 IP 被封,网络中断。 4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的 基本采集需求。同时设置了一些增值服务(如私有云),满足低端付费企业用户 的须要。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线