解决方案:怎样使用数据diy采集需要采集的网站?

优采云 发布时间: 2022-12-09 21:47

  解决方案:怎样使用数据diy采集需要采集的网站?

  例如,要采集

  京东商城点评,我们可以使用数据DIY进行采集,具体操作步骤如下:

  1、先在goooseeker爬虫软件中输入URL打开数据DIY;注意:请务必使用gooseeker爬虫打开它!

  2. 单击以选择所需的类别

  采集网站,如:我们要采集 网站属于电子商务的,选择类别“电子商务”!

  

  3.点击选择要采集网站,如:要采集 网站选择 !

  4.点击页面选择采集,如:如果我们想采集京东商城的评论,选择“京东产品评论采集”!

  5.在下方输入框中输入要采集的URL,注意:采集的URL应与示例页*敏*感*词*有相同的页面结构,您可以在输入框右侧选择采集的页数!

  

  6. 点击“获取数据”按钮,进入会员中心。

  7、点击

  获取数据按钮后页面跳转到会员中心-数据DIY页面,在页面的数据管理列表中是我们要采集的数据,点击“开始采集”按钮开始采集我们想要的数据。

  解决方案:「从零开始学爬虫」采集亚马逊商品信息

  l 采集网站

  [场景描述]采集亚马逊搜索关键词商品信息。

  【入口网址】

  【采集内容】通过采集亚马逊搜索关键词搜索到的商品信息,包括商品名称、价格、型号、星级和商品链接。

  l 思路分析

  l 配置步骤

  1.新建一个采集任务

  选择【采集Configuration】,点击任务列表右上方的【+】号新建采集任务,在【】中填写采集入口地址采集Address]框,[Task name]可以自定义,点击Next。

  2. 关键词配置和翻页链接

  1.寻找规律

  在亚马逊首页搜索不同的关键词,找到不同的关键词搜索结果的链接。只替换了图中红框部分,红框部分为转码后的关键词。

  关键词 是:链接到女装首页

  %E5%A5%B3%E8%A3%85&page=2&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1624952544&ref=sr_pg_1

  关键词 是:女装第二页链接

  %E5%A5%B3%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2

  关键词 是:男装首页链接

  %E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_1

  关键词 是:男士第二页链接

  %E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2

  显示不同的关键词和页码搜索到的链接模式为

  【关键词转码】&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_【页数】

  2.高级配置

  得到关键词链接拼接规则后,开始配置关键词搜索:

  点击屏幕右下角【高级配置】,在【请求地址】中填写采集地址,点击【+】添加参数,名称可自定义。

  此配置用于以后的脚本从 关键词 列表中删除 关键词。配置完成后,点击【确定】。

  3. 设置搜索 关键词

  在关键词列表中添加多个关键词,并用英文分号或换行分隔。

  4.新建脚本

  关键词 需要写脚本,新建一个脚本,如下:

  

  5.脚本配置

  根据刚才的链接规则,具体的配置脚本如下:

  脚本文本如下:

<p>var ks = EXTRACT.GetSearch(this);

var k = ks.Search();

while(k)//while循环将所有关键词拼一遍

{

url u;

var kw = k.wd;

var wd= u.UnEscape( kw);

for(var i=1;i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线