解决方案:怎样使用数据diy采集需要采集的网站?
优采云 发布时间: 2022-12-09 21:47解决方案:怎样使用数据diy采集需要采集的网站?
例如,要采集
京东商城点评,我们可以使用数据DIY进行采集,具体操作步骤如下:
1、先在goooseeker爬虫软件中输入URL打开数据DIY;注意:请务必使用gooseeker爬虫打开它!
2. 单击以选择所需的类别
采集网站,如:我们要采集 网站属于电子商务的,选择类别“电子商务”!
3.点击选择要采集网站,如:要采集 网站选择 !
4.点击页面选择采集,如:如果我们想采集京东商城的评论,选择“京东产品评论采集”!
5.在下方输入框中输入要采集的URL,注意:采集的URL应与示例页*敏*感*词*有相同的页面结构,您可以在输入框右侧选择采集的页数!
6. 点击“获取数据”按钮,进入会员中心。
7、点击
获取数据按钮后页面跳转到会员中心-数据DIY页面,在页面的数据管理列表中是我们要采集的数据,点击“开始采集”按钮开始采集我们想要的数据。
解决方案:「从零开始学爬虫」采集亚马逊商品信息
l 采集网站
[场景描述]采集亚马逊搜索关键词商品信息。
【入口网址】
【采集内容】通过采集亚马逊搜索关键词搜索到的商品信息,包括商品名称、价格、型号、星级和商品链接。
l 思路分析
l 配置步骤
1.新建一个采集任务
选择【采集Configuration】,点击任务列表右上方的【+】号新建采集任务,在【】中填写采集入口地址采集Address]框,[Task name]可以自定义,点击Next。
2. 关键词配置和翻页链接
1.寻找规律
在亚马逊首页搜索不同的关键词,找到不同的关键词搜索结果的链接。只替换了图中红框部分,红框部分为转码后的关键词。
关键词 是:链接到女装首页
%E5%A5%B3%E8%A3%85&page=2&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1624952544&ref=sr_pg_1
关键词 是:女装第二页链接
%E5%A5%B3%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2
关键词 是:男装首页链接
%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_1
关键词 是:男士第二页链接
%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2
显示不同的关键词和页码搜索到的链接模式为
【关键词转码】&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_【页数】
2.高级配置
得到关键词链接拼接规则后,开始配置关键词搜索:
点击屏幕右下角【高级配置】,在【请求地址】中填写采集地址,点击【+】添加参数,名称可自定义。
此配置用于以后的脚本从 关键词 列表中删除 关键词。配置完成后,点击【确定】。
3. 设置搜索 关键词
在关键词列表中添加多个关键词,并用英文分号或换行分隔。
4.新建脚本
关键词 需要写脚本,新建一个脚本,如下:
5.脚本配置
根据刚才的链接规则,具体的配置脚本如下:
脚本文本如下:
<p>var ks = EXTRACT.GetSearch(this);
var k = ks.Search();
while(k)//while循环将所有关键词拼一遍
{
url u;
var kw = k.wd;
var wd= u.UnEscape( kw);
for(var i=1;i