关键词文章采集源码(前嗅ForeSpider脚本教程中频道脚本的应用场景以及配置关键词搜索 )
优采云 发布时间: 2022-03-12 21:04关键词文章采集源码(前嗅ForeSpider脚本教程中频道脚本的应用场景以及配置关键词搜索
)
今天小编为大家带来的教程是:ForeSpider脚本教程中频道脚本的应用场景和脚本配置实用教程关键词搜索。详细情况如下:
一.频道脚本使用场景
当您需要手动创建 采集 源列表,或完全使用脚本 采集 数据时,在“通道脚本”中,您可以使用类提取器和结果。
你可以定义一个类的对象来使用它的成员方法,或者你可以使用两个全局对象,EXTRACT 和 RESULT。
关于这两个类的详细说明以及该场景的更多示例,您可以点击“教程->脚本教程->脚本示例->频道脚本”查看相关内容。
二.脚本配置关键词搜索
1.关键词无验证码
场景:当某类链接中只需要替换部分字符串时,就可以得到目标链接。您可以将这部分字符串作为关键词来添加频道脚本,以达到提取链接的目的。
示例:暂时没有。
2.关键词有验证码
场景:当无法直观获取到验证码刷新事件时,需要手动查找验证码刷新请求并填写对应的输入框。同时,将验证码参数添加到参数列表中。
示例:采集京东商城商家信息。
使用开发者工具(以搜狗浏览器为例,在浏览器中按F12打开)抓包,在目标页面右击“Inspect Element”,选择“NetWork”,先清除所有缓存信息,点击验证码图片,找到验证码刷新请求:
“”。
可以发现,每次刷新验证码,请求链接中random参数的值都不一样,所以需要找到random生成的js事件。在网页源代码中找到以下代码。
在文本框中填写js刷新事件。值得注意的是,只需要修改this.src的值即可。
脚本示例:
var key = EXTRACT.GetSearch(this);
var form = key.Search();
url u;
var postData;
while(form){
var ocrCode = form.verifyCode;
u.urlname = "https://mall.jd.com/"+"showLicence-"+form.text+".html";
u.title = ocrCode;
u.entryid = this.id;
u.tmplid = 1;
postData = "verifyCode="+ocrCode;
var d = EXTRACT.OpenDoc(this,u.urlname,postData,0);
if(d){
this.Run(d,1);
EXTRACT.CloseDoc(d);
}
form = key.Search();
}
key.End();