java爬虫抓取网页数据(一共需要做四个规则:第一个规则“第二个规则图” )
优采云 发布时间: 2022-03-22 20:41java爬虫抓取网页数据(一共需要做四个规则:第一个规则“第二个规则图”
)
2.如何使用快捷键采集:如何使用快捷键采集
通过CNKI高级搜索,输入关键词,即可获取相关的文章标题、作者、摘要、关键词等信息。但是CNKI在输入关键词进行搜索后并没有改变URL,所以在爬取的时候,我们需要爬虫自动输入目标关键词来搜索并开始爬取数据。
要获取标题、作者、摘要、关键词等信息,我们一共需要制定四个规则:
第一条规则”
第二条规则”
提示:文章的部分摘要需要点击“更多”才能全部显示。为了抓取完整的摘要,我们需要制定一个规则来点击这个“更多”。
第三条规则”
第四条规则”
图1
一、第一条规则 - 知网搜索
1.以CNKI高级检索文献文章为例,将高级文献检索链接粘贴到某手。
第一条规则的主要工作是搜索关键词,但是为了有效地执行规则,我们在规则中抓取文章的类型。这里以文献为例,我们抓取的内容为“文献”,并勾选关键内容。
图 2
如图2所示,具体操作如下:
#1.将目标爬取网页粘贴到猫鼠台网址栏,回车。
#2.看到页面加载完毕。
#3.将抓取的内容“文档”映射到排序框中。
#4.选择文献的重点内容。
2.跳转到连续动作工作台输入关键词及其动作
关键词 的自动输入点是建立两个步骤。第一步是通过输入框的定位表达式找到输入框,然后输入关键词。第二步,通过定位表达式找到搜索按钮,然后爬虫自行点击按钮。
2.1 创建输入步骤
图 3
如图3所示,具体操作如下:
#1.输入目标主题名,即第二条规则主题名,表示第二条规则搜索到关键词后会执行爬取
#2.点击谁在使用,查看输入的主题名是否被其他人占用。如果已经被其他人占用,则需要更改另一个主题名称。
#3.创建一个新的输入步骤。如上所述,首先是执行输入动作,所以这里是一个新的输入步骤。
#4.输入 关键词 进行搜索。
#5.根据网页结构填写输入框的定位表达式,即网页上能定位输入框的XPath表达式。写好表达式后,可以使用MS的搜索功能进行验证。定位是否准确,详见网页内容搜索方法。
2.2 构建和提交步骤
图 4
如图4所示,具体操作如下:
#1.根据网页结构填写检索定位表达式,即网页上能定位输入框的XPath表达式。写好表达式后,可以使用MS的搜索功能来验证是否定位准确。详情请参阅搜索网页内容的使用方法。
保存规则后,知网搜索就完成了。
二、第二条规则——知网搜索结果
该规则负责通过知网搜索对 关键词 搜索到的页面进行爬取。此规则与定义普通规则相同。
将要爬取的内容映射到排序框中。如果我们想要捕获每个文章的详细数据抽象作者,我们需要建立一个分层捕获,在当前规则中捕获每个文章的细节。为CNKI_文章数据生成线索的数据页的URL。
图 5
如图5所示,具体操作如下:
#1.将要爬取的下级链接映射到排序框中
#2.查看关键内容
#3.点击排序框顶部节点复制样本。要抓取当前页面文章的所有下级链接,需要复制样本。详情请参考教程:
#4.跳转到爬虫路由工作台做翻页线索。要抓取翻页的文章,需要做翻页线索。详情请参考教程:
保存规则后,CNKI_search结果规则就完成了,接下来需要做文章详细页面的爬取规则。
三、第三条规则——知网_文章数据_more
1.将网页上的“更多”按钮映射到排序框作为内容映射,查看重点内容。
2.在爬虫路由工作台上做一个模拟点击,即为“更多”做一个标记轨迹作为标记。
图 6
如图6所示,具体操作如下:
#1.新建一个标记线索,勾选Consecutive fetching,意思是爬虫在执行抓取任务时,在同一个DS计数器窗口抓取到当前页面后,可以直接跳转到下一页。抓住。
#2.点击“更多”按钮,自动定位页面标签节点,展开节点,找到收录“更多”的文本节点。
#3.在文本节点上右键,Clue Mapping → Mark Clue,可以看到“more”自动填入了mark值。
#4.将节点映射到线索范围,右击翻页块节点,选择线索映射→定位→线索1,完成后定位号会显示页面的定位号-转块节点。
保存规则后,知网_文章Data_More规则就完成了,接下来需要完成一些“更多”知网来执行抓取的规则——知网_文章Data。
提示:第三条和第四条规则演示模拟点击。不明白的可以参考教程:
四、第四条规则——知网_文章数据。
这个规则是最简单的类型,将需要爬取的内容映射到一个bin中。
图 7
如图7所示,具体操作如下: #1. 将要抓取的内容映射到排序框中。
五、修改文章详细页面URL参数,构造新URL,生成第三条规则线索——hownet_文章data_more
将第二条规则采集的详情页的链接导入excel。
图 8
可以发现不是完整的URL,DS计数器也无法构造URL直接生成可访问的URL,需要用excel手动修改。
对比详情页的完整网址,如下:
可以发现采集的链接缺少了之前的域名,增加了“/kns”部分。您可以使用该功能修改链接。
图 9
在J2单元格中输入公式=""&RIGHT(I2,LEN(I2)-4)获取可访问的URL并填写,这样就可以将获取的URL作为第三个批量添加规则的线索。
如有疑问,您可以或