java爬虫抓取网页数据(一共需要做四个规则:第一个规则“第二个规则图” )

优采云 发布时间: 2022-03-22 20:41

  java爬虫抓取网页数据(一共需要做四个规则:第一个规则“第二个规则图”

)

  2.如何使用快捷键采集:如何使用快捷键采集

  通过CNKI高级搜索,输入关键词,即可获取相关的文章标题、作者、摘要、关键词等信息。但是CNKI在输入关键词进行搜索后并没有改变URL,所以在爬取的时候,我们需要爬虫自动输入目标关键词来搜索并开始爬取数据。

  要获取标题、作者、摘要、关键词等信息,我们一共需要制定四个规则:

  第一条规则”

  第二条规则”

  提示:文章的部分摘要需要点击“更多”才能全部显示。为了抓取完整的摘要,我们需要制定一个规则来点击这个“更多”。

  第三条规则”

  第四条规则”

  

  图1

  一、第一条规则 - 知网搜索

  1.以CNKI高级检索文献文章为例,将高级文献检索链接粘贴到某手。

  第一条规则的主要工作是搜索关键词,但是为了有效地执行规则,我们在规则中抓取文章的类型。这里以文献为例,我们抓取的内容为“文献”,并勾选关键内容。

  

  图 2

  如图2所示,具体操作如下:

  #1.将目标爬取网页粘贴到猫鼠台网址栏,回车。

  #2.看到页面加载完毕。

  #3.将抓取的内容“文档”映射到排序框中。

  #4.选择文献的重点内容。

  2.跳转到连续动作工作台输入关键词及其动作

  关键词 的自动输入点是建立两个步骤。第一步是通过输入框的定位表达式找到输入框,然后输入关键词。第二步,通过定位表达式找到搜索按钮,然后爬虫自行点击按钮。

  2.1 创建输入步骤

  

  图 3

  如图3所示,具体操作如下:

  #1.输入目标主题名,即第二条规则主题名,表示第二条规则搜索到关键词后会执行爬取

  #2.点击谁在使用,查看输入的主题名是否被其他人占用。如果已经被其他人占用,则需要更改另一个主题名称。

  #3.创建一个新的输入步骤。如上所述,首先是执行输入动作,所以这里是一个新的输入步骤。

  #4.输入 关键词 进行搜索。

  #5.根据网页结构填写输入框的定位表达式,即网页上能定位输入框的XPath表达式。写好表达式后,可以使用MS的搜索功能进行验证。定位是否准确,详见网页内容搜索方法。

  2.2 构建和提交步骤

  

  图 4

  如图4所示,具体操作如下:

  #1.根据网页结构填写检索定位表达式,即网页上能定位输入框的XPath表达式。写好表达式后,可以使用MS的搜索功能来验证是否定位准确。详情请参阅搜索网页内容的使用方法。

  保存规则后,知网搜索就完成了。

  二、第二条规则——知网搜索结果

  该规则负责通过知网搜索对 关键词 搜索到的页面进行爬取。此规则与定义普通规则相同。

  将要爬取的内容映射到排序框中。如果我们想要捕获每个文章的详细数据抽象作者,我们需要建立一个分层捕获,在当前规则中捕获每个文章的细节。为CNKI_文章数据生成线索的数据页的URL。

  

  图 5

  如图5所示,具体操作如下:

  #1.将要爬取的下级链接映射到排序框中

  #2.查看关键内容

  #3.点击排序框顶部节点复制样本。要抓取当前页面文章的所有下级链接,需要复制样本。详情请参考教程:

  #4.跳转到爬虫路由工作台做翻页线索。要抓取翻页的文章,需要做翻页线索。详情请参考教程:

  保存规则后,CNKI_search结果规则就完成了,接下来需要做文章详细页面的爬取规则。

  三、第三条规则——知网_文章数据_more

  1.将网页上的“更多”按钮映射到排序框作为内容映射,查看重点内容。

  2.在爬虫路由工作台上做一个模拟点击,即为“更多”做一个标记轨迹作为标记。

  

  图 6

  如图6所示,具体操作如下:

  #1.新建一个标记线索,勾选Consecutive fetching,意思是爬虫在执行抓取任务时,在同一个DS计数器窗口抓取到当前页面后,可以直接跳转到下一页。抓住。

  #2.点击“更多”按钮,自动定位页面标签节点,展开节点,找到收录“更多”的文本节点。

  #3.在文本节点上右键,Clue Mapping → Mark Clue,可以看到“more”自动填入了mark值。

  #4.将节点映射到线索范围,右击翻页块节点,选择线索映射→定位→线索1,完成后定位号会显示页面的定位号-转块节点。

  保存规则后,知网_文章Data_More规则就完成了,接下来需要完成一些“更多”知网来执行抓取的规则——知网_文章Data。

  提示:第三条和第四条规则演示模拟点击。不明白的可以参考教程:

  四、第四条规则——知网_文章数据。

  这个规则是最简单的类型,将需要爬取的内容映射到一个bin中。

  

  图 7

  如图7所示,具体操作如下: #1. 将要抓取的内容映射到排序框中。

  五、修改文章详细页面URL参数,构造新URL,生成第三条规则线索——hownet_文章data_more

  将第二条规则采集的详情页的链接导入excel。

  

  图 8

  可以发现不是完整的URL,DS计数器也无法构造URL直接生成可访问的URL,需要用excel手动修改。

  对比详情页的完整网址,如下:

  可以发现采集的链接缺少了之前的域名,增加了“/kns”部分。您可以使用该功能修改链接。

  

  图 9

  在J2单元格中输入公式=""&RIGHT(I2,LEN(I2)-4)获取可访问的URL并填写,这样就可以将获取的URL作为第三个批量添加规则的线索。

  如有疑问,您可以或

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线