java爬虫抓取网页数据(一共需要做四个规则：第一个规则“第二个规则图” )

优采云发布时间: 2022-03-22 20:41

　　java爬虫抓取网页数据(一共需要做四个规则：第一个规则“第二个规则图”

)

　　2.如何使用快捷键采集：如何使用快捷键采集

　　通过CNKI高级搜索，输入关键词，即可获取相关的文章标题、作者、摘要、关键词等信息。但是CNKI在输入关键词进行搜索后并没有改变URL，所以在爬取的时候，我们需要爬虫自动输入目标关键词来搜索并开始爬取数据。

　　要获取标题、作者、摘要、关键词等信息，我们一共需要制定四个规则：

　　第一条规则”

　　第二条规则”

　　提示：文章的部分摘要需要点击“更多”才能全部显示。为了抓取完整的摘要，我们需要制定一个规则来点击这个“更多”。

　　第三条规则”

　　第四条规则”

　　图1

　　一、第一条规则 - 知网搜索

　　1.以CNKI高级检索文献文章为例，将高级文献检索链接粘贴到某手。

　　第一条规则的主要工作是搜索关键词，但是为了有效地执行规则，我们在规则中抓取文章的类型。这里以文献为例，我们抓取的内容为“文献”，并勾选关键内容。

　　图 2

　　如图2所示，具体操作如下：

　　#1.将目标爬取网页粘贴到猫鼠台网址栏，回车。

　　#2.看到页面加载完毕。

　　#3.将抓取的内容“文档”映射到排序框中。

　　#4.选择文献的重点内容。

　　2.跳转到连续动作工作台输入关键词及其动作

　　关键词的自动输入点是建立两个步骤。第一步是通过输入框的定位表达式找到输入框，然后输入关键词。第二步，通过定位表达式找到搜索按钮，然后爬虫自行点击按钮。

　　2.1 创建输入步骤

　　图 3

　　如图3所示，具体操作如下：

　　#1.输入目标主题名，即第二条规则主题名，表示第二条规则搜索到关键词后会执行爬取

　　#2.点击谁在使用，查看输入的主题名是否被其他人占用。如果已经被其他人占用，则需要更改另一个主题名称。

　　#3.创建一个新的输入步骤。如上所述，首先是执行输入动作，所以这里是一个新的输入步骤。

　　#4.输入关键词进行搜索。

　　#5.根据网页结构填写输入框的定位表达式，即网页上能定位输入框的XPath表达式。写好表达式后，可以使用MS的搜索功能进行验证。定位是否准确，详见网页内容搜索方法。

　　2.2 构建和提交步骤

　　图 4

　　如图4所示，具体操作如下：

　　#1.根据网页结构填写检索定位表达式，即网页上能定位输入框的XPath表达式。写好表达式后，可以使用MS的搜索功能来验证是否定位准确。详情请参阅搜索网页内容的使用方法。

　　保存规则后，知网搜索就完成了。

　　二、第二条规则——知网搜索结果

　　该规则负责通过知网搜索对关键词搜索到的页面进行爬取。此规则与定义普通规则相同。

　　将要爬取的内容映射到排序框中。如果我们想要捕获每个文章的详细数据抽象作者，我们需要建立一个分层捕获，在当前规则中捕获每个文章的细节。为CNKI_文章数据生成线索的数据页的URL。

　　图 5

　　如图5所示，具体操作如下：

　　#1.将要爬取的下级链接映射到排序框中

　　#2.查看关键内容

　　#3.点击排序框顶部节点复制样本。要抓取当前页面文章的所有下级链接，需要复制样本。详情请参考教程：

　　#4.跳转到爬虫路由工作台做翻页线索。要抓取翻页的文章，需要做翻页线索。详情请参考教程：

　　保存规则后，CNKI_search结果规则就完成了，接下来需要做文章详细页面的爬取规则。

　　三、第三条规则——知网_文章数据_more

　　1.将网页上的“更多”按钮映射到排序框作为内容映射，查看重点内容。

　　2.在爬虫路由工作台上做一个模拟点击，即为“更多”做一个标记轨迹作为标记。

　　图 6

　　如图6所示，具体操作如下：

　　#1.新建一个标记线索，勾选Consecutive fetching，意思是爬虫在执行抓取任务时，在同一个DS计数器窗口抓取到当前页面后，可以直接跳转到下一页。抓住。

　　#2.点击“更多”按钮，自动定位页面标签节点，展开节点，找到收录“更多”的文本节点。

　　#3.在文本节点上右键，Clue Mapping → Mark Clue，可以看到“more”自动填入了mark值。

　　#4.将节点映射到线索范围，右击翻页块节点，选择线索映射→定位→线索1，完成后定位号会显示页面的定位号-转块节点。

　　保存规则后，知网_文章Data_More规则就完成了，接下来需要完成一些“更多”知网来执行抓取的规则——知网_文章Data。

　　提示：第三条和第四条规则演示模拟点击。不明白的可以参考教程：

　　四、第四条规则——知网_文章数据。

　　这个规则是最简单的类型，将需要爬取的内容映射到一个bin中。

　　图 7

　　如图7所示，具体操作如下： #1. 将要抓取的内容映射到排序框中。

　　五、修改文章详细页面URL参数，构造新URL，生成第三条规则线索——hownet_文章data_more

　　将第二条规则采集的详情页的链接导入excel。

　　图 8

　　可以发现不是完整的URL，DS计数器也无法构造URL直接生成可访问的URL，需要用excel手动修改。

　　对比详情页的完整网址，如下：

　　可以发现采集的链接缺少了之前的域名，增加了“/kns”部分。您可以使用该功能修改链接。

　　图 9

　　在J2单元格中输入公式=""&RIGHT(I2,LEN(I2)-4)获取可访问的URL并填写，这样就可以将获取的URL作为第三个批量添加规则的线索。

　　如有疑问，您可以或

0

2022-03-22

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(一共需要做四个规则：第一个规则“第二个规则图” )

0 个评论

发起人