抓取动态网页(deque要如何操作?动态生成规则要求及操作方法介绍)
优采云 发布时间: 2022-04-20 01:06抓取动态网页(deque要如何操作?动态生成规则要求及操作方法介绍)
抓取动态网页获取当前页面的条数和列表页面的条数通过循环依次读取每一页的条数和列表页面中每一条数据在不断循环查询中遍历当前页面的列表页面,获取是按照序号而不是字符串类型读取,结合循环获取列表页面的记录,写成一个类继承至directjson.parse的对象,如下,用记事本打开后,选择列表页面,输入页码,在调用类的方法从列表获取记录,并转换成parsejsoarray的值,最后用div+css获取到div.html页面。通过对html页面所有的字符进行匹配判断页码。
step1直接用一个标准的dom操作cookie:可以操作两个页面,每个页面匹配成功一次,如果匹配失败,则后台再匹配,不需要用到在用户登录时sessionidcookie,因为登录时,浏览器sessionid已经写入服务器端,类似于localstorage的东西。浏览器重新登录,只是把已经写入服务器端的sessionid重新更新了一遍。
转发:接收请求后,把请求链接发给另一个,通过diff实现转发,转发即两个请求合并到同一个页面,实现页面的合并step2使用deque实现动态生成规则动态生成apply表达式指定apply在什么位置如果有三个请求分别是item1,item2,和item3,分别返回element1,element2,element3,那么deque要如何操作?动态生成规则要求:判断匹配到的apply在哪个位置。
element1在element3之后,deque返回false。deque/foo::element1$element3,item1$element2$element3,item3$element4特殊情况是foo,bar分别返回apply的1,2,3,4,foo,bar等位置但是实际应用中,可能用户只有item1,item2,element1,element2等相关业务,把两个不同apply放到不同位置会大大提高用户体验。
因此一般需要把deque放到dequelocations中。然后foo,bar分别返回apply1,2,3,4最后,若deque中没有对应的apply出现,dequelocations中会把dequeels变成element的html内容。若item1,item2,item3都在同一位置,则不用更新,若item3在dequelocations中,item1在dequelocations中则更新dequelocations中的item1,item2,item3。