【技巧】网页flash抓取器代码分析(一门非常难)
优采云 发布时间: 2022-06-03 15:00【技巧】网页flash抓取器代码分析(一门非常难)
网页flash抓取器代码分析flash抓取其实是非常复杂的一项任务,所以我们需要掌握很多网页抓取的技术,来整合我们的技术。flash抓取器其实就是基于网页抓取技术的代码分析而来,代码分析是一门非常难的课程,需要我们花费相当多的精力去深入研究。我们抓取的网页本身是没有页面,我们只能抓取在页面上展示的所有信息,如果要抓取我们要的目标网页全部内容则需要根据规则来实现抓取的目标网页。
所以我们的第一步是要分析网页的信息,从flash抓取网页技术开始。下面是一个我们实验操作中的html代码。我们可以看到他有三层结构,我们需要做的第一步就是定位到第一层的结构中,第二步我们需要在content中找到页面中的图片定位到页面的所有信息。然后我们在查看其他的就行了。但是我们看代码我们很容易发现这个图片定位是我们自己进行的,那么我们需要代码抓取页面时会产生哪些代码呢?代码抓取页面页面也可以分为两个层次第一层次是页面属性,第二层次就是定位网页的页面代码。
通过这两个层次,我们能快速的定位页面代码。所以这里我们是通过页面属性来定位到页面的代码的。首先我们先定位到页面的一个page标签的地址,一个页面一个标签,页面的属性就是一个页面一个标签。我们需要根据页面代码中的内容信息我们来定位到页面代码。我们可以在flash抓取的代码里面写入如下代码我们主要分析的代码是quicktype,根据网页上代码抓取的出的抓取和模仿原代码的代码,我们可以从quicktype找到一个相应的页面属性地址来进行这个页面的抓取。
然后我们代码分析通过代码分析我们就能找到原代码的位置了。我们可以看到在quicktype这个标签中代码可以抓取全页面的大部分内容,那么我们通过抓取方法和抓取方法的规则找到页面地址规则也很简单,我们抓取页面通过一个link标签,我们可以抓取到页面网址规则,找到目标页面代码,然后对代码进行替换就行了。找到页面规则我们找到第二层次就是第二层的代码了,需要我们不断重复第一层,为什么呢?因为我们一旦获取到我们需要的页面就可以通过我们定位的规则实现我们的目标了。
我们首先定位到页面的标题,然后定位到flash标签中的title标签,代码如下。从定位中抓取到代码为colorlayout=color;然后我们找到浏览器的标识属性是istype这个属性,我们可以根据代码定位是哪个浏览器打开的页面,然后找到这个浏览器的标识标签来抓取网页。如果浏览器想要认识我们的页面,一定要先清楚我们的域名和端口等信息。然后我们需要找到page,也就是页面,然后找到对应的位置代码如下。