网页中flash数据抓取(网页中flash数据抓取分析按行抓取,抓取到几十页)
优采云 发布时间: 2022-02-12 14:00网页中flash数据抓取(网页中flash数据抓取分析按行抓取,抓取到几十页)
网页中flash数据抓取分析按行抓取,如抓取到静态页面上的一个链接,把该链接的allurls全抓取下来。全抓取下来之后按pagecount去查看该网页查看所有flash并分析发现只有打开url的前3页,我们用正则(匹配后面的allurls)把这3页抓到,再用这3页去爬取其他页面。
我现在是用过flash的pro程序,flash的url算法很复杂,想要一个简单的方法是simple,但如果要更高级的用法也是有的。在网页头包含的地方加上allurls。all,然后我查了下,这个allurls里有几十上百的urls,flash的pro程序里也只能匹配到前3页,那么我就在程序里加上allurls+3页算法,当程序第一次抓取了几十页,然后再查看一下idf32中有没有在内的flash,没有就找找是哪个url下的,那么flash就有收集足够多的url,就可以生成列表页,然后就可以去查询了。
直接回答1题,可以匹配,然后用allurls方法,,但是网站得没有被删库,提示不是本地登录,这种情况下一般会使用默认浏览器中或者再改动一下2是否url是flash?||不是的话用js获取3可以匹配一个外层url的,之后使用post方法来匹配其内容,这种模式一般会使用浏览器后台。
应该是不行的
可以,但是网站页面保存空间比较大。需要先抓一下表面的页面,再用大的php去爬,有可能就抓取不了内部页面了。