如何抓取网页数据(多页数据,我一般的操纵过程:多页面数据)

优采云 发布时间: 2021-09-22 18:35

  如何抓取网页数据(多页数据,我一般的操纵过程:多页面数据)

  借用帖子讲座,多页数据,我的常规操作过程:

  首先要看。

  URL要观察页面,或者使用httpfox请参阅URL参数,如果帖子,则可以查看是否得到。然后尝试查看您是否可以通过URL更改交换机。

  如果可以,它很简单。

  然后,尝试查看Excel本身的功能,导入Web数据无法接受数据,线路,记录宏改变循环。

  因为Excel带来了导入函数,它非常强大,只要页面是非透视或脚本写入或框架,直接源代码都有一个表代码,可以直接使用QueryTable拍摄。

  如果querytable需要不到几个,它是动态网页和其他页面的一般情况,或帧,我通常会使用httpfox,进一步找到数据页的真实源(通常是第一页是切换到第二页所以去尝试,很容易找到),发现,后续只不过是非常简单,文本处理,使用XMLHTTP进行处理,后续只要注意调整HTTP标题消息,帖子或其他东西。页面的更多异常部分,有陶瓷态处理,大多数XMLHTTP都无法处理,需要WinHTTP这个对象,但对象和XMLHTTP非常相似,无论如何,只不过是伪造或cookie的推荐或多页跳转,我在适当的论坛帖子中有助于答案,你翻转知道。

  最后,如果后缀是.asp或.aspx页面,通常比较变态,后参数有这种“_viewstate”,ViewState存在,要读取,你想读取一个业务,这个页面一般更累。有时我使用IE / WebBrowser来处理它。它相对简单。原则也很简单。它是DOM的机制,拿走数量,没有什么可以找到数据的数据,然后去TR,拿TD,无论如何,用Firebug观察就是。

  最终,是一个类,一个非常变量的页面,是一个框架页面,它可以禁止跨域访问,无论如何您搜索我的帖子,稍后我使用了一些用Java与外国专家写的一些功能,伪造了一个容器,剥离框架,然后访问读取。

  简而言之,做更多的事情是非常重要的,只要知道如何处理它。最后,我实际上采取了这件作品,不需要太多的JavaScript语言学习,但有很多好处。例如,脚本生成数据,可以使用页面代码,然后使用MSScriptControl控件直接处理脚本,生成数据流,导出。

  此外,越来越多的页面是XML格式。获取XML样式后,它是XML DOM的继续采集。或者,您也可以获得HTML代码,如您正在谈话,但我使用Microsoft.xmldom对象直接调用HTML文档对象,然后有

  loadxml和其他方法,加载代码文本,有时它可以成功构建XML样式或HTML样式,或者制作简化的操作数。但我很少这样做。我总是觉得它尽可能使用IE方法。

  最后,VBA在页面内的处理,实际上,如果你从一台电脑和一定的背景开始,那就会更加困难,建议你直接去比较AAU学习这个软件,优势是很多图书馆参考代码编号,您可以导入库啊或复制粘贴,这很方便,但前提是语法更类似于JavaScript,最好有一个相关的语言背景。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线