动态网页抓取(动态网页抓取有两种方式可以考虑:如何让服务器不受影响)

优采云 发布时间: 2022-03-24 18:01

  动态网页抓取(动态网页抓取有两种方式可以考虑:如何让服务器不受影响)

  动态网页抓取有两种方式可以考虑:1.原生动态网页抓取https即http协议原生返回给浏览器。抓取时,推荐使用抓包工具,比如:awk或者python内置库pyspider。2.restful动态网页抓取rest风格是一种对传统http协议(post请求)的模拟与封装。用户传递给服务器的参数是以字符串形式的数据传递,但是由于post方式无法传递链接参数,所以网站设计人员会采用其他http协议方式返回数据。

  如图所示:这种方式在http协议基础上根据抓取的用户方式不同,用户端与服务器通过一定的协议链接数来传递数据,如用户可以自定义的结构化传递数据。这种实现的特点是:可以将数据安全传递给web服务器。这种实现非常容易实现,但是在参数的处理上稍微麻烦点,代码耦合性也高。

  https简单说就是http协议的安全升级版。所以可以用网页抓包工具实现。

  https提供ssl协议,能够防止数据被篡改。但是依然存在可以被窃取的隐患。比如知乎上就有过类似的漏洞,抓包工具能被抓取。如何让服务器不受影响的情况下,抓取数据的话,就是利用session可以来实现对服务器中的数据进行会话控制。但是session也是存在有一定的可能被嗅探,泄露数据的风险。此外,session会有个不定期的频率刷新,保证数据都不会被修改,这就意味着session无法防止注入。

  但是,既然你说是静态的网页,通常是在iframe中放置返回text,也能够保证不会进行其他暴力破解。如果有想法,可以去爬一些小网站去研究下。如果想去看视频,可以到找个自动化爬虫工具,把站点访问计划给打好,然后自己跑流程...最后题主要注意安全,最安全的策略就是不要随便用非本地机器来爬,如果用后台服务器不方便做黑产,可以考虑sqlmap,写一个通用的sqlmap工具,对视频页面也可以的,主要是抓数据。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线