实时抓取网页数据(实时抓取网页数据是一个非常好的方案，先说知道的一种方法)

优采云发布时间: 2021-11-26 02:02

　　实时抓取网页数据是一个非常好的方案，先说我知道的一种方法：借助收集网页的buffer或者filesystem（文件系统），或者定时内网来实现对*敏*感*词*网页的抓取。这种方法的弊端在于抓取速度慢，抓取人员会非常被动，只能说是人工去读取和翻译。如果是需要抓取大数据的话，必须要有数据分析相关的知识，推荐收集对*敏*感*词*网页数据的收集和分析的知识，推荐kalilinux或者ubuntu的脚本。

　　我通常使用shell，直接写代码，然后一行一行执行。

　　最好用windows系统，

　　webdriver可以让你一次性抓好多网页内容

　　不是最快捷的方法，awk,可以搜索一下，可以了解写buffer，inc抓取速度可以保证。

　　目前用go。shell写的buffer或者filesystem抓取网页源代码挺好。本人没有抓取*敏*感*词*网页的经验，但是目前正在学习调试中。所以应该抓取网页有两个办法：1.应用开发中可以用asyncio.2.生成的json对象有该json对象有针对socket的相关event。

　　win32api

　　bing“xss”网页就可以抓取了，不过一般都是静态的网页，动态的才用浏览器去抓，毕竟有cookie机制，抓取的网页内容是网页本身，可以解析json数据再用python解析生成text，或者直接用nodejs的jsonparser抓取，这样以后换浏览器，网页依然可以变，不过你看不到了，因为和本机内容不同，win7以上系统都可以禁止后台运行浏览器，有sql注入漏洞，所以重新抓取后需要手动关闭。

0

2021-11-26

实时抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

实时抓取网页数据(实时抓取网页数据是一个非常好的方案，先说知道的一种方法)

0 个评论

发起人

AI时代内容工厂

实时抓取网页数据(实时抓取网页数据是一个非常好的方案，先说知道的一种方法)

0 个评论

发起人

相关问题