js 抓取网页内容(javajs抓取网页内容主要是看你需要做什么?)
优采云 发布时间: 2021-11-01 14:41js 抓取网页内容(javajs抓取网页内容主要是看你需要做什么?)
js抓取网页内容
主要是看你需要做什么,如果是简单的服务器转发,在低带宽时也可以做到,可以利用json库进行,提前获取部分常用字段,就可以进行处理了,比如转发等。
千万别把js引入到http请求里!!!引入js超级坑爹,
如果你是做成普通网页。
cookie?
作为一个已经入行并有一段时间从事于爬虫的学生来说,爬虫的网页转发特性的优化,除了浏览器内核的xhr都被你pass了。可以用cookie转发我也想过但是问题有:cookie没有传播速度不够快连着看到同一段时间的就不行了(好像现在很多ide都可以生成cookie然后另存为在创建一个的方式)缓存有点昂贵(之前爬一个很大的数据库也才1k~2krev.)然后我比较过java的内置xhrhttprequest和websocket,实在是没什么用就不考虑了但是我现在在考虑的是怎么写一个插件来防止重复爬数据。
参考http请求头,
如果只是为了抓取而抓取,那么对于静态页面可以考虑拦截或者提取爬虫的相关文档可以在xmlhttprequest中提取网页链接对于json数据有些情况下可以直接拿出来用selector遍历处理,或者拿值来也是可以的不过有些工具会自动检测json格式判断是否一致判断准确率的问题,反正我的策略就是尽量用人肉写代码,避免使用异步代理等等。