网页抓取数据(wordpress后台用多线程模式的网页抓取数据库不行)

优采云 发布时间: 2021-09-18 00:08

  网页抓取数据(wordpress后台用多线程模式的网页抓取数据库不行)

  网页抓取数据,数据库不行,有几种情况就是wp的缓存策略有问题,先抓取到js,然后才加载页面。而且header也要设置好。另外就是问题是js可以单独分离出来看看有没有抓取成功的。

  wordpress后台用多线程模式的,可以试试wordpressserver多线程服务器端也是可以抓取的。

  首先是基础解决方案,能抓取页面,最好是有基本的wordpress插件。不过问题是,一旦做抓取,想提升体验,或者做跟踪,必须是那种小型站,地址栏很短。然后我的体验是,传统php抓取,如果请求稍微多一点,就会时不时闪退,一闪就用几秒,为啥呢?和网速没关系,主要是ie资源占用太高。现在我看来,相比缓存解决方案,对网速影响没那么大,我更喜欢https的抓取方案,当然我也有php缓存的插件,针对php。

  和其他公司一样,不同的是http协议不是标准。我们平时都是调用浏览器,javascript,css等等网站上都有,相同的网页用的是同一套协议。当然有些公司设置多个服务器也是为了不同用户提供不同服务。网页抓取类似抓取一样都可以用多线程来搞。

  通常提高页面性能就靠wordpress软件服务器开启异步机制来解决了:1.sendsomeapiinstances2.websocket(network)那么问题来了,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线