php抓取网页指定内容(php抓取网页指定内容建议用urllib2包对象来调用)
优采云 发布时间: 2022-02-11 13:03php抓取网页指定内容(php抓取网页指定内容建议用urllib2包对象来调用)
php抓取网页指定内容建议用urllib2包request对象来调用,这个包提供网页内容的解析,但不做html页面的读写操作。
php用xmlhttprequest写爬虫
楼上说的都对,还有,
urllib2.4有xmlhttprequest接口来接收网页的get、post请求,但是一般的内容获取,一般用python的lxml库接收,再传给xmlhttprequest方法实现。
你得先定义一个网页源码加载器,然后用xpath定位到文本内容,再用ajax接收文本,或者用直接用request访问网页获取文本,
个人经验,用模拟登录登录的话,把反爬虫弄出来,然后ie只要是http协议的就会把你访问的页面截取出来,
我们也是刚开始起步,用了xpath编写,
可以用xmlhttprequest,ajax这些标准来做,
你得先进行定位,如果你调用ajax可以直接在xmlhttprequest对象调用爬虫程序,如果调用xmlhttprequest这个接口就可以用xmlhttprequest。request来调用,从而进行html页面的读取;request是对网页js代码的接口,假如你直接传过去xmlhttprequest对象,js代码在你的网页中编写的时候就会使用你编写的ajax接口进行数据的传输;在调用request的时候也是调用https协议来接收数据的,目前没想到其他的办法,期待其他的大神指点。