php抓取网页标签(三个不同的id你写php代码的时候可以输入id值)

优采云 发布时间: 2022-03-22 00:09

  php抓取网页标签(三个不同的id你写php代码的时候可以输入id值)

  php抓取网页标签是通过网页标签中的cookie进行的,标签页面有/aaa.cgi/这三个不同的id,你写php代码的时候可以输入id值的,这些id值会保存在这些标签中,当你写标签时才会被输入,所以解决办法是自己输入一个,然后.php写php程序解析这个id值。

  可以用抓包工具来识别,比如python的itchat和requests。

  你好,python中有个叫phantomjs的python库,你可以用它来抓取网页,不仅能识别url是不是有价值,还能生成浏览器地址,如下:#!/usr/bin/envpythonphantomjs。set_web_id("upzhaoboy")self。production("aaa。com")self。production("aaa。cgi")self。production("aaa。cn")。

  目前对于打开外部网页,针对性的解决思路只有爬虫请求页面时生成对应的ip地址,从而解决此问题。

  #!/usr/bin/envpython2#!/usr/bin/envpython2importrequestsimportjsonimporttimefromeasyrequestimportrequest#request函数是python2的importreimportsysfromeasyrequestimportcookie#cookie获取一个url的所有的浏览器地址,通过这些url,就可以获取这个页面的内容fromeasyrequestimportget_header#解析所有url的headerdefget_header(url):data={'appid':'8888','cookie':{'user-agent':'mozilla/5。

  0(windowsnt6。1;wow64)applewebkit/537。36(khtml,likegecko)chrome/72。3234。140safari/537。36'}}returndata#爬虫请求自动生成url的user_agent'appid','cookie'fromcookieimportuser_agentasintasintreplace_url='/'#访问这个页面的urldefget_url(url):returnhttp。

  urlopen(request。urlopen(url))。read()。decode('gbk')#获取json数据的编码eg=open('d:\\data\\aaa。json','w')aaa=eg。read()json=json。loads(aaa)returnjson。decode('utf-8')foriinrange(0,len(i)-1):try:status=i。

  get()exceptioerrorase:print("success")print(status)iftime。timestamp()>statusandi['json']。encode("gbk")=='b':#获取页面内容,不包括url中的英文(注意:在get_url函数中,用request对象会把所有内容转换为json格式)eg。read()e。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线