动态网页抓取(BeyondCompare分析动态网页的分析及应用方法分析方法解析)

优采云发布时间: 2021-12-10 06:03

　　一、分析动态网页

　　1、分析工具

　　使用 Beyond Compare 分析网页是否收录动态部分。

　　2、直接python分析判断

　　找到需要锁定的内容，按照常规方式爬取测试。如果不能爬取，就应该考虑是否有动态网页！！

　　二、常见解决方案

　　1、找到JS文件

　　之前我已经掌握了一个解决方法，就是找到动态网页的js文件，很简单，但是美中不足的是找到加载的js文件，找到这些动态网页的规则。这里我们需要依靠人工搜索。

　　推荐教程：Python爬取js动态页面

　　2、python 网络引擎

　　安装：

　　selenium的安装很简单：

　　pip 安装硒

　　phantomjs的安装有点复杂：

　　首先下载安装nodejs，很简单。

　　如需使用浏览器显示，请安装相应的浏览器驱动：

　　查看 chromedriver 教程

　　Selenium + chrome/phantomjs 教程

　　直接代码，代码里有详细的解释，后面不解释的文章后面会给出解释：

　　import re

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.common.exceptions import TimeoutException

from pyquery import PyQuery as pq

import pymongo

client = pymongo.MongoClient('localhost')

db = client['tbmeishi']

driver = webdriver.PhantomJS(service_args=['--ignore-ssl-errors=true','--load-images=false','--disk-cache=true'])

driver.set_window_size(1280,2400) #当无浏览器界面时必须设置窗口大小

#driver = webdriver.Chrome()

wait = WebDriverWait(driver, 10)

def search():

try:

driver.get('https://www.taobao.com/') #加载淘宝首页

#等待页面加载出输入框

input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#q")))

#等待页面出现搜索按钮

submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#J_TSearchForm > div.search-button > button")))

input.send_keys('美食') #向输入框中输入‘美食’关键字

submit.click() #点击搜索按钮

#等待页面加载完

total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total')))

#第一页加载完后，获取第一页信息

get_products()

return total.text

except TimeoutException:

return search()

def next_page(page_number):

try:

# 等待页面出现搜索按钮

submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > ul > li.item.next > a")))

submit.click() # 点击确定按钮

#判断当前页面是否为输入页面

wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number)))

#第i页加载完后，获取页面信息

get_products()

except TimeoutException:

return next_page(page_number)

def get_products():

wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))

html = driver.page_source

doc = pq(html)

items = doc('#mainsrp-itemlist .items .item').items()

for item in items:

product = {

'image': item.find('.pic .img').attr('src'),

'price': item.find('.price').text(),

'deal': item.find('.deal-cnt').text()[:-3],

'title': item.find('.title').text(),

'shop': item.find('.shop').text(),

'location': item.find('.location').text()

}

print(product)

#save_to_mongo(product)

def save_to_mongo(result):

try:

if db['product'].insert(result):

print('存储到MONGODB成功', result)

except Exception:

print('存储到MONGODB失败', result)

def main():

try:

total = search()

total = int(re.compile('(\d+)').search(total).group(1))

for i in range(2,total+1):

print('第 %d 页'%i)

next_page(i)

except Exception as e:

print('error!!!',e)

finally:

driver.close()

if __name__ == '__main__':

main()

　　做selenium的时候最好参考一下，里面有很多用法。

　　from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.common.exceptions import TimeoutException

　　使用无界面操作时，一定要注意设置窗口大小，尽量设置的大一些。如果这个尺寸设置的比较小，一定不能用JavaScript的scroll命令来模拟页面向下滑动显示更多内容的效果，所以设置一个更大的窗口来渲染

　　driver.set_window_size(1280,2400)

　　Selenium 实现了一些类似于xpath的功能，可以使用驱动直接获取我们想要的元素，直接调用如下方法：

　　但是这个方法太慢了，我们一般不使用。而是驱动直接获取网页源码：html = driver.page_source，然后使用lxml + xpath或者BeautifulSoup解析；

　　另外，还可以使用另一种方法来解析：pyquery

　　参考这两篇博文：

　　下面的代码是使用pyquery方法解析的，真的很简单。

　　def get_products():

wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))

html = driver.page_source

doc = pq(html)

items = doc('#mainsrp-itemlist .items .item').items()

for item in items:

product = {

'image': item.find('.pic .img').attr('src'),

'price': item.find('.price').text(),

'deal': item.find('.deal-cnt').text()[:-3],

'title': item.find('.title').text(),

'shop': item.find('.shop').text(),

'location': item.find('.location').text()

}

print(product)

　　Selenium 还包括很多方法：

　　注意：

　　操作结束后，必须调用driver.close()或driver.quit()退出phantomjs，否则phantomjs会一直占用内存资源。

　　推荐使用 driver.service.process.send_signal(signal.SIGTERM)

　　可以强制杀，Windows下百度

　　在 Linux 下：

　　ps辅助| grep phantomjs #查看phantomjs进程

　　pgrep phantomjs | xargs kill #kill 所有 phantomjs

　　PhantomJS 配置

　　driver = webdriver.PhantomJS(service_args=['--ignore-ssl-errors=true','--load-images=false','--disk-cache=true'])

　　--ignore-ssl-errors = [true|false]#是否检查CA证书和安全

　　--load-images = [true|false]#是否加载图片，一般不加载，节省时间

　　--disk-cache = [true|false]#是否缓存

　　最后总结一下，常规的爬虫方法比较容易操作，尤其是在使用selenium的一些方法的时候，初学者觉得很吃力；而且selenium+phantomjs的方法会比较慢，应该相当于一个人在访问网页，会需要等待加载时间，而常规的爬取方式是直接取网页代码，会快点。当然，有时候selenium+phantomjs会简单很多。伪装成一个人访问，反爬虫不容易找到。此外，一些网页有陷阱。传统的方法会很麻烦。对于慢的问题，可以使用多线程来解决。

　　总而言之，逐案！！！！

0

2021-12-10

动态网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

动态网页抓取(BeyondCompare分析动态网页的分析及应用方法分析方法解析)

0 个评论

发起人