动态网页抓取(BeyondCompare分析动态网页的分析及应用方法分析方法解析)
优采云 发布时间: 2021-12-10 06:03动态网页抓取(BeyondCompare分析动态网页的分析及应用方法分析方法解析)
一、分析动态网页
1、分析工具
使用 Beyond Compare 分析网页是否收录动态部分。
2、直接python分析判断
找到需要锁定的内容,按照常规方式爬取测试。如果不能爬取,就应该考虑是否有动态网页!!
二、常见解决方案
1、找到JS文件
之前我已经掌握了一个解决方法,就是找到动态网页的js文件,很简单,但是美中不足的是找到加载的js文件,找到这些动态网页的规则。这里我们需要依靠人工搜索。
推荐教程:Python爬取js动态页面
2、python 网络引擎
安装:
selenium的安装很简单:
pip 安装硒
phantomjs的安装有点复杂:
首先下载安装nodejs,很简单。
如需使用浏览器显示,请安装相应的浏览器驱动:
查看 chromedriver 教程
Selenium + chrome/phantomjs 教程
直接代码,代码里有详细的解释,后面不解释的文章后面会给出解释:
import re
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from pyquery import PyQuery as pq
import pymongo
client = pymongo.MongoClient('localhost')
db = client['tbmeishi']
driver = webdriver.PhantomJS(service_args=['--ignore-ssl-errors=true','--load-images=false','--disk-cache=true'])
driver.set_window_size(1280,2400) #当无浏览器界面时必须设置窗口大小
#driver = webdriver.Chrome()
wait = WebDriverWait(driver, 10)
def search():
try:
driver.get('https://www.taobao.com/') #加载淘宝首页
#等待页面加载出输入框
input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#q")))
#等待页面出现搜索按钮
submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#J_TSearchForm > div.search-button > button")))
input.send_keys('美食') #向输入框中输入‘美食’关键字
submit.click() #点击搜索按钮
#等待页面加载完
total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total')))
#第一页加载完后,获取第一页信息
get_products()
return total.text
except TimeoutException:
return search()
def next_page(page_number):
try:
# 等待页面出现搜索按钮
submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > ul > li.item.next > a")))
submit.click() # 点击确定按钮
#判断当前页面是否为输入页面
wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number)))
#第i页加载完后,获取页面信息
get_products()
except TimeoutException:
return next_page(page_number)
def get_products():
wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))
html = driver.page_source
doc = pq(html)
items = doc('#mainsrp-itemlist .items .item').items()
for item in items:
product = {
'image': item.find('.pic .img').attr('src'),
'price': item.find('.price').text(),
'deal': item.find('.deal-cnt').text()[:-3],
'title': item.find('.title').text(),
'shop': item.find('.shop').text(),
'location': item.find('.location').text()
}
print(product)
#save_to_mongo(product)
def save_to_mongo(result):
try:
if db['product'].insert(result):
print('存储到MONGODB成功', result)
except Exception:
print('存储到MONGODB失败', result)
def main():
try:
total = search()
total = int(re.compile('(\d+)').search(total).group(1))
for i in range(2,total+1):
print('第 %d 页'%i)
next_page(i)
except Exception as e:
print('error!!!',e)
finally:
driver.close()
if __name__ == '__main__':
main()
做selenium的时候最好参考一下,里面有很多用法。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
使用无界面操作时,一定要注意设置窗口大小,尽量设置的大一些。如果这个尺寸设置的比较小,一定不能用JavaScript的scroll命令来模拟页面向下滑动显示更多内容的效果,所以设置一个更大的窗口来渲染
driver.set_window_size(1280,2400)
Selenium 实现了一些类似于xpath的功能,可以使用驱动直接获取我们想要的元素,直接调用如下方法:
但是这个方法太慢了,我们一般不使用。而是驱动直接获取网页源码:html = driver.page_source,然后使用lxml + xpath或者BeautifulSoup解析;
另外,还可以使用另一种方法来解析:pyquery
参考这两篇博文:
下面的代码是使用pyquery方法解析的,真的很简单。
def get_products():
wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))
html = driver.page_source
doc = pq(html)
items = doc('#mainsrp-itemlist .items .item').items()
for item in items:
product = {
'image': item.find('.pic .img').attr('src'),
'price': item.find('.price').text(),
'deal': item.find('.deal-cnt').text()[:-3],
'title': item.find('.title').text(),
'shop': item.find('.shop').text(),
'location': item.find('.location').text()
}
print(product)
Selenium 还包括很多方法:
注意:
操作结束后,必须调用driver.close()或driver.quit()退出phantomjs,否则phantomjs会一直占用内存资源。
推荐使用 driver.service.process.send_signal(signal.SIGTERM)
可以强制杀,Windows下百度
在 Linux 下:
ps辅助| grep phantomjs #查看phantomjs进程
pgrep phantomjs | xargs kill #kill 所有 phantomjs
PhantomJS 配置
driver = webdriver.PhantomJS(service_args=['--ignore-ssl-errors=true','--load-images=false','--disk-cache=true'])
--ignore-ssl-errors = [true|false]#是否检查CA证书和安全
--load-images = [true|false]#是否加载图片,一般不加载,节省时间
--disk-cache = [true|false]#是否缓存
最后总结一下,常规的爬虫方法比较容易操作,尤其是在使用selenium的一些方法的时候,初学者觉得很吃力;而且selenium+phantomjs的方法会比较慢,应该相当于一个人在访问网页,会需要等待加载时间,而常规的爬取方式是直接取网页代码,会快点。当然,有时候selenium+phantomjs会简单很多。伪装成一个人访问,反爬虫不容易找到。此外,一些网页有陷阱。传统的方法会很麻烦。对于慢的问题,可以使用多线程来解决。
总而言之,逐案!!!!