PythonBeautifulSoup和Selenium+Phantomjs技术爬取目标页面的效果

优采云 发布时间: 2021-05-05 02:26

  PythonBeautifulSoup和Selenium+Phantomjs技术爬取目标页面的效果

  一、起源

  这部电影文章是作者在文章之前写的:“及时从某个网站抓取压缩包”和““爬虫”从某个网站抓取数据”。采集器将学习并将其应用于另一个新功能扩展说明。该脚本的核心功能如下:

  每天晚上11点和17:00准时进行房屋管理局的注册网站当前[注册]项目信息和当前注册人数(定时推送时间可以根据实际情况自由配置)情况)7x24实时监控房屋管理局的注册网站,一旦有注册项目[即将推出],我们将发送微信消息提醒所有人二、思考

  首先,使用Python BeautifulSoup和Selenium + Phantomjs技术抓取目标页面的必填字段

  然后,将目标字段组织为易于读取的字符串类型数据,并将微信通过Python3通过微信的第三方库wxpy发送给您要通知的联系人或群聊。

  最后,定期在jenkins中构建爬虫脚本,以达到定期推送爬虫数据和实时监控的效果

  三、说明

  

  脚本结构

  环境:Linux + jenkins,用于部署实时监视脚本和jenkins环境Python 3. 6 + BeautifulSoup(bs 4)库+ Selenium Phantomjs,爬虫脚本主要基于bs4和Phantomjs,Phantomjs主要用于爬网WeChat.py和runWeChat.py的加密页面数据是WeChat推送方法的实现和WeChat登录的实现,在receiveCfg.ini文件中配置收件人或群聊,其余脚本为脚本可以在目标网站中抓取需求字段。有关详细信息,请参见README.md文件四、实现

  因为为此功能开发了许多脚本,所以我不会一一解释。有关详细信息,请参阅项目的Git地址,但需要强调:

  五、最后

  

  推送微信消息

  

  祝大家

  Git地址:

  好!

  〜

  〜

  〜

  如果不积累步骤,就无法达到数千英里。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线