实时抓取网页数据( 基于Python的网络爬虫与反爬虫技术研究[J])

优采云 发布时间: 2022-02-04 11:12

  实时抓取网页数据(

基于Python的网络爬虫与反爬虫技术研究[J])

  基于Python爬虫技术的网页解析与数据获取研究

  温雅娜、袁子良、何永辰、黄萌

  (灾害预防与技术学院, 河北三河 065201)

  摘要:网络的发展、大数据和人工智能的兴起让数据变得尤为重要。各行各业的发展都需要数据的支撑。任何一种深度学习和算法都需要大量数据作为模型。训练以得出更准确的结论。本文讨论了网络爬虫实现中的主要问题:了解网页的基本结构,使用直观的网页分析工具抓取和分析网页,如何使用正则表达式获取准确的字符串信息,以及使用Python实现简单的页面数据获取。

  关键词:网络爬虫; Python;正则表达式;抓包分析

  中国图书馆分类代码:TP391.3 文献识别代码:A 文章编号:2096-4706 (2020)01-0012-03

  基于Python爬虫技术的网页分析与数据采集研究

  温雅娜、袁子良、何永臣、黄萌

  (中国防灾研究所,三河 065201)

  摘要:随着网络的发展,大数据和人工智能的兴起,数据变得越来越重要。各行各业的发展需要数据的支撑。任何一种深度学习和算法都需要大量的数据作为模型进行训练,才能得到更准确的结论。本文讨论了网络爬虫实现中的主要问题:了解网页的基本结构,使用直观的网页分析工具分析网页,如何使用正则表达式获取准确的字符串信息,以及使用Python实现简单的页面数据获取。

  关键词:网络爬虫; Python;正则表达式;抓包分析

  资助单位:防震减灾专项;中央高校基本科研业务费专项资金(ZY20180124)

  参考资料:

  [1]郭尔强,李波。大数据环境下基于Python的网络爬虫技术[J].计算机产品与流通,2017 (12): 82.

  [2]李沛。基于Python的网络爬虫与反爬虫技术研究[J].计算机与数字工程, 2019, 47 (6): 1415-1420+1496.

  p>

  [3] 王朝阳.基于Python的图书馆信息系统设计与实现[D].长春:吉林大学,2016.

  [4] 徐衡.社交网络数据采集技术研究与实现[D].长春:吉林大学,2016.

  [5] 孙建利,贾卓生。基于Python的Web爬虫实现与内容分析研究[C]//中国计算机用户协会网络应用分会2017年第21届网络新技术与应用年会。中国计算机用户协会网络应用分会2017年第21届网络新技术与应用年会论文集.河北雄安:计算机科学编辑部,2017:275-277+281.

  [6] 陈琳,任芳。基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016 (9): 97-99.

  [7] 卢淑芬。基于Python的Web爬虫系统设计与实现[J].计算机编程技能与维护,2019 (2): 26-27+51.

  [8] 熊畅。基于Python爬虫技术的Web数据采集与分析研究[J].数字技术与应用, 2017 (9): 35-36.

  [9] 吴双。基于python语言的Web数据挖掘与分析研究[J].计算机知识与技术, 2018, 14 (27):1-2.

  作者简介:文雅娜(1999.03-),女,汉族,内蒙古包头人,本科,学士,研究方向:人工智能与软件开发与应用。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线