实时抓取网页数据( 基于Python的网络爬虫与反爬虫技术研究[J])
优采云 发布时间: 2022-02-04 11:12实时抓取网页数据(
基于Python的网络爬虫与反爬虫技术研究[J])
基于Python爬虫技术的网页解析与数据获取研究
温雅娜、袁子良、何永辰、黄萌
(灾害预防与技术学院, 河北三河 065201)
摘要:网络的发展、大数据和人工智能的兴起让数据变得尤为重要。各行各业的发展都需要数据的支撑。任何一种深度学习和算法都需要大量数据作为模型。训练以得出更准确的结论。本文讨论了网络爬虫实现中的主要问题:了解网页的基本结构,使用直观的网页分析工具抓取和分析网页,如何使用正则表达式获取准确的字符串信息,以及使用Python实现简单的页面数据获取。
关键词:网络爬虫; Python;正则表达式;抓包分析
中国图书馆分类代码:TP391.3 文献识别代码:A 文章编号:2096-4706 (2020)01-0012-03
基于Python爬虫技术的网页分析与数据采集研究
温雅娜、袁子良、何永臣、黄萌
(中国防灾研究所,三河 065201)
摘要:随着网络的发展,大数据和人工智能的兴起,数据变得越来越重要。各行各业的发展需要数据的支撑。任何一种深度学习和算法都需要大量的数据作为模型进行训练,才能得到更准确的结论。本文讨论了网络爬虫实现中的主要问题:了解网页的基本结构,使用直观的网页分析工具分析网页,如何使用正则表达式获取准确的字符串信息,以及使用Python实现简单的页面数据获取。
关键词:网络爬虫; Python;正则表达式;抓包分析
资助单位:防震减灾专项;中央高校基本科研业务费专项资金(ZY20180124)
参考资料:
[1]郭尔强,李波。大数据环境下基于Python的网络爬虫技术[J].计算机产品与流通,2017 (12): 82.
[2]李沛。基于Python的网络爬虫与反爬虫技术研究[J].计算机与数字工程, 2019, 47 (6): 1415-1420+1496.
p>
[3] 王朝阳.基于Python的图书馆信息系统设计与实现[D].长春:吉林大学,2016.
[4] 徐衡.社交网络数据采集技术研究与实现[D].长春:吉林大学,2016.
[5] 孙建利,贾卓生。基于Python的Web爬虫实现与内容分析研究[C]//中国计算机用户协会网络应用分会2017年第21届网络新技术与应用年会。中国计算机用户协会网络应用分会2017年第21届网络新技术与应用年会论文集.河北雄安:计算机科学编辑部,2017:275-277+281.
[6] 陈琳,任芳。基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016 (9): 97-99.
[7] 卢淑芬。基于Python的Web爬虫系统设计与实现[J].计算机编程技能与维护,2019 (2): 26-27+51.
[8] 熊畅。基于Python爬虫技术的Web数据采集与分析研究[J].数字技术与应用, 2017 (9): 35-36.
[9] 吴双。基于python语言的Web数据挖掘与分析研究[J].计算机知识与技术, 2018, 14 (27):1-2.
作者简介:文雅娜(1999.03-),女,汉族,内蒙古包头人,本科,学士,研究方向:人工智能与软件开发与应用。