实时抓取网页数据( 基于Python的网络爬虫与反爬虫技术研究[J])

优采云发布时间: 2022-02-04 11:12

　　实时抓取网页数据(

基于Python的网络爬虫与反爬虫技术研究[J])

　　基于Python爬虫技术的网页解析与数据获取研究

　　温雅娜、袁子良、何永辰、黄萌

　　(灾害预防与技术学院, 河北三河 065201）

　　摘要：网络的发展、大数据和人工智能的兴起让数据变得尤为重要。各行各业的发展都需要数据的支撑。任何一种深度学习和算法都需要大量数据作为模型。训练以得出更准确的结论。本文讨论了网络爬虫实现中的主要问题：了解网页的基本结构，使用直观的网页分析工具抓取和分析网页，如何使用正则表达式获取准确的字符串信息，以及使用Python实现简单的页面数据获取。

　　关键词：网络爬虫； Python;正则表达式;抓包分析

　　中国图书馆分类代码：TP391.3 文献识别代码：A 文章编号：2096-4706 (2020）01-0012-03

　　基于Python爬虫技术的网页分析与数据采集研究

　　温雅娜、袁子良、何永臣、黄萌

　　（中国防灾研究所，三河 065201）

　　摘要：随着网络的发展，大数据和人工智能的兴起，数据变得越来越重要。各行各业的发展需要数据的支撑。任何一种深度学习和算法都需要大量的数据作为模型进行训练，才能得到更准确的结论。本文讨论了网络爬虫实现中的主要问题：了解网页的基本结构，使用直观的网页分析工具分析网页，如何使用正则表达式获取准确的字符串信息，以及使用Python实现简单的页面数据获取。

　　关键词：网络爬虫； Python;正则表达式;抓包分析

　　资助单位：防震减灾专项；中央高校基本科研业务费专项资金（ZY20180124）

　　参考资料：

　　[1]郭尔强，李波。大数据环境下基于Python的网络爬虫技术[J].计算机产品与流通，2017 (12）: 82.

　　[2]李沛。基于Python的网络爬虫与反爬虫技术研究[J].计算机与数字工程, 2019, 47 (6）: 1415-1420+1496.

　　p>

　　[3] 王朝阳．基于Python的图书馆信息系统设计与实现[D].长春：吉林大学，2016.

　　[4] 徐衡．社交网络数据采集技术研究与实现[D].长春：吉林大学，2016.

　　[5] 孙建利，贾卓生。基于Python的Web爬虫实现与内容分析研究[C]//中国计算机用户协会网络应用分会2017年第21届网络新技术与应用年会。中国计算机用户协会网络应用分会2017年第21届网络新技术与应用年会论文集.河北雄安:计算机科学编辑部,2017:275-277+281.

　　[6] 陈琳，任芳。基于Python的新浪微博数据爬虫程序设计[J].信息系统工程，2016 (9）: 97-99.

　　[7] 卢淑芬。基于Python的Web爬虫系统设计与实现[J]．计算机编程技能与维护，2019 (2）: 26-27+51.

　　[8] 熊畅。基于Python爬虫技术的Web数据采集与分析研究[J].数字技术与应用, 2017 (9）: 35-36.

　　[9] 吴双。基于python语言的Web数据挖掘与分析研究[J].计算机知识与技术, 2018, 14 (27）:1-2.

　　作者简介：文雅娜（1999.03-），女，汉族，内蒙古包头人，本科，学士，研究方向：人工智能与软件开发与应用。

0

2022-02-04

实时抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

实时抓取网页数据( 基于Python的网络爬虫与反爬虫技术研究[J])

0 个评论

发起人