文章采集调用( 《Python爬虫大数据采集与挖掘》课程:日期:2019年10月10日 )

优采云发布时间: 2021-12-02 18:13

　　文章采集调用(

《Python爬虫大数据采集与挖掘》课程:日期:2019年10月10日

)

　　《Python爬虫大数据采集与挖掘》

　　教学大纲

　　部门：日期：2019年10月10日

　　科目编号

　　课程名称

　　Python爬虫大数据采集与挖掘

　　学分

　　2

　　周学士

　　2

　　教学语言

　　中国人

　　课程性质

　　√核心课程√通识教育选修□基础知识√必修专业√专业选修□其他

　　教学目标

　　本课程主要面向大数据技术与应用、数据科学、计算机与电子信息等二年级及以上本科生，主要讲解互联网大数据采集技术及各种典型爬虫技术，结合相关开源包使用Python进行实现，加深学生对所学知识的理解。通过本课程的教学，学生将对互联网大数据采集技术有全面的了解，掌握采集的基本信息内容、提取和分析方法，并对采集具有一定的实用性需求的应用和解决。

　　基本内容介绍

　　互联网大数据采集技术及实现概述；Web服务器应用架构及HTTP、Robots、HTML、页面编码等相关协议和规范；常用网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web爬虫、微博信息采集、Web信息提取与反爬虫技术等；爬虫应用中典型的大数据处理和挖掘技术；综合利用各种爬虫和处理技术为新闻阅读器进行分析和设计；了解爬虫用于SQL注入安全检测的方法。

　　基本要求：

　　要求了解互联网大数据的技术体系和主要技术采集；掌握各种典型爬虫的技术原理、技术框架、实现方法、主要开源包的使用；了解爬虫采集到达的网页数据处理方法、文本处理和相关挖掘方法将在技术上使用Python实现。

　　教学方式：

　　本课程以讲授为主。在本课程的教学过程中，将采用课堂讲解和课堂讨论的方式，为学生提供互动交流。同时，根据教学进度，设置多项配套实验。

　　课内外讨论或练习、练习、体验等设计：

　　课后，您需要认真完成分配的作业，以了解和巩固所学知识。

　　评价与评价方式（提供学生课程最终成绩的分数构成，反映形成性评价过程）：

　　考核内容包括平时成绩（出勤、项目、实验）和期末考试成绩，分别占课程总成绩的35%和65%。最终评估形式为闭卷考试。

　　《Python爬虫大数据采集与挖掘》

　　教学安排

　　（建议）

　　教学内容安排（按32学时共16周，具体以每节课内容为准）：

　　第一周：

　　第一课：互联网大数据采集概念、重要性、应用现状等；第二课：互联网大数据采集技术体系、法律技术边界、技术前景。

　　第二周：

　　第一课：HTML语言规范；第二课：网页编码、正则表达式。

　　第三周：

　　第 1 课：Web 服务器、应用程序架构、机器人；第 2 课：HTTP 协议，状态保持技术。

　　第四周：

　　第一课：常见爬虫系统、请求；第 2 课：异常处理、链接提取

　　第五周：

　　第一课：爬取策略与实现，PR算法；第 2 课：动态页面和采集技术

　　第 6 周：

　　第 1 课：动态页面、Ajax、Cookie；第 2 课：模拟浏览器技术

　　第七周：

　　第1课：静态页面实验采集；第 2 课：动态页面实验采集

　　第 8 周：

　　第1课：网页提取技术及思路介绍；第 2 课：基于结构的提取方法，主要开源包。

　　第九周：

　　第一课：话题爬虫与技术框架、话题表征；第二课：主题表示、相关性计算、实例。

　　第 10 周：

　　第一课：Web信息抽取实验；第二课：主题爬虫实验。

　　第 11 周：

　　第1课：DeepWeb概念、特点和要求、技术架构；第 2 课：技术架构和实现示例。

　　第十二周：

　　第一课：微博采集方法概述、平台授权、API介绍；第二课：Python调用API采集，爬取方法采集。

　　第 13 周：

　　第1课：反爬虫概述、反爬虫技术、反爬虫技术；第 2 课：文本分析和预处理概述。

　　第十四周：

　　第一课：向量空间与文本分类；第二课：主题建模、可视化技术。

　　第十五周：

　　第一课：常见应用模式、新闻阅读器；第二课：新闻阅读器，SQL注入检测。

　　第 16 周：

　　综合实验、复习、考试

　　提供300分钟视频讲解、教学大纲、课件、教案、习题答案、程序源代码等配套资源。

　　预订视频演示

0

2021-12-02

文章采集调用

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集调用( 《Python爬虫大数据采集与挖掘》课程:日期:2019年10月10日 )

0 个评论

发起人

AI时代内容工厂

文章采集调用( 《Python爬虫大数据采集与挖掘》课程:日期:2019年10月10日 )

0 个评论

发起人

相关问题