文章采集调用( 《Python爬虫大数据采集与挖掘》课程:日期:2019年10月10日 )

优采云 发布时间: 2021-12-02 18:13

  文章采集调用(

《Python爬虫大数据采集与挖掘》课程:日期:2019年10月10日

)

  

  《Python爬虫大数据采集与挖掘》

  教学大纲

  部门:日期:2019年10月10日

  科目编号

  课程名称

  Python爬虫大数据采集与挖掘

  学分

  2

  周学士

  2

  教学语言

  中国人

  课程性质

  √核心课程√通识教育选修□基础知识√必修专业√专业选修□其他

  教学目标

  本课程主要面向大数据技术与应用、数据科学、计算机与电子信息等二年级及以上本科生,主要讲解互联网大数据采集技术及各种典型爬虫技术,结合相关开源包使用Python进行实现,加深学生对所学知识的理解。通过本课程的教学,学生将对互联网大数据采集技术有全面的了解,掌握采集的基本信息内容、提取和分析方法,并对采集具有一定的实用性需求的应用和解决。

  基本内容介绍

  互联网大数据采集技术及实现概述;Web服务器应用架构及HTTP、Robots、HTML、页面编码等相关协议和规范;常用网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web爬虫、微博信息采集、Web信息提取与反爬虫技术等;爬虫应用中典型的大数据处理和挖掘技术;综合利用各种爬虫和处理技术为新闻阅读器进行分析和设计;了解爬虫用于SQL注入安全检测的方法。

  基本要求:

  要求了解互联网大数据的技术体系和主要技术采集;掌握各种典型爬虫的技术原理、技术框架、实现方法、主要开源包的使用;了解爬虫采集到达的网页数据处理方法、文本处理和相关挖掘方法将在技术上使用Python实现。

  教学方式:

  本课程以讲授为主。在本课程的教学过程中,将采用课堂讲解和课堂讨论的方式,为学生提供互动交流。同时,根据教学进度,设置多项配套实验。

  课内外讨论或练习、练习、体验等设计:

  课后,您需要认真完成分配的作业,以了解和巩固所学知识。

  评价与评价方式(提供学生课程最终成绩的分数构成,反映形成性评价过程):

  考核内容包括平时成绩(出勤、项目、实验)和期末考试成绩,分别占课程总成绩的35%和65%。最终评估形式为闭卷考试。

  《Python爬虫大数据采集与挖掘》

  教学安排

  (建议)

  教学内容安排(按32学时共16周,具体以每节课内容为准):

  第一周:

  第一课:互联网大数据采集概念、重要性、应用现状等;第二课:互联网大数据采集技术体系、法律技术边界、技术前景。

  第二周:

  第一课:HTML语言规范;第二课:网页编码、正则表达式。

  第三周:

  第 1 课:Web 服务器、应用程序架构、机器人;第 2 课:HTTP 协议,状态保持技术。

  第四周:

  第一课:常见爬虫系统、请求;第 2 课:异常处理、链接提取

  第五周:

  第一课:爬取策略与实现,PR算法;第 2 课:动态页面和 采集 技术

  第 6 周:

  第 1 课:动态页面、Ajax、Cookie;第 2 课:模拟浏览器技术

  第七周:

  第1课:静态页面实验采集;第 2 课:动态页面实验 采集

  第 8 周:

  第1课:网页提取技术及思路介绍;第 2 课:基于结构的提取方法,主要开源包。

  第九周:

  第一课:话题爬虫与技术框架、话题表征;第二课:主题表示、相关性计算、实例。

  第 10 周:

  第一课:Web信息抽取实验;第二课:主题爬虫实验。

  第 11 周:

  第1课:DeepWeb概念、特点和要求、技术架构;第 2 课:技术架构和实现示例。

  第十二周:

  第一课:微博采集方法概述、平台授权、API介绍;第二课:Python调用API采集,爬取方法采集。

  第 13 周:

  第1课:反爬虫概述、反爬虫技术、反爬虫技术;第 2 课:文本分析和预处理概述。

  第十四周:

  第一课:向量空间与文本分类;第二课:主题建模、可视化技术。

  第十五周:

  第一课:常见应用模式、新闻阅读器;第二课:新闻阅读器,SQL注入检测。

  第 16 周:

  综合实验、复习、考试

  

  提供300分钟视频讲解、教学大纲、课件、教案、习题答案、程序源代码等配套资源。

  预订视频演示

  

  

  

  

  

  

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线