c爬虫抓取网页数据(爬虫普通爬虫:抓取数据的过程的分类)

优采云发布时间: 2022-02-04 12:22

　　爬虫概述什么是爬虫？

　　编写程序，让它模拟浏览器上网，然后上网抓取数据的过程

　　爬行动物的分类

　　1.普通爬行动物：

　　抓取整个页面的源内容

　　2.关注爬虫：

　　获取页面的部分内容

　　3.增量爬虫：

　　它可以检测到网站中的数据更新。在网站中获取最新更新的数据。

　　防爬机制：防爬策略：

　　爬虫利用相应的策略和技术手段破解门户网站的反爬虫手段，从而爬取对应的数据。

　　爬行动物的合法性：

　　爬虫本身不受法律禁止（中立）

　　爬取数据违法风险的表现：

　　1.爬虫干扰了访问者网站的正常运行。

　　2.爬虫爬取某些类型的受法律保护的数据或信息。

　　如何规避违法风险：

　　1.严格遵守网站设置的robots协议

　　2.在避免爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行

　　3.在使用和传播捕获的信息时，应对捕获的内容进行审核。如发现属于用户的个人信息、隐私或其他商业秘密，应及时删除并停止使用

　　UA反爬机制是什么，如何破解？如何获取动态加载页面的数据：

　　如何获取动态加载页面的数据:<br />　　通过抓包工具全局搜索找到动态加载数据对应的数据包，数据包中提取该请求的url,

　　一.Anaxonda安装1.双击Anaconda3-5.0.0-Windows-x86_64.exe文件

　　2.下一个

　　1.打开cmd窗口，输入jupyter notebook命令，

　　如果没有找不到命令并且没有报错，则安装成功！

　　2.在开始菜单中显示

　　3.启动 ① 默认端口启动

　　在终端中输入以下命令：

　　jupyter notebook

　　执行命令后，终端会显示一系列notebook服务器信息，浏览器会自动启动Jupyter Notebook。

　　启动过程中，终端显示如下：

　　$ jupyter notebook

[I 08:58:24.417 NotebookApp] Serving notebooks from local directory: /Users/catherine

[I 08:58:24.417 NotebookApp] 0 active kernels

[I 08:58:24.417 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/

[I 08:58:24.417 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).

　　默认情况下，浏览器地址栏会显示：:8888。其中，“localhost”是指本机，“8888”是端口号。

　　网址

　　如果同时启动多个 Jupyter Notebook，由于默认端口“8888”被占用，地址栏中的数字将从“8888”开始，每次启动另一个 Jupyter Notebook 时数字会增加 1，例如如“8889”、“8890”、“……

　　② 启动指定端口

　　如果要自定义启动 Jupyter Notebook 的端口号，可以在终端输入以下命令：

　　jupyter notebook --port

　　在，”

　　"为自定义端口号，直接以数字的形式写在命令中，数字两边不带尖括号""。例如：jupyter notebook --port 9999，即启动Jupyter Notebook端口号为“9999”的服务器。

　　③ 不打开浏览器启动服务器

　　如果您只想启动 Jupyter Notebook 服务器但不想立即进入主页，则无需立即启动浏览器。在终端输入：

　　jupyter notebook --no-browser

　　此时终端会显示激活服务器的信息，激活服务器后会显示打开浏览器页面的链接。当您需要启动浏览器页面时，只需复制链接，将其粘贴到浏览器的地址栏中，然后按 Enter 键即可转到您的 Jupyter Notebook 页面。

　　示例图中，由于我在完成以上内容的同时同时启动了多个Jupyter Notebooks，显示我的“8888”端口号被占用，最后“8889”分配给了我。

　　2. 快捷方式向上插入单元格：a 向下插入单元格：b 删除单元格：x 将代码切换为 markdown：m 将 markdown 切换为代码：y 运行单元格：shift+enter 查看帮助文档：shift+ Tab 自动提示：标签

　　3. 魔法指令

　　运行外部python源文件：%run xxx.py 计算一条语句的运行时间：%time statement 计算一条语句的平均运行时间：%timeit statement 测试多行代码的平均运行时间：

　　%%时间

　　声明1

　　声明2

　　声明3

0

2022-02-04

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c爬虫抓取网页数据(爬虫普通爬虫:抓取数据的过程的分类)

0 个评论

发起人