c爬虫抓取网页数据(爬虫普通爬虫:抓取数据的过程的分类)
优采云 发布时间: 2022-02-04 12:22c爬虫抓取网页数据(爬虫普通爬虫:抓取数据的过程的分类)
爬虫概述 什么是爬虫?
编写程序,让它模拟浏览器上网,然后上网抓取数据的过程
爬行动物的分类
1.普通爬行动物:
抓取整个页面的源内容
2.关注爬虫:
获取页面的部分内容
3.增量爬虫:
它可以检测到 网站 中的数据更新。在 网站 中获取最新更新的数据。
防爬机制: 防爬策略:
爬虫利用相应的策略和技术手段破解门户网站的反爬虫手段,从而爬取对应的数据。
爬行动物的合法性:
爬虫本身不受法律禁止(中立)
爬取数据违法风险的表现:
1.爬虫干扰了访问者网站的正常运行。
2.爬虫爬取某些类型的受法律保护的数据或信息。
如何规避违法风险:
1.严格遵守网站设置的robots协议
2.在避免爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行
3.在使用和传播捕获的信息时,应对捕获的内容进行审核。如发现属于用户的个人信息、隐私或其他商业秘密,应及时删除并停止使用
UA反爬机制是什么,如何破解?如何获取动态加载页面的数据:
如何获取动态加载页面的数据:<br /> 通过抓包工具全局搜索找到动态加载数据对应的数据包,数据包中提取该请求的url,
一.Anaxonda安装1.双击Anaconda3-5.0.0-Windows-x86_64.exe文件
2.下一个
1.打开cmd窗口,输入jupyter notebook命令,
如果没有找不到命令并且没有报错,则安装成功!
2.在开始菜单中显示
3.启动 ① 默认端口启动
在终端中输入以下命令:
jupyter notebook
执行命令后,终端会显示一系列notebook服务器信息,浏览器会自动启动Jupyter Notebook。
启动过程中,终端显示如下:
$ jupyter notebook
[I 08:58:24.417 NotebookApp] Serving notebooks from local directory: /Users/catherine
[I 08:58:24.417 NotebookApp] 0 active kernels
[I 08:58:24.417 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/
[I 08:58:24.417 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
默认情况下,浏览器地址栏会显示::8888。其中,“localhost”是指本机,“8888”是端口号。
网址
如果同时启动多个 Jupyter Notebook,由于默认端口“8888”被占用,地址栏中的数字将从“8888”开始,每次启动另一个 Jupyter Notebook 时数字会增加 1,例如如“8889”、“8890”、“……
② 启动指定端口
如果要自定义启动 Jupyter Notebook 的端口号,可以在终端输入以下命令:
jupyter notebook --port
在,”
"为自定义端口号,直接以数字的形式写在命令中,数字两边不带尖括号""。例如:jupyter notebook --port 9999,即启动Jupyter Notebook端口号为“9999”的服务器。
③ 不打开浏览器启动服务器
如果您只想启动 Jupyter Notebook 服务器但不想立即进入主页,则无需立即启动浏览器。在终端输入:
jupyter notebook --no-browser
此时终端会显示激活服务器的信息,激活服务器后会显示打开浏览器页面的链接。当您需要启动浏览器页面时,只需复制链接,将其粘贴到浏览器的地址栏中,然后按 Enter 键即可转到您的 Jupyter Notebook 页面。
示例图中,由于我在完成以上内容的同时同时启动了多个Jupyter Notebooks,显示我的“8888”端口号被占用,最后“8889”分配给了我。
2. 快捷方式 向上插入单元格:a 向下插入单元格:b 删除单元格:x 将代码切换为 markdown:m 将 markdown 切换为代码:y 运行单元格:shift+enter 查看帮助文档:shift+ Tab 自动提示:标签
3. 魔法指令
运行外部python源文件:%run xxx.py 计算一条语句的运行时间:%time statement 计算一条语句的平均运行时间:%timeit statement 测试多行代码的平均运行时间:
%%时间
声明1
声明2
声明3