c爬虫抓取网页数据(爬虫普通爬虫:抓取数据的过程的分类)

优采云 发布时间: 2022-02-04 12:22

  c爬虫抓取网页数据(爬虫普通爬虫:抓取数据的过程的分类)

  爬虫概述 什么是爬虫?

  编写程序,让它模拟浏览器上网,然后上网抓取数据的过程

  爬行动物的分类

  1.普通爬行动物:

  抓取整个页面的源内容

  2.关注爬虫:

  获取页面的部分内容

  3.增量爬虫:

  它可以检测到 网站 中的数据更新。在 网站 中获取最新更新的数据。

  防爬机制: 防爬策略:

  爬虫利用相应的策略和技术手段破解门户网站的反爬虫手段,从而爬取对应的数据。

  爬行动物的合法性:

  爬虫本身不受法律禁止(中立)

  爬取数据违法风险的表现:

  1.爬虫干扰了访问者网站的正常运行。

  2.爬虫爬取某些类型的受法律保护的数据或信息。

  如何规避违法风险:

  1.严格遵守网站设置的robots协议

  2.在避免爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行

  3.在使用和传播捕获的信息时,应对捕获的内容进行审核。如发现属于用户的个人信息、隐私或其他商业秘密,应及时删除并停止使用

  UA反爬机制是什么,如何破解?如何获取动态加载页面的数据:

  如何获取动态加载页面的数据:<br />  通过抓包工具全局搜索找到动态加载数据对应的数据包,数据包中提取该请求的url,

  一.Anaxonda安装1.双击Anaconda3-5.0.0-Windows-x86_64.exe文件

  

  2.下一个

  

  

  

  

  

  

  1.打开cmd窗口,输入jupyter notebook命令,

  如果没有找不到命令并且没有报错,则安装成功!

  2.在开始菜单中显示

  

  3.启动 ① 默认端口启动

  在终端中输入以下命令:

  jupyter notebook

  执行命令后,终端会显示一系列notebook服务器信息,浏览器会自动启动Jupyter Notebook。

  启动过程中,终端显示如下:

  $ jupyter notebook

[I 08:58:24.417 NotebookApp] Serving notebooks from local directory: /Users/catherine

[I 08:58:24.417 NotebookApp] 0 active kernels

[I 08:58:24.417 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/

[I 08:58:24.417 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).

  默认情况下,浏览器地址栏会显示::8888。其中,“localhost”是指本机,“8888”是端口号。

  

  网址

  如果同时启动多个 Jupyter Notebook,由于默认端口“8888”被占用,地址栏中的数字将从“8888”开始,每次启动另一个 Jupyter Notebook 时数字会增加 1,例如如“8889”、“8890”、“……

  ② 启动指定端口

  如果要自定义启动 Jupyter Notebook 的端口号,可以在终端输入以下命令:

  jupyter notebook --port

  在,”

  "为自定义端口号,直接以数字的形式写在命令中,数字两边不带尖括号""。例如:jupyter notebook --port 9999,即启动Jupyter Notebook端口号为“9999”的服务器。

  ③ 不打开浏览器启动服务器

  如果您只想启动 Jupyter Notebook 服务器但不想立即进入主页,则无需立即启动浏览器。在终端输入:

  jupyter notebook --no-browser

  此时终端会显示激活服务器的信息,激活服务器后会显示打开浏览器页面的链接。当您需要启动浏览器页面时,只需复制链接,将其粘贴到浏览器的地址栏中,然后按 Enter 键即可转到您的 Jupyter Notebook 页面。

  

  示例图中,由于我在完成以上内容的同时同时启动了多个Jupyter Notebooks,显示我的“8888”端口号被占用,最后“8889”分配给了我。

  2. 快捷方式 向上插入单元格:a 向下插入单元格:b 删除单元格:x 将代码切换为 markdown:m 将 markdown 切换为代码:y 运行单元格:shift+enter 查看帮助文档:shift+ Tab 自动提示:标签

  3. 魔法指令

  运行外部python源文件:%run xxx.py 计算一条语句的运行时间:%time statement 计算一条语句的平均运行时间:%timeit statement 测试多行代码的平均运行时间:

  %%时间

  声明1

  声明2

  声明3

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线