python抓取网页数据(网页的数据抓下来干什么器(sel)使用程序 )

优采云 发布时间: 2021-10-04 23:20

  python抓取网页数据(网页的数据抓下来干什么器(sel)使用程序

)

  爬虫的定义

  即使打开浏览器手动复制数据,也称为网页抓取。

  使用程序(或机器人)自动为您完成网页抓取工作,称为爬虫。

  网页的数据是什么?

  通常,首先将其存储并放置在数据库或电子表格中以供检索或进一步分析。

  所以,你真正想要的功能是这样的:

  找到链接,获取网页,抓取指定信息,并存储。

  这个过程可能会产生回报甚至滚雪球。

  您想以自动化的方式完成它。

  抓取文本和链接

  例如,这是一个网页:

  

  我们希望抓取的内容如下:

  

  让我们开始操作:

  

  

  

  

  

  

  抓取指定的内容和链接

  右键单击该网页并选择“检查”以查看该网页的源代码。源码左上角有一个选择器,可以选择你想要的内容。

  选中内容的源代码会高亮显示,然后鼠标右击选择“复制”>“复制选择器”复制选择器

  找到一个文本编辑器并粘贴它以查看复制的内容:

  

  让我们看看这是如何工作的:

  

  这是输出:

  

  结果是一个仅收录一项的列表。此项收录一个网址,即我们要查找的第一个链接(“玉树知兰”)对应的网址。

  但文字描述“《玉树知兰》”去哪儿了?

  别着急,我们让Python显示结果数据对应的文字。

  

  有了处理这第一个环节的经验,你就有了很多信心,对吧?

  其他链接无非就是找到标记的路径,然后拍猫和老虎的照片。

  但是,如果每次找到链接都需要手动输入这些句子,那就太麻烦了。

  这里是编程技巧。一一重复执行的语句。如果工作顺利,我们会尝试将它们合并在一起并制作一个简单的功能。

  对于这个函数,只要给出一个选择路径(sel),它就会把它找到的所有描述文本和链接路径返回给我们:

  

  我们来测试一下这个小程序:

  

  数据再处理

  复制其他链接,和上面链接的区别在于p:nth-child(4)> a中括号内的数字)

  如果我们不限制“p”的具体位置信息呢?

  让我们试试吧。这次保留标记路径中的所有其他信息,只修改“p”点。

  

  好吧,我们要找的所有内容都在这里。

  然而,我们的工作还没有结束。

  我们必须将 采集 中的信息输出到 Excel 并保存。

  还记得我们常用的数据框工具 Pandas 吗?是时候让它再次展现它的神奇力量了。

  

  

  内容还可以,但是我们对标题不满意,所以我们必须用更有意义的列名替换它:

  

  

  好的,现在您可以将捕获的内容输出到 Excel。

  Pandas 的内置命令可以将数据框保存为 csv 格式,这种格式可以直接用 Excel 打开查看。

  

  注意编码需要指定为gbk,否则在Excel中查看默认的utf-8编码可能会出现乱码。

  让我们来看看生成的 csv 文件。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线