python抓取网页数据(网页的数据抓下来干什么器(sel)使用程序 )

优采云发布时间: 2021-10-04 23:20

　　python抓取网页数据(网页的数据抓下来干什么器(sel)使用程序

)

　　爬虫的定义

　　即使打开浏览器手动复制数据，也称为网页抓取。

　　使用程序（或机器人）自动为您完成网页抓取工作，称为爬虫。

　　网页的数据是什么？

　　通常，首先将其存储并放置在数据库或电子表格中以供检索或进一步分析。

　　所以，你真正想要的功能是这样的：

　　找到链接，获取网页，抓取指定信息，并存储。

　　这个过程可能会产生回报甚至滚雪球。

　　您想以自动化的方式完成它。

　　抓取文本和链接

　　例如，这是一个网页：

　　我们希望抓取的内容如下：

　　让我们开始操作：

　　抓取指定的内容和链接

　　右键单击该网页并选择“检查”以查看该网页的源代码。源码左上角有一个选择器，可以选择你想要的内容。

　　选中内容的源代码会高亮显示，然后鼠标右击选择“复制”>“复制选择器”复制选择器

　　找到一个文本编辑器并粘贴它以查看复制的内容：

　　让我们看看这是如何工作的：

　　这是输出：

　　结果是一个仅收录一项的列表。此项收录一个网址，即我们要查找的第一个链接（“玉树知兰”）对应的网址。

　　但文字描述“《玉树知兰》”去哪儿了？

　　别着急，我们让Python显示结果数据对应的文字。

　　有了处理这第一个环节的经验，你就有了很多信心，对吧？

　　其他链接无非就是找到标记的路径，然后拍猫和老虎的照片。

　　但是，如果每次找到链接都需要手动输入这些句子，那就太麻烦了。

　　这里是编程技巧。一一重复执行的语句。如果工作顺利，我们会尝试将它们合并在一起并制作一个简单的功能。

　　对于这个函数，只要给出一个选择路径（sel），它就会把它找到的所有描述文本和链接路径返回给我们：

　　我们来测试一下这个小程序：

　　数据再处理

　　复制其他链接，和上面链接的区别在于p:nth-child(4)> a中括号内的数字)

　　如果我们不限制“p”的具体位置信息呢？

　　让我们试试吧。这次保留标记路径中的所有其他信息，只修改“p”点。

　　好吧，我们要找的所有内容都在这里。

　　然而，我们的工作还没有结束。

　　我们必须将采集中的信息输出到 Excel 并保存。

　　还记得我们常用的数据框工具 Pandas 吗？是时候让它再次展现它的神奇力量了。

　　内容还可以，但是我们对标题不满意，所以我们必须用更有意义的列名替换它：

　　好的，现在您可以将捕获的内容输出到 Excel。

　　Pandas 的内置命令可以将数据框保存为 csv 格式，这种格式可以直接用 Excel 打开查看。

　　注意编码需要指定为gbk，否则在Excel中查看默认的utf-8编码可能会出现乱码。

　　让我们来看看生成的 csv 文件。

0

2021-10-04

python抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取网页数据(网页的数据抓下来干什么器(sel)使用程序 )

0 个评论

发起人

AI时代内容工厂

python抓取网页数据(网页的数据抓下来干什么器(sel)使用程序 )

0 个评论

发起人

相关问题