python抓取网页数据(网页的数据抓下来干什么器(sel)使用程序 )
优采云 发布时间: 2021-10-04 23:20python抓取网页数据(网页的数据抓下来干什么器(sel)使用程序
)
爬虫的定义
即使打开浏览器手动复制数据,也称为网页抓取。
使用程序(或机器人)自动为您完成网页抓取工作,称为爬虫。
网页的数据是什么?
通常,首先将其存储并放置在数据库或电子表格中以供检索或进一步分析。
所以,你真正想要的功能是这样的:
找到链接,获取网页,抓取指定信息,并存储。
这个过程可能会产生回报甚至滚雪球。
您想以自动化的方式完成它。
抓取文本和链接
例如,这是一个网页:
我们希望抓取的内容如下:
让我们开始操作:
抓取指定的内容和链接
右键单击该网页并选择“检查”以查看该网页的源代码。源码左上角有一个选择器,可以选择你想要的内容。
选中内容的源代码会高亮显示,然后鼠标右击选择“复制”>“复制选择器”复制选择器
找到一个文本编辑器并粘贴它以查看复制的内容:
让我们看看这是如何工作的:
这是输出:
结果是一个仅收录一项的列表。此项收录一个网址,即我们要查找的第一个链接(“玉树知兰”)对应的网址。
但文字描述“《玉树知兰》”去哪儿了?
别着急,我们让Python显示结果数据对应的文字。
有了处理这第一个环节的经验,你就有了很多信心,对吧?
其他链接无非就是找到标记的路径,然后拍猫和老虎的照片。
但是,如果每次找到链接都需要手动输入这些句子,那就太麻烦了。
这里是编程技巧。一一重复执行的语句。如果工作顺利,我们会尝试将它们合并在一起并制作一个简单的功能。
对于这个函数,只要给出一个选择路径(sel),它就会把它找到的所有描述文本和链接路径返回给我们:
我们来测试一下这个小程序:
数据再处理
复制其他链接,和上面链接的区别在于p:nth-child(4)> a中括号内的数字)
如果我们不限制“p”的具体位置信息呢?
让我们试试吧。这次保留标记路径中的所有其他信息,只修改“p”点。
好吧,我们要找的所有内容都在这里。
然而,我们的工作还没有结束。
我们必须将 采集 中的信息输出到 Excel 并保存。
还记得我们常用的数据框工具 Pandas 吗?是时候让它再次展现它的神奇力量了。
内容还可以,但是我们对标题不满意,所以我们必须用更有意义的列名替换它:
好的,现在您可以将捕获的内容输出到 Excel。
Pandas 的内置命令可以将数据框保存为 csv 格式,这种格式可以直接用 Excel 打开查看。
注意编码需要指定为gbk,否则在Excel中查看默认的utf-8编码可能会出现乱码。
让我们来看看生成的 csv 文件。