通过关键词采集文章采集api(谷歌高级语法深入探索、利用chrome浏览器分析网站接口的方法)
优采云 发布时间: 2021-08-28 06:07通过关键词采集文章采集api(谷歌高级语法深入探索、利用chrome浏览器分析网站接口的方法)
这是一篇高级搜索文章文章
本文文章的内容包括以下四个方面
深入探索谷歌高级语法,用谷歌科学上网,用chrome浏览器分析网站界面方法,简单爬虫分析。
您通常使用搜索引擎做什么?作为黑客必用的浏览器,谷歌搜索引擎自然拥有更多强大的功能。让我们来探索一下 Google 搜索引擎可以做什么。
了解 Google 高级语法
在上一篇文章中,我们初步探讨了搜索引擎的语法。在本文中,我们还通过示例来了解更多信息。
(1),我们关键词的排列组合
使用“|”把关键词分开来表达或
的意思
示例:
通过这种方式,您可以搜索收录“*敏*感*词*号”或“学号”的信息。
用空格或点(“.”)分隔关键词以表达sum的含义。
示例:
搜索的内容收录*敏*感*词*号和学号。
(2),需要掌握的高级算子
注意:必须在高级运算符和关键词 之间添加英文冒号(“:”)。英文冒号和中文冒号的区别是可能的,但肉眼很难区分。所以一定要在英文输入状态下输入这个冒号。
使用网站关键字来定位网址
在介绍章节中详细使用了站点关键字。此处不再赘述。
示例:
使用intitle查询标签中的关键字
什么是标题?
红框是标题。一般来说,这个标题表示当前页面是什么功能,所以如果你需要找一个特定功能的东西,你可以使用Intitle。
使用inurl关键字表示在url(链接)中找到关键词
那么,什么是网址?以上图为例:
这是网址。那么我们来验证一下这个关键字的有效性。
在这个例子中,我使用了两个关键字来限制在某个 URL 下的 URL 中收录登录的链接的搜索。可以看到,关键词的组合是用空格隔开的,类似于我们上面提到的关键词的排列组合。
使用 intext 表达式在网页内容中查找字符串
那么,什么是网页内容?整个网站都在说,就像写文章的主要内容一样。
示例:
使用以上四个关键字及其排列组合,我们已经可以非常准确地找到我们的关键词。现在,让我们谈谈不太常用的关键字。
使用 FileType 搜索指定类型的文件
示例:
使用股票搜索公司股票信息
当然,在谷歌的高级语法中,这些关键词只是杯水车薪,但已经可以满足我们的日常生活。如果有朋友想深入了解,我可以推荐一本叫《Google Hacking Technical Manual》的书。
使用谷歌科学上网
在工作和学习中,我们经常需要通过科学上网来查找相对较新的信息。除了谷歌镜像站本身的不稳定性,还需要准备一个应急的科学上网方法。将我的科学上网方法分享给大家。
我把插件和操作指南放在压缩包里了。下载后,按照里面的教程操作即可。
链接:
提取码:y3zu
失败联系我补
因为这个插件是付费的,为了避免广告嫌疑,不建议大家使用这个插件。说一下安装过程。从百度网盘下载压缩包后,解压,然后打开如下:
然后打开你的chrome浏览器,在浏览器中输入扩展的URL:chrome://extensions/
然后放
将此文件直接拖到页面上。安装完成后需要注册,然后登录。
共有三种模式,可根据个人喜好进行调整。
实际上已经讨论了使用 Google Chrome 搜索高级内容。但是我一开始问的问题,搜索引擎可以做的远不止这些。我们可以使用浏览器提取网站界面,方便我们的资源采集。
使用浏览器分析网站interface
先说网站interface。一个网站实际上分为前端和后端。前端一般用于数据渲染,即将一堆看不懂的数据以网页的形式展示出来。然后后端提供这些数据。提供的方法是使用的接口的方法。今天我就以链家为例来分析一下界面。由于分析界面我用firefox比较多,这里就用firefox来演示
首先打开链家首页,然后点击alt键,选择Tools->Web Developer->Web Console
刷新网站,可以发现前端向后端发起了很多请求,点击其中一个:
这里是请求地址,get是请求方法
选择响应按钮,可以发现后端向前端发送了大量数据。这时候我们抓到了一个接口。但是这个接口是否真的有用取决于你采集的资源。这里只是给大家介绍一下这样的技术。有想了解的小伙伴可以关注本公众号后面的文章。
对爬虫的简单理解
首先要注意的是,爬虫只能获取公开共享的东西。
爬虫也称为网络机器人。为什么叫这个名字,因为爬虫可以代替人做很多重复的操作。举个例子,这个网站采集了各种百度网盘链接,但是每个页面只有一个网盘链接,而且它们几乎放在每个页面的相同位置,结构相似。如果每个链接都是人为的一点一点的,然后把百度网盘的链接一一保存,是不是太麻烦了?这时候如果你使用爬虫,合理编写代码,就可以自动采集百度网盘链接资源了。
爬虫通常由程序开发人员使用代码来模拟人工过程来实现。同时,使用线程池技术可以大大提高工作效率。从程序开发的角度来说,这对于没有学过编程的同学来说,难度有点大。但这并不意味着非程序员不能使用爬虫。网上也有一些爬虫软件,但这些软件往往缺乏定制能力,不能满足爬虫的真正需求。所以,看到这里的同学,还是建议大家学习python编程语言,写爬虫好用。
感谢您的观看,希望对您有所帮助。