网页访客qq抓取 技巧干货:轻松玩转SEO,看这篇就够了
优采云 发布时间: 2022-09-23 20:11网页访客qq抓取 技巧干货:轻松玩转SEO,看这篇就够了
欢迎投稿早读课,投稿邮箱:
我最近一直在阅读有关 SEO 的文章。这很有趣。能够学到新东西总是感觉很好。有了更多的经验,我的心情也没有以前那么浮躁了。现在的年龄也是学习一些有趣的东西的好时机。,在这里我要推荐两本SEO基础书籍,《百度SEO一本指南》和《7天掌握SEO》。希望通过这篇文章与志同道合的人一起进步!
虽然现在最火的SEO书籍是Zac的《SEO实战代码》,豆瓣评分也不错,但实际阅读比较分散,信息量太大,有点像历史博客的积累< @文章,因为它不适合 SEO 新手。个人建议,可以从入门书籍入手,形成自己的理解体系,然后用自己建立的体系来深化阅读。这也是我常用的方法。,其实说起来,我看的书也不多,我更喜欢现阶段看适合自己的书,去书里开悟。
首先我们来看看这两本书的逻辑体系,有方向的阅读
“7天掌握SEO”.png
本书重点介绍站点内部、站点外部和策略的部分。这三个部分主要讨论优化的实际方法。基础篇是了解常识,可以快速浏览,可以结合案例篇章查看。
《百度SEO一体机》.png
本书主要看关键词,链接优化技巧,对网络技术的理解和理解以及百度的竞价推广和网络联盟推广。
接下来梳理一下SEO的基本常识(不完整的部分会在后面补充)
1. 搜索引擎优化定义:
搜索引擎优化(全称),又称搜索引擎优化,是从搜索引擎获取流量的技术。搜索引擎的主要任务包括:通过了解搜索引擎的工作原理,掌握如何在网页流中抓取网页,如何索引以及如何确定某个关键词的排名位置,从而科学优化网页内容并使其成为在符合用户浏览习惯的同时提升排名和网站流量,最终获得商业化能力的技术。
2. 搜索引擎的工作原理:
主要有三个工作流:爬取、预处理和服务输出
2.1 爬取爬取
主要功能是抓取网页。目前有三种爬取和爬取方式。
2.1.1 普通蜘蛛
搜索引擎蜘蛛是搜索引擎的自动程序。它的功能是访问互联网上的网页、图片、视频等内容,建立索引库。一般用法是spider+URL。这里的网址是搜索引擎的踪迹。日志中是否有这个URL,也可以查看一些列属性。
2.1.2 爬取策略2.1.3 预处理
即对检索到的数据进行索引工作,包括多个过程,这些过程都是在后台提前完成的。
2.1.3.1 关键词提取
去除 HTML、JS、CSS 等标签和程序,提取有效文本进行排名。
2.1.3.2删除停用词
即重复出现的无用词,如:“got, 的, 地, ah, ah, Zai”等。
2.1.3.3分词技术
是中国搜索引擎独有的技术支持。中文与英文单词不同,单词之间用空格隔开。因此,搜索引擎必须将整个句子切割成小的单位词。分词有两种方法。
2.1.3.4去除噪音
消除各种广告文字、图片、登录框、版权信息和其他对网络搜索引擎无用的东西。
2.1.3.5 分析网页创建倒排文件
![上传 index.jpg 失败。请再试一次。]
2.1.3.6 链接关系计算
计算页面上哪些链接指向了其他哪些页面,每个页面有哪些传入链接,链接使用了哪些锚文本等。谷歌推出的PR就是其中的代表之一。
2.1.3.7 特殊文件处理
Flash、视频、PPT、XLS、图片等非文本内容不能执行脚本和程序。图片一般使用标签
2.2 服务输出
输出结果的显示方式,例如:匹配搜索关键词的部分标记为红色
输出
3. 网站分类
是人工编辑的搜索结果,采集整理网络上优秀的网站,根据不同的类别或主题放到相应的目录中,多靠人工提交,如:hao123网站导航
4. 关键词
一般是指用户在搜索框中输入的信息。按概念可分为:目标关键词、长尾关键词、相关关键词;栏目页、内容页关键词; 按用途可分为直销、营销关键词
5. 权重和PR值(PageRank)
PR值是Google搜索引擎用来衡量一个网页重要性的一种方法,也是其判断一个网站好坏的重要标准之一。最大的影响因素是是否有大量的优质反向链接。
网站权重是指网站和网站在搜索引擎眼中的评分系统“处理”性能,是搜索引擎中的综合性能指标。稳定的高质量内容和结构良好的网站结构等。
小心区分这两个不同的概念
6. 白帽 SEO 和黑帽 SEO
7. 锚文本、外部链接、内部链接、单向链接、双向链接、导出链接、导入链接
8. 自然列表
是 SERP 中的免费列表,即可以通过开发 SEO 策略来优化的搜索结果页面的免费列表。
9. 机器人文件
机器人排除协议,网站 告诉搜索引擎哪些页面可以被爬取,哪些页面不能通过机器人协议被爬取。多用于避免大量404页面,如何查看死链接?格式:在浏览器中输入URL/robo,如下
![正在上传 d62a6059252dd42a8d159 。. 。] 文件
用户代理:百度蜘蛛
不允许: /
用户代理:baiduspider
不允许: /
用户代理是指浏览器robots文件经常组合使用,主要有以下四种情况
10. 不关注
决定是否对网站进行投票,传递权重,可用于防止垃圾邮件
11.黑链
只存在于源代码中的超链接
12.动态和静态 URL
13.搜索跳出率
发现网站并点击进入,仅浏览一页后离开的用户比例
14. 网络快照
当搜索引擎在 收录 网页上时,它会备份该网页并将其存储在自己的服务器缓存中。当用户点击搜索引擎中的“网页快照”链接时,搜索引擎将抓取当时Spider系统抓取并保存的网页。显示内容,称为“页面快照”。
超值资料:【Python爬虫教学】百度篇·*敏*感*词*教你抓取百度搜索关键词后的页面源代码
[开门见山]
最近整理了一下自己之前做过的项目,学到了很多东西,乱七八糟的。打算写点Python爬虫的东西,一个新人,希望大佬多多关照,别把我的脑袋歪歪了。
在我面前,我会先磨一些基础的东西,对新爬虫友好。总代码在最后,直接按Ctrl+C即可。
工具:
我们需要两个工具,这两个东西:PyCharm 和谷歌浏览器
PyCharm
谷歌浏览器
我使用的版本是 PyCharm 5.0.3 和 Python 3.6.6
教学开始!
第一步,打开PyCharm
第二步,打开谷歌浏览器
第三步,开始分析
…
抓取百度搜索后的页面源码关键词分为五步:
1、获取你要抓取的信息
2、如果要获取的信息是中文的,需要url编码
3、拼接页面的真实url(url指的是网站,后面直接写url)
4、通过下载器模块抓取网页信息
5、将获取到的网页源代码保存为html文件保存在本地
一、Python 爬虫下载器
urllib.request 和 requests 有两种
urllib.request - python2版本中的升级版
请求 - python3 中的新版本
Python 爬虫的下载器
这里直接用import语句导入就好了,简单方便,省事更多
二、使用 urllib.request
说说一些比较常用的东西:
1)urllib.request.urlopen(url):向网页发起请求并得到响应
示例代码:
2)urllib.request.Request(url,headers)创建请求对象
示例代码:
三、智力分析
我们试试用百度搜索一下,比如:
让我们复制它,我们会看到
Bilibili:%25E7%25AF%25AE%25E7%2590%2583&rsv_pq=83f19419001be70a&rsv_t=4115%2F8nYNTS0ycM92Jyo7EyG93G5SsWNuSPyrV5xFkZ2RPcEpqYZWJVokzM&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_sug3=11&rsv_sug1=8&rsv_sug7=100&rsv_sug2=0&inputT=7505&rsv_sug4=7789
B站:%E7%AB%99&oq=Bilibili&rsv_pq=a2665be400255edc&rsv_t=5c8aBmClupFcVXiNpBa79qMXk3UM6qIj614z6VmEmtJHhkeIvp7hddX9oio&rqlang=cn&rsv_enter=1&rsv_dl=tb&inputT=7100&rsv_sug3=22&rsv_sug1=17&rsv_sug7=100&rsv_sug2=0&rsv_sug4=7455
让我们仔细看看......
有什么意义?
和
是的,它对“站”这个词进行了 url 编码,这很容易处理
四、url编码模块urllib.parse
我们用这个东西来杀死它。说说常见的东西
1)urllib.parse.urlencode() url 编码
示例代码:
运行结果:
2)urllib.parse.quote(string) url 编码
示例代码:
运行结果:
3)urllib.parse.unquote(url encoding) 对url编码进行反编码
示例代码:
运行结果:
五、最后一步
看到这里,相信大部分人都明白了,问题也就迎刃而解了。我们要搜索的“B站”无非是%E7%AB%99
百度搜索后爬取页面源码程序代码关键词:
导入 urllib.request
导入 urllib.parse
key=input("请输入您要查询的内容:") # 获取您要搜索的信息
key={"wd":key}
data=urllib.parse.urlencode(key) # url-encode关键字