话题：浏览器抓取网页 - 自动文章采集器-优采云官网

我做了一个网页，关于浏览器的

网站优化 • 优采云发表了文章 • 0 个评论 • 85 次浏览 • 2022-05-03 18:51 • 来自相关话题

　　我做了一个网页，关于浏览器的
　　这几天，兴趣来了，做了一个有意思的网页：浏览器内核检测
　　虽然说，浏览器内核检测的网站，目前网站上有很多了，但是都是套的同一个网页，界面已经过时了。
　　于是，果核自己开发了一个，界面如下
　　
　　
　　
　　界面用了比较新的技术和UI，打开网页就能检测你的浏览器版本，浏览品牌，并且根据你的浏览器版本，给出评语。
　　
　　当然了，检测一下浏览器内核的版本很简单的，通过UA识别就可以了。果核当然不能只局限于做这点内容了。
　　于是，下面做了一个聚合页面，把三大浏览器给聚合过来了，同时，自动爬取官网最新版本，每半小时抓取一次，以保证有新版本后，被系统第一时间检测到。大家就可以根据自己需要，更新浏览器了。
　　
　　当然，只检测版本，大家要去下载也很麻烦，于是系统又给添加了一下功能，把下载地址也给一起爬取过来了。
　　点击相关的版本，就会弹出下载页面。聚合了所有平台的版本，点击按钮，即可下载对应平台的离线安装包。
　　
　　最后，给出地址：
　　独立页面地址是：
　　
　　果核文章页面地址是
　　
　　这两个页面的区别是，文章地址，下面可以评论，和网友互动。有什么建议可以留言，我看得到。
　　
　　另外，你要问我，检测到这个有啥用，我也不知道有啥用，其实都能用
　　查看全部

　　我做了一个网页，关于浏览器的
　　这几天，兴趣来了，做了一个有意思的网页：浏览器内核检测
　　虽然说，浏览器内核检测的网站，目前网站上有很多了，但是都是套的同一个网页，界面已经过时了。
　　于是，果核自己开发了一个，界面如下
　　

　　界面用了比较新的技术和UI，打开网页就能检测你的浏览器版本，浏览品牌，并且根据你的浏览器版本，给出评语。
　　

　　当然了，检测一下浏览器内核的版本很简单的，通过UA识别就可以了。果核当然不能只局限于做这点内容了。
　　于是，下面做了一个聚合页面，把三大浏览器给聚合过来了，同时，自动爬取官网最新版本，每半小时抓取一次，以保证有新版本后，被系统第一时间检测到。大家就可以根据自己需要，更新浏览器了。
　　

　　当然，只检测版本，大家要去下载也很麻烦，于是系统又给添加了一下功能，把下载地址也给一起爬取过来了。
　　点击相关的版本，就会弹出下载页面。聚合了所有平台的版本，点击按钮，即可下载对应平台的离线安装包。
　　

　　最后，给出地址：
　　独立页面地址是：
　　

　　果核文章页面地址是
　　

　　这两个页面的区别是，文章地址，下面可以评论，和网友互动。有什么建议可以留言，我看得到。
　　

　　另外，你要问我，检测到这个有啥用，我也不知道有啥用，其实都能用
　　

让网页阅读变得极致清爽，今日推荐，适合设计师的你

网站优化 • 优采云发表了文章 • 0 个评论 • 135 次浏览 • 2022-05-02 17:56 • 来自相关话题

　　让网页阅读变得极致清爽，今日推荐，适合设计师的你
　　如果你经常在浏览器上阅读文章、新闻、小说等，那么你一定会感受到中国浮躁的互联网环境，各种广告、横幅、弹出、按钮等让你分心，让你的阅读体验非常糟糕。
　　如果你只是想安静地阅读一篇文章，不想让这些额外的元素干扰你的阅读，那么我推荐给你一款浏览器扩展【简悦】，这是一个浏览器扩展，可以给你带来一个如杂志般沉浸式的阅读体验。
　　【简悦】来自一个大神级的独立开发者Kenshin，喜欢的可以关注一下他。
　　一键打开阅读模式
　　如果你曾经使用过Safari的阅读模式，你就知道我在说什么了。当你打开它时，它会自动从页面中提取标题、主体等元素，其他不必要的元素直接屏蔽掉，让你回到一个极简的阅读模式。
　　
　　我用日报做了一个测试,效果很好,智能自动提取了我想读的内容,原本想吐槽说,阅读页面有点宽,如果它可以窄就更好了,但打开右下角设置,立即发现,我被打脸了。
　　
　　【简悦】的定制功能非常强大，不仅是我提到的页面宽度，还有背景颜色、快捷键、字体、字距等，都可以定制，完全满足你的阅读需求。
　　有趣的聚焦模式
　　比起阅读模式，我更喜欢这种有趣的聚焦模式。
　　
　　我也用日报做了一个实验，发现在打开聚焦模式后，文章焦点之外的所有地方都是灰色的，只有文章的关键部分被保留下来。在嘈杂中会有一种安静的感觉，这是非常舒适的。这是我非常喜欢的一种模式。
　　功能极其强大
　　改进阅读的浏览器插件到底可以有多强大?
　　你绝对想不到【简悦】支持以下功能……
　　导出PNG, PDF, Markdown, HTML和Epub格式。
　　支持Kindle和PoCket、Instapaper、link、Onenot、Dropbox、Evernote、Nut Cloud、Sparrow、有道Cloud note、Weknowledge note、Notion、WebDAV等对接工具。
　　支持微博、豆瓣、推特、脸书等平台分享。
　　最有趣的是网站管理和插件管理模块，这使得整个阅读插件几乎无所不能……
　　网站管理可以认为是重新定义每个网站的UI风格，以适合最合适的阅读风格，并可以分享您自己配置的网站，让其他人也可以使用。
　　并且插件中心可以扩展更多有趣的功能，如单词翻译、代码增强、单词计数等，有趣实用的插件。
　　最后
　　总之，这个插件可以完全改善你的web浏览体验。建议喜欢极简的朋友安装和使用。目前它支持Chrome、360、QQ、搜狗、Firefox等浏览器，对于普通Chrome用户应用商店使用不友好的问题，它还提供手动下载。
　　官方网址：查看全部

　　让网页阅读变得极致清爽，今日推荐，适合设计师的你
　　如果你经常在浏览器上阅读文章、新闻、小说等，那么你一定会感受到中国浮躁的互联网环境，各种广告、横幅、弹出、按钮等让你分心，让你的阅读体验非常糟糕。
　　如果你只是想安静地阅读一篇文章，不想让这些额外的元素干扰你的阅读，那么我推荐给你一款浏览器扩展【简悦】，这是一个浏览器扩展，可以给你带来一个如杂志般沉浸式的阅读体验。
　　【简悦】来自一个大神级的独立开发者Kenshin，喜欢的可以关注一下他。
　　一键打开阅读模式
　　如果你曾经使用过Safari的阅读模式，你就知道我在说什么了。当你打开它时，它会自动从页面中提取标题、主体等元素，其他不必要的元素直接屏蔽掉，让你回到一个极简的阅读模式。
　　

　　我用日报做了一个测试,效果很好,智能自动提取了我想读的内容,原本想吐槽说,阅读页面有点宽,如果它可以窄就更好了,但打开右下角设置,立即发现,我被打脸了。
　　

　　【简悦】的定制功能非常强大，不仅是我提到的页面宽度，还有背景颜色、快捷键、字体、字距等，都可以定制，完全满足你的阅读需求。
　　有趣的聚焦模式
　　比起阅读模式，我更喜欢这种有趣的聚焦模式。
　　

　　我也用日报做了一个实验，发现在打开聚焦模式后，文章焦点之外的所有地方都是灰色的，只有文章的关键部分被保留下来。在嘈杂中会有一种安静的感觉，这是非常舒适的。这是我非常喜欢的一种模式。
　　功能极其强大
　　改进阅读的浏览器插件到底可以有多强大?
　　你绝对想不到【简悦】支持以下功能……
　　导出PNG, PDF, Markdown, HTML和Epub格式。
　　支持Kindle和PoCket、Instapaper、link、Onenot、Dropbox、Evernote、Nut Cloud、Sparrow、有道Cloud note、Weknowledge note、Notion、WebDAV等对接工具。
　　支持微博、豆瓣、推特、脸书等平台分享。
　　最有趣的是网站管理和插件管理模块，这使得整个阅读插件几乎无所不能……
　　网站管理可以认为是重新定义每个网站的UI风格，以适合最合适的阅读风格，并可以分享您自己配置的网站，让其他人也可以使用。
　　并且插件中心可以扩展更多有趣的功能，如单词翻译、代码增强、单词计数等，有趣实用的插件。
　　最后
　　总之，这个插件可以完全改善你的web浏览体验。建议喜欢极简的朋友安装和使用。目前它支持Chrome、360、QQ、搜狗、Firefox等浏览器，对于普通Chrome用户应用商店使用不友好的问题，它还提供手动下载。
　　官方网址：

小技巧--谷歌浏览器怎么抓取那种php项目调用接口后一闪而过的接口

网站优化 • 优采云发表了文章 • 0 个评论 • 77 次浏览 • 2022-05-02 00:05 • 来自相关话题

　　小技巧--谷歌浏览器怎么抓取那种php项目调用接口后一闪而过的接口
　　大家在使用浏览器进行抓包的时候，有没有遇到过那种页面点一下按钮后，明明看到了接口请求，一会又自动从Network页签中消失了的情况？
　　我相信在很多自学转行的小伙伴中是肯定遇到过的，你们拿着那些php开源项目去练习的时候，登录页面的接口是不是一登录成功后就一闪而过？
　　没有遇到过的，大家可以用下面的网址去体验一波，我从shopxo官网找了他们的体验地址：
　　
　　大家可以自己去登录网址然后抓包试试哈。
　　我是今天在公司使用xxljob调度平台的时候，然后想抓个包看看登录接口，然后想抓下接口到postman中去触发job执行，然后发现登录接口一闪而过就看不到了，其实这个时候勾选谷歌浏览器开发者选项下的一个叫Preserve log的复选框就可以了，位置截图如下：
　　
　　我们看下官方文档是怎么描述的：
　　
　　大概意思翻译之后就是可以保存跨页面加载的请求。
　　这个操作是不是很简单，屏幕前的你学会了吗？赶紧在自己的项目中去尝试一下吧。
　　如果你还在苦于没有项目练习实战的话，可以在公众号后台回复项目二字，可以用我搭建好的开源项目实战练习一波。趁着服务器还没过期，要实战的抓紧了哟~
　　
　　往期精彩回顾
　　
　　项目实战系列
　　2、
　　3、
　　5、
　　6、
　　7、
　　8、
　　9、
　　10、查看全部

　　小技巧--谷歌浏览器怎么抓取那种php项目调用接口后一闪而过的接口
　　大家在使用浏览器进行抓包的时候，有没有遇到过那种页面点一下按钮后，明明看到了接口请求，一会又自动从Network页签中消失了的情况？
　　我相信在很多自学转行的小伙伴中是肯定遇到过的，你们拿着那些php开源项目去练习的时候，登录页面的接口是不是一登录成功后就一闪而过？
　　没有遇到过的，大家可以用下面的网址去体验一波，我从shopxo官网找了他们的体验地址：
　　

　　大家可以自己去登录网址然后抓包试试哈。
　　我是今天在公司使用xxljob调度平台的时候，然后想抓个包看看登录接口，然后想抓下接口到postman中去触发job执行，然后发现登录接口一闪而过就看不到了，其实这个时候勾选谷歌浏览器开发者选项下的一个叫Preserve log的复选框就可以了，位置截图如下：
　　

　　我们看下官方文档是怎么描述的：
　　

　　大概意思翻译之后就是可以保存跨页面加载的请求。
　　这个操作是不是很简单，屏幕前的你学会了吗？赶紧在自己的项目中去尝试一下吧。
　　如果你还在苦于没有项目练习实战的话，可以在公众号后台回复项目二字，可以用我搭建好的开源项目实战练习一波。趁着服务器还没过期，要实战的抓紧了哟~
　　

　　往期精彩回顾
　　

　　项目实战系列
　　2、
　　3、
　　5、
　　6、
　　7、
　　8、
　　9、
　　10、

想看哪里点哪里，这个插件为网页添加可跳转目录

网站优化 • 优采云发表了文章 • 0 个评论 • 200 次浏览 • 2022-05-01 15:00 • 来自相关话题

　　想看哪里点哪里，这个插件为网页添加可跳转目录
　　
　　大家平时用电脑浏览百度百科时，应该对下图中的大纲目录有印象，在阅读长文资料时可方便跳转，轻松导航至想要阅读的位置。
　　
　　但并非所有网页文章都拥有这个目录，特别是浏览长文档时，一眼看不到头读起来确实费劲。对于习惯先掌握大纲再逐条细读的人来说，特别不习惯。
　　荔枝君最近发现一个智能网页大纲扩展：Smart TOC (Table of Content)，适用于 Chrome、Edge、Firefox 浏览器。可以自动给这些长文生成大纲目录，便于浏览跳转。
　　Chrome：
　　Firefox：
　　Smart TOC 支持公众号、知乎、 Feedly 等任何正确使用了 HTML 标题标签的页面。
　　安装扩展后，在页面中点击图标，Smart TOC 就会智能提取正文中的 HTML 标题标签，并创建目录，一键展示当前的文章结构，想看哪里点哪里~
　　
　　工具虽简单，但对于阅读没有目录的长文或文档来说，Smart TOC 方便了不少有「结构强迫症」的人。
　　
　　使用目录浏览 Feedly
　　与百科中的大纲目录相比，Smart TOC 生成的目录在阅读文章时会跟随滚动，无需来回翻找，实时展示当前的阅读位置。支持自由拖动目录，灵活方便。
　　
　　Smart TOC 也可以为搜索引擎搜索出来的结果生成目录，原本庞杂的信息经过结构化处理，是不是感觉清晰了许多呢？
　　
　　使用目录浏览搜索结果
　　只要页面使用了 HTML 标题标签，就可智能生成，点击跳转的同时突出当前标题，再也不怕在庞杂的信息里迷路啦。
　　
　　使用目录浏览知乎
　　下面附上这个工具的开源地址，大家可以去学习支持，发现一些看似简单，但却有点好用的工具。
　　项目地址：
　　
　　为网页生成大纲目录，同时还想拥有更好的阅读体验，可以试试另一款沉浸式阅读扩展：简悦。
　　与 Smart TOC (不改变网页样式，只生成大纲功能) 不同的是，简悦可以将当前页面多余的信息过滤，一键优化成杂志般的阅读页面，同样附带大纲目录，更加整洁干净。
　　
　　不仅仅是个阅读标注工具，还是知识管理工具，搭配标注、稍后读、聚焦模式等功能，打造属于你的知识体系~
　　
　　简悦的强大功能不止于此，想要体验的朋友，可前往荔枝商城免费下载试用，觉得好用的话记得多多支持噢~
　　
　　
　　38￥2cvo2Rq8Oed￥电脑直接访问链接，手机复制本段所有内容查看全部

　　想看哪里点哪里，这个插件为网页添加可跳转目录
　　

　　大家平时用电脑浏览百度百科时，应该对下图中的大纲目录有印象，在阅读长文资料时可方便跳转，轻松导航至想要阅读的位置。
　　

　　但并非所有网页文章都拥有这个目录，特别是浏览长文档时，一眼看不到头读起来确实费劲。对于习惯先掌握大纲再逐条细读的人来说，特别不习惯。
　　荔枝君最近发现一个智能网页大纲扩展：Smart TOC (Table of Content)，适用于 Chrome、Edge、Firefox 浏览器。可以自动给这些长文生成大纲目录，便于浏览跳转。
　　Chrome：
　　Firefox：
　　Smart TOC 支持公众号、知乎、 Feedly 等任何正确使用了 HTML 标题标签的页面。
　　安装扩展后，在页面中点击图标，Smart TOC 就会智能提取正文中的 HTML 标题标签，并创建目录，一键展示当前的文章结构，想看哪里点哪里~
　　

　　工具虽简单，但对于阅读没有目录的长文或文档来说，Smart TOC 方便了不少有「结构强迫症」的人。
　　

　　使用目录浏览 Feedly
　　与百科中的大纲目录相比，Smart TOC 生成的目录在阅读文章时会跟随滚动，无需来回翻找，实时展示当前的阅读位置。支持自由拖动目录，灵活方便。
　　

　　Smart TOC 也可以为搜索引擎搜索出来的结果生成目录，原本庞杂的信息经过结构化处理，是不是感觉清晰了许多呢？
　　

　　使用目录浏览搜索结果
　　只要页面使用了 HTML 标题标签，就可智能生成，点击跳转的同时突出当前标题，再也不怕在庞杂的信息里迷路啦。
　　

　　使用目录浏览知乎
　　下面附上这个工具的开源地址，大家可以去学习支持，发现一些看似简单，但却有点好用的工具。
　　项目地址：
　　

　　为网页生成大纲目录，同时还想拥有更好的阅读体验，可以试试另一款沉浸式阅读扩展：简悦。
　　与 Smart TOC (不改变网页样式，只生成大纲功能) 不同的是，简悦可以将当前页面多余的信息过滤，一键优化成杂志般的阅读页面，同样附带大纲目录，更加整洁干净。
　　

　　不仅仅是个阅读标注工具，还是知识管理工具，搭配标注、稍后读、聚焦模式等功能，打造属于你的知识体系~
　　

　　简悦的强大功能不止于此，想要体验的朋友，可前往荔枝商城免费下载试用，觉得好用的话记得多多支持噢~
　　

　　38￥2cvo2Rq8Oed￥电脑直接访问链接，手机复制本段所有内容

一个可能有点用的浏览器插件自动化操作automa

网站优化 • 优采云发表了文章 • 0 个评论 • 127 次浏览 • 2022-05-01 14:28 • 来自相关话题

　　一个可能有点用的浏览器插件自动化操作automa
　　喜欢我，欢迎关注我ヽ(✿ﾟ▽ﾟ)ノ
　　最近发现一个集合了自动化和低代码为一体的浏览器插件，那就是automa。根据它官网的描述来说呢，那就是“一个通过连接块来自动化浏览器的扩展”，这里我放一段视频，用来演示一下，我刚刚下载后，随手写的一段，最后的执行效果。
　　下载安装
　　直接访问链接即可，添加这样插件就装好了。
　　
　　初始化设置
　　这是你第一次打开插件的时候，你将来到一个welcomme页面，首先我们来设置一下语言，在Setting>Language中选择简体中文。
　　
　　
　　开始第一次的尝试
　　首先在工作流当中，选择新建工作流，然后我们来命名一个hello world的工作流，作为一个测试使用。新建完之后我们就进入了编辑页面，功能还是挺强大的。
　　
　　主要的流程模块包括，General、Browser、Web interaction、Online services、Conditions，其中包含了各种各样的触发器，选择器、条件等等吧，算是一个功能比较完备的多状态机的设计流。
　　设计一个自动化流
　　首先我要随便设计的自动化流，1.打开新标签页输入链接跳转到百度，2.点击百度搜索框、输入hello world、点下搜索按钮，3.获取搜索结果页的所有结果标题、4.下载文件。
　　需求树立完之后，我来看一看我需要哪些操作流，新建页面、表单、点击元素、判断元素是否存在、获取文本、导出数据。下图是我把所有需要的操作流，编排起来之后的样子，还挺好看的。
　　
　　在表单和点击元素中，大量使用了css选择器，这里我们可以使用automa自带的选择器工具，去寻找需要的元素，当然你也可以打开控制台，自行寻找。
　　
　　
　　这里有两个注意点，我们如果想将获取的数据保存起来，需要先在表格中新建变量，然后在获取文本的控件中设置插入表格，并且点击新建的变量名，这样就可以将数据保存入表格中。
　　
　　随后我们在导出数据中，设置需要导出的数据为表格即可。
　　
　　总结
　　一个自动化玩具，可以简单做一些提交、数据获取、傻瓜式的操作，不过比较依赖当前网络速度。虽然有执行定时任务的能力，可以做一些挂机操作，但是相较于一些无头浏览器来说，可监控性还是比较差。适合做一些初期的项目尝试，例如抓抓数据，跑一些尝试demo等等，项目化那是不可能的，效率就直接卡死了。核心就是，适合个人玩玩，简单数据抓取，做点自动化操作节约劳动力。
　　快点动动你的小手指，关注一下我吧。φ(≧ω≦*)♪ 查看全部

　　一个可能有点用的浏览器插件自动化操作automa
　　喜欢我，欢迎关注我ヽ(✿ﾟ▽ﾟ)ノ
　　最近发现一个集合了自动化和低代码为一体的浏览器插件，那就是automa。根据它官网的描述来说呢，那就是“一个通过连接块来自动化浏览器的扩展”，这里我放一段视频，用来演示一下，我刚刚下载后，随手写的一段，最后的执行效果。
　　下载安装
　　直接访问链接即可，添加这样插件就装好了。
　　

　　初始化设置
　　这是你第一次打开插件的时候，你将来到一个welcomme页面，首先我们来设置一下语言，在Setting>Language中选择简体中文。
　　

　　开始第一次的尝试
　　首先在工作流当中，选择新建工作流，然后我们来命名一个hello world的工作流，作为一个测试使用。新建完之后我们就进入了编辑页面，功能还是挺强大的。
　　

　　主要的流程模块包括，General、Browser、Web interaction、Online services、Conditions，其中包含了各种各样的触发器，选择器、条件等等吧，算是一个功能比较完备的多状态机的设计流。
　　设计一个自动化流
　　首先我要随便设计的自动化流，1.打开新标签页输入链接跳转到百度，2.点击百度搜索框、输入hello world、点下搜索按钮，3.获取搜索结果页的所有结果标题、4.下载文件。
　　需求树立完之后，我来看一看我需要哪些操作流，新建页面、表单、点击元素、判断元素是否存在、获取文本、导出数据。下图是我把所有需要的操作流，编排起来之后的样子，还挺好看的。
　　

　　在表单和点击元素中，大量使用了css选择器，这里我们可以使用automa自带的选择器工具，去寻找需要的元素，当然你也可以打开控制台，自行寻找。
　　

　　这里有两个注意点，我们如果想将获取的数据保存起来，需要先在表格中新建变量，然后在获取文本的控件中设置插入表格，并且点击新建的变量名，这样就可以将数据保存入表格中。
　　

　　随后我们在导出数据中，设置需要导出的数据为表格即可。
　　

　　总结
　　一个自动化玩具，可以简单做一些提交、数据获取、傻瓜式的操作，不过比较依赖当前网络速度。虽然有执行定时任务的能力，可以做一些挂机操作，但是相较于一些无头浏览器来说，可监控性还是比较差。适合做一些初期的项目尝试，例如抓抓数据，跑一些尝试demo等等，项目化那是不可能的，效率就直接卡死了。核心就是，适合个人玩玩，简单数据抓取，做点自动化操作节约劳动力。
　　快点动动你的小手指，关注一下我吧。φ(≧ω≦*)♪

Opera Crypto Browser布局ios——Web3时代对浏览器进与退

网站优化 • 优采云发表了文章 • 0 个评论 • 81 次浏览 • 2022-04-29 15:23 • 来自相关话题

　　Opera Crypto Browser布局ios——Web3时代对浏览器进与退
　　
　　2022年4月15日，Opera宣布旗下加密浏览器现已正式登陆iOS平台，在其功能列表中，目前已经可以见到多个与Web3和加密领域密切相关的特性。同时Opera Crypto Browser集成了非托管加密钱包，支持ETH、Polygon和Celo等区块链生态系统，能够在无需第三方应用程序的情况下购买加密货币。
　　此外该浏览器还能够直接访问去中心化交易平台、基于Web3的NFT、游戏和去中心化应用。其涵盖了超过7000个基于Polygon的服务，用户可像访问Web2上的任何网站一样，无缝体验Web3服务。
　　
　　经过上述的描述，我们可以非常轻松的得出一个结论——Opera Crypto Browser是一个Web 3浏览器。可面对这个概念，却还是难免感到一头雾水。究竟什么是Web 3浏览器呢？
　　什么是Web 3浏览器？
　　如果你在浏览器上查看一个网站，这其实是软件处理各种功能的结果，其本质是从解析网站地址到从网站所在的服务器上提取内容的过程。其底层原理是，浏览器只是一个通往互联网的窗口。这意味着你只需在电脑上存储最低限度的数据并进行最低限度的处理就可以访问网站和应用程序。
　　
　　而Web3浏览器则超越了这一点，在理想化的情况下，它只是一个空壳，而用户体验所需的所有其他必要工具都是从去中心化的网络中提取的。
　　区块链基础设施公司Lukso的创始人Fabian Vogelsteller在2015年表示，Elthuny基金会的团队试图构建一个名为Mist的真正的Web3浏览器。它只是一个基于Electron的外壳。
　　但是这种方法的问题是，它在区块链中运行一个完整的节点，所以当你启动浏览器时，它需要同步所有在你离线时创建的区块数据。而这一过程无疑会拖慢整个进程。作为一个终端用户，很难想象，使用者会为了访问一个网站而愿意忍受漫长的等待。
　　诸如此类的问题，再加上Electron平台的不安全特性，促使该团队在2019年关闭了该浏览器项目。这就引出了现有浏览器如何处理去中心化网络的问题。
　　Web 3浏览器的现代发展
　　目前，现代浏览器能够处理Web3的应用程序，但用户需要做一些工作才能顺利访问。例如，如果用户使用Chrome浏览器，其就必须安装一个类似于Metamask的去中心化钱包扩展程序来连接到DApps，并修改其DNS设置以访问一些Web3域名。
　　有一些浏览器提供了某种程度上的原生Web3体验，有内置的钱包和基于Web3的域名支持。例如Opera、Brave等，他们甚至试图简化程序。例如，在设置过程中Opera会要求用户创建一个同其钱包相联系的@opera用户名，这样用户就可以用它来代替42个字符的字符串，在各个应用程序中方便识别自己。
　　Web 3浏览器产品分析
　　一、Opera Crypto Browser
　　
　　Opera浏览器发布于1996年，其最初并非是区块链浏览器，但在后续改进过程中创新性的添加了区块链钱包，并逐步扩大对区块链技术的适用，时至今日，逐步成为以区块链见长的浏览器。Opera内置Opera钱包，支持ETH、TRX、CBK、Polygon、Celo等区块链网络，具有网页浏览速度快、节约流量等优势。因为其对于数据的消耗相当保守，所以Opera在互联网基础设施较差的环境中很受欢迎。
　　Opera还旨在提供个性化的网络浏览器。这对某些用户来说似乎很有吸引力，但个性化的选择意味着在隐私保护方面必然有所舍弃，因为个性化浏览器体验可能需要收集用户的个人信息。不过各取所需，倒也合情合理。
　　此外，Opera浏览器还提供多种功能，比如提供免费VPN、可恢复EVM钱包、cookie对话框拦截器、加密货币挖矿防护机制、以及原生的广告追踪拦截器等，但用户必须自行设置才能使用。
　　二、Brave浏览器
　　
　　Brave浏览器是由Brave Software创建的Web浏览器，该应用由Brandon Ike创立。
　　Brave浏览器拥有快速的网页浏览速度和广告拦截功能。用户可以查看到目前为止已屏蔽了多少广告以及保存了多少数据。
　　此外，Brave通过提供小部件形式的赞助广告来支持加密货币投资，允许用户购买加密货币并查看市场价格。Brave浏览器正在尝试加强个人信息保护，并支持具有很强匿名性的搜索引擎Tore。此外，Brave为用户免费提供VPN，但目前仅适用于ios，无法在PC和Android上使用。
　　Brave还为区块链用户提供加密货币钱包。目前支持以太坊网络，整体功能和UI与Metamask类似。但是，Brave浏览器作为广告浏览器受到了很多质疑，特别是其因为在过去输入特定的加密货币交换地址时会自动完成作为推荐地址的设置而受到用户的批评。
　　此外，Brave还有观看广告可以获得奖励的程序，即以观看Brave提供的广告作为奖励获取方式。如果用户选择观看广告，Brave浏览器将通过推送，间歇性通知用户收看广告。当用户点击推送时，将获得Brave的奖励代币BAT（Basic Attention Token）。但也有不少负面评价认为，与广告曝光频率相比，补偿力度不够。此外，Brave浏览器也存在收集用户的个人信息以有效地提供广告服务的可能性。
　　三、Osiris浏览器
　　
　　ACENT旗下的Osiris浏览器是一个基于区块链的网络浏览器。Osiris浏览器与Opera和Brave的不同之处在于，Osiris浏览器的用户群体是以区块链用户为主的。
　　Osiris是现有的唯一一款将ETH、BSC、DOT、TRX 和ACE等众多区块链主网集成到一个平台的网络浏览器。
　　为了提高区块链用户的便利性，项目方在Osiris浏览器内设置了多功能钱包“Metawallet”，该钱包可以使浏览器支持各种加密货币交易。Osiris Meta Wallet的最大缺陷在于只能在Osiris浏览器上使用，其他浏览器目前仍没有可用的扩展程序。就安全性而言Meta Wallet比现有的扩展钱包更加安全，其所支持的区块链网络数量目前来看也是最多的，未来也许将有更多区块链主网加入Osiris浏览器。
　　Osiris浏览器面向区块链用户，具备基本浏览器的功能，在此基础上其还拥有极为显著的区块链特性。
　　对于一般的浏览器用户，Osiris浏览器提供了自由选择搜索引擎的选项，同时提供屏蔽广告和增强隐私的Osiris Armor。用户可以使用Osiris Armor设置隐私选项，并查看目前为止已阻止的广告和脚本数量。
　　此外，Osiris还为区块链用户提供了DApp Store——一个DApp集结的总平台。不得不说，这对区块链用户而言是个相当友好的功能，DApp Store是最适合Osiris浏览器的优化DApp市场，目前也正在快速的拓展全球市场。
　　Osiris浏览器不同于其他区块链浏览器的最大优势在于，Osiris有自己的主网。
　　目前，其自主研发的主网已经适用于Osiris浏览器，在全球范围内是首个适用自主研发主网的浏览器。
　　Web3浏览器面临的挑战
　　Web 3浏览器当今面临的最大挑战之一还是兼容性的问题。换句话来说，用户必须知道其使用的是什么代币，以及一个特定的应用程序在什么区块链协议上运行。
　　例如，如果用户正在Chrome上使用MetaMask，其可以使用所有基于以太坊的区块链和应用程序。但如果用户需要使用Solana支持的应用程序，那他就需要再另外安装一个Phantom钱包。
　　除此以外，我们还不得不关心安全问题。在Web3的初期阶段，许多不法分子利用网络钓鱼将用户引诱到欺诈性网站，窃取他们的资产。目前，Opera已经提供了一个带有快捷方式的集中中心，可以方便地引导用户访问合法网站。
　　根据Vogelsteller的说法，在用户体验Web 3之前面临两大障碍。
　　首先是需要记住12个字的助记词，并理解这种认证方法背后的安全原因。
　　其次是需要Ether做任何事情，考虑到加密货币的价格以及涉及的燃料和交易费用等因素，这样的行动逻辑成本未免太高。
　　浏览器可以通过与不同的合作伙伴合作来解决第一个问题，但第二个问题仍是顽疾。
　　Web3浏览器的未来之路
　　目前，体验Web3对于绝大多数用户仍是一个难题，普通用户需要处理相当陡峭的学习曲线。甚至在Web3体验的起点就是一个42个字符的冗长地址。
　　这些复杂的代码也使用户难以了解其所有者的声誉和身份。虽然在某些情况下匿名性是很好的，但它也使得这种结构对于信任的建立也无疑设置了极高的壁垒。
　　除此之外还有一些问题，比如应该在这里使用什么代币、应用程序在哪个区块链上工作、它们是否相互配合等。想象一下，仅仅为了发送一条推特，甚至需要进行十几次的操作。这就是目前Web3的使用感受。
　　未来，Web3浏览器和通用配置文件等标准无疑是需要协同工作的，也只有这样才能简化这些复杂的流程。彼时，用户也许就不必再担心后端协议的世界了，那里有更容易记住的用户名，以及与每个身份相关的可解析信息。加上区块链本身透明化、不可篡改的特性，无疑会打开新世界的大门。
　　参考文件：查看全部

　　Opera Crypto Browser布局ios——Web3时代对浏览器进与退
　　

　　2022年4月15日，Opera宣布旗下加密浏览器现已正式登陆iOS平台，在其功能列表中，目前已经可以见到多个与Web3和加密领域密切相关的特性。同时Opera Crypto Browser集成了非托管加密钱包，支持ETH、Polygon和Celo等区块链生态系统，能够在无需第三方应用程序的情况下购买加密货币。
　　此外该浏览器还能够直接访问去中心化交易平台、基于Web3的NFT、游戏和去中心化应用。其涵盖了超过7000个基于Polygon的服务，用户可像访问Web2上的任何网站一样，无缝体验Web3服务。
　　

　　经过上述的描述，我们可以非常轻松的得出一个结论——Opera Crypto Browser是一个Web 3浏览器。可面对这个概念，却还是难免感到一头雾水。究竟什么是Web 3浏览器呢？
　　什么是Web 3浏览器？
　　如果你在浏览器上查看一个网站，这其实是软件处理各种功能的结果，其本质是从解析网站地址到从网站所在的服务器上提取内容的过程。其底层原理是，浏览器只是一个通往互联网的窗口。这意味着你只需在电脑上存储最低限度的数据并进行最低限度的处理就可以访问网站和应用程序。
　　

　　而Web3浏览器则超越了这一点，在理想化的情况下，它只是一个空壳，而用户体验所需的所有其他必要工具都是从去中心化的网络中提取的。
　　区块链基础设施公司Lukso的创始人Fabian Vogelsteller在2015年表示，Elthuny基金会的团队试图构建一个名为Mist的真正的Web3浏览器。它只是一个基于Electron的外壳。
　　但是这种方法的问题是，它在区块链中运行一个完整的节点，所以当你启动浏览器时，它需要同步所有在你离线时创建的区块数据。而这一过程无疑会拖慢整个进程。作为一个终端用户，很难想象，使用者会为了访问一个网站而愿意忍受漫长的等待。
　　诸如此类的问题，再加上Electron平台的不安全特性，促使该团队在2019年关闭了该浏览器项目。这就引出了现有浏览器如何处理去中心化网络的问题。
　　Web 3浏览器的现代发展
　　目前，现代浏览器能够处理Web3的应用程序，但用户需要做一些工作才能顺利访问。例如，如果用户使用Chrome浏览器，其就必须安装一个类似于Metamask的去中心化钱包扩展程序来连接到DApps，并修改其DNS设置以访问一些Web3域名。
　　有一些浏览器提供了某种程度上的原生Web3体验，有内置的钱包和基于Web3的域名支持。例如Opera、Brave等，他们甚至试图简化程序。例如，在设置过程中Opera会要求用户创建一个同其钱包相联系的@opera用户名，这样用户就可以用它来代替42个字符的字符串，在各个应用程序中方便识别自己。
　　Web 3浏览器产品分析
　　一、Opera Crypto Browser
　　

　　Opera浏览器发布于1996年，其最初并非是区块链浏览器，但在后续改进过程中创新性的添加了区块链钱包，并逐步扩大对区块链技术的适用，时至今日，逐步成为以区块链见长的浏览器。Opera内置Opera钱包，支持ETH、TRX、CBK、Polygon、Celo等区块链网络，具有网页浏览速度快、节约流量等优势。因为其对于数据的消耗相当保守，所以Opera在互联网基础设施较差的环境中很受欢迎。
　　Opera还旨在提供个性化的网络浏览器。这对某些用户来说似乎很有吸引力，但个性化的选择意味着在隐私保护方面必然有所舍弃，因为个性化浏览器体验可能需要收集用户的个人信息。不过各取所需，倒也合情合理。
　　此外，Opera浏览器还提供多种功能，比如提供免费VPN、可恢复EVM钱包、cookie对话框拦截器、加密货币挖矿防护机制、以及原生的广告追踪拦截器等，但用户必须自行设置才能使用。
　　二、Brave浏览器
　　

　　Brave浏览器是由Brave Software创建的Web浏览器，该应用由Brandon Ike创立。
　　Brave浏览器拥有快速的网页浏览速度和广告拦截功能。用户可以查看到目前为止已屏蔽了多少广告以及保存了多少数据。
　　此外，Brave通过提供小部件形式的赞助广告来支持加密货币投资，允许用户购买加密货币并查看市场价格。Brave浏览器正在尝试加强个人信息保护，并支持具有很强匿名性的搜索引擎Tore。此外，Brave为用户免费提供VPN，但目前仅适用于ios，无法在PC和Android上使用。
　　Brave还为区块链用户提供加密货币钱包。目前支持以太坊网络，整体功能和UI与Metamask类似。但是，Brave浏览器作为广告浏览器受到了很多质疑，特别是其因为在过去输入特定的加密货币交换地址时会自动完成作为推荐地址的设置而受到用户的批评。
　　此外，Brave还有观看广告可以获得奖励的程序，即以观看Brave提供的广告作为奖励获取方式。如果用户选择观看广告，Brave浏览器将通过推送，间歇性通知用户收看广告。当用户点击推送时，将获得Brave的奖励代币BAT（Basic Attention Token）。但也有不少负面评价认为，与广告曝光频率相比，补偿力度不够。此外，Brave浏览器也存在收集用户的个人信息以有效地提供广告服务的可能性。
　　三、Osiris浏览器
　　

　　ACENT旗下的Osiris浏览器是一个基于区块链的网络浏览器。Osiris浏览器与Opera和Brave的不同之处在于，Osiris浏览器的用户群体是以区块链用户为主的。
　　Osiris是现有的唯一一款将ETH、BSC、DOT、TRX 和ACE等众多区块链主网集成到一个平台的网络浏览器。
　　为了提高区块链用户的便利性，项目方在Osiris浏览器内设置了多功能钱包“Metawallet”，该钱包可以使浏览器支持各种加密货币交易。Osiris Meta Wallet的最大缺陷在于只能在Osiris浏览器上使用，其他浏览器目前仍没有可用的扩展程序。就安全性而言Meta Wallet比现有的扩展钱包更加安全，其所支持的区块链网络数量目前来看也是最多的，未来也许将有更多区块链主网加入Osiris浏览器。
　　Osiris浏览器面向区块链用户，具备基本浏览器的功能，在此基础上其还拥有极为显著的区块链特性。
　　对于一般的浏览器用户，Osiris浏览器提供了自由选择搜索引擎的选项，同时提供屏蔽广告和增强隐私的Osiris Armor。用户可以使用Osiris Armor设置隐私选项，并查看目前为止已阻止的广告和脚本数量。
　　此外，Osiris还为区块链用户提供了DApp Store——一个DApp集结的总平台。不得不说，这对区块链用户而言是个相当友好的功能，DApp Store是最适合Osiris浏览器的优化DApp市场，目前也正在快速的拓展全球市场。
　　Osiris浏览器不同于其他区块链浏览器的最大优势在于，Osiris有自己的主网。
　　目前，其自主研发的主网已经适用于Osiris浏览器，在全球范围内是首个适用自主研发主网的浏览器。
　　Web3浏览器面临的挑战
　　Web 3浏览器当今面临的最大挑战之一还是兼容性的问题。换句话来说，用户必须知道其使用的是什么代币，以及一个特定的应用程序在什么区块链协议上运行。
　　例如，如果用户正在Chrome上使用MetaMask，其可以使用所有基于以太坊的区块链和应用程序。但如果用户需要使用Solana支持的应用程序，那他就需要再另外安装一个Phantom钱包。
　　除此以外，我们还不得不关心安全问题。在Web3的初期阶段，许多不法分子利用网络钓鱼将用户引诱到欺诈性网站，窃取他们的资产。目前，Opera已经提供了一个带有快捷方式的集中中心，可以方便地引导用户访问合法网站。
　　根据Vogelsteller的说法，在用户体验Web 3之前面临两大障碍。
　　首先是需要记住12个字的助记词，并理解这种认证方法背后的安全原因。
　　其次是需要Ether做任何事情，考虑到加密货币的价格以及涉及的燃料和交易费用等因素，这样的行动逻辑成本未免太高。
　　浏览器可以通过与不同的合作伙伴合作来解决第一个问题，但第二个问题仍是顽疾。
　　Web3浏览器的未来之路
　　目前，体验Web3对于绝大多数用户仍是一个难题，普通用户需要处理相当陡峭的学习曲线。甚至在Web3体验的起点就是一个42个字符的冗长地址。
　　这些复杂的代码也使用户难以了解其所有者的声誉和身份。虽然在某些情况下匿名性是很好的，但它也使得这种结构对于信任的建立也无疑设置了极高的壁垒。
　　除此之外还有一些问题，比如应该在这里使用什么代币、应用程序在哪个区块链上工作、它们是否相互配合等。想象一下，仅仅为了发送一条推特，甚至需要进行十几次的操作。这就是目前Web3的使用感受。
　　未来，Web3浏览器和通用配置文件等标准无疑是需要协同工作的，也只有这样才能简化这些复杂的流程。彼时，用户也许就不必再担心后端协议的世界了，那里有更容易记住的用户名，以及与每个身份相关的可解析信息。加上区块链本身透明化、不可篡改的特性，无疑会打开新世界的大门。
　　参考文件：

浏览器抓取网页(浏览器抓取网页程序存储到html文件中我给你介绍)

网站优化 • 优采云发表了文章 • 0 个评论 • 79 次浏览 • 2022-04-20 19:04 • 来自相关话题

　　浏览器抓取网页(浏览器抓取网页程序存储到html文件中我给你介绍)
　　浏览器抓取网页程序存储到html文件中
　　我给你介绍个可以上传服务器然后给网站服务器一个key，对方发来的js就可以通过你的key调用服务器上的程序，然后服务器拿到你这个key后才知道接下来发生什么事情。国内可以直接用steam挂服务器做这个事情，需要付钱，很贵的。
　　存数据库一般是不行的，即使是用webqq来支持这个功能，很多时候也有bug，用户没提示登录，然后就退出。
　　首先下载一个能用的游戏，现在网游都带有web支持，然后用webqq或line登录，对方发送游戏的有点位图，你可以看见并理解。实现一套接入手机客户端和网页客户端的交互系统。那么，你登录什么服务器？第三方服务，一般是开放的。但是说实话不开放的话，要把客户端弄到手机客户端上。我想来想去，没有办法。那么只有想尽一切办法绕过。绕过java的postmessage接口。
　　（图片版）用第三方客户端：百度云登录的时候其实不需要连手机，因为你们目前都是使用网页上的接口来操作电脑。然后每次我想点个水位图，肯定先登录吧，而且网页客户端上的代码非常简单。你们可以把电脑端作为一个可以发起消息的终端也行。微信登录就不用说了，用浏览器，不接受servlet接口。百度云网页版客户端：如果想用手机上的接口上传，推荐使用番茄花园云操作。
　　一句话说明白怎么去做的：客户端这一步尽量开放接口，通过不同客户端发消息也可以发送数据，前提是必须有同一个第三方客户端，接口封锁不是很严格，对方的js不是很弱。然后是网页端部分，一句话说明白怎么去做的：网页端尽量封锁servlet接口，进程解析了数据才能做相应的操作，而且接口需要开放给客户端。并且在网页端只能在电脑上登录，不能登录手机。
　　对方js写得弱一点就会被封。具体操作，每个地方都要有具体的实现，有不懂可以回复，以后再展开说。关于直接读写内存地址的问题，那只是源码，而且用的是java，肯定是封装好的接口，web.xml肯定都写好，要做什么就直接根据配置文件来配。查看全部

　　浏览器抓取网页(浏览器抓取网页程序存储到html文件中我给你介绍)
　　浏览器抓取网页程序存储到html文件中
　　我给你介绍个可以上传服务器然后给网站服务器一个key，对方发来的js就可以通过你的key调用服务器上的程序，然后服务器拿到你这个key后才知道接下来发生什么事情。国内可以直接用steam挂服务器做这个事情，需要付钱，很贵的。
　　存数据库一般是不行的，即使是用webqq来支持这个功能，很多时候也有bug，用户没提示登录，然后就退出。
　　首先下载一个能用的游戏，现在网游都带有web支持，然后用webqq或line登录，对方发送游戏的有点位图，你可以看见并理解。实现一套接入手机客户端和网页客户端的交互系统。那么，你登录什么服务器？第三方服务，一般是开放的。但是说实话不开放的话，要把客户端弄到手机客户端上。我想来想去，没有办法。那么只有想尽一切办法绕过。绕过java的postmessage接口。
　　（图片版）用第三方客户端：百度云登录的时候其实不需要连手机，因为你们目前都是使用网页上的接口来操作电脑。然后每次我想点个水位图，肯定先登录吧，而且网页客户端上的代码非常简单。你们可以把电脑端作为一个可以发起消息的终端也行。微信登录就不用说了，用浏览器，不接受servlet接口。百度云网页版客户端：如果想用手机上的接口上传，推荐使用番茄花园云操作。
　　一句话说明白怎么去做的：客户端这一步尽量开放接口，通过不同客户端发消息也可以发送数据，前提是必须有同一个第三方客户端，接口封锁不是很严格，对方的js不是很弱。然后是网页端部分，一句话说明白怎么去做的：网页端尽量封锁servlet接口，进程解析了数据才能做相应的操作，而且接口需要开放给客户端。并且在网页端只能在电脑上登录，不能登录手机。
　　对方js写得弱一点就会被封。具体操作，每个地方都要有具体的实现，有不懂可以回复，以后再展开说。关于直接读写内存地址的问题，那只是源码，而且用的是java，肯定是封装好的接口，web.xml肯定都写好，要做什么就直接根据配置文件来配。

浏览器抓取网页(浏览器抓取网页数据包需要借助网页解析服务器的方式)

网站优化 • 优采云发表了文章 • 0 个评论 • 93 次浏览 • 2022-04-18 22:03 • 来自相关话题

　　浏览器抓取网页(浏览器抓取网页数据包需要借助网页解析服务器的方式)
　　浏览器抓取网页数据包需要借助网页解析服务器，网页解析服务器负责处理数据包，提供web接口，将数据发送给浏览器，我们可以使用extjs、jsplite、magentomysql、php等。网页解析服务器一般部署在物理机服务器上，也有部署在云服务器上的。中间件编程是指应用程序通过中间件与本地应用程序进行交互，中间件把api对外暴露给应用程序，进行数据的封装，然后把返回结果发送给应用程序。
　　我们可以用到extjs、swoole和redis。extjs是一个轻量级的html5开发框架，拥有三种模版语言（jsp，asp，php）和mvc的架构框架。它提供了单页应用程序模型、express、netty、ci、contenttypes、zendframework、httpclient、httpcookie，然后通过浏览器集成了mysql。
　　mvc是model-view-controller的缩写，指的是view层把控制层的代码负责转换为视图层的可读可写代码。mvc中控制层相当于第一层，就是view层，控制层将数据库、中间层、php封装起来就是基于单页应用程序模型建立的数据访问层。它和swoole有一些像。swoole是基于php的，所以拥有很多php的特性。
　　swoole模拟并发网络io线程，可以增加php的并发能力，也可以用于扩展php的性能。另外swoole还可以实现异步io模型。redis是一种基于python的键值存储系统，因其非同步、高可靠的特性而被广泛使用，尤其适合作为分布式系统的键值存储，在健壮性、速度、可伸缩性等方面性能优于memcached和redis。
　　extjs、magento和swoole在国内一般部署在云服务器上。基于云服务器的方式大致如下：1）直接部署在云服务器上：ubuntu18.04+php7.2+tomcat6+extjs3.x+magento4.x+submailorrails3.x+extjs4.x等2）间接部署在云服务器上：php7.2+tomcat6+extjs3.x+magento4.x+rails4.x等数据库方面：oracle,mysql,mssql。
　　我们在建立分布式平台时，可以使用分布式编程框架(cdh,nginx等)，做数据访问层和存储层操作，保证分布式平台可伸缩性。上篇介绍过，如果上传图片，涉及到要进行图片的加密分发。spark或springcloud集成分布式图存储(edh)，实现分布式图存储，是目前很实用的一个平台。edh分发支持并发上传图片，且支持api伸缩，通过spark来访问分布式图数据。
　　mysql连接性能还是比较差，分布式处理相比较其他数据库还是有很大差距。druid是一个传统的关系型数据库查询工具，用于构建、连接数据库表中不同类型的查询子集。优点在于架构简单，可以构建一个简。查看全部

　　浏览器抓取网页(浏览器抓取网页数据包需要借助网页解析服务器的方式)
　　浏览器抓取网页数据包需要借助网页解析服务器，网页解析服务器负责处理数据包，提供web接口，将数据发送给浏览器，我们可以使用extjs、jsplite、magentomysql、php等。网页解析服务器一般部署在物理机服务器上，也有部署在云服务器上的。中间件编程是指应用程序通过中间件与本地应用程序进行交互，中间件把api对外暴露给应用程序，进行数据的封装，然后把返回结果发送给应用程序。
　　我们可以用到extjs、swoole和redis。extjs是一个轻量级的html5开发框架，拥有三种模版语言（jsp，asp，php）和mvc的架构框架。它提供了单页应用程序模型、express、netty、ci、contenttypes、zendframework、httpclient、httpcookie，然后通过浏览器集成了mysql。
　　mvc是model-view-controller的缩写，指的是view层把控制层的代码负责转换为视图层的可读可写代码。mvc中控制层相当于第一层，就是view层，控制层将数据库、中间层、php封装起来就是基于单页应用程序模型建立的数据访问层。它和swoole有一些像。swoole是基于php的，所以拥有很多php的特性。
　　swoole模拟并发网络io线程，可以增加php的并发能力，也可以用于扩展php的性能。另外swoole还可以实现异步io模型。redis是一种基于python的键值存储系统，因其非同步、高可靠的特性而被广泛使用，尤其适合作为分布式系统的键值存储，在健壮性、速度、可伸缩性等方面性能优于memcached和redis。
　　extjs、magento和swoole在国内一般部署在云服务器上。基于云服务器的方式大致如下：1）直接部署在云服务器上：ubuntu18.04+php7.2+tomcat6+extjs3.x+magento4.x+submailorrails3.x+extjs4.x等2）间接部署在云服务器上：php7.2+tomcat6+extjs3.x+magento4.x+rails4.x等数据库方面：oracle,mysql,mssql。
　　我们在建立分布式平台时，可以使用分布式编程框架(cdh,nginx等)，做数据访问层和存储层操作，保证分布式平台可伸缩性。上篇介绍过，如果上传图片，涉及到要进行图片的加密分发。spark或springcloud集成分布式图存储(edh)，实现分布式图存储，是目前很实用的一个平台。edh分发支持并发上传图片，且支持api伸缩，通过spark来访问分布式图数据。
　　mysql连接性能还是比较差，分布式处理相比较其他数据库还是有很大差距。druid是一个传统的关系型数据库查询工具，用于构建、连接数据库表中不同类型的查询子集。优点在于架构简单，可以构建一个简。

浏览器抓取网页(说句心里话，“显示友好HTTP错误信息”对大家而言一点都不友好)

网站优化 • 优采云发表了文章 • 0 个评论 • 164 次浏览 • 2022-04-18 20:45 • 来自相关话题

　　浏览器抓取网页(说句心里话，“显示友好HTTP错误信息”对大家而言一点都不友好)
　　老实说，“显示友好的 HTTP 错误消息”对每个人都不是友好的。网页打不开的时候，老是提示“当前网页无法显示”，很郁闷。但是，取消选中它后，您可以清楚地看到错误。如果自己不能解决，可以在谷歌和百度搜索错误信息，全部解决。在我看来，取消勾选才是真正的友好！
　　打开Internet Explorer，单击顶部的“工具”，选择“Internet选项”，然后单击“高级”，取消选中“显示友好的http错误消息”，单击“应用”，然后单击“确定”。
　　<IMG border=0 src="/manage/eWebEditor/uploadfile/20111023011650309.jpg">
　　如果您使用360安全浏览器，除了必须在Internet Explorer中完成设置外，您还需要在360安全浏览器中进行设置。方法是：点击顶部的“工具”，然后点击“选项”，点击左侧的“其他”，取消勾选“网站错误时显示友好的错误页面”，设置完成。
　　<IMG border=0 src="/manage/eWebEditor/uploadfile/20111023011711398.jpg">
　　再次打开报错的网页地址，发现浏览器可以准确显示错误原因，然后根据网页上的错误信息判断程序错误原因并解决。
　　一些常见的状态码是：
　　1xx（临时回复）
　　用于指示需要请求者采取行动才能继续的临时响应的状态代码。
　　代码说明
　　100（续）
　　请求者应继续请求。返回此代码的服务器意味着服务器已收到请求的第一部分，现在正在等待接收其余部分。
　　101（交换协议）
　　请求者已请求服务器切换协议，服务器已确认并准备切换。
　　2xx（成功）
　　用于指示服务器已成功处理请求的状态码。
　　代码说明
　　200（成功）
　　服务器已成功处理请求。通常，这意味着服务器提供了所请求的网页。如果您的 robots.txt 文件显示此状态，则表明 Googlebot 已成功检索该文件。
　　201（创建）
　　请求成功，服务器已创建新资源。
　　202（接受）
　　服务器已接受请求但尚未处理。
　　203（未经授权的信息）
　　服务器成功处理了请求，但返回的信息可能来自其他来源。
　　204（无内容）
　　服务器成功处理了请求，但没有返回任何内容。
　　205（重置内容）
　　服务器成功处理了请求，但没有返回任何内容。与 204 响应不同，此响应要求请求者重置文档视图（例如，清除表单内容以输入新内容）。
　　206（部分内容）
　　服务器成功处理了部分 GET 请求。
　　3xx（重定向）
　　要完成请求，您需要采取进一步的措施。通常，这些状态代码会永远重定向。Google 建议您对每个请求使用少于 5 个重定向。您可以使用网站管理工具查看 Googlebot 是否在抓取您重定向的网页时遇到问题。
　　代码说明
　　300（多种选择）
　　服务器可以根据请求执行各种操作。服务器可以根据请求者（用户代理）选择一个动作，或者提供一个动作列表供请求者选择。
　　301（永久移动）
　　请求的页面已永久移动到新位置。当服务器返回此响应（作为对 GET 或 HEAD 请求的响应）时，它会自动将请求者重定向到新位置。您应该使用此代码通知 Googlebot 页面或网站已永久移动到新位置。
　　302（临时搬家）
　　服务器当前正在响应来自不同位置的网页的请求，但请求者应继续使用原创位置来处理未来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码，并自动将请求者重定向到不同的位置。但是，您不应使用此代码通知 Googlebot 页面或网站已移动，因为 Googlebot 将继续抓取旧位置并将其编入索引。
　　303（见其他地点）
　　当请求者应向不同位置发出单独的 GET 请求以检索响应时，服务器会返回此代码。对于除 HEAD 请求之外的所有请求，服务器会自动转到其他位置。
　　304（未修改）
　　自上次请求以来，请求的页面尚未修改。当服务器返回此响应时，不会返回任何网页内容。
　　如果自请求者的最后一次请求以来页面没有更改，您应该配置您的服务器以返回此响应（称为 If-Modified-Since HTTP 标头）。节省带宽和开销，因为服务器可以告诉 Googlebot 该页面自上次抓取以来没有更改
　　.
　　305（使用代理）
　　请求者只能使用代理访问请求的网页。如果服务器返回此响应，则服务器还指示请求者应使用哪个代理。
　　307（临时重定向）
　　服务器当前正在响应来自不同位置的网页的请求，但请求者应继续使用原创位置来处理未来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码，并自动将请求者重定向到不同的位置。但是，您不应使用此代码通知 Googlebot 页面或网站已移动，因为 Googlebot 将继续抓取旧位置并将其编入索引。
　　4xx（请求错误）
　　这些状态码表明请求可能出错，阻止服务器处理请求。
　　代码说明
　　400（错误请求）
　　服务器不理解请求的语法。
　　401（未经授权）
　　该请求需要身份验证。登录后，服务器可能会向页面返回此响应。
　　403（禁止）
　　服务器拒绝了请求。如果当 Googlebot 尝试在您的网站上抓取有效页面时出现此状态代码（您可以在 Google 网站Admin Tools 的诊断下的 Web Crawl 页面上看到此状态代码），那么，有可能您的服务器或主机拒绝 Googlebot 访问它。
　　404（未找到）
　　服务器找不到请求的网页。例如，如果请求是针对服务器上不存在的页面，服务器通常会返回此代码。
　　但是，如果您有 robots.txt 文件并发现此状态，则您的 robots.txt 文件可能命名不正确或位于错误的位置。（该文件应位于顶级域中，并应命名为 robots.txt）。
　　如果您在 Googlebot 尝试抓取的网址（在诊断标签中的 HTTP 错误页面上）看到此状态，则表示 Googlebot 可能正在跟踪来自另一个页面的死链接（旧链接或输入错误的链接）链接到）。
　　405（方法禁用）
　　禁用请求中指定的方法。
　　406（不接受）
　　无法使用请求的内容属性响应请求的网页。
　　407（需要代理授权）
　　此状态码类似于 401（未授权），但指定请求者应使用代理进行授权。如果服务器返回此响应，则服务器还指示请求者应使用哪个代理。
　　408（请求超时）
　　服务器在等待请求时超时。
　　409（冲突）
　　服务器在完成请求时发生冲突。服务器必须收录有关在响应中发生的冲突的信息。服务器可能会返回此代码以响应与先前请求冲突的 PUT 请求，以及两个请求之间的差异列表。
　　410（已删除）
　　如果请求的资源已被永久删除，服务器将返回此响应。此代码类似于 404（未找到）代码，但在资源曾经存在但不再存在的情况下，有时会出现而不是 404 代码。如果资源已被永久删除，则应使用 301 代码指定资源的新位置。
　　411（需要有效长度）
　　服务器将不接受收录无效 Content-Length 标头字段的请求。
　　412（不满足前提条件）
　　服务器不满足请求者在请求中设置的前提条件之一。
　　413请求实体太大）
　　服务器无法处理请求，因为请求实体太大，服务器无法处理。
　　414（请求的 URI 太长）
　　请求的 URI（通常是 URL）太长，服务器无法处理。
　　415（不支持的媒体类型）
　　请求的页面不支持请求的格式。
　　416（请求的范围不符合要求）
　　如果针对页面的无效范围发出请求，服务器将返回此状态代码。
　　417（未达到预期值）
　　服务器不满足“预期”请求头字段的要求。
　　5xx（服务器错误）
　　这些状态代码表明服务器在尝试处理请求时遇到了内部错误。这些错误可能是服务器本身的错误，而不是请求。
　　代码说明
　　500内部服务器错误）
　　服务器遇到错误，无法完成请求。
　　501（尚未实施）
　　服务器没有能力满足请求。例如，当服务器无法识别请求方法时，服务器可能会返回此代码。
　　502错误的网关）
　　充当网关或代理的服务器从上游服务器接收到无效响应。
　　503服务不可用）
　　服务器当前不可用（由于过载或停机维护）。通常，这只是一个暂时的状态。
　　504网关超时）
　　服务器作为网关或代理，没有及时收到上游服务器的请求。查看全部

　　浏览器抓取网页(说句心里话，“显示友好HTTP错误信息”对大家而言一点都不友好)
　　老实说，“显示友好的 HTTP 错误消息”对每个人都不是友好的。网页打不开的时候，老是提示“当前网页无法显示”，很郁闷。但是，取消选中它后，您可以清楚地看到错误。如果自己不能解决，可以在谷歌和百度搜索错误信息，全部解决。在我看来，取消勾选才是真正的友好！
　　打开Internet Explorer，单击顶部的“工具”，选择“Internet选项”，然后单击“高级”，取消选中“显示友好的http错误消息”，单击“应用”，然后单击“确定”。
　　<IMG border=0 src="/manage/eWebEditor/uploadfile/20111023011650309.jpg">
　　如果您使用360安全浏览器，除了必须在Internet Explorer中完成设置外，您还需要在360安全浏览器中进行设置。方法是：点击顶部的“工具”，然后点击“选项”，点击左侧的“其他”，取消勾选“网站错误时显示友好的错误页面”，设置完成。
　　<IMG border=0 src="/manage/eWebEditor/uploadfile/20111023011711398.jpg">
　　再次打开报错的网页地址，发现浏览器可以准确显示错误原因，然后根据网页上的错误信息判断程序错误原因并解决。
　　一些常见的状态码是：
　　1xx（临时回复）
　　用于指示需要请求者采取行动才能继续的临时响应的状态代码。
　　代码说明
　　100（续）
　　请求者应继续请求。返回此代码的服务器意味着服务器已收到请求的第一部分，现在正在等待接收其余部分。
　　101（交换协议）
　　请求者已请求服务器切换协议，服务器已确认并准备切换。
　　2xx（成功）
　　用于指示服务器已成功处理请求的状态码。
　　代码说明
　　200（成功）
　　服务器已成功处理请求。通常，这意味着服务器提供了所请求的网页。如果您的 robots.txt 文件显示此状态，则表明 Googlebot 已成功检索该文件。
　　201（创建）
　　请求成功，服务器已创建新资源。
　　202（接受）
　　服务器已接受请求但尚未处理。
　　203（未经授权的信息）
　　服务器成功处理了请求，但返回的信息可能来自其他来源。
　　204（无内容）
　　服务器成功处理了请求，但没有返回任何内容。
　　205（重置内容）
　　服务器成功处理了请求，但没有返回任何内容。与 204 响应不同，此响应要求请求者重置文档视图（例如，清除表单内容以输入新内容）。
　　206（部分内容）
　　服务器成功处理了部分 GET 请求。
　　3xx（重定向）
　　要完成请求，您需要采取进一步的措施。通常，这些状态代码会永远重定向。Google 建议您对每个请求使用少于 5 个重定向。您可以使用网站管理工具查看 Googlebot 是否在抓取您重定向的网页时遇到问题。
　　代码说明
　　300（多种选择）
　　服务器可以根据请求执行各种操作。服务器可以根据请求者（用户代理）选择一个动作，或者提供一个动作列表供请求者选择。
　　301（永久移动）
　　请求的页面已永久移动到新位置。当服务器返回此响应（作为对 GET 或 HEAD 请求的响应）时，它会自动将请求者重定向到新位置。您应该使用此代码通知 Googlebot 页面或网站已永久移动到新位置。
　　302（临时搬家）
　　服务器当前正在响应来自不同位置的网页的请求，但请求者应继续使用原创位置来处理未来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码，并自动将请求者重定向到不同的位置。但是，您不应使用此代码通知 Googlebot 页面或网站已移动，因为 Googlebot 将继续抓取旧位置并将其编入索引。
　　303（见其他地点）
　　当请求者应向不同位置发出单独的 GET 请求以检索响应时，服务器会返回此代码。对于除 HEAD 请求之外的所有请求，服务器会自动转到其他位置。
　　304（未修改）
　　自上次请求以来，请求的页面尚未修改。当服务器返回此响应时，不会返回任何网页内容。
　　如果自请求者的最后一次请求以来页面没有更改，您应该配置您的服务器以返回此响应（称为 If-Modified-Since HTTP 标头）。节省带宽和开销，因为服务器可以告诉 Googlebot 该页面自上次抓取以来没有更改
　　.
　　305（使用代理）
　　请求者只能使用代理访问请求的网页。如果服务器返回此响应，则服务器还指示请求者应使用哪个代理。
　　307（临时重定向）
　　服务器当前正在响应来自不同位置的网页的请求，但请求者应继续使用原创位置来处理未来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码，并自动将请求者重定向到不同的位置。但是，您不应使用此代码通知 Googlebot 页面或网站已移动，因为 Googlebot 将继续抓取旧位置并将其编入索引。
　　4xx（请求错误）
　　这些状态码表明请求可能出错，阻止服务器处理请求。
　　代码说明
　　400（错误请求）
　　服务器不理解请求的语法。
　　401（未经授权）
　　该请求需要身份验证。登录后，服务器可能会向页面返回此响应。
　　403（禁止）
　　服务器拒绝了请求。如果当 Googlebot 尝试在您的网站上抓取有效页面时出现此状态代码（您可以在 Google 网站Admin Tools 的诊断下的 Web Crawl 页面上看到此状态代码），那么，有可能您的服务器或主机拒绝 Googlebot 访问它。
　　404（未找到）
　　服务器找不到请求的网页。例如，如果请求是针对服务器上不存在的页面，服务器通常会返回此代码。
　　但是，如果您有 robots.txt 文件并发现此状态，则您的 robots.txt 文件可能命名不正确或位于错误的位置。（该文件应位于顶级域中，并应命名为 robots.txt）。
　　如果您在 Googlebot 尝试抓取的网址（在诊断标签中的 HTTP 错误页面上）看到此状态，则表示 Googlebot 可能正在跟踪来自另一个页面的死链接（旧链接或输入错误的链接）链接到）。
　　405（方法禁用）
　　禁用请求中指定的方法。
　　406（不接受）
　　无法使用请求的内容属性响应请求的网页。
　　407（需要代理授权）
　　此状态码类似于 401（未授权），但指定请求者应使用代理进行授权。如果服务器返回此响应，则服务器还指示请求者应使用哪个代理。
　　408（请求超时）
　　服务器在等待请求时超时。
　　409（冲突）
　　服务器在完成请求时发生冲突。服务器必须收录有关在响应中发生的冲突的信息。服务器可能会返回此代码以响应与先前请求冲突的 PUT 请求，以及两个请求之间的差异列表。
　　410（已删除）
　　如果请求的资源已被永久删除，服务器将返回此响应。此代码类似于 404（未找到）代码，但在资源曾经存在但不再存在的情况下，有时会出现而不是 404 代码。如果资源已被永久删除，则应使用 301 代码指定资源的新位置。
　　411（需要有效长度）
　　服务器将不接受收录无效 Content-Length 标头字段的请求。
　　412（不满足前提条件）
　　服务器不满足请求者在请求中设置的前提条件之一。
　　413请求实体太大）
　　服务器无法处理请求，因为请求实体太大，服务器无法处理。
　　414（请求的 URI 太长）
　　请求的 URI（通常是 URL）太长，服务器无法处理。
　　415（不支持的媒体类型）
　　请求的页面不支持请求的格式。
　　416（请求的范围不符合要求）
　　如果针对页面的无效范围发出请求，服务器将返回此状态代码。
　　417（未达到预期值）
　　服务器不满足“预期”请求头字段的要求。
　　5xx（服务器错误）
　　这些状态代码表明服务器在尝试处理请求时遇到了内部错误。这些错误可能是服务器本身的错误，而不是请求。
　　代码说明
　　500内部服务器错误）
　　服务器遇到错误，无法完成请求。
　　501（尚未实施）
　　服务器没有能力满足请求。例如，当服务器无法识别请求方法时，服务器可能会返回此代码。
　　502错误的网关）
　　充当网关或代理的服务器从上游服务器接收到无效响应。
　　503服务不可用）
　　服务器当前不可用（由于过载或停机维护）。通常，这只是一个暂时的状态。
　　504网关超时）
　　服务器作为网关或代理，没有及时收到上游服务器的请求。

浏览器抓取网页(优采云浏览器的网页自动化脚本工具脚本管理器脚本)

网站优化 • 优采云发表了文章 • 0 个评论 • 104 次浏览 • 2022-04-18 20:41 • 来自相关话题

　　浏览器抓取网页(优采云浏览器的网页自动化脚本工具脚本管理器脚本)
　　优采云Browser 是一个强大的网页自动化脚本工具。用户可通过优采云浏览器自动登录、识别验证码、自动抓取数据、自动提交数据、点击网页、下载文件、操作数据库、收发邮件等，助您实现网络自动化页面操作，还可以生成单独的EXE程序进行销售。
　　
　　【基本介绍】优采云浏览器是一个可视化的自动化脚本工具。我们可以通过设置脚本实现自动登录、识别验证码、自动抓取数据、自动提交数据、点击网页、下载文件、操作数据库、收发邮件等。也可以通过逻辑运算完成判断，循环、跳转等操作。所有功能完全自由组合，我们可以编写强大而独特的脚本来辅助我们的工作，也可以生成单独的EXE程序进行销售
　　浏览器可以读写mysql、sqlserver、sqlite，访问四种数据库。您可以将任务数据放入数据库，通过浏览器读取并运行。操作完成后，使用浏览器将其标记为已使用。您可以在使用浏览器的过程中随时使用数据库，非常方便。
　　优采云浏览器是可以帮助您自动化操作的网页。也可以出售自己制作的脚本生成程序，生成的程序可以自定义软件名称。【常见问题】1、软件是如何授权的？
　　浏览器为永久使用，两年免费升级服务。软件需要绑定机器，但可以自由更换。
　　2、浏览器没有免费版吗？
　　优采云浏览器的脚本管理器是免费使用的，用户可以直接创建脚本和运行单个脚本。
　　3、项目经理有什么特别之处？
　　项目经理是优采云浏览器的核心价值。我们的单个脚本可以独立运行。但是我们有很多各种各样的需求需要整合，所以我们需要一个项目经理。
　　4、可以用来采集微博吗？
　　是的，您可以使用浏览器的滚动条设置采集瀑布式这些数据。
　　5、可以识别验证码吗？
　　是的，该软件带有手动编码和各种编码平台。编码结果可自动识别并自动输入。
　　6、我可以通过优采云浏览器赚钱吗？
　　优采云浏览器是可以帮助您自动化操作的网页。它还允许您出售自己制作的脚本生成程序，生成的程序可以自定义软件名称。官方提供注册服务和自动升级。用户只要管理脚本和服务，就可以快速赚钱。
　　7、可以操作数据库吗？
　　浏览器可以读写mysql、sqlserver、sqlite，访问四种数据库。您可以将任务数据放入数据库，通过浏览器读取并运行。操作完成后，使用浏览器将其标记为已使用。您可以在使用浏览器的过程中随时使用数据库，非常方便。[更新日志] 1.修复新建文件夹时任务保存失败的BUG
　　2.修复某些情况下runner无法手动关闭的bug
　　3.修复最新版浏览器仍提示升级的bug
　　4.True 或 false 在特殊情况下缺少错误修复查看全部

　　浏览器抓取网页(优采云浏览器的网页自动化脚本工具脚本管理器脚本)
　　优采云Browser 是一个强大的网页自动化脚本工具。用户可通过优采云浏览器自动登录、识别验证码、自动抓取数据、自动提交数据、点击网页、下载文件、操作数据库、收发邮件等，助您实现网络自动化页面操作，还可以生成单独的EXE程序进行销售。
　　

　　【基本介绍】优采云浏览器是一个可视化的自动化脚本工具。我们可以通过设置脚本实现自动登录、识别验证码、自动抓取数据、自动提交数据、点击网页、下载文件、操作数据库、收发邮件等。也可以通过逻辑运算完成判断，循环、跳转等操作。所有功能完全自由组合，我们可以编写强大而独特的脚本来辅助我们的工作，也可以生成单独的EXE程序进行销售
　　浏览器可以读写mysql、sqlserver、sqlite，访问四种数据库。您可以将任务数据放入数据库，通过浏览器读取并运行。操作完成后，使用浏览器将其标记为已使用。您可以在使用浏览器的过程中随时使用数据库，非常方便。
　　优采云浏览器是可以帮助您自动化操作的网页。也可以出售自己制作的脚本生成程序，生成的程序可以自定义软件名称。【常见问题】1、软件是如何授权的？
　　浏览器为永久使用，两年免费升级服务。软件需要绑定机器，但可以自由更换。
　　2、浏览器没有免费版吗？
　　优采云浏览器的脚本管理器是免费使用的，用户可以直接创建脚本和运行单个脚本。
　　3、项目经理有什么特别之处？
　　项目经理是优采云浏览器的核心价值。我们的单个脚本可以独立运行。但是我们有很多各种各样的需求需要整合，所以我们需要一个项目经理。
　　4、可以用来采集微博吗？
　　是的，您可以使用浏览器的滚动条设置采集瀑布式这些数据。
　　5、可以识别验证码吗？
　　是的，该软件带有手动编码和各种编码平台。编码结果可自动识别并自动输入。
　　6、我可以通过优采云浏览器赚钱吗？
　　优采云浏览器是可以帮助您自动化操作的网页。它还允许您出售自己制作的脚本生成程序，生成的程序可以自定义软件名称。官方提供注册服务和自动升级。用户只要管理脚本和服务，就可以快速赚钱。
　　7、可以操作数据库吗？
　　浏览器可以读写mysql、sqlserver、sqlite，访问四种数据库。您可以将任务数据放入数据库，通过浏览器读取并运行。操作完成后，使用浏览器将其标记为已使用。您可以在使用浏览器的过程中随时使用数据库，非常方便。[更新日志] 1.修复新建文件夹时任务保存失败的BUG
　　2.修复某些情况下runner无法手动关闭的bug
　　3.修复最新版浏览器仍提示升级的bug
　　4.True 或 false 在特殊情况下缺少错误修复

浏览器抓取网页(百度工程师钓鱼流程揭示360搜索存在可怕的安全隐患：)

网站优化 • 优采云发表了文章 • 0 个评论 • 78 次浏览 • 2022-04-18 15:36 • 来自相关话题

　　浏览器抓取网页(百度工程师钓鱼流程揭示360搜索存在可怕的安全隐患：)
　　首先，百度工程师做了一个简单的网页保存在服务器的个人文件夹中，没有任何外部链接。由于搜索引擎爬虫只能通过链接来抓取网页，所以这个网页是完全封闭的，无法被搜索引擎抓取。.
　　第二步，百度工程师用360浏览器打开网页。并且通过各种搜索引擎的不断测试，表明网页没有被抓取。
　　但大约2个小时后，令人惊讶的事情发生了。百度工程师尝试在360搜索中输入上面的关键词，结果是这个网页出现在搜索结果的第一行，可以直接点击浏览网页内容。在百度、谷歌、搜狗、搜搜等其他浏览器中搜索相同内容，仍无法返回对应网页。
　　为什么一个完全封闭的网页可以被360搜索引擎抓取并呈现在搜索结果中？百度工程师解释说，核心原因是他用360浏览器打开了这个网页。
　　
　　在360浏览器的隐私政策中规定，360安全浏览器会记录用户电脑上浏览历史的有用信息。这些信息包括：浏览历史、用户访问过的大多数网页的屏幕截图、cookie 或网络存储数据、访问网站时留下的临时文件、地址栏下拉列表、最近关闭的标签列表、未关闭的列表窗口关闭时的选项卡、使用内置安全下载器的下载历史记录、保存在浏览器插件中的内容等。
　　360搜索的爬虫是根据360浏览器抓取的数据信息，然后去对应的网页抓取内容快照。这样一来，360搜索就可以成功爬取一个完全封闭的网页。
　　
　　这个钓鱼过程暴露了360搜索存在可怕的安全隐患：只要你通过360浏览器访问过一个网页，无论是收录私人账户密码的信息还是公司内网的机密数据信息，360浏览器可以记录下来。并让360搜索爬虫抓取并上传到360服务器。当其他用户使用360搜索查询相关关键词时，他们可能会直接查看您的机密数据！
　　如果某证券公司的工作人员不小心使用360浏览器查看了客户的姓名、银行账号、密码等信息，那么有人在360中搜索了一个客户的姓名，那么所有客户的账号和密码可能公开。; 如果公司高管使用360浏览器查看公司内部机密数据，那么公司的核心商业机密可能会被竞争对手直接搜索。
　　记者特别提醒：如果您不希望自己的隐私数据在网络上自由传播，一定要对360浏览器多加小心，寻找最佳合作伙伴。查看全部

　　浏览器抓取网页(百度工程师钓鱼流程揭示360搜索存在可怕的安全隐患：)
　　首先，百度工程师做了一个简单的网页保存在服务器的个人文件夹中，没有任何外部链接。由于搜索引擎爬虫只能通过链接来抓取网页，所以这个网页是完全封闭的，无法被搜索引擎抓取。.
　　第二步，百度工程师用360浏览器打开网页。并且通过各种搜索引擎的不断测试，表明网页没有被抓取。
　　但大约2个小时后，令人惊讶的事情发生了。百度工程师尝试在360搜索中输入上面的关键词，结果是这个网页出现在搜索结果的第一行，可以直接点击浏览网页内容。在百度、谷歌、搜狗、搜搜等其他浏览器中搜索相同内容，仍无法返回对应网页。
　　为什么一个完全封闭的网页可以被360搜索引擎抓取并呈现在搜索结果中？百度工程师解释说，核心原因是他用360浏览器打开了这个网页。
　　

　　在360浏览器的隐私政策中规定，360安全浏览器会记录用户电脑上浏览历史的有用信息。这些信息包括：浏览历史、用户访问过的大多数网页的屏幕截图、cookie 或网络存储数据、访问网站时留下的临时文件、地址栏下拉列表、最近关闭的标签列表、未关闭的列表窗口关闭时的选项卡、使用内置安全下载器的下载历史记录、保存在浏览器插件中的内容等。
　　360搜索的爬虫是根据360浏览器抓取的数据信息，然后去对应的网页抓取内容快照。这样一来，360搜索就可以成功爬取一个完全封闭的网页。
　　

　　这个钓鱼过程暴露了360搜索存在可怕的安全隐患：只要你通过360浏览器访问过一个网页，无论是收录私人账户密码的信息还是公司内网的机密数据信息，360浏览器可以记录下来。并让360搜索爬虫抓取并上传到360服务器。当其他用户使用360搜索查询相关关键词时，他们可能会直接查看您的机密数据！
　　如果某证券公司的工作人员不小心使用360浏览器查看了客户的姓名、银行账号、密码等信息，那么有人在360中搜索了一个客户的姓名，那么所有客户的账号和密码可能公开。; 如果公司高管使用360浏览器查看公司内部机密数据，那么公司的核心商业机密可能会被竞争对手直接搜索。
　　记者特别提醒：如果您不希望自己的隐私数据在网络上自由传播，一定要对360浏览器多加小心，寻找最佳合作伙伴。

浏览器抓取网页(文章源自获取窗口宽高的displayWindowSize函数()方法来实现)

网站优化 • 优采云发表了文章 • 0 个评论 • 68 次浏览 • 2022-04-15 19:33 • 来自相关话题

　　浏览器抓取网页(文章源自获取窗口宽高的displayWindowSize函数()方法来实现)
　　js实时获取浏览器窗口大小，我们可以使用addEventListener()方法来实现。 addEventListener() 方法可以注册事件处理程序来监听浏览器窗口大小调整事件，例如window.addEventListener('resize', ...)。文章来自罗宾-
　　

js实时获取浏览器窗口大小示例
// 定义事件侦听器函数
function displayWindowSize() {
// 获取窗口的宽度和高度，不包括滚动条
var w = document.documentElement.clientWidth;
var h = document.documentElement.clientHeight;
// 在div元素中显示结果
document.getElementById("result").innerHTML = "宽: " + w + ", " + "高: " + h;
}
// 将事件侦听器函数附加到窗口的resize事件
window.addEventListener("resize", displayWindowSize);
// 第一次调用该函数
displayWindowSize();
　　在上面的代码中，我们自定义了一个displayWindowSize函数来获取窗口的宽度和高度（通过clientWidth和clientHeight属性），然后在addEventListener()方法中添加两个参数，分别是“resize”和“displayWindowSize” ”。文章来自罗宾-
　　第一个参数是实时监控窗口大小。当窗口改变一次时，将调用第二个参数 displayWindowSize 函数。文章来自罗宾- 查看全部

　　浏览器抓取网页(文章源自获取窗口宽高的displayWindowSize函数()方法来实现)
　　js实时获取浏览器窗口大小，我们可以使用addEventListener()方法来实现。 addEventListener() 方法可以注册事件处理程序来监听浏览器窗口大小调整事件，例如window.addEventListener('resize', ...)。文章来自罗宾-
　　

js实时获取浏览器窗口大小示例
// 定义事件侦听器函数
function displayWindowSize() {
// 获取窗口的宽度和高度，不包括滚动条
var w = document.documentElement.clientWidth;
var h = document.documentElement.clientHeight;
// 在div元素中显示结果
document.getElementById("result").innerHTML = "宽: " + w + ", " + "高: " + h;
}
// 将事件侦听器函数附加到窗口的resize事件
window.addEventListener("resize", displayWindowSize);
// 第一次调用该函数
displayWindowSize();
　　在上面的代码中，我们自定义了一个displayWindowSize函数来获取窗口的宽度和高度（通过clientWidth和clientHeight属性），然后在addEventListener()方法中添加两个参数，分别是“resize”和“displayWindowSize” ”。文章来自罗宾-
　　第一个参数是实时监控窗口大小。当窗口改变一次时，将调用第二个参数 displayWindowSize 函数。文章来自罗宾-

浏览器抓取网页(监听浏览器切换页面监听左上角返回页面原理:跳转链接 )

网站优化 • 优采云发表了文章 • 0 个评论 • 85 次浏览 • 2022-04-15 15:41 • 来自相关话题

　　浏览器抓取网页(监听浏览器切换页面监听左上角返回页面原理:跳转链接
)
　　监控浏览器切换页面
　　 //切换页面
document.addEventListener('visibilitychange', function () { //浏览器切换事件
if (document.visibilityState == 'hidden') { //状态判断
console.log("切换页面");
} else {
console.log("切换页面");
}
});
　　监听浏览器左上角返回页面原理：
　　1.在页面中，我们可以使用javascript窗口历史回到上一页，但是出于安全考虑，javascript不允许修改历史中已有的url链接，但是可以使用pushState 方法将 url 链接添加到历史记录中，并提供 popstate 事件监控以将 url 从历史堆栈中弹出。由于提供了popstate事件监控，我们可以监控。
　　2.虽然我们监听到了back事件，但是页面还是会回到上一页，所以我们需要用pushState添加这个页面的url来表示这个页面，大家都知道是#
　　 //返回页面
pushHistory();
window.addEventListener("popstate", function(e) {
alert("我监听到了浏览器的返回按钮事件啦");//根据自己的需求实现自己的功能

// window.history.go(-1);
}, false);
function pushHistory() {
var state = {
title: "title",
url: "#"
};
window.history.pushState(state, "title", "#");
}
　　听浏览器返回刷新并关闭页面
　　页面链接跳转不记录历史
　　function fnUrlReplace(href) {
if (href && /^#|javasc/.test(href) === false) {
if (history.replaceState) {
history.replaceState(null, document.title, href.split('#')[0] + '#');
location.replace('');
} else {
location.replace(href);
}
}
};
fnUrlReplace(targetURL);
fnUrlReplace后面直接写一个链接，这样既可以跳转又不会记录历史，而且还做了兼容性处理，兼容到IE6。查看全部

　　浏览器抓取网页(监听浏览器切换页面监听左上角返回页面原理:跳转链接
)
　　监控浏览器切换页面
　　 //切换页面
document.addEventListener('visibilitychange', function () { //浏览器切换事件
if (document.visibilityState == 'hidden') { //状态判断
console.log("切换页面");
} else {
console.log("切换页面");
}
});
　　监听浏览器左上角返回页面原理：
　　1.在页面中，我们可以使用javascript窗口历史回到上一页，但是出于安全考虑，javascript不允许修改历史中已有的url链接，但是可以使用pushState 方法将 url 链接添加到历史记录中，并提供 popstate 事件监控以将 url 从历史堆栈中弹出。由于提供了popstate事件监控，我们可以监控。
　　2.虽然我们监听到了back事件，但是页面还是会回到上一页，所以我们需要用pushState添加这个页面的url来表示这个页面，大家都知道是#
　　 //返回页面
pushHistory();
window.addEventListener("popstate", function(e) {
alert("我监听到了浏览器的返回按钮事件啦");//根据自己的需求实现自己的功能

// window.history.go(-1);
}, false);
function pushHistory() {
var state = {
title: "title",
url: "#"
};
window.history.pushState(state, "title", "#");
}
　　听浏览器返回刷新并关闭页面
　　页面链接跳转不记录历史
　　function fnUrlReplace(href) {
if (href && /^#|javasc/.test(href) === false) {
if (history.replaceState) {
history.replaceState(null, document.title, href.split('#')[0] + '#');
location.replace('');
} else {
location.replace(href);
}
}
};
fnUrlReplace(targetURL);
fnUrlReplace后面直接写一个链接，这样既可以跳转又不会记录历史，而且还做了兼容性处理，兼容到IE6。

浏览器抓取网页(浏览器到底有啥用浏览器是我们了解世界的一个窗口)

网站优化 • 优采云发表了文章 • 0 个评论 • 86 次浏览 • 2022-04-15 15:39 • 来自相关话题

　　浏览器抓取网页(浏览器到底有啥用浏览器是我们了解世界的一个窗口)
　　Matrix是一个小众写作社区，我们提倡分享真实的产品体验、实践经验和思考。我们会不定期从Matrix中挑选出最优质的文章来展示用户最真实的体验和意见。
　　文章代表作者个人观点，少数人只对标题和版面做小改动。
　　浏览器有什么用
　　浏览器是我们了解世界的窗口，是我们工作场景中最常用的信息获取渠道。我将使用浏览器的场景分为两个场景，它们构成了我们的日常工作：
　　工作 = 信息获取（声明性信息）+ 信息处理（程序性工作）
　　1. 声明性信息：主要指信息的获取，例如搜索和网页浏览。
　　2. 程序性工作：这主要是指需要动手工作的工作类型，例如 Figma 原型制作、协作文档、信息处理等。
　　这两个场景在我的工作中几乎是按照 2/8 规则分布的。
　　在我使用浏览器的时候，80%的时间我是用浏览器来浏览和获取信息的，还有20%甚至更少的时间是用浏览器完成一些程序性的工作，比如在Figma中画流程图。
　　对于在浏览器上完成编程工作的场景，各种类型的独立工具应用程序和 SaaS 服务进一步减少了对浏览器进行此类工作的需求。
　　再看一点，我发现在浏览和信息场景中似乎也有 2/8 的分布，这意味着你 80% 的时间可能只花在网站 20% 上，其余的 20%大部分时间会花在发现新的信息来源和一些临时的信息来源上，我举个例子：
　　对于产品经理：也许他有一个 Product Hunt 或其他论坛的常驻浏览器选项卡，对于设计师来说，他有一个 Dribbble 的常驻浏览器选项卡。对于开发人员来说，他的常驻浏览器选项卡可能是 Stack Overflow。
　　这种类型的网站有一个特点。我们不在网站中执行复杂的操作。我们只是偶尔访问以获取信息。如果我们抛开功能上的考虑，对于这种类型的网站还有一个更重要的要求：
　　我们需要它一直在那里，只要在那里就足够了！
　　我不知道我什么时候会使用它，但它必须为我留在那里。
　　这里有一个实际问题。既然我们每天浏览的网站几乎都集中在几个具体的网站上，我们如何才能更有效地达到这些目标网站呢绒呢？
　　毕竟打开浏览器、搜索、打开网站是一个非常繁琐的操作。现有的解决方案可能大致如下：
　　1. 可以使用类似 Alfred 的全局搜索功能来达到目标网站
　　2. 采集目标网站使用浏览器选项卡从选项卡中快速打开。
　　3. 使用 [New Tab] 之类的扩展来向我们的浏览器主页添加快速入口。
　　4. 永远不要关闭浏览器，第二天继续使用前一天的网页，但是有些浏览器，比如Chrome，有时会吃掉内存。面对这种情况，我们需要不断的清理多余的Tabs，然后在清理标签的时候就要权衡是否应该关闭，这个还是那个标签，总之关闭浏览器上的某个标签就成了一个精神压力。
　　菜单栏X
　　好吧，我想我已经把大家的日常场景和痛点说清楚了，我之前也很痛，直到前两天我才看到这个产品MenubarX，它在Product Hunt上获得了1000+票，作者的来自微信的交互设计师 hzlzh（如果我没记错的话）。
　　
　　这个产品是干什么用的？
　　一句话：把 macOS 的菜单栏当成浏览器，把你经常使用而舍不得关闭的标签页留在菜单栏中。需要查询时，点击查看即可。
　　无需打开浏览器、输入地址、打开书签，这些添加到菜单栏的网页就像门口的石狮，随时恭候您的光临。
　　
　　基本功能的默认站点是什么
　　MenubarX 提供了许多默认站点，包括社交媒体、协作工具和信息管理工具。您可以根据自己的使用习惯将站点添加到菜单栏中。
　　但老实说，因为这些默认网站基本上都有手机应用，所以从使用习惯上来说，我觉得用处不大。
　　另一方面，在电脑上加入过多的社交媒体，肯定会占用工作能量，其实也不是很好。电脑应该是一个强大的工作场景（游戏除外）。
　　
　　默认应用
　　手动添加站点
　　除了使用他的默认站点，你还可以使用搜索打开你经常使用的网站。将网站添加到菜单栏的逻辑就是你只需要打开网站并添加到现在的菜单栏，如果需要添加新的网站，那么添加另一个标签。
　　
　　
　　添加网站后，菜单栏logo也会变成网站对应的logo拖动调整窗口
　　MenubarX 提供了拖动和调整窗口大小的功能。您可以根据自己的需要调整不同站点的窗口大小。可以将图片站点调整为更大尺寸，也可以将信息站点调整为手机屏幕大小，方便浏览。
　　
　　调整窗口下载功能
　　这个浏览器支持下载文件，但是下载的时候好像还是有一些小问题。之前反馈给开发者，后期会修复，不过目前下载已经够用了，但是在交互和引导上还有进一步优化的空间，比如第一次使用下载的时候没地方查看下载的文件。
　　
　　好的！基本上，我已经完成了介绍。这个工具是一个轻量级的工具，期待后续开发者的迭代。
　　他不能为你做复杂的工作，但它可以保存你上次不想关闭的两个网页标签。祝您使用愉快。查看全部

　　浏览器抓取网页(浏览器到底有啥用浏览器是我们了解世界的一个窗口)
　　Matrix是一个小众写作社区，我们提倡分享真实的产品体验、实践经验和思考。我们会不定期从Matrix中挑选出最优质的文章来展示用户最真实的体验和意见。
　　文章代表作者个人观点，少数人只对标题和版面做小改动。
　　浏览器有什么用
　　浏览器是我们了解世界的窗口，是我们工作场景中最常用的信息获取渠道。我将使用浏览器的场景分为两个场景，它们构成了我们的日常工作：
　　工作 = 信息获取（声明性信息）+ 信息处理（程序性工作）
　　1. 声明性信息：主要指信息的获取，例如搜索和网页浏览。
　　2. 程序性工作：这主要是指需要动手工作的工作类型，例如 Figma 原型制作、协作文档、信息处理等。
　　这两个场景在我的工作中几乎是按照 2/8 规则分布的。
　　在我使用浏览器的时候，80%的时间我是用浏览器来浏览和获取信息的，还有20%甚至更少的时间是用浏览器完成一些程序性的工作，比如在Figma中画流程图。
　　对于在浏览器上完成编程工作的场景，各种类型的独立工具应用程序和 SaaS 服务进一步减少了对浏览器进行此类工作的需求。
　　再看一点，我发现在浏览和信息场景中似乎也有 2/8 的分布，这意味着你 80% 的时间可能只花在网站 20% 上，其余的 20%大部分时间会花在发现新的信息来源和一些临时的信息来源上，我举个例子：
　　对于产品经理：也许他有一个 Product Hunt 或其他论坛的常驻浏览器选项卡，对于设计师来说，他有一个 Dribbble 的常驻浏览器选项卡。对于开发人员来说，他的常驻浏览器选项卡可能是 Stack Overflow。
　　这种类型的网站有一个特点。我们不在网站中执行复杂的操作。我们只是偶尔访问以获取信息。如果我们抛开功能上的考虑，对于这种类型的网站还有一个更重要的要求：
　　我们需要它一直在那里，只要在那里就足够了！
　　我不知道我什么时候会使用它，但它必须为我留在那里。
　　这里有一个实际问题。既然我们每天浏览的网站几乎都集中在几个具体的网站上，我们如何才能更有效地达到这些目标网站呢绒呢？
　　毕竟打开浏览器、搜索、打开网站是一个非常繁琐的操作。现有的解决方案可能大致如下：
　　1. 可以使用类似 Alfred 的全局搜索功能来达到目标网站
　　2. 采集目标网站使用浏览器选项卡从选项卡中快速打开。
　　3. 使用 [New Tab] 之类的扩展来向我们的浏览器主页添加快速入口。
　　4. 永远不要关闭浏览器，第二天继续使用前一天的网页，但是有些浏览器，比如Chrome，有时会吃掉内存。面对这种情况，我们需要不断的清理多余的Tabs，然后在清理标签的时候就要权衡是否应该关闭，这个还是那个标签，总之关闭浏览器上的某个标签就成了一个精神压力。
　　菜单栏X
　　好吧，我想我已经把大家的日常场景和痛点说清楚了，我之前也很痛，直到前两天我才看到这个产品MenubarX，它在Product Hunt上获得了1000+票，作者的来自微信的交互设计师 hzlzh（如果我没记错的话）。
　　

　　这个产品是干什么用的？
　　一句话：把 macOS 的菜单栏当成浏览器，把你经常使用而舍不得关闭的标签页留在菜单栏中。需要查询时，点击查看即可。
　　无需打开浏览器、输入地址、打开书签，这些添加到菜单栏的网页就像门口的石狮，随时恭候您的光临。
　　

　　基本功能的默认站点是什么
　　MenubarX 提供了许多默认站点，包括社交媒体、协作工具和信息管理工具。您可以根据自己的使用习惯将站点添加到菜单栏中。
　　但老实说，因为这些默认网站基本上都有手机应用，所以从使用习惯上来说，我觉得用处不大。
　　另一方面，在电脑上加入过多的社交媒体，肯定会占用工作能量，其实也不是很好。电脑应该是一个强大的工作场景（游戏除外）。
　　

　　默认应用
　　手动添加站点
　　除了使用他的默认站点，你还可以使用搜索打开你经常使用的网站。将网站添加到菜单栏的逻辑就是你只需要打开网站并添加到现在的菜单栏，如果需要添加新的网站，那么添加另一个标签。
　　

　　添加网站后，菜单栏logo也会变成网站对应的logo拖动调整窗口
　　MenubarX 提供了拖动和调整窗口大小的功能。您可以根据自己的需要调整不同站点的窗口大小。可以将图片站点调整为更大尺寸，也可以将信息站点调整为手机屏幕大小，方便浏览。
　　

　　调整窗口下载功能
　　这个浏览器支持下载文件，但是下载的时候好像还是有一些小问题。之前反馈给开发者，后期会修复，不过目前下载已经够用了，但是在交互和引导上还有进一步优化的空间，比如第一次使用下载的时候没地方查看下载的文件。
　　

　　好的！基本上，我已经完成了介绍。这个工具是一个轻量级的工具，期待后续开发者的迭代。
　　他不能为你做复杂的工作，但它可以保存你上次不想关闭的两个网页标签。祝您使用愉快。

浏览器抓取网页( HTTP和访问网页看Web页划等号会发生什么事情？)

网站优化 • 优采云发表了文章 • 0 个评论 • 78 次浏览 • 2022-04-15 08:50 • 来自相关话题

　　浏览器抓取网页(
HTTP和访问网页看Web页划等号会发生什么事情？)
　　
　　我是梨园微风。作为 IT 行业 25 年的老手，我年轻的时候经常把 HTTP 等同于访问网页和查看网页。这种误解使我对 HTTP 的理解仍然肤浅。. 今天，我将在这里写下我的经历。
　　
　　HTTP 是一种基于 TCP 的协议，在客户端/服务器模式下工作。HTTP 之所以使用 TCP 而不是 UDP，是因为打开一个网页必须传输大量数据，而 TCP 协议提供传输控制，将数据有序组织，同时纠正乱序数据。客户端一般是终端用户，服务器一般是网站服务器。
　　客户端通过浏览器或其他工具向服务器上的指定端口（默认为 80））发起 HTTP 请求。收到请求后，服务器将响应消息发送回客户端。消息的内容可能是以下三种：
　　1.请求的文档2.错误消息3.附加信息
　　客户端请求和连接端口需要大于 1024。
　　当您在浏览器上单击此 URL 时会发生什么，我们来看看：
　　1.出现位置：客户端浏览器动作：用户点击URL 2.出现位置：客户端浏览器-->域名服务器动作：请求解析的IP地址3.出现位置：域名服务器-> 客户端浏览器动作：返回IP地址4.位置：客户端浏览器服务器（注意箭头，是双向的）动作：建立TCP连接，服务器端口80 5.出现位置：客户端浏览器-->服务器动作：请求消息 GET /blog/index.html 6. 出现位置：服务器 --> 客户端浏览器动作：响应和传输 HTML 文件 7. 出现位置：客户端浏览器服务器（注意箭头，它是双向的）动作：释放TCP连接
　　Web 服务器通常有很大的访问压力。为了提高效率，HTTP1.1 规定浏览器和服务器的连接时间很短。浏览器的每个请求都需要与服务器建立新的 TCP 连接。TCP 连接在请求后立即断开，服务器不会记录过去的请求。
　　这样，访问具有多个文档、图像或图片的网页需要建立多个独立的请求和响应连接，每个连接只传输一个文档、图像或图片。客户端和服务器需要频繁的建立和关闭连接，这会严重影响双方的性能。如果网页收录Applet、JavaScript、CSS，也会出现性能下降。
　　为了解决这个问题，HTTP1.1 后来开始支持长连接。这样就可以通过单个 TCP 连接传输多个 HTTP 请求和响应，大大减少了建立和关闭连接带来的消耗和延迟。这样，在访问多图片网页文件时，可以在同一个连接中传输多个请求和响应。当然，多个文件请求和响应仍然需要分别连接。
　　HTTP1.1 允许客户端进行下一个请求，而不需要等待上一个请求返回的结果，但是服务器必须按照收到请求的顺序返回结果，以确保客户端能够区分每个time 对请求的响应内容。查看全部

　　浏览器抓取网页(
HTTP和访问网页看Web页划等号会发生什么事情？)
　　

　　我是梨园微风。作为 IT 行业 25 年的老手，我年轻的时候经常把 HTTP 等同于访问网页和查看网页。这种误解使我对 HTTP 的理解仍然肤浅。. 今天，我将在这里写下我的经历。
　　

　　HTTP 是一种基于 TCP 的协议，在客户端/服务器模式下工作。HTTP 之所以使用 TCP 而不是 UDP，是因为打开一个网页必须传输大量数据，而 TCP 协议提供传输控制，将数据有序组织，同时纠正乱序数据。客户端一般是终端用户，服务器一般是网站服务器。
　　客户端通过浏览器或其他工具向服务器上的指定端口（默认为 80））发起 HTTP 请求。收到请求后，服务器将响应消息发送回客户端。消息的内容可能是以下三种：
　　1.请求的文档2.错误消息3.附加信息
　　客户端请求和连接端口需要大于 1024。
　　当您在浏览器上单击此 URL 时会发生什么，我们来看看：
　　1.出现位置：客户端浏览器动作：用户点击URL 2.出现位置：客户端浏览器-->域名服务器动作：请求解析的IP地址3.出现位置：域名服务器-> 客户端浏览器动作：返回IP地址4.位置：客户端浏览器服务器（注意箭头，是双向的）动作：建立TCP连接，服务器端口80 5.出现位置：客户端浏览器-->服务器动作：请求消息 GET /blog/index.html 6. 出现位置：服务器 --> 客户端浏览器动作：响应和传输 HTML 文件 7. 出现位置：客户端浏览器服务器（注意箭头，它是双向的）动作：释放TCP连接
　　Web 服务器通常有很大的访问压力。为了提高效率，HTTP1.1 规定浏览器和服务器的连接时间很短。浏览器的每个请求都需要与服务器建立新的 TCP 连接。TCP 连接在请求后立即断开，服务器不会记录过去的请求。
　　这样，访问具有多个文档、图像或图片的网页需要建立多个独立的请求和响应连接，每个连接只传输一个文档、图像或图片。客户端和服务器需要频繁的建立和关闭连接，这会严重影响双方的性能。如果网页收录Applet、JavaScript、CSS，也会出现性能下降。
　　为了解决这个问题，HTTP1.1 后来开始支持长连接。这样就可以通过单个 TCP 连接传输多个 HTTP 请求和响应，大大减少了建立和关闭连接带来的消耗和延迟。这样，在访问多图片网页文件时，可以在同一个连接中传输多个请求和响应。当然，多个文件请求和响应仍然需要分别连接。
　　HTTP1.1 允许客户端进行下一个请求，而不需要等待上一个请求返回的结果，但是服务器必须按照收到请求的顺序返回结果，以确保客户端能够区分每个time 对请求的响应内容。

浏览器抓取网页( 另一个内部系统导出数据存到数据库做分析方案)

网站优化 • 优采云发表了文章 • 0 个评论 • 88 次浏览 • 2022-04-15 08:44 • 来自相关话题

　　浏览器抓取网页(
另一个内部系统导出数据存到数据库做分析方案)
　　Selenium爬虫实践：ajax请求抓包，浏览器退出
　　2022-04-07 16:00 软件测试 Mumu
　　前言
　　最近忙于公司内部制度，累了。我需要从另一个内部系统导出数据并将其存储在数据库中进行分析。有很多数据采集工作，但是我也无法直接获取到那个系统的接口，也很难，只能爬虫，但是cookie还是经常失效。为了不每次登录失败都来找我重新注入cookie，我写了一个手机版的网页后台控制selenium的自动登录，拦截token和cookie。
　　
　　Ajax请求抓包方案
　　找资料的过程真的很痛苦，好在这段时间没有浪费，问题终于解决了……
　　根据查到的资料，在Selenium中抓取ajax请求中的数据有几种方式。
　　· 使用本地代理：browsermob-proxy
　　·使用selenium的execute js函数注入ajax hook并执行，然后在本地开一个服务器接收截取的ajax数据
　　·使用第三方库selenium-wire，这是GitHub上的一个开源项目，可以直接截取response_code和body。原则也应该是代理
　　·开启selenium的性能捕获，可以在性能日志中做修改拦截response_body
　　使用本地代理
　　本文使用代理服务器Browsermob-Proxy，它是用Java编写的，有一个python封装的接口包，方便交互...
　　先去下载：
　　安装python包：
　　pip install browsermob-proxy
　　代码中用到，这里截取了项目的部分代码，随便看看，完整代码可以看官网文档或者参考资料~
　　有几个坑需要注意，我在代码中标注了。
　　# 创建代理服务器
　　self.server =服务器（
　　#windows是bat，如果linux是另一种不带后缀的
　　r'path\bin\browsermob-proxy.bat',
　　# 这里可以自定义端口
　　选项={'端口'：9090}
　　)
　　# 这里启动服务器，有机会再关掉，否则下次使用时端口占用会冲突
　　self.server.start()
　　# 注意这里一定要trustAllServers，否则selenium后面会报error_tunnel错误
　　self.proxy = self.server.create_proxy(params={'trustAllServers': 'true'})
　　# 为 selenium 设置代理
　　选项 = ChromeOptions()
　　options.add_argument('
　　--忽略证书错误'）
　　options.add_argument(f'--proxy-server={self.proxy.proxy}')
　　self.driver = webdriver.Chrome(options=options)
　　使用代理抓包，我的项目需要从ajax请求的头部提取token和cookie。截取关键部分的代码如下：
　　self.proxy.new_har('自己创建捕获名称', options={'captureHeaders': True, 'captureContent': True})
　　# 找到需要点击的元素
　　elem_query =
　　self.driver.find_element_by_css_selector(elem_css_selector)
　　elem_query.click()
　　# 点击按钮后，等待获取数据
　　时间.sleep(5)
　　结果 = self.proxy.har
　　数据 = {}
　　输入结果['log']['entries']：
　　url = 条目['请求']['url']
　　# 根据URL查找数据接口
　　如果 'xxx/query' 在 url:
　　_response = 条目['响应']
　　_content = _response['content']['text']
　　对于条目中的项目['request']['headers']：
　　# 提取头部中的token
　　如果项目['名称'] == '授权'：
　　数据['授权'] = 项目['价值']
　　# 提取头部中的cookie
　　如果项目['名称'] == 'Cookie'：
　　数据['cookie'] = 项目['值']
　　休息
　　打印（数据）
　　上面的代码也不是完整的代码，但是抓包的具体过程已经完整表达了。有需要的同学可以根据自己的实际需要进行编码。只要能抓到数据，一切都好说~
　　浏览器和代理服务器注销
　　这个没什么好写的，不过也有个小坑，浇水吧~
　　从上面的代码也可以看出，我写了一个类来操作Selenium。程序执行后，必须关闭代理和服务器。否则selenium会留下一个chromedriver.exe进程在后台长期占用资源。，系统内存已满。
　　我在类的__del__方法中添加了关闭代理服务器和浏览器的代码，如下：
　　def __del__(self):
　　print('SeleniumFxxkUnicom 已被删除。')
　　self.proxy.close()
　　self.server.stop()
　　为了赢得
　　self.driver.window_handles：
　　self.driver.switch_to.window(win)
　　self.driver.close()
　　os.system('taskkill /im chromedriver.exe /F')
　　注意这个循环的 driver.close() 。__del__ 中无法正常执行 driver.quit()。按理说quit是最好的退出方式，但是他还需要导入一些乱七八糟的模块，导致我在这个__del__执行失败，只好曲线曲线救国，先关闭所有标签，然后使用系统命令结束进程... 查看全部

　　浏览器抓取网页(
另一个内部系统导出数据存到数据库做分析方案)
　　Selenium爬虫实践：ajax请求抓包，浏览器退出
　　2022-04-07 16:00 软件测试 Mumu
　　前言
　　最近忙于公司内部制度，累了。我需要从另一个内部系统导出数据并将其存储在数据库中进行分析。有很多数据采集工作，但是我也无法直接获取到那个系统的接口，也很难，只能爬虫，但是cookie还是经常失效。为了不每次登录失败都来找我重新注入cookie，我写了一个手机版的网页后台控制selenium的自动登录，拦截token和cookie。
　　

　　Ajax请求抓包方案
　　找资料的过程真的很痛苦，好在这段时间没有浪费，问题终于解决了……
　　根据查到的资料，在Selenium中抓取ajax请求中的数据有几种方式。
　　· 使用本地代理：browsermob-proxy
　　·使用selenium的execute js函数注入ajax hook并执行，然后在本地开一个服务器接收截取的ajax数据
　　·使用第三方库selenium-wire，这是GitHub上的一个开源项目，可以直接截取response_code和body。原则也应该是代理
　　·开启selenium的性能捕获，可以在性能日志中做修改拦截response_body
　　使用本地代理
　　本文使用代理服务器Browsermob-Proxy，它是用Java编写的，有一个python封装的接口包，方便交互...
　　先去下载：
　　安装python包：
　　pip install browsermob-proxy
　　代码中用到，这里截取了项目的部分代码，随便看看，完整代码可以看官网文档或者参考资料~
　　有几个坑需要注意，我在代码中标注了。
　　# 创建代理服务器
　　self.server =服务器（
　　#windows是bat，如果linux是另一种不带后缀的
　　r'path\bin\browsermob-proxy.bat',
　　# 这里可以自定义端口
　　选项={'端口'：9090}
　　)
　　# 这里启动服务器，有机会再关掉，否则下次使用时端口占用会冲突
　　self.server.start()
　　# 注意这里一定要trustAllServers，否则selenium后面会报error_tunnel错误
　　self.proxy = self.server.create_proxy(params={'trustAllServers': 'true'})
　　# 为 selenium 设置代理
　　选项 = ChromeOptions()
　　options.add_argument('
　　--忽略证书错误'）
　　options.add_argument(f'--proxy-server={self.proxy.proxy}')
　　self.driver = webdriver.Chrome(options=options)
　　使用代理抓包，我的项目需要从ajax请求的头部提取token和cookie。截取关键部分的代码如下：
　　self.proxy.new_har('自己创建捕获名称', options={'captureHeaders': True, 'captureContent': True})
　　# 找到需要点击的元素
　　elem_query =
　　self.driver.find_element_by_css_selector(elem_css_selector)
　　elem_query.click()
　　# 点击按钮后，等待获取数据
　　时间.sleep(5)
　　结果 = self.proxy.har
　　数据 = {}
　　输入结果['log']['entries']：
　　url = 条目['请求']['url']
　　# 根据URL查找数据接口
　　如果 'xxx/query' 在 url:
　　_response = 条目['响应']
　　_content = _response['content']['text']
　　对于条目中的项目['request']['headers']：
　　# 提取头部中的token
　　如果项目['名称'] == '授权'：
　　数据['授权'] = 项目['价值']
　　# 提取头部中的cookie
　　如果项目['名称'] == 'Cookie'：
　　数据['cookie'] = 项目['值']
　　休息
　　打印（数据）
　　上面的代码也不是完整的代码，但是抓包的具体过程已经完整表达了。有需要的同学可以根据自己的实际需要进行编码。只要能抓到数据，一切都好说~
　　浏览器和代理服务器注销
　　这个没什么好写的，不过也有个小坑，浇水吧~
　　从上面的代码也可以看出，我写了一个类来操作Selenium。程序执行后，必须关闭代理和服务器。否则selenium会留下一个chromedriver.exe进程在后台长期占用资源。，系统内存已满。
　　我在类的__del__方法中添加了关闭代理服务器和浏览器的代码，如下：
　　def __del__(self):
　　print('SeleniumFxxkUnicom 已被删除。')
　　self.proxy.close()
　　self.server.stop()
　　为了赢得
　　self.driver.window_handles：
　　self.driver.switch_to.window(win)
　　self.driver.close()
　　os.system('taskkill /im chromedriver.exe /F')
　　注意这个循环的 driver.close() 。__del__ 中无法正常执行 driver.quit()。按理说quit是最好的退出方式，但是他还需要导入一些乱七八糟的模块，导致我在这个__del__执行失败，只好曲线曲线救国，先关闭所有标签，然后使用系统命令结束进程...

浏览器抓取网页(长沙会计培训--DOM属性)

网站优化 • 优采云发表了文章 • 0 个评论 • 75 次浏览 • 2022-04-14 04:23 • 来自相关话题

　　浏览器抓取网页(长沙会计培训--DOM属性)
　　2021-11-01
　　1、窗口
　　获取浏览器窗口大小，window对象有innerWidth和innerHeight属性，可以获取浏览器窗口的内部宽度和高度。内部宽度和高度是指去除菜单栏、工具栏和边框等占位符元素后用于显示网页的净宽度和高度。
　　对应的还有一个outerWidth和outerHeight属性，可以获取浏览器窗口的整个宽高
　　2、导航器
　　navigator 对象表示有关浏览器的信息。最常用的属性包括：
　　3、屏幕
　　screen对象表示屏幕的信息，常用的属性有：
　　4、位置
　　location 对象表示当前页面的 URL 信息。
　　可以通过 location.href 获取。要获取 URL 各部分的值，可以编写：
　　location.protocol; // 'http'
location.host; // 'www.example.com'
location.port; // '8080'
location.pathname; // '/path/index.html'
location.search; // '?a=1&b=2'
location.hash; // 'TOP'
要加载一个新页面，可以调用location.assign()。如果要重新加载当前页面，调用location.reload()方法非常方便。
5、document
　　文档对象代表当前页面。由于 HTML 在浏览器中以 DOM 的形式表示为树结构，因此文档对象是整个 DOM 树的根节点。
　　文档的title属性是从HTML文档中的xxx读取的，但是可以动态改变：
　　6、DOM 操作
　　insertBefore 如果我们想在指定位置插入子节点怎么办？可以使用parentElement.insertBefore(newElement, referenceElement);，子节点会被插入到referenceElement之前。
　　7、操作文件
　　文件 API
　　由于 JavaScript 对用户上传的文件的操作非常有限，尤其是无法读取文件内容，因此很多需要操作文件的网页不得不使用 Flash 等第三方插件。
　　随着 HTML5 的普及，新的 File API 允许 JavaScript 读取文件内容并获取更多文件信息。
　　HTML5的File API提供了两个主要的对象，File和FileReader，可以获取文件信息和读取文件。
　　var
fileInput = document.getElementById('test-image-file'),
info = document.getElementById('test-file-info'),
preview = document.getElementById('test-image-preview');
// 监听change事件:
fileInput.addEventListener('change', function () {
// 清除背景图片:
preview.style.backgroundImage = '';
// 检查文件是否选择:
if (!fileInput.value) {
info.innerHTML = '没有选择文件';
return;
}
// 获取File引用:
var file = fileInput.files[0];
// 获取File信息:
info.innerHTML = '文件: ' + file.name + '
' +
'大小: ' + file.size + '
' +
'修改: ' + file.lastModifiedDate;
if (file.type !== 'image/jpeg' && file.type !== 'image/png' && file.type !== 'image/gif') {
alert('不是有效的图片文件!');
return;
}
// 读取文件:
var reader = new FileReader();
reader.onload = function(e) {
var
data = e.target.result; // 'data:image/jpeg;base64,/9j/4AAQSk...(base64编码)...'
preview.style.backgroundImage = 'url(' + data + ')';
};
// 以DataURL的形式读取文件:
reader.readAsDataURL(file);
});
　　8、AJAX
　　同源政策，
　　JavaScript 发送 AJAX 请求时，URL 的域名必须与当前页面完全相同。
　　完全一致是指域名应该相同（和不同），协议应该相同（http和https不同），端口号应该相同（默认为:80端口，不同于:8080)
　　解决跨域
　　一种是通过Flash插件发送HTTP请求。这种方法可以绕过浏览器的安全限制，但必须安装Flash并与Flash交互。但是Flash使用起来很麻烦，现在也越来越少用了。
　　第二种是通过在同源域名下设置代理服务器进行转发，JavaScript负责将请求发送到代理服务器：
　　'/proxy?url=http://www.sina.com.cn'
　　然后代理服务器返回结果，从而符合浏览器的同源策略。这种方法的问题在于它需要在服务器端进行额外的开发。
　　第三种方式叫做JSONP，它有一个限制，只能使用GET请求，并且需要返回JavaScript。这种方式的跨域其实就是使用浏览器允许跨域引用JavaScript资源：（动态插入脚本标签）
　　相当于动态读取外域的JavaScript资源，最后等待接收回调；
　　JSONP的原理是动态添加script标签，将接口地址与定义好的回调函数拼接起来，赋值给script标签的src属性。插入成功后，会调用回调函数，返回接口请求的数据。定义好的回调函数里面处理请求的结果
　　成为CORS的第四种方式
　　如果浏览器支持 HTML5，那么你可以一劳永逸地使用新的跨域策略：CORS。CORS 代表 Cross-Origin Resource Sharing，即如何按照 HTML5 规范定义的跨域访问资源。
　　对方服务器是否愿意为你设置一个正确的Access-Control-Allow-Origin，只要响应头Access-Control-Allow-Origin是，或者*，跨域请求就可以成功
　　9、承诺
　　这种链式的好处是首先统一执行 AJAX 逻辑，不管结果如何处理，然后根据结果是成功还是失败，在某个时间点调用成功或失败函数。未来。
　　古人说：“君子许诺一千块钱”，而这个“许诺将来执行”的对象在 JavaScript 中称为 Promise 对象。
　　Promise 有多种开源实现，在 ES6 中标准化，浏览器直接支持
　　可以看出，Promise 最大的优势在于，在异步执行的过程中，执行代码和处理结果的代码是明确分离的。
　　分类：
　　技术要点：
　　相关文章：查看全部

　　浏览器抓取网页(长沙会计培训--DOM属性)
　　2021-11-01
　　1、窗口
　　获取浏览器窗口大小，window对象有innerWidth和innerHeight属性，可以获取浏览器窗口的内部宽度和高度。内部宽度和高度是指去除菜单栏、工具栏和边框等占位符元素后用于显示网页的净宽度和高度。
　　对应的还有一个outerWidth和outerHeight属性，可以获取浏览器窗口的整个宽高
　　2、导航器
　　navigator 对象表示有关浏览器的信息。最常用的属性包括：
　　3、屏幕
　　screen对象表示屏幕的信息，常用的属性有：
　　4、位置
　　location 对象表示当前页面的 URL 信息。
　　可以通过 location.href 获取。要获取 URL 各部分的值，可以编写：
　　location.protocol; // 'http'
location.host; // 'www.example.com'
location.port; // '8080'
location.pathname; // '/path/index.html'
location.search; // '?a=1&b=2'
location.hash; // 'TOP'
要加载一个新页面，可以调用location.assign()。如果要重新加载当前页面，调用location.reload()方法非常方便。
5、document
　　文档对象代表当前页面。由于 HTML 在浏览器中以 DOM 的形式表示为树结构，因此文档对象是整个 DOM 树的根节点。
　　文档的title属性是从HTML文档中的xxx读取的，但是可以动态改变：
　　6、DOM 操作
　　insertBefore 如果我们想在指定位置插入子节点怎么办？可以使用parentElement.insertBefore(newElement, referenceElement);，子节点会被插入到referenceElement之前。
　　7、操作文件
　　文件 API
　　由于 JavaScript 对用户上传的文件的操作非常有限，尤其是无法读取文件内容，因此很多需要操作文件的网页不得不使用 Flash 等第三方插件。
　　随着 HTML5 的普及，新的 File API 允许 JavaScript 读取文件内容并获取更多文件信息。
　　HTML5的File API提供了两个主要的对象，File和FileReader，可以获取文件信息和读取文件。
　　var
fileInput = document.getElementById('test-image-file'),
info = document.getElementById('test-file-info'),
preview = document.getElementById('test-image-preview');
// 监听change事件:
fileInput.addEventListener('change', function () {
// 清除背景图片:
preview.style.backgroundImage = '';
// 检查文件是否选择:
if (!fileInput.value) {
info.innerHTML = '没有选择文件';
return;
}
// 获取File引用:
var file = fileInput.files[0];
// 获取File信息:
info.innerHTML = '文件: ' + file.name + '
' +
'大小: ' + file.size + '
' +
'修改: ' + file.lastModifiedDate;
if (file.type !== 'image/jpeg' && file.type !== 'image/png' && file.type !== 'image/gif') {
alert('不是有效的图片文件!');
return;
}
// 读取文件:
var reader = new FileReader();
reader.onload = function(e) {
var
data = e.target.result; // 'data:image/jpeg;base64,/9j/4AAQSk...(base64编码)...'
preview.style.backgroundImage = 'url(' + data + ')';
};
// 以DataURL的形式读取文件:
reader.readAsDataURL(file);
});
　　8、AJAX
　　同源政策，
　　JavaScript 发送 AJAX 请求时，URL 的域名必须与当前页面完全相同。
　　完全一致是指域名应该相同（和不同），协议应该相同（http和https不同），端口号应该相同（默认为:80端口，不同于:8080)
　　解决跨域
　　一种是通过Flash插件发送HTTP请求。这种方法可以绕过浏览器的安全限制，但必须安装Flash并与Flash交互。但是Flash使用起来很麻烦，现在也越来越少用了。
　　第二种是通过在同源域名下设置代理服务器进行转发，JavaScript负责将请求发送到代理服务器：
　　'/proxy?url=http://www.sina.com.cn'
　　然后代理服务器返回结果，从而符合浏览器的同源策略。这种方法的问题在于它需要在服务器端进行额外的开发。
　　第三种方式叫做JSONP，它有一个限制，只能使用GET请求，并且需要返回JavaScript。这种方式的跨域其实就是使用浏览器允许跨域引用JavaScript资源：（动态插入脚本标签）
　　相当于动态读取外域的JavaScript资源，最后等待接收回调；
　　JSONP的原理是动态添加script标签，将接口地址与定义好的回调函数拼接起来，赋值给script标签的src属性。插入成功后，会调用回调函数，返回接口请求的数据。定义好的回调函数里面处理请求的结果
　　成为CORS的第四种方式
　　如果浏览器支持 HTML5，那么你可以一劳永逸地使用新的跨域策略：CORS。CORS 代表 Cross-Origin Resource Sharing，即如何按照 HTML5 规范定义的跨域访问资源。
　　对方服务器是否愿意为你设置一个正确的Access-Control-Allow-Origin，只要响应头Access-Control-Allow-Origin是，或者*，跨域请求就可以成功
　　9、承诺
　　这种链式的好处是首先统一执行 AJAX 逻辑，不管结果如何处理，然后根据结果是成功还是失败，在某个时间点调用成功或失败函数。未来。
　　古人说：“君子许诺一千块钱”，而这个“许诺将来执行”的对象在 JavaScript 中称为 Promise 对象。
　　Promise 有多种开源实现，在 ES6 中标准化，浏览器直接支持
　　可以看出，Promise 最大的优势在于，在异步执行的过程中，执行代码和处理结果的代码是明确分离的。
　　分类：
　　技术要点：
　　相关文章：

浏览器抓取网页(Selenium强大的网络数据采集工具是怎样的？-八维教育)

网站优化 • 优采云发表了文章 • 0 个评论 • 133 次浏览 • 2022-04-14 04:15 • 来自相关话题

　　浏览器抓取网页(Selenium强大的网络数据采集工具是怎样的？-八维教育)
　　Selenium 是一个强大的网络数据采集工具，最初是为网站自动化测试而开发的。近年来，它也被广泛用于获取准确的网站快照，因为它们直接在浏览器上运行。Selenium 可以让浏览器自动加载页面，获取需要的数据，甚至对页面进行截图，或者判断网站上的某些动作是否发生。
　　Selenium 没有自带浏览器，需要配合第三方浏览器使用。例如，如果您在 Firefox 上运行 Selenium，您可以直接看到一个 Firefox 窗口打开，转到网站，然后执行您在代码中设置的操作。虽然这样更容易查看，但我更喜欢让程序在后台运行，所以我使用了一个名为 PhantonJS 的工具而不是真正的浏览器。
　　PhantomJS 是一个“无头”浏览器。它将网站加载到内存中并在页面上执行 JavaScript，但它不会向用户显示页面的图形界面。将 Selenium 和 PhantomJS 结合在一起，您可以运行一个非常强大的网络爬虫，它可以处理 cookie、JavaScript、标头以及您需要做的任何其他事情。
　　您可以从 PyPI 网站下载 Selenium 库，或使用第三方管理器（如 pip）从命令行安装它。
　　PhantomJS 也可以从其官方网站下载。因为 PhantomJS 是一个成熟的（尽管是无头的）浏览器而不是 Python 库，所以它不需要像其他 Python 库那样安装，也不能用 pip 安装。
　　虽然有很多页面使用 Ajax 来加载数据（尤其是 Google），但我们发现了一个完全用 JavaScript 生成的页面，也是一个名为 SMS America 的 PWA 应用程序，用于测试我们的爬虫。此页面上的一些电话号码和短信都是由 JavaScript 生成的。如果我们传统的方法采集这个页面，我们只能获取加载前的页面，而我们真正需要的信息（Ajax执行后的页面）却无法获取。
　　Selenium 库是在 WebDriver 上调用的 API。WebDriver 有点像可以加载网站的浏览器，但也可以像BeautifulSoup 对象一样用于查找页面元素，与页面上的元素交互（发送文本、点击等），以及执行其他操作运行 Web Crawler 的操作。
　　以下代码获取 Ajax “墙”后面的内容：
　　import os
from dotenv import load_dotenv
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import WebDriverException
from config import logger_config
class TestWebDriver(object):
def __init__(self):
load_dotenv()
logger_name = 'Web Scraping to SMS America'
self._logger_write_file = logger_config.LoggingConfig().init_logging(logger_name)
self._chrome_path_file = os.getenv('CHROME_PATH')
def get_asn_content(self, link):
driver = webdriver.Chrome(executable_path=os.getenv('CHROME_PATH'))
driver.get(link)
try:
WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.ID, "prefixes")))
get_content = driver.find_element(By.TAG_NAME, "app-home").text
except (WebDriverException, UnboundLocalError) as e:
self._logger_write_file.error(f'处理 app-home 的时候出现错误，具体错误内容：{e},地址：{link}')
return False
finally:
driver.quit()
return get_content
def main(self):
link = "https://america.storytrain.info/home"
self.get_asn_content(link)
if __name__ == '__main__':
TestWebDriver().main()
　　以上代码使用了webDriver和Chrome浏览器的方式。首先，Chrome 库创建一个新的 Selenium WebDriver。首先，使用 WebDriver 加载页面，然后暂停执行 10 秒，然后查看页面以获取（希望已加载）内容。
　　根据您的 Chrome 安装位置，在创建新的 Chrome WebDriver 时，您需要在 Selenium 的 WebDriver 访问点中指定 Chrome 可执行文件的路径：
　　driver = webdriver.Chrome(executable_path=os.getenv('CHROME_PATH'))
　　由于Selenium升级到v4.0.0或以上，使用上述代码时会出现警告，所以我们重新修改代码如下：
　　import os
from dotenv import load_dotenv
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import WebDriverException
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from config import logger_config
class TestWebDriver(object):
def __init__(self):
load_dotenv()
logger_name = 'Web Scraping to SMS America'
self._logger_write_file = logger_config.LoggingConfig().init_logging(logger_name)
self._chrome_path_file = os.getenv('CHROME_PATH')
def get_asn_content(self, link):
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get(link)
try:
WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CLASS_NAME, "home-page-card-container")))
get_content = driver.find_element(By.CLASS_NAME, "title-phone-number").text
except (WebDriverException, UnboundLocalError) as e:
self._logger_write_file.error(f'处理 app-home 的时候出现错误，具体错误内容：{e},地址：{link}')
return False
finally:
driver.quit()
print(get_content)
return get_content
def main(self):
link = "https://america.storytrain.info/home"
self.get_asn_content(link)
if __name__ == '__main__':
TestWebDriver().main()
　　如果程序都配置正确的话，上面的程序会在几分钟后显示如下结果：
　　7743186342
　　虽然这很有效，但效率不够高，并且在处理较大的网站时仍然可能存在问题。页面加载时间是不确定的，取决于服务器在毫秒内的负载，以及不断变化的互联网速度。虽然此页面可能需要两秒多的时间才能加载，但我们设置了十秒的等待时间以确保页面完全加载。更有效的方法是让 Selenium 不断检查元素的存在以确定页面是否已完全加载，如果页面加载成功则执行以下程序。
　　以下程序使用类为 home-page-card-container 的页面的内容来检查页面是否已完全加载：
　　WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CLASS_NAME, "home-page-card-container")))
　　一些新模块已被导入程序中。最重要的是 WebDriverwait 和 expected_conditions。这两个模块的组合构成了 Selenium 的隐式等待。
　　隐式等待和显式等待的区别在于，隐式等待是在继续运行代码之前等待DOM中的某个状态发生（没有显式等待时间，但是有最大等待时间限制，只要它在时间限制内），而显式等待显式设置等待时间。在隐式等待中，DOM触发的状态是用expected_conditions定义的（这里导入后使用别名EC，是常用的缩写）。Selenium 库中有许多类型的元素被触发的预期条件，包括：
　　当然，大多数期望条件都要求您在使用它们之前指定要等待的目标元素。元素使用定位器指定。请注意，定位器与选择器不同（参见前面对选择器的介绍）。定位器是一种抽象查询语言，由 By 对象表示，可以在不同的情况下使用，包括创建选择器。
　　在下面的示例代码中，选择器用于查找类为 title-phone-number 的文本内容：
　　get_content = driver.find_element(By.CLASS_NAME, "title-phone-number").text
　　总结
　　这篇文章主要讲解了如何在Chrome浏览器中使用Python中的Selenium来获取JavaScript生成的内容，以及如何处理内容是否已经加载的相关问题。最后，它解释了 Selenium 如何选择热表面元素和其他相关内容。
　　有了上面的文章，我们应该可以处理一些JavaScript生成的页面内容了。查看全部

　　浏览器抓取网页(Selenium强大的网络数据采集工具是怎样的？-八维教育)
　　Selenium 是一个强大的网络数据采集工具，最初是为网站自动化测试而开发的。近年来，它也被广泛用于获取准确的网站快照，因为它们直接在浏览器上运行。Selenium 可以让浏览器自动加载页面，获取需要的数据，甚至对页面进行截图，或者判断网站上的某些动作是否发生。
　　Selenium 没有自带浏览器，需要配合第三方浏览器使用。例如，如果您在 Firefox 上运行 Selenium，您可以直接看到一个 Firefox 窗口打开，转到网站，然后执行您在代码中设置的操作。虽然这样更容易查看，但我更喜欢让程序在后台运行，所以我使用了一个名为 PhantonJS 的工具而不是真正的浏览器。
　　PhantomJS 是一个“无头”浏览器。它将网站加载到内存中并在页面上执行 JavaScript，但它不会向用户显示页面的图形界面。将 Selenium 和 PhantomJS 结合在一起，您可以运行一个非常强大的网络爬虫，它可以处理 cookie、JavaScript、标头以及您需要做的任何其他事情。
　　您可以从 PyPI 网站下载 Selenium 库，或使用第三方管理器（如 pip）从命令行安装它。
　　PhantomJS 也可以从其官方网站下载。因为 PhantomJS 是一个成熟的（尽管是无头的）浏览器而不是 Python 库，所以它不需要像其他 Python 库那样安装，也不能用 pip 安装。
　　虽然有很多页面使用 Ajax 来加载数据（尤其是 Google），但我们发现了一个完全用 JavaScript 生成的页面，也是一个名为 SMS America 的 PWA 应用程序，用于测试我们的爬虫。此页面上的一些电话号码和短信都是由 JavaScript 生成的。如果我们传统的方法采集这个页面，我们只能获取加载前的页面，而我们真正需要的信息（Ajax执行后的页面）却无法获取。
　　Selenium 库是在 WebDriver 上调用的 API。WebDriver 有点像可以加载网站的浏览器，但也可以像BeautifulSoup 对象一样用于查找页面元素，与页面上的元素交互（发送文本、点击等），以及执行其他操作运行 Web Crawler 的操作。
　　以下代码获取 Ajax “墙”后面的内容：
　　import os
from dotenv import load_dotenv
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import WebDriverException
from config import logger_config
class TestWebDriver(object):
def __init__(self):
load_dotenv()
logger_name = 'Web Scraping to SMS America'
self._logger_write_file = logger_config.LoggingConfig().init_logging(logger_name)
self._chrome_path_file = os.getenv('CHROME_PATH')
def get_asn_content(self, link):
driver = webdriver.Chrome(executable_path=os.getenv('CHROME_PATH'))
driver.get(link)
try:
WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.ID, "prefixes")))
get_content = driver.find_element(By.TAG_NAME, "app-home").text
except (WebDriverException, UnboundLocalError) as e:
self._logger_write_file.error(f'处理 app-home 的时候出现错误，具体错误内容：{e},地址：{link}')
return False
finally:
driver.quit()
return get_content
def main(self):
link = "https://america.storytrain.info/home"
self.get_asn_content(link)
if __name__ == '__main__':
TestWebDriver().main()
　　以上代码使用了webDriver和Chrome浏览器的方式。首先，Chrome 库创建一个新的 Selenium WebDriver。首先，使用 WebDriver 加载页面，然后暂停执行 10 秒，然后查看页面以获取（希望已加载）内容。
　　根据您的 Chrome 安装位置，在创建新的 Chrome WebDriver 时，您需要在 Selenium 的 WebDriver 访问点中指定 Chrome 可执行文件的路径：
　　driver = webdriver.Chrome(executable_path=os.getenv('CHROME_PATH'))
　　由于Selenium升级到v4.0.0或以上，使用上述代码时会出现警告，所以我们重新修改代码如下：
　　import os
from dotenv import load_dotenv
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import WebDriverException
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from config import logger_config
class TestWebDriver(object):
def __init__(self):
load_dotenv()
logger_name = 'Web Scraping to SMS America'
self._logger_write_file = logger_config.LoggingConfig().init_logging(logger_name)
self._chrome_path_file = os.getenv('CHROME_PATH')
def get_asn_content(self, link):
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get(link)
try:
WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CLASS_NAME, "home-page-card-container")))
get_content = driver.find_element(By.CLASS_NAME, "title-phone-number").text
except (WebDriverException, UnboundLocalError) as e:
self._logger_write_file.error(f'处理 app-home 的时候出现错误，具体错误内容：{e},地址：{link}')
return False
finally:
driver.quit()
print(get_content)
return get_content
def main(self):
link = "https://america.storytrain.info/home"
self.get_asn_content(link)
if __name__ == '__main__':
TestWebDriver().main()
　　如果程序都配置正确的话，上面的程序会在几分钟后显示如下结果：
　　7743186342
　　虽然这很有效，但效率不够高，并且在处理较大的网站时仍然可能存在问题。页面加载时间是不确定的，取决于服务器在毫秒内的负载，以及不断变化的互联网速度。虽然此页面可能需要两秒多的时间才能加载，但我们设置了十秒的等待时间以确保页面完全加载。更有效的方法是让 Selenium 不断检查元素的存在以确定页面是否已完全加载，如果页面加载成功则执行以下程序。
　　以下程序使用类为 home-page-card-container 的页面的内容来检查页面是否已完全加载：
　　WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CLASS_NAME, "home-page-card-container")))
　　一些新模块已被导入程序中。最重要的是 WebDriverwait 和 expected_conditions。这两个模块的组合构成了 Selenium 的隐式等待。
　　隐式等待和显式等待的区别在于，隐式等待是在继续运行代码之前等待DOM中的某个状态发生（没有显式等待时间，但是有最大等待时间限制，只要它在时间限制内），而显式等待显式设置等待时间。在隐式等待中，DOM触发的状态是用expected_conditions定义的（这里导入后使用别名EC，是常用的缩写）。Selenium 库中有许多类型的元素被触发的预期条件，包括：
　　当然，大多数期望条件都要求您在使用它们之前指定要等待的目标元素。元素使用定位器指定。请注意，定位器与选择器不同（参见前面对选择器的介绍）。定位器是一种抽象查询语言，由 By 对象表示，可以在不同的情况下使用，包括创建选择器。
　　在下面的示例代码中，选择器用于查找类为 title-phone-number 的文本内容：
　　get_content = driver.find_element(By.CLASS_NAME, "title-phone-number").text
　　总结
　　这篇文章主要讲解了如何在Chrome浏览器中使用Python中的Selenium来获取JavaScript生成的内容，以及如何处理内容是否已经加载的相关问题。最后，它解释了 Selenium 如何选择热表面元素和其他相关内容。
　　有了上面的文章，我们应该可以处理一些JavaScript生成的页面内容了。

浏览器抓取网页(关键词的提取和转载和修改再带来的便利性)

网站优化 • 优采云发表了文章 • 0 个评论 • 86 次浏览 • 2022-04-12 22:38 • 来自相关话题

　　浏览器抓取网页(关键词的提取和转载和修改再带来的便利性)
　　搜索引擎在抓取大量原创网页时，会进行预处理，主要包括四个方面，关键词的提取，“镜像网页”（网页内容完全一致）未经任何修改）或“转载网页”。”（近副本，主题内容基本相同但可能有一些额外的编辑信息等，转载的页面也称为“近似镜像页面”）消除，链接分析和页面的重要性计算。
　　提取1.关键词，取一个网页的源文件（比如通过浏览器的“查看源文件”功能），可以看出情况比较复杂。从知识和实践的角度来看，收录的关键词就是这个特性的最佳代表。因此，作为预处理阶段的一项基本任务，就是提取网页源文件内容部分收录的关键词。对于中文来说，就是使用所谓的“切字软件”，根据字典Σ从网页文本中剪出Σ中收录的单词。之后，一个网页主要由一组词来近似，p = {t1, t2, ..., tn}。一般来说，我们可能会得到很多词，而同一个词可能会在一个网页中出现多次。从有效性和效率的角度来看，所有的词都不应该出现在网页的表示中。“de”、“in”等没有表示意义的内容的词要去掉，称为“停用词”。”（停用词）。这样，对于一个网页来说，有效词的数量大约是 200 个。
　　2. 消除重复或转载网页，固有的数字化和网络化为网页的复制、转载和再版带来了便利，因此我们在网络上看到了大量的重复信息。这种现象对广大网民来说是积极的，因为有更多的机会获取信息。但对于搜索引擎来说，主要是负面的；不仅在采集网页时会消耗机器时间和网络带宽资源，而且如果出现在查询结果中，会毫无意义地消耗电脑屏幕资源，还会招来用户的抱怨，“这么多重复，给我一个就够了”。因此，剔除具有重复内容或主题内容的网页是搜索引擎在网页抓取阶段的一项重要工作。
　　3、链接分析，大量的HTML标签不仅给网页的预处理带来了一些麻烦，也带来了一些新的机会。从信息检索的角度来看，如果系统只处理内容的文本，我们可以依靠的是“shared bag of words”（共享词袋），即关键词@的集合> 收录在内容中，最多加上一个词条在文档集合中的词条频率（或tf，TF）和文档频率（document frequency 或df，DF）等统计信息。而 TF 和 DF 等频率信息可以在一定程度上表明词在文档中的相对重要性或某些内容的相关性，这是有意义的。使用 HTML 标签，情况可能会进一步改善，例如在同一个文档中，和之间的信息可能比和之间的信息更重要。特别是HTML文档中收录的其他文档的链接信息是近年来特别关注的对象，相信它们不仅给出了网页之间的关系，而且在判断网页内容方面也起着重要作用。页。
　　4、网页重要性的计算，搜索引擎其实追求的是一种统计意义上的满足感。人们认为谷歌目前比百度好，或者百度比谷歌好，参考取决于前者返回的内容在大多数情况下更符合用户的需求，但并非在所有情况下。查询结果的排序方式需要考虑很多因素。如何说一个网页比另一个网页更重要？人们引用科学文献重要性的评价方法，其核心思想是“被引用越多越重要”。通过 HTML 超链接，网页之间可以很好地体现“引用”的概念。PageRank，这是谷歌创造的核心技术，是这一理念的成功体现。此外，人们还注意到网页和文档的不同特点，即有些网页主要链接大量没有明确主题的外部链接，而有些网页则由大量其他网页链接。页。从某种意义上说，这形成了一种二元关系，允许人们在网页上建立另一种重要性度量。这些指标有的可以在爬取网页的阶段计算，有的需要在查询的阶段计算，但都在查询服务阶段作为最终形成结果排名的参数的一部分. 有的网页主要是链接了大量没有明确主题的外部链接，而有的网页则是由大量的其他网页链接而成。从某种意义上说，这形成了一种二元关系，允许人们在网页上建立另一种重要性度量。这些指标有的可以在爬取网页的阶段计算，有的需要在查询的阶段计算，但都在查询服务阶段作为最终形成结果排名的参数的一部分. 有的网页主要是链接了大量没有明确主题的外部链接，而有的网页则是由大量的其他网页链接而成。从某种意义上说，这形成了一种二元关系，允许人们在网页上建立另一种重要性度量。这些指标有的可以在爬取网页的阶段计算，有的需要在查询的阶段计算，但都在查询服务阶段作为最终形成结果排名的参数的一部分.
　　这篇文章的链接：查看全部

　　浏览器抓取网页(关键词的提取和转载和修改再带来的便利性)
　　搜索引擎在抓取大量原创网页时，会进行预处理，主要包括四个方面，关键词的提取，“镜像网页”（网页内容完全一致）未经任何修改）或“转载网页”。”（近副本，主题内容基本相同但可能有一些额外的编辑信息等，转载的页面也称为“近似镜像页面”）消除，链接分析和页面的重要性计算。
　　提取1.关键词，取一个网页的源文件（比如通过浏览器的“查看源文件”功能），可以看出情况比较复杂。从知识和实践的角度来看，收录的关键词就是这个特性的最佳代表。因此，作为预处理阶段的一项基本任务，就是提取网页源文件内容部分收录的关键词。对于中文来说，就是使用所谓的“切字软件”，根据字典Σ从网页文本中剪出Σ中收录的单词。之后，一个网页主要由一组词来近似，p = {t1, t2, ..., tn}。一般来说，我们可能会得到很多词，而同一个词可能会在一个网页中出现多次。从有效性和效率的角度来看，所有的词都不应该出现在网页的表示中。“de”、“in”等没有表示意义的内容的词要去掉，称为“停用词”。”（停用词）。这样，对于一个网页来说，有效词的数量大约是 200 个。
　　2. 消除重复或转载网页，固有的数字化和网络化为网页的复制、转载和再版带来了便利，因此我们在网络上看到了大量的重复信息。这种现象对广大网民来说是积极的，因为有更多的机会获取信息。但对于搜索引擎来说，主要是负面的；不仅在采集网页时会消耗机器时间和网络带宽资源，而且如果出现在查询结果中，会毫无意义地消耗电脑屏幕资源，还会招来用户的抱怨，“这么多重复，给我一个就够了”。因此，剔除具有重复内容或主题内容的网页是搜索引擎在网页抓取阶段的一项重要工作。
　　3、链接分析，大量的HTML标签不仅给网页的预处理带来了一些麻烦，也带来了一些新的机会。从信息检索的角度来看，如果系统只处理内容的文本，我们可以依靠的是“shared bag of words”（共享词袋），即关键词@的集合> 收录在内容中，最多加上一个词条在文档集合中的词条频率（或tf，TF）和文档频率（document frequency 或df，DF）等统计信息。而 TF 和 DF 等频率信息可以在一定程度上表明词在文档中的相对重要性或某些内容的相关性，这是有意义的。使用 HTML 标签，情况可能会进一步改善，例如在同一个文档中，和之间的信息可能比和之间的信息更重要。特别是HTML文档中收录的其他文档的链接信息是近年来特别关注的对象，相信它们不仅给出了网页之间的关系，而且在判断网页内容方面也起着重要作用。页。
　　4、网页重要性的计算，搜索引擎其实追求的是一种统计意义上的满足感。人们认为谷歌目前比百度好，或者百度比谷歌好，参考取决于前者返回的内容在大多数情况下更符合用户的需求，但并非在所有情况下。查询结果的排序方式需要考虑很多因素。如何说一个网页比另一个网页更重要？人们引用科学文献重要性的评价方法，其核心思想是“被引用越多越重要”。通过 HTML 超链接，网页之间可以很好地体现“引用”的概念。PageRank，这是谷歌创造的核心技术，是这一理念的成功体现。此外，人们还注意到网页和文档的不同特点，即有些网页主要链接大量没有明确主题的外部链接，而有些网页则由大量其他网页链接。页。从某种意义上说，这形成了一种二元关系，允许人们在网页上建立另一种重要性度量。这些指标有的可以在爬取网页的阶段计算，有的需要在查询的阶段计算，但都在查询服务阶段作为最终形成结果排名的参数的一部分. 有的网页主要是链接了大量没有明确主题的外部链接，而有的网页则是由大量的其他网页链接而成。从某种意义上说，这形成了一种二元关系，允许人们在网页上建立另一种重要性度量。这些指标有的可以在爬取网页的阶段计算，有的需要在查询的阶段计算，但都在查询服务阶段作为最终形成结果排名的参数的一部分. 有的网页主要是链接了大量没有明确主题的外部链接，而有的网页则是由大量的其他网页链接而成。从某种意义上说，这形成了一种二元关系，允许人们在网页上建立另一种重要性度量。这些指标有的可以在爬取网页的阶段计算，有的需要在查询的阶段计算，但都在查询服务阶段作为最终形成结果排名的参数的一部分.
　　这篇文章的链接：

浏览器抓取网页(写第一个博客前先介绍下我本人：我其实是个硬件工程师 )

网站优化 • 优采云发表了文章 • 0 个评论 • 53 次浏览 • 2022-04-11 09:45 • 来自相关话题

　　浏览器抓取网页(写第一个博客前先介绍下我本人：我其实是个硬件工程师
)
　　在写第一篇博客之前，先啰嗦一下自我介绍一下：我其实是一个硬件工程师，我就是喜欢编程，感觉编程可以大大解放劳动力，所以偶尔写一些小程序来解决小问题日常工作中的问题，而我写的小程序大多是自动化方向的（比如这次要实现的自动填表），会孜孜不倦的寻找编程中遇到的问题的答案，而且因为不是专业的程序员，有些对大家来说很简单。这个问题对我来说并不容易。
　　通过webbrowser获取静态网页元素比较容易，但是获取动态网页元素就不容易了。在网上搜索了半天，看了很多文章，终于找到了答案。
　　本文章：《【参考】如何使用Python、C#等语言实现静态网页抓包+动态网页抓包+模拟登录网站》让我学会在开发中使用浏览器人事工具（IE9 中的 F12 和 Chrome 中的 Ctrl+Shift+I）——强大的网页分析工具，让您可以坚定地知道动态网页元素是绝对可用的，但您还没有找到方法。
　　其实这个文章:"C# WebBrowser Get the Clicked Object"也提到了解决方法，但是我错过了。
　　直到看了这篇文章：《如何在WebBrowser.Document中获取某个命名空间中的元素？》才真正解决了我要解决的问题，因为里面的网页示例和我要的网页一模一样分析。
　　
　　该技术的关键在于这行代码： webBrowser1.Document.Window.Frames("frm_xxx").Document.Forms(0).InnerHtml
　　而不是像这样的帖子：“请教专家，关于WebBrowser控制Jsp网页元素和获取元素数据，在线等。” 5楼说：WebBrowser1.Document.frames.Item(frameindex).Document。documentElement.outerHTML
　　根据关键代码，我写了一个递归调用函数来查找动态网页元素。这个函数的缺点是遇到同级时，没有Id、InnerText、Name、title、classname、value，或者相同的属性值。使用网页元素时，只能返回第一个匹配的网页元素。解决办法是找到同层的网页元素，然后通过.Parent、NextSibling、Children访问。
　　Function FindHtmlElement(ByVal FindText As String, ByVal doc As HtmlDocument, ByVal cTagName As String, ByVal cGetAttribute As String, Optional ByVal StrictMatching As Boolean = False) As HtmlElement
'cTagName：检索具有指定html 标记的元素，标记需要输入完整的，缺省时查找所有。
'例如：，不能只输入"i"，需要输入"input"
'cGetAttribute ：比较的属性类型，取值为：Id、InnerText、Name、title、classname、value、
'Id、InnerText可以通过GetAttribute获取，也可以通过HtmlElement.Id、HtmlElement.InnerText获取，所以代码简化为用GetAttribute获取。
'doc：WebBrowserExt1.Document
'GetAttribute("classname") '例如显示class="commonTable"的值commonTable
'StrictMatching：True严格匹配FindText
Dim i, k As Integer
FindHtmlElement = Nothing
'Step1
For i = 0 To doc.All.Count - 1
If InStr(doc.All.Item(i).GetAttribute(cGetAttribute), FindText) > 0 _
And (Not StrictMatching Or InStr(FindText, doc.All.Item(i).GetAttribute(cGetAttribute)) > 0) And (cTagName = "" Or LCase(cTagName) = LCase(doc.All.Item(i).TagName)) Then
FindHtmlElement = doc.All.Item(i)
'WriteRunLog("Loop1")
Exit Function '找到就退出
End If
Next
For k = 0 To doc.Window.Frames.Count - 1
'2018.3.14 直接递归调用
FindHtmlElement = FindHtmlElement(FindText, doc.Window.Frames.Item(k).Document, cTagName, cGetAttribute, StrictMatching)
If Not FindHtmlElement Is Nothing Then '找到就退出循环
Exit Function
End If
Next
End Function 查看全部

　　浏览器抓取网页(写第一个博客前先介绍下我本人：我其实是个硬件工程师
)
　　在写第一篇博客之前，先啰嗦一下自我介绍一下：我其实是一个硬件工程师，我就是喜欢编程，感觉编程可以大大解放劳动力，所以偶尔写一些小程序来解决小问题日常工作中的问题，而我写的小程序大多是自动化方向的（比如这次要实现的自动填表），会孜孜不倦的寻找编程中遇到的问题的答案，而且因为不是专业的程序员，有些对大家来说很简单。这个问题对我来说并不容易。
　　通过webbrowser获取静态网页元素比较容易，但是获取动态网页元素就不容易了。在网上搜索了半天，看了很多文章，终于找到了答案。
　　本文章：《【参考】如何使用Python、C#等语言实现静态网页抓包+动态网页抓包+模拟登录网站》让我学会在开发中使用浏览器人事工具（IE9 中的 F12 和 Chrome 中的 Ctrl+Shift+I）——强大的网页分析工具，让您可以坚定地知道动态网页元素是绝对可用的，但您还没有找到方法。
　　其实这个文章:"C# WebBrowser Get the Clicked Object"也提到了解决方法，但是我错过了。
　　直到看了这篇文章：《如何在WebBrowser.Document中获取某个命名空间中的元素？》才真正解决了我要解决的问题，因为里面的网页示例和我要的网页一模一样分析。
　　

　　该技术的关键在于这行代码： webBrowser1.Document.Window.Frames("frm_xxx").Document.Forms(0).InnerHtml
　　而不是像这样的帖子：“请教专家，关于WebBrowser控制Jsp网页元素和获取元素数据，在线等。” 5楼说：WebBrowser1.Document.frames.Item(frameindex).Document。documentElement.outerHTML
　　根据关键代码，我写了一个递归调用函数来查找动态网页元素。这个函数的缺点是遇到同级时，没有Id、InnerText、Name、title、classname、value，或者相同的属性值。使用网页元素时，只能返回第一个匹配的网页元素。解决办法是找到同层的网页元素，然后通过.Parent、NextSibling、Children访问。
　　Function FindHtmlElement(ByVal FindText As String, ByVal doc As HtmlDocument, ByVal cTagName As String, ByVal cGetAttribute As String, Optional ByVal StrictMatching As Boolean = False) As HtmlElement
'cTagName：检索具有指定html 标记的元素，标记需要输入完整的，缺省时查找所有。
'例如：，不能只输入"i"，需要输入"input"
'cGetAttribute ：比较的属性类型，取值为：Id、InnerText、Name、title、classname、value、
'Id、InnerText可以通过GetAttribute获取，也可以通过HtmlElement.Id、HtmlElement.InnerText获取，所以代码简化为用GetAttribute获取。
'doc：WebBrowserExt1.Document
'GetAttribute("classname") '例如显示class="commonTable"的值commonTable
'StrictMatching：True严格匹配FindText
Dim i, k As Integer
FindHtmlElement = Nothing
'Step1
For i = 0 To doc.All.Count - 1
If InStr(doc.All.Item(i).GetAttribute(cGetAttribute), FindText) > 0 _
And (Not StrictMatching Or InStr(FindText, doc.All.Item(i).GetAttribute(cGetAttribute)) > 0) And (cTagName = "" Or LCase(cTagName) = LCase(doc.All.Item(i).TagName)) Then
FindHtmlElement = doc.All.Item(i)
'WriteRunLog("Loop1")
Exit Function '找到就退出
End If
Next
For k = 0 To doc.Window.Frames.Count - 1
'2018.3.14 直接递归调用
FindHtmlElement = FindHtmlElement(FindText, doc.Window.Frames.Item(k).Document, cTagName, cGetAttribute, StrictMatching)
If Not FindHtmlElement Is Nothing Then '找到就退出循环
Exit Function
End If
Next
End Function

浏览器抓取网页

话题描述

相关话题

最佳回复者

1 人关注该话题