网页爬虫抓取百度图片(ScreamingFrogSEOSpiderforMac软件介绍(一)_)

优采云 发布时间: 2021-10-25 04:04

  网页爬虫抓取百度图片(ScreamingFrogSEOSpiderforMac软件介绍(一)_)

  Mac版Screaming Frog SEO Spider是一款专门用于抓取网址进行分析的网络爬虫开发工具。您可以使用本软件快速抓取网站中可能出现的断链和服务器错误,或识别网站中临时和永久重定向的链接,还可以检查可能出现的重复问题URL、页面标题、描述、内容等信息中心。

  

  Screaming Frog SEO Spider for Mac 软件介绍

  Mac版尖叫蛙SEO蜘蛛是一款网站爬虫,可以让您爬取网站的URL,获取关键要素、分析审计技巧、现场搜索引擎优化。

  特征

  1、找到断开的链接

  立即抓取 网站 并找到断开的链接 (404) 和服务器错误。批量导出错误和源 URL 进行修复,或发送给开发人员。

  2、审计重定向

  查找临时和永久重定向,识别重定向链和循环,或上传 URL 列表以在站点迁移期间进行审查。

  3、分析页面标题和元数据

  在爬取过程中分析页面标题和元描述,找出网站中过长、缺失、缺失或重复的内容。

  4、 发现重复内容

  使用 md5 算法检查和查找完全重复的 URL、部分重复的元素(例如页面标题、描述或标题)并查找低内容页面。

  5、使用XPath提取数据

  使用 CSS Path、XPath 或正则表达式从网页的 HTML 中采集任何数据。这可能包括社交元标签、其他标题、价格、SKU 或更多!

  

  6、 查看机器人和说明

  查看被 robots.txt、元机器人或 X-Robots-Tag 指令(例如“noindex”或“nofollow”)以及规范和 rel="next" 和 rel="prev" 阻止的 URL。

  7、生成XML站点地图

  快速创建 XML 站点地图和图片 XML 站点地图,并通过 URL 进行高级配置,包括最后修改、优先级和更改频率。

  8、与谷歌分析集成

  连接到 Google Analytics API 并获取用于抓取功能的用户数据,例如会话或跳出率以及着陆页的转化、目标、交易和收入。

  9、抓取 JavaScript网站

  使用集成的 Chromium WRS 来渲染网页,以抓取动态的、富含 JavaScript 的 网站 以及 Angular、React 和 Vue.js 等框架。

  10、可视化站点架构

  使用交互式爬行和目录强制地图和树形地图站点直观地评估内部链接和 URL 结构。

  

  Mac 版 Screaming Frog SEO Spider 快速摘要

  错误 - 客户端错误,例如断开的链接和服务器错误(无响应、4XX、5XX)。

  重定向 - 永久、临时重定向(3XX 响应)和 JS 重定向。

  阻止的 URL - robots.txt 协议不允许查看和审查 URL。

  被阻止的资源 - 在演示模式下查看和审核被阻止的资源。

  外部链接-所有外部链接及其状态代码。

  协议 - URL 是安全 (HTTPS) 还是不安全 (HTTP)。

  URI 问题 - 非 ASCII 字符、下划线、大写字符、参数或长 URL。

  重复页面-哈希值/MD5校验和算法来检查完全重复的页面。

  页面标题缺失、重复、超过 65 个字符、短、像素宽度被截断、等于或大于 h1。

  元描述-缺失、重复、超过 156 个字符、短、截断或像素宽度倍数。

  元关键字 - 主要用于参考,因为它们不被 Google、Bing 或 Yahoo 使用。

  文件大小- URL 和图像的大小。

  响应时间。

  最后修改的标题。

  页面(抓取)深度。

  

  字数。

  H1-缺失,重复,70多个字符,不止一个。

  H2-Missing,重复,70多个字符,不止一个。

  Meta robots-index、无索引、follow、nofollow、noarchive、nosnippet、noodp、noydir等。

  元刷新——包括目标页面和时间延迟。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线