js抓取网页内容(ROBOTS开发界两个办法：一个是robots.txt，另一个)

优采云发布时间: 2021-10-11 04:02

　　有时会有一些你不想被 ROBOTS 抓取并公开的网站内容。为了解决这个问题，ROBOTS开发社区提供了两种方法：一种是robots.txt，一种是The Robots META标签。

　　1、默认为全部

　　属性如下：

　　设置为all：会检索文件，可以查询页面上的链接；

　　设置为none：不会检索文件，无法查询页面上的链接；

　　设置为索引：文件将被检索；

　　设置为follow：可以查询页面上的链接；

　　设置为noindex：不会检索文件，但可以查询页面上的链接；

　　设置为nofollow：不会检索文件，可以查询页面上的链接。

　　2、revisit-after（重访）

　　通知搜索引擎访问天数

　　其他：

　　-------------------------------------------------- -------------------------------------------------- --------

　　meta标签分为两部分：HTTP头信息（HTTP-EQUIV）和页面描述信息（NAME）。

　　1、Content-Type 和 Content-Language（显示字符集设置）

　　说明：设置页面使用的字符集，表示首页使用的文字已经是该语言的，浏览器会根据这个调用对应的字符集来显示页面的内容。

　　注意：这个meta标签定义了HTML页面使用的字符集为GB2132，即国标汉字代码。如果将“charset=GB2312”替换为“BIG5”，则本页使用的字符集为繁体中文Big5代码。当您浏览一些国外网站时，IE浏览器会提示您下载xx语言支持以正确显示页面。该函数通过读取 HTML 页面的 Meta 标签的 Content-Type 属性，知道需要使用哪个字符集来显示页面。如果系统中没有安装相应的字符集，IE会提示下载。其他语言也对应不同的字符集。例如，日文字符集是“iso-2022-jp”，韩文字符集是“ks_c_5601”。

　　字符集选项：ISO-8859-1（英文）、BIG5、UTF-8、SHIFT-Jis、Euc、Koi8-2、us-ascii、x-mac-roman、iso- 8859-2、x-mac-ce、iso-2022-jp、x-sjis、x-euc-jp、euc-kr、iso-2022-kr、gb2312、gb_2312-80、x-euc-tw、x- cns11643-1、x-cns11643-2等字符集；Content-Language 也可以是：EN、FR 等语言代码。

　　2、刷新（刷新）

　　3、过期（过期）

　　注意：指定缓存中网页的过期时间。一旦网页过期，必须在服务器上检索它。

　　注意：必须使用 GMT 的时间格式，或者直接设置为 0（数字表示会过期多少时间）。

　　4、编译指示（缓存模式）

　　注意：浏览器禁止从本机缓存中读取页面内容。

　　注意：网页不保存在缓存中，每次访问都会刷新页面。使用此设置，访问者将无法离线浏览。

　　5、Set-Cookie（cookie设置）

　　注意：当浏览器访问一个页面时，它会存储在缓存中，下次再次访问时可以从缓存中读取，以提高速度。如果您希望访问者每次都刷新您的广告图标，或每次都刷新您的计数器，请禁用缓存。通常，没有必要禁用 HTML 文件的缓存。对于ASP等页面，可以禁用缓存，因为每次看到服务器上动态生成的页面，缓存就没有意义了。如果网页过期，保存的 cookie 将被删除。

　　用法：

　　98 年 10 月 21 日 16:14:21 格林威治标准时间；路径=/">

　　注意：必须使用 GMT 的时间格式。

　　6、Window-target（显示窗口设置）

　　说明：强制页面在当前窗口中显示为单独的页面。

　　用法：

　　注意：此属性用于防止其他人在框架中调用您的页面。内容选项：_blank、_top、_self、_parent。

　　7、图片标签（网络 RSAC 评级）

　　注意：IE的Internet选项中有一个内容设置，可以防止浏览一些受限的网站，以及网站的受限级别

　　不要被这个参数设置。

　　用法：

　　“（图片－1.1”

　　我生成评论'RSACi North America Sever' by''

　　for '' on '1997.06.30T14:21－0500' r(n0 s0 v0 l0))">

　　注意：不要将级别设置得太高。RSAC 的评估系统提供了评估网站内容的标准。用户可以设置Microsoft Internet Explorer（IE3.0 及以上）排除收录*敏*感*词*和暴力内容的站点。上面例子中的 HTML 取自微软的主页。代码中的 (n 0 s 0 v 0 l 0）表示该网站不收录不健康的内容。评级由美国娱乐委员会的评级机构 RSAC 评估。如果您想了解更多关于RSAC 评估系统 Grade 内容，或者需要自己评估的网站，可以访问 RSAC 的网站：。

　　8、Page-Enter, Page-Exit（进入和退出）

　　说明：这是页面加载和调用时的一些特殊效果。

　　用法：

　　注意：blendTrans 是一种动态滤镜，会产生淡入淡出的效果。另一个动态过滤器 RevealTrans 也可以用于页面进入和退出效果：

　　Duration 表示滤镜效果的持续时间（单位：秒）

　　过渡过滤器类型。表示使用哪种特效，取值为0-23。

　　0 矩形缩小

　　1 矩形展开

　　2 减圈

　　3 圆圈放大

　　4 从下往上刷新

　　5 从上到下刷新

　　6 从左到右刷新

　　7 从右向左刷新

　　8个垂直百叶窗

　　9 水平百叶窗

　　10个错位的水平百叶窗

　　11 错位的垂直百叶窗

　　12点差

　　13 从左到右刷新

　　14次从中间到左右刷新

　　15 中间到顶部和底部

　　16 上下到中心

　　17 右下至左上

　　18 右上至左下

　　19 左上至右下

　　20 左下至右上

　　21个单杠

　　22个竖条

　　23 以上 22种随机选择一种

　　9、MSThemeCompatible (XP 主题)

　　说明：是否关闭IE中的xp主题

　　用法：

　　注意：关闭xp的蓝色立体按钮系统显示风格，与win2k非常相似。

　　10、IE6（页面*敏*感*词*）

　　描述：页面*敏*感*词**敏*感*词*，ie6

　　用法：

　　注意：它的成分与产品的制造商相似。

　　11、Content-Script-Type（脚本相关）

　　注意：这是最近的 W3C 规范，用于指定页面中的脚本类型。

　　用法：

　　★NAME变量

　　名称描述网页，对应Content（网页内容），方便搜索引擎机器人查找和分类（目前几乎所有搜索引擎都使用在线机器人自动查找元值对网页进行分类）。

　　name (name="") 的值指定所提供信息的类型。一些值已经定义。例如描述（description）、关键字（keyword）、刷新（refresh）等等。您还可以指定其他任意值，例如：creationdate（创建日期）、

　　*敏*感*词*号（document number）和级别（level）等。

　　名称的内容指定实际内容。例如，如果您将级别指定为值，则内容可能是初级、中级或高级。

　　1、关键字（关键字）

　　描述：为搜索引擎提供的关键字列表

　　用法：

　　注意：使用英文逗号“,”来分隔每个关键词。META的通常用途是指定搜索引擎以提高搜索质量关键词。当多个 META 元素提供文档语言依赖信息时，搜索引擎将使用 lang 特性通过用户的语言优先级引用来过滤和显示搜索结果。例如：

　　2、说明（介绍）

　　描述：描述用于告诉搜索引擎你的网站的主要内容。

　　用法：

　　注意：

　　3、机器人（机器人向导）

　　说明：Robots 用于告诉搜索机器人哪些页面需要编入索引，哪些页面不需要编入索引。Content的参数为all、none、index、noindex、follow、nofollow。默认是全部。

　　用法：

　　注：很多搜索引擎使用robot/spider搜索登录网站。这些机器人/蜘蛛会使用meta元素的一些特性来决定如何登录。

　　all：会检索文件，可以查询页面上的链接；

　　none：不会检索文件，无法查询页面上的链接；（与“noindex, no follow”功能相同）

　　index：文件将被检索；（让机器人/蜘蛛登录）

　　关注：页面上的链接可以查询；

　　noindex：不会检索文件，但可以查询页面上的链接；（不要让机器人/蜘蛛登录）

　　nofollow：不会检索文件，可以查询页面上的链接。（不要让机器人/蜘蛛跟着本页链接往下看）

　　4、作者 (Author)

　　说明：注释页面的作者或制作团队

　　用法：">

　　注意：内容可以是：您或您的制作团队的姓名，或电子邮件

0

2021-10-11

js抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js抓取网页内容(ROBOTS开发界两个办法：一个是robots.txt，另一个)

0 个评论

发起人

AI时代内容工厂

js抓取网页内容(ROBOTS开发界两个办法：一个是robots.txt，另一个)

0 个评论

发起人

相关问题