js提取指定网站内容(不是Web的运作原理及运作流程(一)Web)

优采云 发布时间: 2021-09-11 02:11

  js提取指定网站内容(不是Web的运作原理及运作流程(一)Web)

  AJAX 不是 JavaScript 规范,它只是一个哥们“发明”的缩写:Asynchronous JavaScript and XML,意思是使用 JavaScript 来执行异步网络请求。

  如果你仔细观察一个Form的提交,你会发现一旦用户点击了“Submit”按钮,表单开始提交,浏览器会刷新页面,然后在新页面告诉你是否操作成功或失败。如果不幸网络太慢或其他原因,您将获得404页面。

  Web 是这样工作的:一个 HTTP 请求对应一个页面。

  如果您希望用户停留在当前页面并同时发出新的 HTTP 请求,则必须使用 JavaScript 发送此新请求。收到数据后,使用 JavaScript 更新页面。这样用户感觉还是卡在了当前页面,但是数据可以不断更新。

  最早*敏*感*词*使用AJAX的是Gmail。 Gmail 页面第一次加载后,剩下的所有数据都依赖 AJAX 来更新。

  用 JavaScript 编写完整的 AJAX 代码并不复杂,但需要注意:AJAX 请求是异步执行的,即通过回调函数获取响应。

  在现代浏览器上编写 AJAX 主要依赖于 XMLHttpRequest 对象:

  'use strict';

----

function success(text) {

var textarea = document.getElementById('test-response-text');

textarea.value = text;

}

function fail(code) {

var textarea = document.getElementById('test-response-text');

textarea.value = 'Error code: ' + code;

}

var request = new XMLHttpRequest(); // 新建XMLHttpRequest对象

request.onreadystatechange = function () { // 状态发生变化时,函数被回调

if (request.readyState === 4) { // 成功完成

// 判断响应结果:

if (request.status === 200) {

// 成功,通过responseText拿到响应的文本:

return success(request.responseText);

} else {

// 失败,根据响应码判断失败原因:

return fail(request.status);

}

} else {

// HTTP请求还在继续...

}

}

// 发送请求:

request.open('GET', '/api/categories');

request.send();

alert('请求已发送,请等待响应...');

  对于低版本的IE,需要改成ActiveXObject对象:

  'use strict';

----

function success(text) {

var textarea = document.getElementById('test-ie-response-text');

textarea.value = text;

}

function fail(code) {

var textarea = document.getElementById('test-ie-response-text');

textarea.value = 'Error code: ' + code;

}

var request = new ActiveXObject('Microsoft.XMLHTTP'); // 新建Microsoft.XMLHTTP对象

request.onreadystatechange = function () { // 状态发生变化时,函数被回调

if (request.readyState === 4) { // 成功完成

// 判断响应结果:

if (request.status === 200) {

// 成功,通过responseText拿到响应的文本:

return success(request.responseText);

} else {

// 失败,根据响应码判断失败原因:

return fail(request.status);

}

} else {

// HTTP请求还在继续...

}

}

// 发送请求:

request.open('GET', '/api/categories');

request.send();

alert('请求已发送,请等待响应...');

  如果你想把标准写法和IE写法混在一起,可以这样写:

  var request;

if (window.XMLHttpRequest) {

request = new XMLHttpRequest();

} else {

request = new ActiveXObject('Microsoft.XMLHTTP');

}

  通过检查window对象是否有XMLHttpRequest属性来判断浏览器是否支持标准的XMLHttpRequest。注意,不要使用浏览器的 navigator.userAgent 来检测浏览器是否支持某个 JavaScript 功能。一是字符串本身可以伪造,二是通过IE版本判断JavaScript特性会很复杂。

  创建XMLHttpRequest对象时,必须先设置onreadystatechange的回调函数。在回调函数中,通常我们只需要通过readyState === 4判断请求是否完成,如果完成则根据status === 200判断是否响应成功。

  XMLHttpRequest 对象的 open() 方法有 3 个参数。第一个参数指定是GET还是POST,第二个参数指定URL地址,第三个参数指定是否使用异步。默认为true,不需要写。

  注意,第三个参数不要指定false,否则浏览器会停止响应,直到AJAX请求完成。如果这个请求需要10秒,那么在10秒内你会发现浏览器处于“假死”状态。

  最后调用send()方法实际发送请求。 GET 请求不需要参数,POST 请求需要将 body 部分作为字符串或 FormData 对象传入。

  安全限制

  上面代码中的 URL 使用了相对路径。如果改成“再运行,肯定会报错。在Chrome控制台中,也可以看到错误信息。

  这是由浏览器的同源策略引起的。默认情况下,JavaScript 发送 AJAX 请求时,URL 的域名必须与当前页面完全相同。

  完全协议是指域名必须相同(和不同),协议必须相同(http和https不同),端口号必须相同(默认为:端口80,即不同于:8080)。一些浏览器有更宽松的开口并允许不同的端口。大多数浏览器都严格遵守此限制。

  是不是因为JavaScript无法请求外部域(即其他网站)URL的URL?方法还是有的,大概就这么几个:

  一是通过Flash插件发送HTTP请求。这种方法可以绕过浏览器的安全限制,但必须安装Flash并与Flash交互。不过Flash使用起来比较麻烦,现在用的越来越少了。

  二是通过设置同源域名下的代理服务器进行转发,JavaScript负责将请求发送到代理服务器:

  '/proxy?url=http://www.sina.com.cn'

  然后代理服务器返回结果,使其符合浏览器的同源策略。这种方法的问题在于它需要在服务器端进行额外的开发。

  第三种方法称为JSONP。它有一个限制。它只能使用 GET 请求并且需要返回 JavaScript。这种跨域的方式其实就是利用浏览器来允许跨域引用JavaScript资源:

  

...

...

  JSONP 通常以函数调用的形式返回,例如返回的 JavaScript 内容如下:

  foo('data');

  这样的话,如果我们先在页面中准备好foo()函数,然后动态的给页面添加一个

  function refreshPrice(data) {

var p = document.getElementById('test-jsonp');

p.innerHTML = '当前价格:' +

data['0000001'].name +': ' +

data['0000001'].price + ';' +

data['1399001'].name + ': ' +

data['1399001'].price;

}

  当前价格:

  刷新

  最后用 getPrice() 函数触发:

  function getPrice() {

var

js = document.createElement('script'),

head = document.getElementsByTagName('head')[0];

js.src = 'http://api.money.126.net/data/feed/0000001,1399001?callback=refreshPrice';

head.appendChild(js);

}

  跨域数据加载完成。

  CORS

  如果浏览器支持 HTML5,那么您可以使用新的跨域策略:CORS 一劳永逸。

  CORS 代表跨域资源共享,即 HTML5 规范定义的跨域访问资源的方式。

  在了解CORS之前,我们先来了解一下概念:

  Origin 表示这个域,即浏览器当前页面的域。当 JavaScript 向外部域(例如)发起请求时,浏览器收到响应后,首先检查 Access-Control-Allow-Origin 是否收录该域。如果是,则跨域请求成功。如果不是,则请求失败。 JavaScript 将无法获得任何响应数据。

  用图片表示:

  

  假设域为本地域,域为外域,只要响应头Access-Control-Allow-Origin为*或为*,本次请求即可成功。

  可见,跨域成功与否取决于对方的服务器是否愿意为你设置正确的Access-Control-Allow-Origin,决定权始终掌握在对方手中.

  这种跨域请求称为“简单请求”。简单的请求包括 GET、HEAD 和 POST(POST 的 Content-Type 仅限于 application/x-www-form-urlencoded、multipart/form-data 和 text/plain),并且没有自定义标头(例如,X-定制:12345),通常可以满足90%的需求。

  无论是否需要使用 JavaScript 跨 CORS 请求资源,都必须了解 CORS 的原理。最新的浏览器完全支持 HTML5。引用国外资源时,除了JavaScript和CSS之外,还必须验证CORS。例如,当您引用第三方 CDN 上的字体文件时:

  /* CSS */

@font-face {

font-family: 'FontAwesome';

src: url('http://cdn.com/fonts/fontawesome.ttf') format('truetype');

}

  如果CDN服务商没有正确设置Access-Control-Allow-Origin,浏览器将无法加载字体资源。

  对于PUT、DELETE以及application/json等其他类型的POST请求,在发送AJAX请求之前,浏览器会先向这个URL发送一个OPTIONS请求(称为预检请求),询问目标服务器是否接受:

  OPTIONS /path/to/resource HTTP/1.1

Host: bar.com

Origin: http://my.com

Access-Control-Request-Method: POST

  服务器必须响应并明确指出允许的方法:

  HTTP/1.1 200 OK

Access-Control-Allow-Origin: http://my.com

Access-Control-Allow-Methods: POST, GET, PUT, OPTIONS

Access-Control-Max-Age: 86400

  浏览器确认服务器响应的Access-Control-Allow-Methods头中确实收录要发送的AJAX请求的Method,然后继续发送AJAX,否则会抛出错误。

  由于 REST 中通过 POST 和 PUT 以 JSON 格式传输数据是很常见的,为了正确处理跨域的 POST 和 PUT 请求,服务器必须正确响应 OPTIONS 请求。

  需要深入了解CORS的童鞋请参考W3C文档。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线