如何抓取网页flash(网络爬虫如何写一个网页程序程序(一)_)

优采云发布时间: 2021-10-01 07:05

　　这是维基百科的网络爬虫入口页面。网络爬虫被称为网络蜘蛛或网络机器人。这是一个通过互联网自动抓取互联网网页的程序。此技术通常可用于检查您网站上的所有链接是否有效。当然，更先进的技术是在网页中保存相关数据，可以成为搜索引擎。

　　从技术角度来说，实现抓取网页可能不是很困难。困难的是分析和组织网页。这是一个需要轻量级智能和大量数学计算的程序。事情。这是一个简单的过程：

　　在这里，我们只讲如何编写一个网页抓取程序。

　　首先，我们来看看如何使用命令行查找网页。

　　远程登录 80

　　GET /index.html HTTP/1.0

　　按两次回车

　　使用telnet就是告诉你，这其实是一种socket技术，使用HTTP协议，比如GET方法来获取网页。当然接下来需要解析HTML语法，甚至还需要解析Javascript，因为现在的网页使用的Ajax越来越多，而且很多网页内容都是通过Ajax技术加载的，因为单纯解析HTML文件将来是不够的。当然，这里，我只是展示了一个非常简单的爬取，简单到只能作为一个例子，下面这个例子的伪代码：

　　取网页

for each 链接 in 当前网页所有的链接

{

if(如果本链接是我们想要的 || 这个链接从未访问过)

{

处理对本链接

把本链接设置为已访问

}

<p>require “rubygems”

require “mechanize”

class Crawler < WWW::Mechanize

attr_accessor :callback

INDEX = 0

DOWNLOAD = 1

PASS = 2

def initialize

super

init

@first = true

self.user_agent_alias = “Windows IE 6″

end

def init

@visited = []

end

def remember(link)

@visited

0

2021-10-01

如何抓取网页flash

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何抓取网页flash(网络爬虫如何写一个网页程序程序(一)_)

0 个评论

发起人

AI时代内容工厂

如何抓取网页flash(网络爬虫如何写一个网页程序程序(一)_)

0 个评论

发起人

相关问题