网页抓取数据都是采用.js自身提供的一个webworker线程来完成的

优采云发布时间: 2022-06-17 07:00

　　网页抓取数据都是采用node.js自身提供的一个webworker线程来完成的。爬虫服务器和网页爬虫客户端都没有webworker，于是给爬虫引发了很多麻烦，比如：文件传输慢——没有webworker，所有数据最终都要传到网页服务器。于是我们需要了解一下node.js有哪些webworker：index.phpimportnodeworker()worker=node.createworkerwrapper()index.php这段代码就是创建worker程序worker，而它的主体内容是php代码，下面就简单说一下php代码的规范和用法。

　　php对于webworker的用法规范是：include头一个字段必须定义workerworker_timeout=10000000defaultworker_record_path=php_path_rulesattributes=(default,attributes)attributes=((default,attributes))这里我们假设所有静态文件都在同一个目录下，php所有静态文件不共享。

　　但是这个假设不是必须，通常情况是要定义defaultindex.php中定义所有文件不共享，default代表index.php文件包含文件的默认路径，而default是index.php中本身定义的内容。在require('/php')前面我们调用co.js('/php')方法，这个方法用来定义多个静态文件。

　　如果你为静态文件定义了index.php文件，那么require('/api/default')就不对了，这个时候require('/api/default')就对了。因为require是把所有静态文件先放进php库，需要访问api就要访问php.js文件，这样会导致数据传输很慢。php对于webworker的定义是：require('co.js')worker()worker_create()php对于webworker的定义是：include头一个字段必须定义worker这一块是不定义静态文件的，没有对静态文件定义index.php也就对了。

　　default_worker_record_path=php_path_rulesattributes=(default,attributes)attributes=((default,attributes))default_worker_record_path.._worker_record_path这个定义有点长，必须要分为两部分来说：一个是必须的静态文件目录，另一个是不定义的动态文件。

　　静态文件必须定义api.js，后面我们用定义静态文件举例子，动态文件是动态定义的api.js，这就完成了定义静态文件的功能。default_worker_record_path.._worker_record_path.default_worker_record_path._worker_record_path有个参数是动态文件路径，我们定义。

0

2022-06-17

网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据都是采用.js自身提供的一个webworker线程来完成的

0 个评论

发起人

AI时代内容工厂

网页抓取数据都是采用.js自身提供的一个webworker线程来完成的

0 个评论

发起人

相关问题