如何使用thinkphp5开发采集工具
优采云 发布时间: 2020-08-05 17:12我最近做了一个小站点,需要使用采集工具. 我查看了Internet上的许多Spider程序并进行了尝试. 我对此不满意. 我想自己发展.
如果想做得好,必须首先磨砺工具. 由于要开发采集程序,因此必须首先准备材料. Composer确实是一件好事,它使您可以充分利用现有资源,而不必自己做任何事情.
tp5提供了一个队列模块思考队列. 尽管它有一些缺陷,但最好与tp集成. 直接使用并使用它:
composer require topthink/think-queue
如何使用它可以在github上搜索. 有详细的介绍,在这里我将不作详细介绍.
队列已准备就绪. 我们需要一个http工具来获取内容. 我以前一直在使用史努比,但是在使用过程中发现了许多问题. 后来,我发现了一个轻量级的http工具,它仍然非常强大,因此我直接使用了它
composer require yurunsoft/yurun-http
具体用法与上面相同,在github中搜索
队列在那里,http工具在那里,其余的是html解析工具. Internet上提到了两个类似php的类似于jquery的dom操作工具phpquery和querypath. 一开始我使用phpquery是因为在线推荐更好. 有很多,而且名称很好,但是一段时间后,我发现该项目不再维护,并且代码中存在许多错误. 后来,我切换到querypath,问题减少了.
composer require querypath/QueryPath
’我再次感叹作曲家真的很棒.
当然,querypath不是灵丹妙药. 很多时候,我们需要的数据都在js代码中,并且需要js对其进行分析才能获得它. 目前,仍使用正则表达式.
使用上述工具,我们已准备就绪. 下次将介绍如何编写采集系统.