php登录抓取网页指定内容(前几天接了一个小项目,网站结构不要跟对方一样)

优采云 发布时间: 2021-12-25 02:12

  php登录抓取网页指定内容(前几天接了一个小项目,网站结构不要跟对方一样)

  前几天接到一个小项目,具体需求

  可以任意指定一个网站域名,然后就可以使用自己的域名进行访问,网站的结构与对方完全一样。

  显然,这是一个小偷程序。

  实现思路:对于一般的静态网址(例如:/2014/06/19/index.html)

  第一次访问时(例如:)

  只需转到网页

  然后在你的网站根目录下创建相应的文件夹和文件(2014->06->19->index.html)

  但是对于动态网址

  例如:/index.php?type=news,要知道文件夹名或文件名不能收录一些特殊字符

  为此,您可以替换一些特殊字符

  不过现在客户提出了一些奇葩的要求,比如:采集需要的网站的结构不要和对方一样,最好自己定制网址结构

  例如:

  结果:

  代替:

  你有什么更好的解决方案吗?

  或者有没有更强大的开源程序?

  file_get_contents() 函数获取网页源代码

  strtok() 函数处理文件名

  使用优采云采集,这个很强大

  写一个简单的路由,然后匹配文件就可以了

  反向代理

  

  CURL 抓取页面内容,然后 preg_match_all 匹配正则表达式。获取页面上指定的内容。

  先采集再分配目录不好吗?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线