php登录抓取网页指定内容(前几天接了一个小项目,网站结构不要跟对方一样)
优采云 发布时间: 2021-12-25 02:12php登录抓取网页指定内容(前几天接了一个小项目,网站结构不要跟对方一样)
前几天接到一个小项目,具体需求
可以任意指定一个网站域名,然后就可以使用自己的域名进行访问,网站的结构与对方完全一样。
显然,这是一个小偷程序。
实现思路:对于一般的静态网址(例如:/2014/06/19/index.html)
第一次访问时(例如:)
只需转到网页
然后在你的网站根目录下创建相应的文件夹和文件(2014->06->19->index.html)
但是对于动态网址
例如:/index.php?type=news,要知道文件夹名或文件名不能收录一些特殊字符
为此,您可以替换一些特殊字符
不过现在客户提出了一些奇葩的要求,比如:采集需要的网站的结构不要和对方一样,最好自己定制网址结构
例如:
结果:
代替:
你有什么更好的解决方案吗?
或者有没有更强大的开源程序?
file_get_contents() 函数获取网页源代码
strtok() 函数处理文件名
使用优采云采集,这个很强大
写一个简单的路由,然后匹配文件就可以了
反向代理
CURL 抓取页面内容,然后 preg_match_all 匹配正则表达式。获取页面上指定的内容。
先采集再分配目录不好吗?