php curl抓取网页指定内容(curl利用URL规则在命令行下工做的文件传输工具(图) )
优采云 发布时间: 2022-02-19 20:18php curl抓取网页指定内容(curl利用URL规则在命令行下工做的文件传输工具(图)
)
curl 命令是一个文件传输工具,它使用 URL 规则从命令行工作。它支持文件上传和下载,是一个综合性的传输工具,但按照传统,curl被称为下载工具。curl作为一个强大的工具,支持多种协议,包括HTTP、HTTPS、ftp等。它还支持POST、cookies、身份验证、从指定偏移量下载部分文件、用户代理字符串、速度限制、文件大小、进度条等。特征。对于自动化网页处理和数据检索,curl 可以提供帮助。php
下载单个文件,默认打印输出到标准输出(STDOUT)html
curl http://www.centos.org
通过 -o/-O 选项将下载的文件保存到指定文件:
-o:将文件另存为文件名,文件名在命令行中指定
-O:使用URL中的默认文件名将文件保存到本地git
1 # 将文件下载到本地并命名为mygettext.html
2 curl -o mygettext.html http://www.gnu.org/software/gettext/manual/gettext.html
3
4 # 将文件保存到本地并命名为gettext.html
5 curl -O http://www.gnu.org/software/gettext/manual/gettext.html
也可以使用转向字符“>”将输出转为输出github
同时获取多个文件 centos
1 curl -O URL1 -O URL2
当同时从同一个站点下载多个文件时,curl 会尝试重用连接。api
通过 -L 选项重定向
默认情况下,CURL 不发送 HTTP Location 标头(重定向)。当请求的页面移动到另一个站点时,HTTP Loaction 标头作为请求发送,然后请求被重定向到新地址。
例如:访问时,地址会自动重定向到.hk。重击
1 curl http://www.google.com
2
3
4
5 302 Moved
6
7
8 302 Moved
9 The document has moved
10 <A HREF="http://www.google.com.hk/url?sa=p&hl=zh-CN&pref=hkredirect&pval=yes&q=http://www.google.com.hk/&ust=1379402837567135amp;usg=AFQjCNF3o7umf3jyJpNDPuF7KTibavE4aA">here</A>.
11
12
上面的输出显示请求的存档已移至。服务器
可以使用 -L 选项强制重定向 cookie
1 # 让curl使用地址重定向,此时会查询google.com.hk站点
2 curl -L http://www.google.com
恢复网络
通过使用 -C 选项,您可以对大文件使用可恢复上传功能,例如:
1 # 当文件在下载完成以前结束该进程
2 $ curl -O http://www.gnu.org/software/gettext/manual/gettext.html
3 ############## 20.1%
4
5 # 经过添加-C选项继续对该文件进行下载,已经下载过的文件不会被从新下载
6 curl -C - -O http://www.gnu.org/software/gettext/manual/gettext.html
7 ############### 21.1%
使用 CURL 进行网络限速
通过 --limit-rate 选项限制 CURL 的最大网络使用量
1 # 下载速度最大不会超过1000B/second
2
3 curl --limit-rate 1000B -O http://www.gnu.org/software/gettext/manual/gettext.html
下载指定时间内修改过的文件
下载文件时,可以判断文件的最后修改日期。如果文件在指定日期内被修改过,则下载,否则不下载。
此功能可以通过使用 -z 选项来实现:
1 # 若yy.html文件在2011/12/21以后有过更新才会进行下载
2 curl -z 21-Dec-11 http://www.example.com/yy.html
卷曲授权
访问需要授权的页面时,可以通过 -u 选项提供用户名和密码进行授权
1 curl -u username:password URL
2
3 # 一般的作法是在命令行只输入用户名,以后会提示输入密码,这样能够保证在查看历史记录时不会将密码泄露
4 curl -u username URL
从 FTP 服务器下载文件
CURL 还支持 FTP 下载。如果在 url 中指定了文件路径,而不是指定要下载的特定文件名,则 CURL 将列出目录中的所有文件名,而不是下载目录中的所有文件。文档
1 # 列出public_html下的全部文件夹和文件
2 curl -u ftpuser:ftppass -O ftp://ftp_server/public_html/
3
4 # 下载xss.php文件
5 curl -u ftpuser:ftppass -O ftp://ftp_server/public_html/xss.php
上传文件到 FTP 服务器
-T选项后,可以将指定的本地文件上传到FTP服务器
# 将myfile.txt文件上传到服务器
curl -u ftpuser:ftppass -T myfile.txt ftp://ftp.testserver.com
# 同时上传多个文件
curl -u ftpuser:ftppass -T "{file1,file2}" ftp://ftp.testserver.com
# 从标准输入获取内容保存到服务器指定的文件中
curl -u ftpuser:ftppass -T - ftp://ftp.testserver.com/myfile_1.txt
获取更多信息
使用 -v 和 -trace 获取更多连接信息
通过字典查询单词
1 # 查询bash单词的含义
2 curl dict://dict.org/d:bash
3
4 # 列出全部可用词典
5 curl dict://dict.org/show:db
6
7 # 在foldoc词典中查询bash单词的含义
8 curl dict://dict.org/d:bash:foldoc
为 CURL 设置代理
-x 选项将代理功能添加到 CURL
1 # 指定代理主机和端口
2 curl -x proxysever.test.com:3128 http://google.co.in
剩下的网站整理
网站cookie 信息的存储和使用
1 # 将网站的cookies信息保存到sugarcookies文件中
2 curl -D sugarcookies http://localhost/sugarcrm/index.php
3
4 # 使用上次保存的cookie信息
5 curl -b sugarcookies http://localhost/sugarcrm/index.php
传递请求数据
curl 默认使用 GET 方法请求数据,这种方式直接通过 URL 传递数据
可以通过 --data/-d 方法指定使用 POST 方法来传递数据
1 # GET
2 curl -u username https://api.github.com/user?access_token=XXXXXXXXXX
3
4 # POST
5 curl -u username --data "param1=value1¶m2=value" https://api.github.com
6
7 # 也能够指定一个文件,将该文件中的内容看成数据传递给服务器端
8 curl --data @filename https://github.api.com/authorizations
注意:默认情况下,如果通过 POST 传递的数据中存在特殊字符,则必须先将特殊字符转义到服务器。如果值收录空格,则必须先将空格转换为 %20。如:
1 curl -d "value%201" http://hostname.com
在新版本的 CURL 中,提供了一个新的选项 --data-urlencode,该选项提供的参数会自动转义特殊字符。
1 curl --data-urlencode "value 1" http://hostname.com
除了使用 GET 和 POST 协议外,还可以通过 -X 选项指定其他协议,例如:
1 curl -I -X DELETE https://api.github.cim
上传文件
1 curl --form "fileupload=@filename.txt" http://hostname/resource