php curl抓取网页指定内容(curl利用URL规则在命令行下工做的文件传输工具(图) )

优采云 发布时间: 2022-02-19 20:18

  php curl抓取网页指定内容(curl利用URL规则在命令行下工做的文件传输工具(图)

)

  curl 命令是一个文件传输工具,它使用 URL 规则从命令行工作。它支持文件上传和下载,是一个综合性的传输工具,但按照传统,curl被称为下载工具。curl作为一个强大的工具,支持多种协议,包括HTTP、HTTPS、ftp等。它还支持POST、cookies、身份验证、从指定偏移量下载部分文件、用户代理字符串、速度限制、文件大小、进度条等。特征。对于自动化网页处理和数据检索,curl 可以提供帮助。php

  下载单个文件,默认打印输出到标准输出(STDOUT)html

  curl http://www.centos.org

  通过 -o/-O 选项将下载的文件保存到指定文件:

  -o:将文件另存为文件名,文件名在命令行中指定

  -O:使用URL中的默认文件名将文件保存到本地git

  1 # 将文件下载到本地并命名为mygettext.html

2 curl -o mygettext.html http://www.gnu.org/software/gettext/manual/gettext.html

3

4 # 将文件保存到本地并命名为gettext.html

5 curl -O http://www.gnu.org/software/gettext/manual/gettext.html

  也可以使用转向字符“>”将输出转为输出github

  同时获取多个文件 centos

  1 curl -O URL1 -O URL2

  当同时从同一个站点下载多个文件时,curl 会尝试重用连接。api

  通过 -L 选项重定向

  默认情况下,CURL 不发送 HTTP Location 标头(重定向)。当请求的页面移动到另一个站点时,HTTP Loaction 标头作为请求发送,然后请求被重定向到新地址。

  例如:访问时,地址会自动重定向到.hk。重击

  

   1 curl http://www.google.com

2

3

4

5 302 Moved

6

7

8 302 Moved

9 The document has moved

10 <A HREF="http://www.google.com.hk/url?sa=p&amp;hl=zh-CN&amp;pref=hkredirect&amp;pval=yes&amp;q=http://www.google.com.hk/&amp;ust=1379402837567135amp;usg=AFQjCNF3o7umf3jyJpNDPuF7KTibavE4aA">here</A>.

11

12

  

  上面的输出显示请求的存档已移至。服务器

  可以使用 -L 选项强制重定向 cookie

  1 # 让curl使用地址重定向,此时会查询google.com.hk站点

2 curl -L http://www.google.com

  恢复网络

  通过使用 -C 选项,您可以对大文件使用可恢复上传功能,例如:

  

  1 # 当文件在下载完成以前结束该进程

2 $ curl -O http://www.gnu.org/software/gettext/manual/gettext.html

3 ############## 20.1%

4

5 # 经过添加-C选项继续对该文件进行下载,已经下载过的文件不会被从新下载

6 curl -C - -O http://www.gnu.org/software/gettext/manual/gettext.html

7 ############### 21.1%

  

  使用 CURL 进行网络限速

  通过 --limit-rate 选项限制 CURL 的最大网络使用量

  1 # 下载速度最大不会超过1000B/second

2

3 curl --limit-rate 1000B -O http://www.gnu.org/software/gettext/manual/gettext.html

  下载指定时间内修改过的文件

  下载文件时,可以判断文件的最后修改日期。如果文件在指定日期内被修改过,则下载,否则不下载。

  此功能可以通过使用 -z 选项来实现:

  1 # 若yy.html文件在2011/12/21以后有过更新才会进行下载

2 curl -z 21-Dec-11 http://www.example.com/yy.html

  卷曲授权

  访问需要授权的页面时,可以通过 -u 选项提供用户名和密码进行授权

  1 curl -u username:password URL

2

3 # 一般的作法是在命令行只输入用户名,以后会提示输入密码,这样能够保证在查看历史记录时不会将密码泄露

4 curl -u username URL

  从 FTP 服务器下载文件

  CURL 还支持 FTP 下载。如果在 url 中指定了文件路径,而不是指定要下载的特定文件名,则 CURL 将列出目录中的所有文件名,而不是下载目录中的所有文件。文档

  1 # 列出public_html下的全部文件夹和文件

2 curl -u ftpuser:ftppass -O ftp://ftp_server/public_html/

3

4 # 下载xss.php文件

5 curl -u ftpuser:ftppass -O ftp://ftp_server/public_html/xss.php

  上传文件到 FTP 服务器

  -T选项后,可以将指定的本地文件上传到FTP服务器

  

  # 将myfile.txt文件上传到服务器

curl -u ftpuser:ftppass -T myfile.txt ftp://ftp.testserver.com

# 同时上传多个文件

curl -u ftpuser:ftppass -T "{file1,file2}" ftp://ftp.testserver.com

# 从标准输入获取内容保存到服务器指定的文件中

curl -u ftpuser:ftppass -T - ftp://ftp.testserver.com/myfile_1.txt

  

  获取更多信息

  使用 -v 和 -trace 获取更多连接信息

  通过字典查询单词

  

  1 # 查询bash单词的含义

2 curl dict://dict.org/d:bash

3

4 # 列出全部可用词典

5 curl dict://dict.org/show:db

6

7 # 在foldoc词典中查询bash单词的含义

8 curl dict://dict.org/d:bash:foldoc

  

  为 CURL 设置代理

  -x 选项将代理功能添加到 CURL

  1 # 指定代理主机和端口

2 curl -x proxysever.test.com:3128 http://google.co.in

  剩下的网站整理

  网站cookie 信息的存储和使用

  1 # 将网站的cookies信息保存到sugarcookies文件中

2 curl -D sugarcookies http://localhost/sugarcrm/index.php

3

4 # 使用上次保存的cookie信息

5 curl -b sugarcookies http://localhost/sugarcrm/index.php

  传递请求数据

  curl 默认使用 GET 方法请求数据,这种方式直接通过 URL 传递数据

  可以通过 --data/-d 方法指定使用 POST 方法来传递数据

  

  1 # GET

2 curl -u username https://api.github.com/user?access_token=XXXXXXXXXX

3

4 # POST

5 curl -u username --data "param1=value1&param2=value" https://api.github.com

6

7 # 也能够指定一个文件,将该文件中的内容看成数据传递给服务器端

8 curl --data @filename https://github.api.com/authorizations

  

  注意:默认情况下,如果通过 POST 传递的数据中存在特殊字符,则必须先将特殊字符转义到服务器。如果值收录空格,则必须先将空格转换为 %20。如:

  1 curl -d "value%201" http://hostname.com

  在新版本的 CURL 中,提供了一个新的选项 --data-urlencode,该选项提供的参数会自动转义特殊字符。

  1 curl --data-urlencode "value 1" http://hostname.com

  除了使用 GET 和 POST 协议外,还可以通过 -X 选项指定其他协议,例如:

  1 curl -I -X DELETE https://api.github.cim

  上传文件

  1 curl --form "fileupload=@filename.txt" http://hostname/resource

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线