网页flash文本抓取器(课学习了用telnet抓取网页(图)80)

优采云 发布时间: 2021-11-26 23:00

  网页flash文本抓取器(课学习了用telnet抓取网页(图)80)

  今天第一节课,我学会了用telnet抓取网页。

  下面是一个抓取学校主页的例子:

  远程登录 80

  然后输入

  GET /2012/cn/index.htm HTTP/1.1(这里是你要抓取的页面,HTTP协议为1.1)

  主持人:

  连接:关闭

  (然后按回车两次,得到如下界面)

  这不是一个完整的界面,因为捕获的文件有点大,可以重定向到文件。

  直接telnet 80 >>文件

  //------------------------------------------------ -------------------------------------------------- -------------------------------------//

  但是我在提取网页时通常使用现成的工具:

  lynx-dump /2012/cn/index.htm> sysu.txt

  一般情况下,当我们要下载网页时,我们下载的大多是html格式的纯文本文件,肉眼不易理解,需要借助浏览器来查看。而lynx是一个基于命令的网络浏览器,它可以将所有超链接输出为引用标题下的文本,而无需我们单独解析。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线