网页flash文本抓取器(课学习了用telnet抓取网页(图)80)
优采云 发布时间: 2021-11-26 23:00网页flash文本抓取器(课学习了用telnet抓取网页(图)80)
今天第一节课,我学会了用telnet抓取网页。
下面是一个抓取学校主页的例子:
远程登录 80
然后输入
GET /2012/cn/index.htm HTTP/1.1(这里是你要抓取的页面,HTTP协议为1.1)
主持人:
连接:关闭
(然后按回车两次,得到如下界面)
这不是一个完整的界面,因为捕获的文件有点大,可以重定向到文件。
直接telnet 80 >>文件
//------------------------------------------------ -------------------------------------------------- -------------------------------------//
但是我在提取网页时通常使用现成的工具:
lynx-dump /2012/cn/index.htm> sysu.txt
一般情况下,当我们要下载网页时,我们下载的大多是html格式的纯文本文件,肉眼不易理解,需要借助浏览器来查看。而lynx是一个基于命令的网络浏览器,它可以将所有超链接输出为引用标题下的文本,而无需我们单独解析。