输入关键字 抓取所有网页(第一种办法是获取完整的网页资源最简单的办法)

优采云 发布时间: 2021-10-07 14:07

  输入关键字 抓取所有网页(第一种办法是获取完整的网页资源最简单的办法)

  1、 只访问一个网站,比如csdn。但是csdn的一个网页中的资源往往来自不同的域名,所以需要获取该网页上所有资源的域名。

  第一种方法是获取完整的网络资源来源。最简单的方法是使用Firefox 来调试网页。您可以在调试器中查看 Web 资源的所有来源。

  如图所示:

  

  这种方式获取的网页源代码中的域名虽然是最完整的,但是这种方式获取的域名并不能直接保存在文本中。只能自己手动在文中记录域名,效率很低。

  网上还有一种使用在线网址提取工具的方法,但是这种方法有局限性,只能获取源代码中html标签为href的部分。

  网址是:

  第三种方法是分别对href和src进行正则匹配得到域名,这样就可以得到href和src后面的域名。

  实际上,网页源代码中的域名不仅在href和src标签之后,而且在rel href src标签之后。

  具体的正则表达式和方法请参考以下链接:

  /2

  2、获取某个软件需要的URL链接。

  首先需要连接互联网,然后使用ip雷达查找软件对应的远程ip(使用ip雷达查找软件对应ip的方法是点击软件的IP流量栏,找到软件,然后右键查看所有流量),然后使用远程ip对应的域名即可解析。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线