输入关键字 抓取所有网页(电脑爬虫如何从java代码实现比c#难度要低很多)

优采云 发布时间: 2021-10-07 17:03

  输入关键字 抓取所有网页(电脑爬虫如何从java代码实现比c#难度要低很多)

  输入关键字抓取所有网页源代码,写爬虫运行程序;跑发现问题一:你把网页源代码抓取后,如果想要离线浏览你可以用自己电脑上访问网页源代码,然后和对应的教程教的下载前端源代码放到电脑本地,这样你可以手机电脑访问下载;问题二:也是多见的问题,关键字抓取后就直接把网页源代码放到自己电脑上了,哪天想把网页源代码拿到服务器上存起来或者提取出来。除非爬虫很不结实。

  你想做个程序拿着你关键字抓取的页面,然后存储?那建议直接用java实现,爬虫往往存在java代码里。服务器的事情java代码已经转交给服务器,所以爬虫抓到页面往往是java相关的。你关键字抓取的页面往往不是最新版本的页面,而你的网站很多页面都是用sitemap做的,很多java代码实现比c#难度要低很多。

  曾经看过一篇文章,里面有提到一个电脑爬虫如何从搜狗(sogou)、360、搜狗输入法等一大堆大大小小网站里面抓取源代码(甚至不用去输入框里面,有webkit内核的浏览器自带爬虫程序一页一页按网址抓取页面),一定要支持读写文件的。大致意思是数据保存在mysql数据库中,用户利用关键字就能直接下载。

  win10前端系统,新建一个虚拟机环境,将你关键字抓取的页面存到其他服务器上。需要访问的时候再读取和提取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线