抓取网页新闻(#cmt_login时就没有内容了,怎样修改才能将完整的网页抓下来)
优采云 发布时间: 2021-12-05 12:12抓取网页新闻(#cmt_login时就没有内容了,怎样修改才能将完整的网页抓下来)
编辑:我抓取的内容,用记事本打开查看htm文件,遇到#cmt_login好像没有内容,如何修改抓取完整的网页...我抓取的内容,用Open记事本查看htm文件,遇到#cmt_login好像没有内容,如何修改捕获完整网页,选择以下一项或多项关键词,搜索相关信息
我抓取了内容并用记事本打开它以查看htm文件。遇到#cmt_login的时候好像没有内容。如何修改它以获取完整的网页...
我抓取了内容并用记事本打开它以查看htm文件。遇到#cmt_login的时候好像没有内容。如何修改它以获取完整的网页?
您可以选择以下一个或多个关键词来搜索相关信息。您也可以直接点击“搜索信息”来搜索整个问题。
展开你的全是因为下面的数据是用js脚本ajax加载的,源文件估计找不到了。仅使用支持 ajax 的 采集器。
另外,看到你有几十万,防止腾讯屏蔽你的IP也很重要。访问量大的时候,正常访问的人可能不止一个,很有可能是IP被封了。
如果您有任何问题,我可以帮助您。我有多年web数据采集的经验,你遇到的问题我基本都遇到过。呵呵,希望能帮到你。请问我爬的是腾讯的新闻网页,即使是ajax加载,爬虫应该也能在本地抓取文件,就像你在浏览器中打开一个网页一样,数据不是全部加载好么?
浏览了爬取的网页,想登录的地方没有内容,不登录就可以在浏览器中看到新闻。
我使用 nutch-1.2 来捕获数据并跟进答案。这与登录无关。Ajax加载的爬虫现在功能更强大,会加载这些数据,但是你这样保存的一般只是源代码。里面的Javascript
javascript运行后,数据显示在界面上。所以你用浏览器可以看到,你说的采集器我没用过。我不明白,你搜索数据农场。看,他们正在专业地突破各种反采集措施。我已将其用于采集Asia*Maxun 的产品。ajax有很多,可以做的比较好。你可以参考一下。这个回答是网友推荐的,已经点赞踩了。你对这个答案的评价是什么?评论收起
展开全部,有的需要模拟登录才能爬取。您需要对其进行配置。或者进行二次开发来抓紧。我是二次开发后抓的。喜欢已经不喜欢你对这个答案的评价是什么?评论收起
全部展开,直接下载网页。问一个简单的下载就好了,但是有数百个,我不知道它们在哪里?喜欢已经不喜欢你对这个答案的评价是什么?评论 收起 收起更多答案(1) 推荐给您:1 2 3
当前网址: