文章网址采集器(360浏览器登录申请人是我,不允许我的id)

优采云 发布时间: 2022-04-18 08:04

  文章网址采集器(360浏览器登录申请人是我,不允许我的id)

  文章网址采集器本次来的主角是360浏览器登录申请人是我,不允许我的id,但是我又没有注册,验证方式就是前面图片写的,然后就是我想看看,里面的所有股票和数据是否都对应,怎么能采集到所有呢。因为原来登录一个链接,没法找到所有*敏*感*词*,刚刚我们的目的其实是想要所有*敏*感*词*,而不是我采集一个链接,会把其他所有链接都一并采集了,只有我想要的,才是对的。

  然后我百度了,有很多采集器和方法,但是百度搜出来的基本上都是一些大牛,看到数据比较多的,大牛还是费心。然后我就试了第二种方法,直接爬股吧,采集不了,找到了四个地址,要我多走很多弯路还不一定能够进去。这四个方法都不能进,但是其中好像有几个可以进去。就这样我直接多在网上查找,很多人给我支招,到底他们提供了怎样的采集方法,才能够采集到这么多*敏*感*词*,然后我又问了他们。

  好像只有登录可以使用,然后我百度,登录,会把后面带锚定的几个信息都去掉,所以他们还是直接给我支招,登录,把股票给采集了,这也是没有什么办法了。但是他们的方法没有一个完全正确的,所以我也不知道是不是每个采集器都可以采集到所有数据,采集器只是没有把这些链接给去掉,所以我有时候不能够进去。试了很多个之后,大部分的都被我弃了,这里我也选择了一个基本正确的方法,我继续尝试采集*敏*感*词*。

  这里记录一下我遇到的问题。经过了1个月的苦战,我陆陆续续已经走了好多弯路了,除了复制粘贴网址,采集方法之外,如果自己没有数据库。我自己编写了一个*敏*感*词*的数据库软件,我叫它:1test*敏*感*词*主页创建一个软件之后我想去下载一个*敏*感*词*表的数据文件,但是是mysql数据库,在我没有数据库的情况下,我无法采集整个*敏*感*词*库的数据,只能采集一半,我自己又重新编写了一个数据库。

  想象是美好的,但是网上都是这样采集数据的:采集*敏*感*词*文件,然后下载之后重命名,拷贝进去就可以了。然后我的就傻眼了,除了下载之外,数据表是没有子项目,复制粘贴不了,因为这个文件是其他人编写好了之后,拷贝进去就可以了。然后我想想那可能是复制粘贴不了数据库吧,就想着改一下代码试试,改成字符串或者其他格式?代码我不知道,就是改了一下数据表。

  我自己做了一个数据库,发现要插入一个表,解析表之后拷贝进去,因为要弄格式化编码,所以采集数据之前还有格式化编码的代码。采集完了之后要下载这个表,然后再这个表要写表名,我编写的是这样:10114,5,6还有这样的:其中的三个格式化编码对应abcdefg,c001,2011。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线