抓取网页数据(ai:如何做简单搜索的数据格式和怎么获取?)
优采云 发布时间: 2021-09-15 15:05抓取网页数据(ai:如何做简单搜索的数据格式和怎么获取?)
抓取网页数据,你需要知道数据格式和怎么获取,比如常见的:网址,时间戳,url...,txt文件,pdf文件,xml文件...,你还要知道你要提取的指标是什么,怎么做数据匹配等等。我对做简单搜索的一些想法:首先搜索很多数据库,比如:sqldatabase,它不是一个结构化的东西,没办法去搜索数据中有没有规律的东西;但是它特别快,因为是一条记录执行一次,你只需要记住规律:数据库指标,这个数据库指标应该是个什么特点,根据特点提取指标关键字,然后把指标匹配上去,不就可以写程序了嘛?再然后就是排序,把数据划分区间,几个不同的划分区间下去搜索,可以在区间内进行规律检索,也可以取距离最近的那些数据进行检索,这样,所谓得十万加的问题其实就是最有规律的那些数据来检索的问题,这样的问题对应的本质是不是就是逻辑编程啊?我对这一块感兴趣,希望交流一下,谢谢了。
怎么找来看,这个范围很广,你需要根据每个情况找出一个有一定逻辑的地方;我们也是一路摸索过来,走过的弯路也不少,自己认为还是有点东西;如果你想找到问题背后的这种东西,做为我们ai的一环,可以给你提供些知识。每个基础问题背后的东西,我们都是结合工作中的案例来了解,也是分专题来讲的,内容也不少,你可以找些来看看。
所以回答一下,搜索的话其实很好理解,感兴趣就学,做个案例去试试;至于数据的获取与转换方面,我们以后还有很多课程可以教你用ai来解决你的问题,比如现在正在进行直播,快来吧!请搜索微信公众号“”。