查看搜索引擎蜘蛛的来访记录需要解决哪些问题呢？

优采云发布时间: 2021-05-08 22:34

　　一、搜索引擎蜘蛛

　　搜索引擎蜘蛛（Search engine spider）原意是搜索引擎机器人（Search engine robot）。之所以称之为蜘蛛，是因为把互联网比作蜘蛛网，把机器人比作蜘蛛在网上爬行，是搜索引擎自动抓取网页的程序

　　搜索引擎蜘蛛的作用：通过对这些搜索引擎蜘蛛的爬行，网页会自动添加到搜索引擎数据库中，搜索引擎蜘蛛会自动判断网页的质量，并根据既定程序判断是否抓取

　　搜索引擎蜘蛛的名字：下面是国内知名搜索引擎的名字，搜索引擎蜘蛛有很多，但是因为人气不高，我就不一一列举了

　　要查看搜索引擎蜘蛛的访问记录，需要通过网站访问日志文件。请向服务器提供商咨询具体的访问方法

　　如果你想得到搜索引擎蜘蛛的支持，并希望它每天爬行和抓取网页，你需要不断更新原创文章，并定期交换链接

　　如果你不想让搜索引擎蜘蛛抓取你的网页，你可以设置机器人。禁用爬网

　　搜索引擎原理

　　搜索引擎中，需要解决的技术问题有：蜘蛛程序、分类索引、词库、排序算法因子、数据库索引和优化、数据库结构蜘蛛

　　目前，spider可以用C或PHP实现。百度蜘蛛大多是由C。C还可以支持多个数据库连接接口，而且C比PHP效率更高，C可以更好地控制底层

　　虽然C语言很好，但我还是想用PHP来实现它。我得多省点时间。我不能再学C了。如果你以后需要高效率，你需要用C，然后用C，数据库可以保持不变，MySQL可以和C连接

　　PHP有优点也有缺点。作为一个蜘蛛，问题应该很小。最大的问题是速度可能很慢

　　1、抓取网页

　　在抓取网页时，可能出现的问题有：抓取的顺序，如何记录不成功或超时的抓取，以及下次何时更新抓取。搜索引擎数据库一开始是新的，没有URL，需要添加大量URL

　　在这里，您可以使用for循环语句根据英文字母表自动循环。当然，网站的结构不仅是英文的，还有英文和数字，只能手工输入。如果仍然是循环抓取，估计其中很多都会失败。捕获代码需要分析的编码类型是UTF-8或GB2312.我的搜索引擎只想捕获简体中文

　　如果捕获超时，将记录该记录。下一次，它将在十天后被捕获。如果它连续三次超时，它将从数据库中退出

　　索引

　　索引构建是一个非常困难的问题，百度和谷歌可以利用自己的服务器群构建分布式服务器。我没有那么多服务器。所以我想换一种方式。创建静态页面。我之前就知道，在百度和谷歌输入一个相对罕见的词大约需要2秒钟，普通词只需要1秒钟。此外，第二次重新输入单词所需的时间要少得多。其中大部分是指数的影响

　　如果索引放在内存中，读取速度就可以了。我只有一台服务器。即使我只索引50000个常见的查询词，我也有点累。一页至少有20K，50000页是20K*50=1g。这只是50000字的第一页。如果用户想翻页查询，内存肯定不够。如果只把第一页放入内存，用户查询页面时，速度将无法解决。所以我会一成不变。模拟一次50000字的查询，生成静态页面。所有单词的第一页放在内存中，接下来的几页放在硬盘中。如果你能把这页放进内存，这个问题就解决了

　　3、同义词表

　　汉字有几千个，常用的至少有3000个。据估计，常用词有2万字。如何添加此同义词库？什么格式？CSV文件还是数据库或文本文件？以前，我想找到金山词霸的词库文件，并试图直接复制它。这种方法还没有成功

　　4、排序算法

　　所有影响排序的算法都应该放在一个表中，然后分为固定算法和可变算法，前者是网站本身的因素，后者是用户输入单词或因季节不同而改变的因素。将固定算法放入表格中，计算每个网站的总分。更改算法的一部分在之前生成，另一部分在用户输入后计算

　　5、数据库索引

　　目前，数据库的索引还没有很好的解决方案。一个表达式索引不能太多。索引太多会影响六.数据库结构的速度。这是关键。估计在网站前台接口出现之前必须确定数据库结构。同时也为以后的升级留下了界面，比如算法因素的增加，或者为了优化查询语句，改变字段等等

　　参考和建议：

　　搜索引擎

　　搜索引擎蜘蛛

　　搜索引擎原理

　　链接到原文：

0

2021-05-08

搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

查看搜索引擎蜘蛛的来访记录需要解决哪些问题呢？

0 个评论

发起人

AI时代内容工厂

查看搜索引擎蜘蛛的来访记录需要解决哪些问题呢？

0 个评论

发起人

相关问题