经验:【SEO学习之路】大中型信息网站SEO技巧总结

　　无论是分类信息还是B2B网站，都属于UGC（User Generated Content）信息发布平台。

　　这类网站的一个明显特点就是类别多、地区多、层次多。

　　正因如此，SEO的发挥空间很大，容易出错的地方也很多。

　　下面只是从个人经验的角度做一个简单的分享。内容如有错误，希望大家指出，交流。

　　大中型信息网站URL结构设计子域选择对于分类信息网站，按地区划分，分类是次要的组织维度；对于B2B网站来说，是按分类来划分的，地区起到辅助筛选的作用。

　　分类信息站点通常使用区域子域。例如

　　B2B 网站通常使用行业类别的子域。例如

　　选择的根源是产品和服务是否与地区有很强的相关性？

　　许多机密信息都是生活化的服务。比如搬家的时候，北京的搬家公司不能为上海的用户服务。

　　但是对于B2B行业来说，就不一样了。地域差异不敏感，一般通过物流运输解决。行业差异是问题所在。

　　如何设计子域名要根据行业特点来选择。

　　子域名建议使用拼音（全拼或简拼）或英文，具体使用什么取决于目标用户的认知。最好一看就懂，看起来很专业。

　　比如皮革的英文单词是leather，中国皮革网和皮革人才网都这么称呼，业内人士一看便知。

　　如果使用子域名，用户可以理解，但有点low。

　　注意：子域名的好处是可以分散网站风险，但不要滥用子域名：如*敏*感*词*域名下的内容不够丰富，大量强行使用，滥用泛域名解析, 可能会被搜索引擎杀死。

　　URL目录层级最多不超过3层

　　对于SEO，大家都知道目录层次越浅越好。一方面有利于权重的转移，另一方面也方便搜索蜘蛛的爬取和收录。

　　对于大型信息网站，行业分类层次多，地区有省、市、县（镇）。再加上各个行业的属性参数不同，排列组合变得十分复杂。

　　从URL目录层次设计的角度，尽量遵守不超过三级目录的原则。

　　如果有3个以上的子区域和属性过滤器，可以使用属性ID组合静态页面的URL：

　　/海淀/三星/pve_5537_501_1000/

　　如果类别或地区太多，使用拼音时可能会出现网址重复的情况。这时候可以用权、简拼来区分。如果还是重复，可以考虑在拼音后面加数字。

　　我在之前的实验中使用过中文网址。百度的识别问题虽然不大，但还是不推荐，容易出bug，用户体验不好（URL转码，URL截断等）

　　URL结尾对于分类页面，建议以“/”结尾

　　详情页建议使用.html或.htm结尾

　　在“/”结尾，搜索引擎会倾向于认为这是一个目录，预计下面会有很多文件内容。

　　当蜘蛛爬取以斜线结尾的URL时，会认为这是一个目录，会默认找到如下默认主页。

　　抓取末尾没有斜杠的URL时，会认为是文件，默认会找到文件，找不到时会在目录下默认首页搜索。

　　所以分类目录一定要以斜线结尾，这样可以减少蜘蛛爬行的时间消耗。

　　没有斜杠的目录也需要做301跳转到有斜杠的页面。

　　即/abc 301跳转到/abc/

　　这样权重更集中，也不怕别人在转url的时候写错。

　　详情页可以.html结尾，即使是动态页面，建议通过伪静态重写页面URL。

　　如果使用某种文件格式或者其他个性化的扩展名，即使搜索引擎可以识别抓取，因为不符合规则，用户可能会理解有问题，点击时可能会有疑虑。

　　大中型信息网站如何解决重复信息

　　搜索引擎不喜欢重复的信息。他们不仅可能不收录，还可能认为网站内容质量低劣，会影响整个网站的访问量。

　　尤其是大中型信息发布网站，内容一般由用户UGC生成，质量难以控制，重复信息较多。

　　为了减少重复信息对网站SEO的负面影响，需要从产品、技术、运营三个方面进行处理。

　　产品视角信息发布页面告知用户，发布原创信息有利于收录。（标题内容引导）增加属性填写框，引导用户填写属性字段。对信息内容的前120个词进行相似度判断，如果超过80%的词重复，则降低信息质量分值。模板重复信息发布到区域行业分类目录。提供标题生成工具和伪原创工具。

　　标题*敏*感*词*

　　技术

　　使用余弦相似度算法计算用户发布信息的相似度，相似度高于85%将被自动删除。

　　余弦相似度算法

　　/blog/2013/03/cosine_similarity.html

　　操作

　　虽然每天可能有十万多条新消息，但是发消息的人数是非常固定的。

　　如何从审核每条消息转变为审核发送消息的人，这样工作量会减少很多。

　　用户所在行业和信息发布领域相对固定。如果用户以往发布的信息质量高，重复信息少，信息完整真实。然后可以设置用户信息在几天内免审核，从而进一步降低人工审核的成本。

" />

　　空页问题

　　对于大中型信息网站，由于地区、分类、筛选的组合过多，很可能会出现另一个问题：空页。

　　例如，在类别信息中选择小城市的具体类别可能没有内容。

　　如果大量出现这样的空白页面，可能会对SEO产生严重的负面影响。

　　为了避免这种情况，需要制定一套规则，在页面信息丰富的时候打开页面。

　　例如请求：

　　一个分类需要至少有5条信息才能打开。之前可以发布到这个分类，但是信息没有列表条目可以显示。当信息量不够时，可以从其他类中调用相关的、相似的信息作为页面模块。不做伪静态处理，使用动态搜索结果移动页面。

　　目的：减少空页和链接条目的数量，防止搜索引擎认为网站内容低质量和重复。

　　链接建设外部链接建设

　　链接算法一直是SEO排名的核心依赖。

　　友情链接解决了一个问题：“网上信息那么多，我该相信谁？”

　　链接是评估网站和页面质量民意测验的一种相对民主的方式。

　　比如你要认谁是“罗胖子”（拿到APP的罗振宇老师），让大家投票，得票最多的就是真正的罗胖子。

　　具体到搜索网页时，投票就是通过指向某个网页的相关超链接和链接上使用的词语进行投票。

　　但是这里有一个问题。一人一票，算总数有点不公平。熟悉罗振宇和有影响力的人的话，可信度更高，应该给予更高的权重，其他人的权重更低。

　　对应外链建设就是让专业的权威网站甚至同行网站为你的网站背书（加链接）。这个怎么做？

　　初步实践

　　用你的脸来寻找联系。比如88黄页，一开始就是靠一灯网的外链支持的。自己创建外部链接。比如我们用“国内B2B网站百科全书”、“免费发布信息网络排名”之类的标题写了一些有网址链接的文章，把自己的网站排在了最后（这个榜单看起来很客观），但是你可以写排行榜倒退，从第10名到第1名“阿里巴巴”。然后发布到各种博客、百度文库等地方。友情链接平台和QQ*敏*感*词*换链接。例如，之前使用的付费链接。

　　还有一个更好的办法就是做自己行业的垂直网站导航站。

　　业内人士看重的关键词一旦落地，就会有大量的行业网站主动与你交换链接。

　　例如，88黄页在成立的最初几年就把B2B关键词列为百度首页第一名时，慧聪网等老牌B2B网站主动*敏*感*词*交换链接。

　　后期练习

　　群众的力量是无限的，要调动用户的积极性。

　　如果你想持续稳定地增加外链，你需要引导用户给你添加外链。

　　虽然用户网站的权重普遍不高，但都是垂直专业网站，相关性较好。通过一些激励措施，用户可以在自己的官网和第三方商店添加链接，指向你对应的页面。

　　内部链接建设

　　内部链接的基本原则

　　内部链接锚文本原则

　　不要使用大量完全匹配的锚文本链接到目标页面，只是部分匹配。

　　建议使用描述性锚文本而不是“单击此处”。

　　不要链接整个段落，它看起来很笨拙，用户体验也很差。使用几个单词或短语作为锚文本。

　　内部链接结构

　　可以试试“筒仓”结构：严格按照主题划分网站内容，不要将主题相互链接，这样主题更能集中。

　　根据页面的级别（首页、二级、三级等）、类型、页面流量、是否被百度等参数，针对不同的页面，对应的内链数量和级别为自动添加。

　　阅读更多：/p/27130817

　　产品中内置的 SEO 知识

　　对于大中型信息发布平台，无论是分类信息还是B2B网站，作为平台运营商，都必须知道SEO的价值，会按照SEO的原则来开发网站和组织内容。

　　但是对于用户来说，他们并不知道SEO是什么，也不知道如何去做才符合SEO。

　　因此，有必要将SEO融入到产品中，让用户行为能够帮助网站的SEO。

　　比如黄页88用户中心的每条信息下面都有一个SEO优化链接。

　　页面会建议用户主动向搜索引擎提交信息链接，让用户使用referer词发送新信息，让用户主动发送外链等等。

　　还有一个功能，可以让用户诊断自己的信息质量，自动给出一些优化建议。

　　基本上，它从信息更新频率、信息数量和完整性的角度引导用户，这些都对网站SEO有潜在帮助。

　　当用户发布信息并填写标题时，会出现一个下拉词。这里使用百度下拉JS代码，让用户在不消耗自己服务器资源的情况下，输入具有一定SEO价值的关键词。

" />

　　HTML代码优化标签优化

　　H标签：常见的用法是：主标题用H1，副标题用H2，模块名或章节标题用H3。甚至跳过 H2，只使用 H1 和 H3。

　　元标签

　　Keywords标签写主页关键词，一般5个字左右，用英文逗号隔开。

　　Description标签写了页面的简短描述，一般在110字以内。（120个字符以内的谷歌词）

　　特殊元标记

　　对于大多数网站来说，为了让网页打开速度更快，用户体验更好，应该启用Webkit内核。

　　还有百度禁止转码，好搜的智能汇总。有关详细信息，请参阅：/p/27050591

　　CSS 样式命名

　　使用可读的 CSS 命名约定。

　　Nofollow标签

　　Nofollow标签是在SEO价值不高、与当前页面相关性不大的链接上添加的，以引导蜘蛛抓取更多他们希望收录的重要内容。.

　　CSS 和 JS 优化

　　文件合并，减少请求次数。

　　HTML标签还有很多需要注意的地方，比如非装饰图片，需要加上Alt标签，方便搜索引擎识别图片内容，这里的文字会计算成<的密度关键词。

　　还有一些特殊的技巧，比如代码的书写顺序和实际的显示顺序，借助CSS的相对定位和绝对定位，让重要的内容主题尽可能靠近body标签出现。让出现在页面头部的不重要内容出现在代码末尾。

　　简而言之，其核心目标是引导和帮助搜索引擎蜘蛛识别您页面的主题和内容，以合理的标签在页面上展示所有重要的信息信号，并在不作弊的情况下对页面进行降噪处理。

　　页面速度优化

　　对于网站来说，页面打开速度越快越好，可以分前端和后端两部分进行优化。

　　前端速度优化：

　　阅读更多：/p/25550395

　　后端和硬件优化：

　　减少网站慢SQL查询次数使用DNSPOD域名解析，使用优质的CDN服务。如帝联、网宿、兰寻等。

　　DNSPOD支持线路设置，与CDN结合使用，让搜索引擎直接爬回源站，可以避免使用CDN后因缓存导致页面更新不及时的问题。

　　聚合页面实践

　　对于大中型网站的SEO工作，人工分类只能解决中短尾词的着陆页需求。可能做成分类榜单，也可能做成专门的页面抢占关键词排名。

　　词库建设

　　工具：金华关键词工具，战神关键词工具，5118

　　词库清理

　　当数据量较大时，可以通过编程或awk、sed等命令行工具进行处理。

　　还要考虑对不规范词和敏感词的处理。

　　阅读更多：/p/26755718

　　总结

　　以上只是我总结提炼的部分经验。对于B2B和分类信息行业的SEO优化，其实有很多技术不便透露。欢迎加我微信交流：vista8

　　以下是过去六个月中与 SEO 相关的所有文章的摘要。除了自己的思考记录，希望对大家有所帮助。

　　【SEO学习之路】小众主题拓展长尾的方法关键词

　　【SEO学习之路】如何定义网站URL以获得最佳SEO效果？

　　SEO学习路径：内部链接的作用和结构策略

　　SEO学习之路：SEOers必懂的HTML代码标签

　　SEO学习之路：搜索结果页面优化技巧，让点击和排名自然提升

　　SEO学习之路：提高SEO流量的六大标题技巧

　　【SEO学习之路】想获得几十万流量？先做聚合页面和词库

　　揭秘Google排名的205个因素（百度80%作品）完整列表

　　2017年值得尝试的SEO策略，用户体验对流量影响巨大

　　2017年最影响SEO排名的关键因素（必须掌握）

　　一种快速提升网站用户体验和SEO效果的方法（有效证据）

　　SEO学习之路：新站不被百度收录？老司机教你三个套路

　　SEO学习之路：揭秘百度权重核心算法与价值

　　实例讲解如何运用SEO思维分析用户需求，建设网站，做营销推广

　　技巧:自动机器学习工具全景图：精选22种框架，解放炼丹师

　　亚历山大·艾伦、阿迪西亚·巴拉吉 (Adithya Balaji)

　　@王小新编译自Georgian Impact Blog

　　量子比特出品 | 公众号QbitAI

　　构建一个典型的机器学习项目一般分为以下几个步骤：

　　采集

原创

数据、合并数据源、清理数据、特征工程、模型构建、超参数调优、模型验证和设备部署。

　　在整个过程中，模型构建最能体现创造力，而特征工程和超参数调优是最耗时的。

　　因此，有时模型会因为时间匆忙而过早地从实验阶段转移到生产阶段，导致它们无法发挥最佳性能；有时，部署会延迟，因为在调整上花费了太多时间。

　　这时候，自动机器学习（Automatic machine learning，AML）框架的价值就体现出来了。

　　自动化机器学习框架可以帮助数据科学家减轻特征工程和超参数调整的负担，使他们能够花更多时间试验模型架构。快速验证可能的解决方案不仅可以让数据科学家快速评估目标数据集，还可以提供改进的基线性能。

　　本文尽可能全面地介绍了现有的自动机器学习框架，同时附上相应的代码地址。

　　审查

　　我们对现有的自动化机器学习开源框架进行了全面调查，这些框架通常作用于机器学习的单个或多个步骤。

　　自动化机器学习框架可以处理项目中的一些步骤，包括模型构建、特征工程和超参数优化。因此，我们分析了一些声称可以优化其中一些任务组合的成熟框架。

　　我们挑选了一些可以轻松应用于企业数据科学团队的库。在介绍每个框架时，我们给出了它的库目标、使用的统计方法以及将其与新项目或现有项目集成时要考虑的主要因素。

　　部分解决方案

　　一些现有的自动化机器学习框架只解决了数据科学管道的一个步骤。尽管它们不提供端到端的解决方案，但这些库专注于使用高级方法来解决特定问题或在具有独特约束的特定环境中运行，因此仍然值得考虑。

　　特征工程

　　1. Featuretools

　　Featuretools/特征工具

　　1347 颗星，139 次分叉，119 次提交

　　最新版本为0.1.21，更新于2018.5.30

　　Featuretools 是一种自动特征工程工具，可以根据一组相关的表自动构建特征。这个开源库是面向企业客户的商业前端服务的一个子集。

　　Featuretools 使用一种称为深度特征合成 (DFS) 的算法，该算法遍历关系数据库中模式描述的关系路径。当 DFS 遍历这些路径时，它通过包括求和、平均和计数在内的数据操作生成合成特征。

　　例如，它可以对给定客户端 ID 的交易列表应用求和操作，将它们聚合到一列中。虽然这是一个简单的单一操作，但是这个算法可以遍历到更深层次的特征。

　　这个库的优势在于它的可靠性和处理时间序列数据时处理信息泄漏的能力。

　　2. Boruta-py

　　scikit-learn-contrib/boruta_py

　　318 颗星，82 次分叉，62 次提交

　　最新版本为0.1.5，更新于2017.3.5

　　Boruta-py是Brouta特征降维策略的一种实现，以“全相关”的方式解决问题。

　　该算法可以保留所有对模型有显着贡献的特征，这与许多特征降维方法所采用的“最小最优特征集”思想相反。

　　Boruta方法首先对目标特征进行随机重新排序形成合成特征，然后在原创

特征集上训练一个简单的决策树分类器，然后在特征集中用合成特征替换目标特征。这三个步骤用于确定特征的重要性。性别。

　　其中，不同特征对应的性能差异可以用来计算它们的相对重要性。

　　3.分类编码

　　scikit-learn-contrib/分类编码

　　494 颗星，115 次分叉，171 次提交

　　最新版本1.2.6，更新于2018.1.22

　　该库扩展了许多分类编码方法，并作为 Scikit-learn 中数据转换器的接口。

　　它还实现了常用的分类编码方法，如one-hot编码和hash编码，以及许多小众编码方法（包括base n编码和target编码）。

　　该函数库常用于处理实际问题中的分类变量，例如可能具有高变量基数的问题。它还直接与 pandas 数据帧一起工作，计算缺失值，并处理可能在训练集之外的转换值。

　　4. 新鲜

　　蓝色那边/tsfresh

　　2781 颗星，340 次分叉，243 次提交

　　最新版本0.11.0，更新于2017.10.14

　　该库专注于时间序列数据的特征生成，并得到一家德国零售分析公司的支持，作为其数据分析管道中的一个步骤。

　　它可以提取一系列用于描述时间序列趋势的形态学特征，包括一些简单的特征（如方差）和复杂的特征（近似熵）。

　　该库从数据中提取趋势特征，使机器学习算法更容易解释时间序列数据集。它使用假设检验来获取大量生成特征，并将它们减少为少数最具解释性的趋势特征。

　　Tsfresh 还与 pandas 和 sklearn 兼容，可以嵌入到现有的数据科学管道中。Tsfresh 库的优势在于其可扩展的数据处理实现，已经在具有大量时间序列数据的生产系统中进行了测试。

　　5.特灵

　　HDI-项目/特灵

　　4 星，1 个分叉，245 个提交

　　最新版本0.1.0，更新于2018.2.2

　　这个库是麻省理工学院 HDI 项目的产物。

　　Trane 库可用于处理存储在关系数据库中的时间序列数据，并表示时间序列问题。它列举了有关数据集的元信息，数据科学家可以从数据库中的时间序列数据中提取这些特征，以制定受监督的问题。

　　此过程存储在一个 JSON 文件中，数据科学家可以重写该文件以描述列和数据类型。该框架处理此文件以生成可用于修改数据集的可能的预测问题。

" />

　　该项目为功能工具库做出了贡献，该库可用于以*敏*感*词*方式生成其他功能。

　　6.功能中心

　　HDI-项目/FeatureHub

　　32 颗星，5 次分叉，249 次提交

　　最新版本0.3.0，更新于2018.5.9

　　这个项目也来自麻省理工学院 HDI 实验室，它建立在 JupyterHub（一个多用户 Jupyter Notebook 服务器）上，以允许数据科学家在特征工程开发期间进行协作。

　　系统自动对生成的特征进行评分，以确定当前模型的整体价值。这种众包特征工程和机器学习的方法在测试中也取得了不错的效果。

　　超参数优化

　　1.斯科普特

　　skopt API 文档

　　880 颗星，340 次分叉，173 次提交

　　最新版本0.5.2，更新于2018.3.25

　　Skopt 是一个超参数优化库，包括随机搜索、贝叶斯搜索、决策森林和梯度提升树。

　　该库收录

一些完善且稳健的优化方法，但这些模型在搜索空间小和初始估计良好的情况下效果最好。

　　2.超优化

　　hyperopt/hyperopt-sklearn

　　2161 颗星，473 次分叉，939 次提交

　　最新0.1版本，更新于2016.11.20

　　Hyperopt 是一个超参数优化库，可根据特定条件或约束调整搜索空间，包括随机搜索和 Tree Parzen Estimators（贝叶斯优化的一种变体）等算法。

　　它以MongoDb作为存储超参数组合结果的中心结构，实现了多台计算机的并行计算。

　　这个库是用hyperopt-sklearn和hyperas这两个分别建立在scikit-learn和keras基础上的模型选择和优化函数库来实现的。

　　3. 简单(x)

　　chrisstroemel/简单

　　362 颗星，22 次分叉，4 次提交

　　需要手动安装

　　Simple(x) 是一个优化库，可用作贝叶斯优化的替代方案。

　　Simple(x) 和贝叶斯搜索一样，试图用尽可能少的样本进行优化，同时也将计算复杂度从 n³ 降低到 log(n)，这对于大型搜索空间非常有用。

　　该库使用单纯形（n 维三角形）而不是超立方体（n 维立方体）对搜索空间进行建模，从而避免了贝叶斯优化的计算量大的高斯过程。

　　4.雷。调

　　射线投影/射线

　　3435 颗星，462 次分叉，1,707 次提交

　　最新版本0.4.0，更新于2018.3.27

　　Ray.tune 是一个超参数优化库，主要针对深度学习和强化学习模型。它结合了许多先进的算法，例如Hyperband算法（最小训练模型来确定超参数的影响）、基于种群的训练算法（Population Based Training，在共享超参数下同时训练和优化一系列网络）、Hyperopt方法和中值停止规则（如果模型性能低于中值性能则停止训练）。

　　这些都运行在 Ray 分布式计算平台上，这使得它具有很高的可扩展性。

　　5.巧克力

　　AIworx-Labs/巧克力

　　26 颗星，26 次分叉，196 次提交

　　需要手动安装

　　Chocolate 是一个分布式超参数优化库（支持无中央主机的计算机集群并行计算），它使用一个公共数据库来联合执行各种任务。

　　它还支持网格搜索、随机搜索、准随机搜索、贝叶斯搜索和自适应协方差矩阵演化策略。其优势在于支持受限搜索空间和多损失函数优化（多目标优化）。

　　6.GpFlowOpt

　　GPflow/GPflow选项

　　102 颗星，27 次分叉，407 次提交

　　最新版本0.1.0，更新于2017.9.11

　　GpFlowOpt 是一个基于 GpFlow 库的高斯过程优化器，可以使用 TensorFlow 在 GPU 上运行高斯过程任务。

　　如果你想使用贝叶斯优化并且有可用的 GPU 计算资源，GpFlowOpt 库应该是理想的选择。

　　7. FAR-HO

　　lucfra/FAR-HO

　　有 22 颗星，5 次分叉，110 次提交

　　需要手动安装

　　FAR-HO 库在 TensorFlow 上运行，收录

一系列基于梯度的优化器，包括 Reverse-HG 和 Forward-HG。

　　该库旨在构建对 TensorFlow 中基于梯度的超参数优化器的访问，从而允许在 GPU 或其他张量优化计算环境上进行深度学习模型训练和超参数优化。

　　8.Xcessiv

　　reiinakano/xcessiv

　　1055 颗星，76 次分叉，316 次提交

　　最新版本0.5.1，更新于2017.8.10

　　Xcessiv 库支持*敏*感*词*模型开发、执行和集成。它的优势在于能够在单个 GUI 界面中管理多个机器学习模型的训练、执行和评估。

" />

　　它有几个集成工具来组合这些模型以获得最佳性能。它包括一个贝叶斯搜索参数优化器，支持高级并行计算，还支持与 TPOT 库集成。

　　9.霍德

　　ilija139/霍德

　　52 颗星，8 次分叉，33 次提交

　　需要手动安装

　　HORD是一种独立的超参数优化算法，可以为需要优化的黑盒模型生成一个代理函数，用它来生成最接近理想状态的超参数组合，以减少对整个模型的评估。

　　与Tree Parzen Estimators、SMAC、Gaussian process等方法相比，它一贯具有更高的一致性和更低的错误率，特别适用于极高维数据的分析。

　　10. ENAS-pytorch

　　carpedm20/ENAS-火炬

　　848 颗星，135 次分叉，33 次提交

　　需要手动安装

　　ENAS-pytorch 可以在 pytorch 中实现高效的深度学习结构搜索。它使用参数共享来构建更高效的网络，使其适用于深度学习结构搜索。

　　全程解决方案

　　1.自动柜员机

　　HDI-项目/ATM

　　251 颗星，56 次分叉，557 次提交

　　需要手动安装

　　Auto-Tune Models 是麻省理工学院 HDI 项目开发的框架，仅需少量工作即可用于快速训练机器学习模型。

　　它使用贝叶斯优化和 Bandits 库，通过穷举搜索和超参数优化来实现模型选择。注意ATM只支持分类问题，也支持AWS上的分布式计算。

　　2. MLBox

　　阿克塞尔德·罗姆布莱/MLBox

　　504 颗星，115 次分叉，854 次提交

　　最新版本0.5.0，更新于2017.8.25

　　MLBox 是一个新框架，其目标是为自动化机器学习提供最先进的方法。

　　除了许多现有框架实现的特征工程外，它还提供了数据采集

、数据清洗和训练-测试漂移检测等功能。

　　此外，它使用 Tree Parzen Estimators 来优化所选模型的超参数。

　　3.auto_ml

　　ClimbsRocks/auto_ml

　　793 颗星，146 次分叉，1149 次提交

　　最新版本2.7.0，更新于2017.9.11

　　Auto_ml 是一种实用程序，旨在增加从数据中获取的信息量，而不需要除数据清理之外的大量工作。

　　该框架使用进化网格搜索算法来完成特征处理和模型优化的繁重工作。它使用了其他成熟的函数库（如XGBoost、TensorFlow、Keras、LightGBM、sklearn）来提高计算速度，还声称最多只需要1毫秒就可以实现预测，这也是本次的亮点图书馆。

　　该框架提供对数据集的快速洞察，例如特征重要性，以创建初始预测模型。

　　4.自动sklearn

　　自动/自动sklearn

　　2271 个星星，438 个分叉，1839 个提交

　　最新版本0.3.0，更新于2018.1.5

　　Auto-sklearn使用贝叶斯搜索优化机器学习过程中使用的数据预处理器、特征预处理器和分类器，并在训练后将多个步骤集成为一个完整的模型。

　　该框架由弗莱堡大学ML4AAD实验室编写，优化过程使用同一实验室编写的SMAC3框架完成。

　　顾名思义，该模型实现了sklearn中机器学习算法的自动构建。Auto-sklearn 的主要特点是一致性和稳定性。

　　5.水

　　h2oai/h2o-3

　　3132 个星星，1217 个分叉，22936 个提交

　　最新版本3.20.0.1，2018.6.7更新

　　H2O 是一个用 Java 编写的机器学习平台，它与 sklearn 等机器学习库有类似的经历。但是，它还包括一个自动机器学习模块，该模块利用其内置算法来创建机器学习模型。

　　该框架对 H2O 系统内置的预处理器进行详尽搜索，并使用笛卡尔网格搜索或随机网格搜索优化超参数。

　　H2O 的优势在于它能够形成大型计算机集群，从而使其规模不断扩大。它也可以在 python、javascript、tableau、R 和 Flow（Web UI）等环境中使用。

　　6.TPOT

　　EpistasisLab/tpot

　　4130 颗星，705 次分叉，1766 次提交

　　最新版本0.9，更新于2017.9.27

　　TPOT 是一种基于树的流程优化工具，是一种用于查找和生成最佳数据科学流程代码的遗传编程框架。TPOT 与其他自动机器学习框架一样，从 sklearn 库中获取其算法。

　　TPOT的优势在于其独特的优化方法，可以提供更高效的优化过程。

　　它还包括一个工具，可以将经过训练的管道直接转换为代码，这对希望进一步微调生成模型的数据科学家来说是一个主要吸引力。

　　原来的：

　　-结束-

AI时代内容工厂

经验:【SEO学习之路】大中型信息网站SEO技巧总结

0 个评论

发起人

AI时代内容工厂

经验:【SEO学习之路】大中型信息网站SEO技巧总结

0 个评论

发起人

相关问题