我研究了最热门的200种AI工具,却发现这个行业有点饱和
一大部分集中在数据 pipeline,包括数据管理、贴标签、数据库 / 查询、数据处理和数据生成。数据 pipeline 工具可能也想成为一体化平台(all-in-one platform)。由于数据处理是项目中最耗费资源的阶段,一旦有人在你的平台上放置他们的数据,那就很有可能给他们提供预构建或预训练的模型。 建模和训练工具大多是框架。当前深度学习框架之争有所平静,主要集中在 PyTorch 和 TensorFlow 这两者之间,以及基于这两者解决 NLP、NLU 和多模态问题等特定任务的更高级的框架。分布式训练领域也有一些框架。还有一个出自谷歌的新框架 JAX,每个讨厌 TensorFlow 的谷歌员工都力捧这个框架。 存在一些用于实验追踪的独立工具,一些流行深度学习框架还有内置的实验追踪功能。超参数调整很重要,所以出现专门用于超参数调整的工具并不奇怪,但是它们似乎没有一个流行起来。因为超参数调整的瓶颈不是设置,而是运行它所需的算力。 尚未解决但最令人兴奋的问题在部署和服务空间中。缺少服务方法的原因之一是研究人员与生产工程师之间缺乏沟通。在有能力进行人工智能研究的公司(常常是大公司),研究团队与部署团队是分开工作的,两个团队仅通过 P 打头的经理:产品经理、程序经理、项目经理互相交流进行沟通。而员工可以看到整个堆栈的小公司就会受到即时产品需求的限制。 只有少数几家初创公司能够缩小差距,这些公司通常是由已有成就的研究人员创建,并且有足够的资金雇佣优秀的工程师。而这样的初创公司将会占据人工智能工具市场很大一部分。 开源和开放内核(open-core) 作者选择的 202 种工具中有 109 种是开源软件(Open Source Software, OSS),并且没有开源的工具也常常与其他开源工具绑在一起。 开源软件的出现和发展由多种原因促成,以下是所有开源软件支持者谈论数年的一些原因,包括透明度、协作、灵活性以及合乎伦理道德。客户可能不希望使用无法获取源代码的新工具。否则,如果不开放源代码的工具无法使用,则必须重写代码。这是初创公司经常出现的状况。 开源软件并不意味着非盈利和免费,开发者有其更深远的目的。需要看到,开源软件的维护耗时且花费不菲。传闻 TensorFlow 团队的成员数接近 1000 人。一家企业提供开源软件肯定有其商业目的,举例而言,越来越多的人使用某家公司的开源软件,那么该公司的名头就会越来越响,人们也就更加信任这家公司的专业技术,最终可能会购买他们的专有工具,甚至加入他们的团队。 这样的例子比比皆是。谷歌不遗余力地推广他们的工具,其目的是想用户使用其云服务。英伟达维护 cuDF,旨在售卖更多的 GPU。Databricks 免费提供 MLflow,但也售卖他们的数据分析平台。 此外,网飞公司最近成立了专门的机器学习团队,并推出了自己的 Metaflow 框架,从而也加入到了机器学习(ML)的发展大潮中,以吸引人才。Explosion 免费提供 SpaCy,但同时对 Prodigy 收费。HuggingFace 是一个特例,它免费提供 transformer,但不清楚究竟如何盈利。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |