ChatGPT最近火了。ChatGPT在发布5天内吸引了100w用户,用户获取速度超过了任何一家科技产品。人们一直梦想着计算机能更多地参与到生产活动中来,如翻译文字、识别语言、检索、生成文字图片等。2022年末,生成式对话型人工智能ChatGPT和AI生成图片应用Midjourney问世,1个月内获取过亿用户。尽管根据用户使用后的的反馈,它们的表现还不能堪称完美,但已经是令大众惊喜的程度了。ChatGPT和Midjourney背后的公司是OpenAI,成立于2015年,由Elon Musk和Sam Altman等个人和组织创建,旨在推进和促进人工智能领域的研究。
ChatGPT的背后是AI的蓬勃发展。AI领域的大部分问题都是如何提高机器学习效率的问题,即如何能让机器更高效地学习客观物理世界并代替人类执行工作任务。让机器学习客观物理世界,听懂人类指令执行任务,这个愿景实现的首要难点就是如何能让机器学习读懂人类语言。历史上,人们尝试过让机器模拟人类进行学习,如学习人类通过语法规则、词性、构词法、分析语句等学习语言。随着数据、算力、模型架构、范式等的升级,模型架构从机器学习到神经网络再到今天的Transformer-Based,对应的能力也在不断发展。
ChatGPT基于的算法,也就是AI模型是什么样的呢?基于大语言模型,NLP领域延伸出了两个学界最主流的方向-Bert模型和GPT模型。Bert模型和GPT模型都是预训练模型。预训练模型会预先接受海量的文本语料进行学习。学习的成果以模型参数的形式沉淀。模型参数的沉淀会对预训练模型关于词性、句法等方面的理解能力进行改进。区别在于,Bert模型是双向预训练语言模型+fine-tuning;GPT模型的特征则是自回归预训练语言模型+prompting(指示/提示)。这里最大的区别就是参数是否会进行变化升级。总结来说,ChatGPT背后的模型,就是在一个超大语料基础上预训练出的大语言模型(LLM),采用从左到右进行填字概率预测的自回归语言模型,并基于prompting(提示)来适应不同领域的任务。
ChatGPT背后除了算法, 基础设施的建设也很重要。AI的产业链可以分为如下三个层级:
最上游是提供算力和传输能力的硬件制造商和云平台,为获得算力和传输能力,也是构建模型公司的主要成本消耗。云平台供应商AWS、GCP、Azure每年花费超过1000亿美元资本支持,确保拥有最全面、可靠和具成本竞争力的平台。
往下是模型开发,通常以专有API或开源检查点形式提供,典型代表公司是ChatGPT背后的OpenAI。模型公司的技术演进分析在上半部分。
再往下是面向企业或个人的应用。将生成式AI模型与面向用户的产品集成,通常是运行自己的模型管道(端到端,自己有模型自己开发应用,如ChatGPT和Midjourney)或者调用模型API开发应用。
ChatGPT的算法效率和基础设施建设是同步增长的。随着ChatGPT这种大预言模型的训练数据和参数量呈指数增长,这些操作需要更多的计算资源和存储资源,这是导致大语言模型成本增加在原因。首先,是作为训练输入的训练样本,一般需要将样本分成独立的三部分训练集(Train Set),验证集(Validation Set ) 和测试集(Test Set)。其中训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,而测试集则检验最终选择最优的模型的性能如何。一个典型的划分是训练集占总样本的50%,而其它各占25%,三部分都是从样本中随机抽取,样本的数据量是非常庞大的,尤其是Midjourney这种需要图片训练的AI,需要PB级的样本数据。其次,是作为训练输出结果的参数模型:考虑到过去5年中模型参数呈指数增长,下一代大语言模型很可能是万亿参数模型,快速增长的模型需要足够的空间来存储。
这么多存储空间从哪来?目前主流的解决方法是硬件存储阵列或分布式存储。传统硬件存储阵列可以保障每个逻辑卷的低延迟和高可用性,但存在水平可伸缩性差、成本高、可能形成许多“孤立的数据岛”的问题,从而使存储成本高,存储资源利用率低。一些传统分布式存储看起来可以解决上述问题,但通常部署复杂,且难以保证性能和稳定性。这个时候,就需要存储资源盘活系统(Storage Resource Reutilization System,SRRS)。
存储资源盘活系统是一个ZIP包。它可以轻松地安装在装有Linux操作系统的任何品牌、配置的物理服务器、裸金属服务器、虚拟机甚至容器实例上,向上层提供块存储服务。存储资源盘活系统与硬件驱动完全解耦,且支持硬件异构。存储资源盘活系统允许集群中的每个Linux操作系统实例具有不同的硬件配置,例如不同的CPU数量、不同的内存大小、不同的本地硬盘驱动器容量等。存储资源盘活系统会充分利用用户的全部资源来提供最好的性能,帮助用户进一步提高现有硬件资源的利用率。这对于硬件更新换代频率很快的AI领域来说是好消息:再也不用担心被淘汰的设备闲置了。
存储资源盘活系统作为一组用户态进程来运行,不依赖于任何特定版本的Linux内核或Linux发行版,不依赖或修改操作系统环境,不垄断整个硬盘驱动器,不干扰任何其他进程的执行。因此,存储资源盘活系统可以在同一个Linux操作系统实例中与其他应用程序并发运行,在不影响整体功耗的情况下大大提高了硬件利用率,也在一定程度上缓解了AI机房“耗电高”的痛点。
存储资源盘活系统是高性能的。存储资源盘活系统采用分布式双控制器架构,像传统硬件存储阵列一样提供低延迟和高可用性,像传统分布式存储一样提供高可扩展性和高吞吐量。它可以轻松从3台服务器扩展到数千台服务器,并逐个从数千台服务器减少到3台服务器,上述过程中不会出现服务不可用的情况。对于AI行业中训练样本、模型参数的指数级增长,存储资源盘活系统可以自如应对。
据《纽约时报》近日报道,谷歌宣称ChatGPT是其搜索业务的“红色警报”(Code Red),它的搜索量呈病毒式发展。这对于产业链的上下游来说,是机遇,也是挑战。在AI的时代来临之前,存储资源盘活系统可以为其构建坚固、灵活的存储底座。