QQ截图20231008161706
Half moon
talk Lingnan

岭南半月谈|黄超:大模型简介及类ChatGPT自研大模型训练过程

来源:岭南论坛 时间:2023-06-11

导 读

岭南半月谈是岭南影响力的一个子项目,以小型座谈会形式举行,每半月邀请一位业界专家,向听众们介绍某个行业或领域的发展情况及趋势,其中的机遇和挑战,引导、帮助从业人员加深行业了解,促进参会人员共商发展机遇,也可以对自身职业发展形成较为清晰的规划。

2023年6月10日,岭南半月谈“数字经济系列”第六期在广州市天河区黄埔大道羊城创意产业园——千和国际艺术中心举行,本期活动由岭南影响力主办,广州鼎杉投资有限公司创始人黄超先生应邀发表了“大模型简介及类ChatGPT自研大模型训练过程”的主题分享。



黄超先生从自身的经历出发,围绕自己与大模型结缘、大模型的发展历程、大模型技术原理、ChatGPT的发展历程、Dschat的发展历程和对未来的建议六个方面分享了他对大模型研制过程的经验和看法。


一、与大模型结缘

黄超先生从1995年开始接触计算机,至今结下了28的电脑缘。在2005年时建立了网站moneyman.cn,曾在谷歌百度等搜索引擎的投资博客中排名第一。2018年,黄超先生从AlphaGo和柯洁的人机大战中受启发,开始全面投入对AI大模型的研发。

黄超先生的公司研制的AI模型Dschat目前有两个版本,一个是通用版本,另一个是家庭医生版,针对家庭常见的医学问题进行了加强。现在,在各种AI能力加持下,Dschat已经可以与头部的AI企业技术对齐。


、大模型的技术原理

大模型的本质是模仿人脑思考的方式。人脑由超过1000个神经元构成,人脑的思考是将人从外界接收的信号在一个个神经元中输入输出,得到新的信号。大模型则是构造一个个数学函数组成节点作为神经元,将各种函数串联起来,便组成了一张人工神经网络。

大模型的搭建分为特征工程、神经网络、预训练、指令微调四个阶段。特征过程阶段要给模型输入他要学习的事物的特征,如股票的市盈率、MACD指标等等。然后构建线性函数来匹配神经网络。预训练是指在模型未经过大量数据训练的情况下,先对模型进行训练,模型不需要记住任何数据,而是在模型训练过程中,不断调整模型参数,以提高模型的性能。指令微调是指在模型经过大量数据训练后,使用新的数据对模型进行微调,实现一些专业的分类。


、大模型的特点及发展历程

大模型的发展有着明显的量变突破为质变的特点。最初的神经网络算法的算力限制较大,训练参数大约在一亿个左右,相当于老鼠的脑袋的算力。现在硬件算力大幅提升了之后,输入的参数量可达到千亿级别,神经网络算法能完成的事情也越来越多了,大模型的各种能力在某个时间点上会突然有了质的飞跃,就如猴子的思考能力一下子跃升到人类本科生的思考能力,带来了高阶能力的提升。

超大规模参数带来的大模型的高阶能力包括上下文学习、思维链推理、模仿人类行为等。情境学习能力让它能根据指令和反馈举一反三。链式思维能力让它能将复杂的任务推理分解为多个子任务,模仿人类思考的过程。

大模型的计算能力非常强大。如果将人脑和大模型的算力放在一起对比,人类大脑思考问题的功率受制上限约20w,计算机集群功耗可为1000W,相当于人脑计算能力的50倍,而民用AI服务器GPU间带宽甚至可达1TB/秒,是人脑的数亿倍。在一些领域内,大模型展现出的能力已经开始超过人类。

大模型另一个特点是语言之间的隔阂很小,不需要特别强调学习的语言,就算一直给中文的数据给它训练,它的英文水平也会提升,非常聪明!

过去十年,AI模型高速增长,诞生了许多著名的AI模型,完成了一些超越人们想象的挑战。2017年,专用人工智能 AlphaGO 战胜世界人类围棋冠军柯洁。2022年,通用人工智能 ChatGPT 发布,单月用户人数接近10亿。黄仁勋、马斯克等科技大佬断言,随着显卡等硬件技术的进步,AI模型未来十年还会保持高速增长。


四、ChatGPT3的发展过程



ChatGPT3发展过程是一个经典量变引发质变的过程,主要是依靠“大模型+大数据+大算力”的模式,输入的参数量从最开始的一亿到十几亿,到几千亿,到最新一代可能的上万亿。在ChatGPT发展的过程中,庞大的参数量意味着大量成本投入,在参数量达到1750亿时,训练一次就要花费1200万美元。但随着设备升级,训练成本正在快速下降,大模型发展的成本越来越可控。另外,大模型往往具有很强的复制能力,构建新的大模型时,无需重头开始训练,节约了大量的成本。

ChatGPT的建立经历了预训练、指令微调、奖励模型训练、强化学习四个阶段。预训练阶段将海量文本从零开始训练,包括各种网页、书籍、维基百科等等。因为训练数据量大,所以这一步算力消耗最大、用时最长。预训练完成后就可以得到基座模型,所有的基础知识都存储在基座模型的参数中。



基座模型虽然储存了大量知识,但表现出来的能力有限,能做的事情不多。指令微调就是要设计各种任务的“提问-回答”,来对基座模型进行迭代训练。通过上这样的“专业课”,基座模型中存储的各种知识才能被有效激活。

模型大体学会了应对各种任务以后,实践的时候偶尔还会犯错误。这时候就需要搭建奖励模型,将对答案的评价人工反馈给模型,让大模型建立正确的评价体系。

强化学习阶段,大模型依据上一步产生的评价体系就可以摆脱对人类的依赖,自己给自己打分,提高正确率。训练好的大模型便可以和各种工具结合使用,例如做PPT的插件,打游戏的插件,但这些应用并不是大模型的最终形态,只是它的应用于实际生活的开端。


五、Dschat大模型训练过程



Dschat大模型训练过程和ChatGPT一样,都经历了预训练、指令微调、奖励模型训练、强化学习等步骤。随着设备升级,训练成本正在快速下降,100亿参数模型预训练算力单次成本大约在200万以内,500亿参数模型预训练算力单次成本大于在1000万以内,同时有各种免费开源的预训练模型可用。

Dschat大模型最的数据来源很广。Dschat设有100台服务器,一天能在维基百科和各种行业网站上爬回一百多万条数据。也可以从第三方购买数据,成本也比较低。还有开源社区可以获取免费的数据。

但是,Dschat这样的大模型厉害的地方不是在于数据搜索,而是数据分析,它能跟据它所掌握的数据,从数学上生成最优向量级的答案,即它给出的答案不是搜到的,而是计算出来的最优解。


六、对未来发展的建议


未来,随着算力的持续飙升,大模型可能将在各个行业超越人类,由此必然会带来系统性风险,这种风险无法回避,只能对积极面对它。

黄超先生建议,各大企业机构都应该积极打造属于自己的大模型,将所有的工作流程向大模型转化。大模型不是简单的对话游戏,而是通用的API,定制的专家大模型可以代替很多岗位,降本增效的效应非常大。另一方面,我们应该在我们能力范围内开放全部技术支持,抱团取暖,共同面对人工智能带来的挑战,这样才能更好地把握这个时代机遇。


分享结束后,黄超先生和与会人员讨围绕大模型的训练过程、大模型相关的创业机会、Dschat临床诊断的实现等话题进行了深入的讨论。大模型等人工智能的发展让我们更好地理解和利用数据,从而在许多领域做出更准确、更明智的决策,但其背后的风险和挑战也是不可忽视的。我们既要顺应发展,积极培养人才和加强技术创新,也要引导对政府、企业、公众等社会各界正确理解和对待人工智能,只有全面、合理、科学地发展人工智能技术,才能更好地实现人类社会的可持续发展和进步。