尽管GPT-3不是开源的,但有些人已经在复制GPT系列的模型。
例如,慕尼黑工业大学的Connor Leahy用了200个小时和6000元人民币来复制GPT-2。
再举一个例子,基于150亿参数版本GPT-3的DALL·E模型刚刚问世,康奈尔大学的Philip Wang开始复制它。
但是在此之前,没有人能够复制出像GPT-3一样大的语言模型。
但是,有些人已经尝试过了。
这是一个名为GPT-Neo的项目,用于复制GPT系列的各种语言模型,当然也包括GPT-3。
作者说,他们已经成功制造了GPT-2尺寸模型。
从项目代码的可伸缩性的角度来看,希望它们能够重现GPT-3大小的语言模型,该语言模型甚至比GPT-3大。
不仅如此,因为这是一个开源项目,所以您也可以独立地训练这些模型(将来还将包括GPT-3)。
目前,作者已经给出了详细的培训步骤。
消息一出,网友就沸腾了:如果可以复制,也许会比目前的GPT-3更好! “高模仿”是指GPT系列的项目基本上类似于“高模仿”项目。
GPT系列的项目:GPT-Neo中的各种型号的设计原理与GPT系列的相似,但代码不同。
作者打算尝试各种结构和注意力类型,并最终扩展GPT-3大小的大型语言模型。
为了实现此目标,他们从再现GPT系列的模型开始,并不断尝试各种模型架构和各种注意机制。
换句话说,GPT-Neo更像是一个实验项目。
通过各种尝试,扩大了更大的模型。
这里,使模型“更大”的各种研究都得到了应用。
集成:例如,多任务学习方法MoE(专家混合物)使用多个专家的结构,将问题空间划分为均匀的区域,然后使用分配器。
确定要问哪个专家的问题。
另一个例子是具有线性复杂度的自我注意机制。
...该项目仍在建设中,但即使模型的训练方法也已准备就绪。
该项目计划通过TPU或GPU训练大型语言模型。
为此,作者基于两个项目编写了GPT-Neo训练代码:Tensorflow-mesh(用于在GPU上训练模型)和Deepspeed(用于在TPU上训练模型)。
这两个项目都可以扩展到大于GPT-3的大小,甚至更大。
因此,训练GPT-3大小的模型在理论上是可行的。
但是对于硬件问题,作者仍在思考清晰的解决方案。
如果将来真正制作出GPT-3尺寸模型,他们计划从Google提供更多免费资源开始。
如果还没有,那就来谈谈...如何训练GPT-Neo当然,有一些方法可以在TPU和GPU上进行训练。
不同的。
如果使用TPU培训,则需要注册Google云平台,创建存储空间,然后构建虚拟机,然后将模型放在TPU上进行培训。
但是,如果您的GPU硬件足够正常,您也可以选择直接培训GPT-Neo,而无需设置一系列Google Cloud。
此外,您还可以使用Google Colab来培训项目。
它免费提供TPU-V8S处理器,而GPT的3XL(1.5B参数)版本对于培训来说绰绰有余。
训练过程并不复杂,它主要包括以下步骤:创建标记器,预处理数据集,指定训练数据集,选择训练配置以及训练模型。
在创建令牌生成器时,GPT-Neo当前提供了Huggingface预训练的GPT-2令牌生成器。
但是,您也可以训练自己的令牌生成器。
然后,对数据进行预处理,您可以直接下载项目提供的数据,也可以使用自己的数据集。
然后,指定用于模型训练的数据集,然后设置训练方法,例如优化算法,训练步骤数等。
然后,指定硬件名称和数量,即可开始训练模型。
“仅使用Google进行搜索的自动化团队”。
但是,一些网民对GPT系列项目的复发并不乐观。
网民认为,GPT-X系列项目就像一个由数百人组成的自动化团队,这些人只能使用Google搜索进行工作,而他们却无法编写最新的新闻事件。
(因为训练数据不能一直被更新)尽管这是一个非常有趣的研究,但是没有“杀手”。
应用程序,以使GPT-3项目的存在更有意义。
当然,有些人认为复制此项目是有意义的。
即使只是