“高模仿”是指GPT系列的尺寸可以和GPT-3一样大。独立训练

尽管GPT-3不是开源的，但有些人已经在复制GPT系列的模型。

例如，慕尼黑工业大学的Connor Leahy用了200个小时和6000元人民币来复制GPT-2。

再举一个例子，基于150亿参数版本GPT-3的DALL·E模型刚刚问世，康奈尔大学的Philip Wang开始复制它。

但是在此之前，没有人能够复制出像GPT-3一样大的语言模型。

但是，有些人已经尝试过了。

这是一个名为GPT-Neo的项目，用于复制GPT系列的各种语言模型，当然也包括GPT-3。

作者说，他们已经成功制造了GPT-2尺寸模型。

从项目代码的可伸缩性的角度来看，希望它们能够重现GPT-3大小的语言模型，该语言模型甚至比GPT-3大。

不仅如此，因为这是一个开源项目，所以您也可以独立地训练这些模型（将来还将包括GPT-3）。

目前，作者已经给出了详细的培训步骤。

消息一出，网友就沸腾了：如果可以复制，也许会比目前的GPT-3更好！ “高模仿”是指GPT系列的项目基本上类似于“高模仿”项目。

GPT系列的项目：GPT-Neo中的各种型号的设计原理与GPT系列的相似，但代码不同。

作者打算尝试各种结构和注意力类型，并最终扩展GPT-3大小的大型语言模型。

为了实现此目标，他们从再现GPT系列的模型开始，并不断尝试各种模型架构和各种注意机制。

换句话说，GPT-Neo更像是一个实验项目。

通过各种尝试，扩大了更大的模型。

这里，使模型“更大”的各种研究都得到了应用。

集成：例如，多任务学习方法MoE（专家混合物）使用多个专家的结构，将问题空间划分为均匀的区域，然后使用分配器。

确定要问哪个专家的问题。

另一个例子是具有线性复杂度的自我注意机制。

...该项目仍在建设中，但即使模型的训练方法也已准备就绪。

该项目计划通过TPU或GPU训练大型语言模型。

为此，作者基于两个项目编写了GPT-Neo训练代码：Tensorflow-mesh（用于在GPU上训练模型）和Deepspeed（用于在TPU上训练模型）。

这两个项目都可以扩展到大于GPT-3的大小，甚至更大。

因此，训练GPT-3大小的模型在理论上是可行的。

但是对于硬件问题，作者仍在思考清晰的解决方案。

如果将来真正制作出GPT-3尺寸模型，他们计划从Google提供更多免费资源开始。

如果还没有，那就来谈谈...如何训练GPT-Neo当然，有一些方法可以在TPU和GPU上进行训练。

不同的。

如果使用TPU培训，则需要注册Google云平台，创建存储空间，然后构建虚拟机，然后将模型放在TPU上进行培训。

但是，如果您的GPU硬件足够正常，您也可以选择直接培训GPT-Neo，而无需设置一系列Google Cloud。

此外，您还可以使用Google Colab来培训项目。

它免费提供TPU-V8S处理器，而GPT的3XL（1.5B参数）版本对于培训来说绰绰有余。

训练过程并不复杂，它主要包括以下步骤：创建标记器，预处理数据集，指定训练数据集，选择训练配置以及训练模型。

在创建令牌生成器时，GPT-Neo当前提供了Huggingface预训练的GPT-2令牌生成器。

但是，您也可以训练自己的令牌生成器。

然后，对数据进行预处理，您可以直接下载项目提供的数据，也可以使用自己的数据集。

然后，指定用于模型训练的数据集，然后设置训练方法，例如优化算法，训练步骤数等。

然后，指定硬件名称和数量，即可开始训练模型。

“仅使用Google进行搜索的自动化团队”。

但是，一些网民对GPT系列项目的复发并不乐观。

网民认为，GPT-X系列项目就像一个由数百人组成的自动化团队，这些人只能使用Google搜索进行工作，而他们却无法编写最新的新闻事件。

（因为训练数据不能一直被更新）尽管这是一个非常有趣的研究，但是没有“杀手”。

应用程序，以使GPT-3项目的存在更有意义。

当然，有些人认为复制此项目是有意义的。

即使只是