什么是 GPT?通过图形化的方式来理解 Transformer 架构 [译]
GPT 是 Generative Pre-trained Transformer 的缩写。首个单词较为直接,它们是用来生成新文本的机器人。"Pre-trained" 指的是模型经历了从大量数据中学习的过程,这个词暗示了该模型还有进一步在特定任务中进行额外训练和微调的可能。然而,最后一个词,才是真正重要的部分。Transformer 是一种特定类型的神经网络,一个机器学习模型,它是现今 AI 高速发展的核心创新。我希望通过这个视频和接下来的章节,以一种便于理解的方式,阐述 Transformer 内部实际发生的过程。我们将逐步探索流经它的数据。
April 2, 2024
View Article