《聊天机器人的背后,GPT如何运作?》(1)概述
这一系列的文章只有一个目的,让人看完之后对于 GPT 的实现原理,以及作为这波 AI 浪潮基石的Transformer架构,有一个全面、清晰的认知。以此在读者(&作者)的脑海里,建立起对于大语言模型的认知的基准线,今后可以发散开来,去比较和理解新模型、新架构。
名词共识
ChatGPT
ChatGPT是由OpenAI开发的大型语言模型聊天机器人。它基于GPT-3语言模型构建,并使用强化学习进行微调,使其能够与人类进行更自然和更具吸引力的对话。ChatGPT可以用于各种任务,包括:
- 生成逼真和连贯的聊天对话
- 回答各种问题,包括开放式、具有挑战性和奇怪的问题
- 创作各种创意文本格式,如诗歌、代码、脚本、音乐作品、电子邮件、信件等
- 翻译语言
- 总结事实主题
GPT
GPT代表Generative Pre-training Transformer,是OpenAI开发的系列大型语言模型。GPT模型通过使用大量的文本和代码数据集进行预训练,可以生成逼真和连贯的文本、翻译语言、编写不同类型的创意内容以及以信息丰富的方式回答您的问题。GPT模型的最新版本是GPT-4,它具有175万亿个参数,是迄今为止最大的语言模型之一。
Transformer
Transformer是Google Research于2017年开发的一种神经网络架构。它在机器翻译领域取得了重大突破,并迅速成为自然语言处理(NLP)任务的主流架构。Transformer架构的核心是注意力机制,它允许模型更有效地学习输入序列中的长期依赖关系。
深度学习
深度学习是一种机器学习方法,它使用人工神经网络来从数据中学习。深度学习模型由多层神经元组成,这些神经元相互连接并通过复杂的算法进行训练。深度学习已被证明在各种任务中非常有效,包括图像识别、语音识别和自然语言处理。
关系:
- ChatGPT 是基于 GPT 搭建的应用
- GPT 是基于 Transformer 架构,由 OpenAI 开发的大语言模型系列
- Transformer 是 Google 开发的神经网络架构,是深度学习领域一种神经网络架构
- 深度学习是什么?看下图

原理概述
好进入正题,首先这是GPT模型的推理原理 ,
Tokenization:输入内容(prompt)被拆解为 Token(单词或单词的一部分)Word2Vector:每个Token对应一个向量(Word to Vector),在高维空间中坐标相近的词,含义相近Attention Block:这些向量会经过一个“注意力模块(Attention Block)”处理,使得向量之间可以相互交流,并更新自身的值(这是因为同一个词在不同语句中含义不同)Multilayer Perceptron(MLP):多层感知机。向量不再互相交流,而是并行地经历同一处理;类比为对每个向量提出问题,然后根据问题答案来更新向量- (上面两个阶段的操作,本质上都是大量的矩阵乘法)
- 接下来的操作基本上是重复的,在注意力模块 和多层感知机 之间不断切换
- 最后,文段(prompt)的核心意义已经被完全融入到序列的最后一个向量中
- 对最后一个向量进行特定操作,产生一个覆盖所有可能 Token 的概率分布
对,就概括来看其实就这么几行字,有了上面这样一个模型,就可以补全 文章、故事了,
- 输入一个故事的开头,例如“小明今天很开”
- 依照上面的运行原理,模型推理出下一个字为“心”
- 将“小明今天很开心”再次输入模型,推理下一个字,如此循环
chatGPT 类型的聊天机器人 在此基础上实现,
- 给定一段系统 Prompt,例如 “下面的对话是一个用户和一个AI助手,用户说:”
- 用户输入初始 Prompt,而 Assistant 的回复则是在补全这段对话中“AI助手”的话