《聊天机器人的背后,GPT如何运作?》(1)概述

2024/04/21
《聊天机器人的背后,GPT如何运作?》(1)概述

这一系列的文章只有一个目的,让人看完之后对于 GPT 的实现原理,以及作为这波 AI 浪潮基石的Transformer架构,有一个全面、清晰的认知。以此在读者(&作者)的脑海里,建立起对于大语言模型的认知的基准线,今后可以发散开来,去比较和理解新模型、新架构。

名词共识

ChatGPT

ChatGPT是由OpenAI开发的大型语言模型聊天机器人。它基于GPT-3语言模型构建,并使用强化学习进行微调,使其能够与人类进行更自然和更具吸引力的对话。ChatGPT可以用于各种任务,包括:

  • 生成逼真和连贯的聊天对话
  • 回答各种问题,包括开放式、具有挑战性和奇怪的问题
  • 创作各种创意文本格式,如诗歌、代码、脚本、音乐作品、电子邮件、信件等
  • 翻译语言
  • 总结事实主题

GPT

GPT代表Generative Pre-training Transformer,是OpenAI开发的系列大型语言模型。GPT模型通过使用大量的文本和代码数据集进行预训练,可以生成逼真和连贯的文本、翻译语言、编写不同类型的创意内容以及以信息丰富的方式回答您的问题。GPT模型的最新版本是GPT-4,它具有175万亿个参数,是迄今为止最大的语言模型之一。

Transformer

Transformer是Google Research于2017年开发的一种神经网络架构。它在机器翻译领域取得了重大突破,并迅速成为自然语言处理(NLP)任务的主流架构。Transformer架构的核心是注意力机制,它允许模型更有效地学习输入序列中的长期依赖关系。

深度学习

深度学习是一种机器学习方法,它使用人工神经网络来从数据中学习。深度学习模型由多层神经元组成,这些神经元相互连接并通过复杂的算法进行训练。深度学习已被证明在各种任务中非常有效,包括图像识别、语音识别和自然语言处理。

关系:

  1. ChatGPT 是基于 GPT 搭建的应用
  2. GPT 是基于 Transformer 架构,由 OpenAI 开发的大语言模型系列
  3. Transformer 是 Google 开发的神经网络架构,是深度学习领域一种神经网络架构
  4. 深度学习是什么?看下图Snipaste_2024-04-16_12-55-11

原理概述

好进入正题,首先这是GPT模型的推理原理

  1. Tokenization:输入内容(prompt)被拆解为 Token(单词或单词的一部分)
  2. Word2Vector:每个Token对应一个向量(Word to Vector),在高维空间中坐标相近的词,含义相近
  3. Attention Block:这些向量会经过一个“注意力模块(Attention Block)”处理,使得向量之间可以相互交流,并更新自身的值(这是因为同一个词在不同语句中含义不同)
  4. Multilayer Perceptron(MLP):多层感知机。向量不再互相交流,而是并行地经历同一处理;类比为对每个向量提出问题,然后根据问题答案来更新向量
  5. (上面两个阶段的操作,本质上都是大量的矩阵乘法)
  6. 接下来的操作基本上是重复的,在注意力模块多层感知机 之间不断切换
  7. 最后,文段(prompt)的核心意义已经被完全融入到序列的最后一个向量中
  8. 对最后一个向量进行特定操作,产生一个覆盖所有可能 Token 的概率分布

对,就概括来看其实就这么几行字,有了上面这样一个模型,就可以补全 文章、故事了,

  1. 输入一个故事的开头,例如“小明今天很开”
  2. 依照上面的运行原理,模型推理出下一个字为“心”
  3. 将“小明今天很开心”再次输入模型,推理下一个字,如此循环

chatGPT 类型的聊天机器人 在此基础上实现,

  1. 给定一段系统 Prompt,例如 “下面的对话是一个用户和一个AI助手,用户说:”
  2. 用户输入初始 Prompt,而 Assistant 的回复则是在补全这段对话中“AI助手”的话