内容简介
2023年ChatGPT火爆全球,以其为代表的人工智能大语言模型成为全球人工智能从业者关注的焦点。 本书详细介绍了构建大语言模型的四个主要阶段:预训练、有监督微调、奖励建模和强化学习。每个阶段都有算法、代码、数据、难点及实践经验的详细讨论。本书以大语言模型的基础理论开篇,探讨了大语言模型预训练数据的构建方法,以及大语言模型如何理解并服从人类指令,介绍了大语言模型的扩展应用和评估方法,为读者提供了更全面的视野。 本书旨在为对大语言模型感兴趣的读者提供入门指南,也可作为高年级本科生和研究生自然语言处理相关课程的补充教材。
前 言
本书围绕大语言模型构建的四个主要阶段——预训练、有监督微调、奖励建模和强化学习展开,详细介绍各阶段使用的算法、数据、难点及实践经验。
预训练阶段需要利用包含数千亿甚至数万亿单词的训练数据,并借助由数千块高性能GPU 和高速网络组成的超级计算机,花费数十天完成深度神经网络参数的训练。这一阶段的难点在于如何构建训练数据,以及如何高效地进行分布式训练。
有监督微调阶段利用少量高质量的数据集,其中包含用户输入的提示词和对应的理想输出结果。提示词可以是问题、闲聊对话、任务指令等多种形式和任务。这个阶段是从语言模型向对话模型转变的关键,其核心难点在于如何构建训练数据,包括训练数据内部多个任务之间的关系、训练数据与预训练之间的关系及训练数据的规模。
奖励建模阶段的目标是构建一个文本质量对比模型,用于对有监督微调模型对于同一个提示词给出的多个不同输出结果进行质量排序。这一阶段的难点在于如何限定奖励模型的应用范围及如何构建训练数据。
强化学习阶段,根据数十万提示词,利用前一阶段训练的奖励模型,对有监督微调模型对用户提示词补全结果的质量进行评估,与语言模型建模目标综合得到更好的效果。这一阶段的难点在于解决强化学习方法稳定性
不高、超参数众多及模型收敛困难等问题。除了大语言模型的构建,
本书还介绍了大语言模型的应用和评估方法,主要内容包括如何将大语言模型与外部工具和知识源进行连接、如何利用大语言模型进行自动规划,完成复杂任务,以及针对大语言模型的各类评估方法。
本书旨在为对大语言模型感兴趣的读者提供入门指南,并可作为高年级本科生和研究生自然语言处理相关课程的大语言模型部分的补充教材。鉴于大语言模型的研究仍在快速发展阶段,许多方面尚未得出完整结论或达共识,在撰写本书时,笔者力求全面展现大语言模型研究的各个方面,并避免给出没有广泛共识的观点和结论。大语言模型涉及深度学习、自然语言处理、分布式计算、并行计算等众多领域。因此,建议读者在阅读本书之前,系统地学习深度学习和自然语言处理的相关课程。阅读本书也需要读者了解分布式计算和异构计算方面的基本概念。如果读者希望在大语言模型训练和推理方面进行深入研究,还需要系统学习分布式系统、并行计算、CUDA编程等相关知识。