标签: 大模型

大模型（大型语言模型/大语言模型/Large Language Model，LLM；Large Language Models，LLMs）是指包含数千亿（或更多）参数的语言模型。是指拥有超大规模参数、复杂计算结构的机器学习模型。它通常能够处理海量数据，完成各种复杂任务，如自然语言处理、图像识别等。
这些参数是在大量文本数据上训练的，例如模型+GPT-3、PaLM、Galactica+和+LLaMA。具体来说，LLM+建立在+Transformer+架构之上，其中多头注意力层堆叠在一个非常深的神经网络中。现有的+LLM+主要采用与小语言模型类似的模型架构（即+Transformer）和预训练目标（即语言建模）。
LLMs 的关键技术，包括了缩放、训练、能力激发、对齐调优、工具利用等。
大型语言模型研究的发展有三条技术路线：Bert模式、GPT模式、混合模式。其中国内大多采用混合模式，多数主流大型语言模型走的是GPT技术路线，直到2022年底在GPT-3.5的基础上产生了ChatGPT。