揭开ChatGPT的面纱：大语言模型（LLM）的局限性

date

Sep 3, 2023

slug

whatischatgpt

status

Published

tags

summary

本文尝试用通俗易懂的语言，介绍ChatGPT等大语言模型的原理和局限性。

type

Post

💡

本文介绍ChatGPT等大语言模型的原理和局限性。AI的发展来到一个新的里程碑，了解AI的特长和短板是用好AI的前提。本文基于本人在2023年4月底的拆书笔记整理而成（拖更了很久很久），感谢水水老师的拆书分享，感谢Claude AI的整理。 2023年11月我开通了GPT4 Plus，也发现了之前用Claude粗暴生成的文章其实有多处错误，就找GPT修订了一次本文，目前发布的是修订版本。同时，我也让GPT生成一个适合六年级学生阅读的版本，如果你是AI小白，或者只是出于好奇，欢迎跳转阅读：揭开ChatGPT的面纱：一个神奇的聊天机器人（通俗易懂版）

自2022年年底上线以来，ChatGPT这个AI聊天机器人变得超级火热，它能与人类进行非常逼真的对话。然而，在对这一技术的乐观态度中，我们也需要理性地认识到，这种基于神经网络的聊天机器人存在一定的局限性。本文将深入探讨ChatGPT的技术原理，分析其在计算和创新方面的局限，并思考其对人类语言和智能认知的启示。

ChatGPT的技术原理

ChatGPT是一个基于自监督学习的机器人，它通过这种学习方式来掌握语言使用。研究员为其提供了大量的对话文本作为学习材料，使得ChatGPT能通过阅读理解来学习语言，类似于小孩子通过大量阅读来学习语言的过程。在技术上，它使用变换器（Transformer）架构来处理和生成语言，这种架构能将语言中的词语和概念表示为数字向量，进而通过统计学习来分析和掌握语言规律。因此，在获得足够多的训练数据后，ChatGPT便能生成类似人类的语言。

计算上的局限

ChatGPT在数学计算问题方面显示出明显的局限。例如，即使是简单的加法问题，它也可能无法给出正确答案。这主要是因为ChatGPT主要设计用于处理自然语言，而非专门解决数学计算问题。它的结构更适合于语言生成，而不是进行多轮逻辑推理或自我调试。因此，尽管ChatGPT在处理单次的语言生成方面表现出色，它在数学和逻辑推理方面的能力仍有限。

创新上的缺陷

ChatGPT在独立创造新知识方面存在限制。它无法进行高级抽象思维和复杂逻辑推理。尽管能够通过分析大量的语料库进行事物特征的提取和概括，但这更多是对已有知识的再现，而非创新。ChatGPT虽能在单轮生成中展现组织语言的逻辑能力，但在跨轮的深入推理和创新思考方面则显得有限。

对语言研究的启示

尽管存在局限，ChatGPT的出现也为我们提供了新的思考角度。它证明了在一定程度上，语言可以通过向量化和统计模型来生成，这表明语言的产生可能并非完全依赖于人类独特的思维方式。通过分析ChatGPT等AI模型处理语言的模式，我们可以更好地理解人类语言产生的内在规律以及其与人类思维之间的关系。这为认知科学和人工智能研究提供了新的视角。

大模型发展的阶段规律

ChatGPT的进步主要依赖于大量算力和数据的积累。这种“量变积累”即在现有技术基础上不断增加资源投入和模型规模的延伸。虽然目前可能正面临发展瓶颈，但量变积累到一定程度后，很可能引发质的飞跃，催生新的技术生态。因此，ChatGPT只是大规模神经网络模型与海量数据结合可能性的一个展示。要驾驭这些新技术的成熟，我们还需在算法创新、算力突破、数据积累等方面持续努力，并保持理性，深入探索人类思维和语言的奥秘。