复旦教授黄萱菁：善用AI和不用AI的人在工作效率上有巨大差距,复旦黄萱菁

2023-04-11 13:00:10 views

来源：

记者邵文

“当模型的参数规模不太大时，你看不到它的强度。当达到一定的临界值时，该模型将非常强大。目前，我们认为该参数规模的临界值可能为650亿。”

“什么数据是最好的数据？我认为纸质媒体、书籍和报纸是最好的。我们发现ChatGPT所说的是非常美丽和流畅的语言文本。如果我们在论坛、微博等平台上用文字训练它，它所说的可能就不那么漂亮了。”

图片来源：由工具生成

“当模型的参数规模不太大时，你看不到它的强度。当达到一定的临界值时，该模型将非常强大。目前，我们认为该参数规模的临界值可能为650亿。近日，复旦大学计算机学院教授、博士生导师黄在复旦大学管理学院主办的“复旦科技创新先锋论坛”上表示。她认为，在肉眼可见的未来，善用人工智能的人与不使用人工智能的人在工作效率上存在巨大差距。

黄萱菁被选为“全球人工智能女性”、“AI 2000年世界上最具影响力的人工智能提名学者”和“福布斯中国2020年科技女性榜”，主要从事人工智能、自然语言处理和信息检索，是复旦大学MOSS大模型研发的团队成员。

3月14日，OpenAI发布了具有里程碑意义的多模态大型GPT-4，并透露GPT-4已在新必应（New Bing）中应用。GPT-4的强大表现令人惊叹。支撑它的技术逻辑是什么？在复旦科技创新先锋论坛上，黄做了详细的科普工作。澎湃科技（www.thepaper.cn）根据现场演讲，整理出以下要点。

1.什么是语言模型？

学习汉语、英语和其他语言都是从语法开始的。然而，仅凭语法，我们仍然很难捕捉到客观世界中复杂的语言现象，因为语言不会严格按照语法表达。此时，我们需要使用数学“武器”概率来在各种语言现象中找到规则。

举个例子，“The cat sat on the mat”和“The cat sad on the mat两句话。假设语音识别任务需要根据发音来判断，“sat”还是“sad然后，通过对句子的概率分析，我们可以知道正确的识别结果是什么，这个概率模型被称为语言模型。

概率模型有一个窗口。当窗口越来越大时，所需的计算成本就越大。由于句子在许多情况下可能包含巨大的词汇量，传统概率语言模型所需的计算资源爆炸性增长。所谓的大规模语言模型包含巨大的参数，可以长期接受窗口语言。

2.预训练模型有哪两种思路？

自2017年以来，出现了一种名为Transformer的模型，它是预训练模型的基石，也是大规模语言模型的基石。传统的预训练模型有两种思路，第一种思路是BERT（Bidirectional Encoder Representation from Transformers）以理解模型为例，另一个想法是基于ChatGPT的GPT（Generative Pre-trained Transformer）以生成模型为代表。当然，也有一些工作试图将理解模型与生成模型相结合。

很长一段时间以来，理解模型被广泛使用，而生成模型需要更高的计算能力和更长的窗口。直到GPT-3，我们才知道它是如此强大。有了ChatGPT，它也有很强的理解人类上下文的能力。

3. ChatGPT的出现带来了什么样的范式创新？

我们生活在一个快速变化的时代，每周都有新的模型发布。

预训练+微调的方式是前ChatGPT时代的范式，比如谷歌、OpenAI等大厂为下游应用者微调这些模型的参数，开源自己开发的大模型，以取得优异的性能。例如，如果电影评论是积极和消极的，我们应该对其进行分类。GPT和BERT的效果不够。我们需要手动标记一些与任务相关的数据来微调模型。在过去的三年里，这种预训练+微调的范式是自然语言处理的主要范式。

预训练+微调范式带来了自然语言处理的新时代，对上下游产生了深远的影响。上游是制造商制造的越来越强大的模型，模型的参数规模以指数增长；下游是合理地将预训练的大模型应用到各种任务中。

在过去的两年里，有一个非常时尚的概念叫做小样本学习或少样本学习。我们刚才说，如果你想完成一项任务，你可能需要手动标记大量的数据，但在少样本场景中，只有一两个数据，大规模的语言模型可以表现出相当好的性能。

然而，当语言模型变得更大时，一方面，制造商因商业原因逐渐放弃开源，OpenAI没有打开GPT-3模型，只打开API（应用程序编程接口），即可以调用，但无法获得内部细节。ChatGPT连论文都没有发表，只能靠大家猜测。另一方面，用户也缺乏足够的计算资源来使用大型模型，所以我们期待着国内芯片，让我们有更多的计算能力来运行大型语言模型。

在这种情况下，我们有一个新的范式，就是利用大规模语言模型的出现能力。

4.出现的能力是什么？

所谓的出现能力是什么？当模型的参数规模不太大时，你看不到它的强度。当达到一定的临界值时，该模型将非常强大。目前，我们认为该参数规模的临界值可能为650亿。

早期的GPT-3不太了解用户的需求，但最近，ChatGPT和我们实验室开发的MOSS都有很强的编写代码的能力。我们发现代码是一个很好的数据。由于代码逻辑、结构化、注释和文档，我们可以对齐语义（Alignment，保持一致)。至于什么数据是最好的数据，我认为纸质媒体、书籍和报纸是最好的。你会发现ChatGPT说的是一个非常美丽和流畅的语言文本，如果我们在论坛、微博和其他平台上训练它，它可能不会那么美丽，这很有趣。

5.如何解决大模型成本巨大的问题？

GPT-3发布于2020年，API只公开，人们只能通过界面使用，并授权许多公司开发小企业。通过这个过程，它收集了大量的用户行为，知道用户感兴趣的需求，用户关心的任务，基于人类的反馈来训练语言模型，理解人类的价值观。

培训大型模型的成本非常高，需要大量的计算能力。中小企业会觉得负担很重，不能简单地进行这样的语言模型培训。所以我们可以试着把语言模型做成一个服务，你可以和它交流，它会给你反馈结果。我们也可以写出更高质量的提示或指令，没有梯度优化（目标函数的梯度不计算在优化过程中，只使用目标函数的值来优化目标函数），这样它就可以在更大程度上展示它的能力。

在语言模型服务方面，我们从两个方面开展工作。首先，我们需要开发模型基础。在过去的几年里，我们开发了1亿、10亿到100亿的参数。目前，我们可能比GPT-3差一个数量级。此外，我们还研究如何利用语言模型的能力来优化它，使它能够实现各种任务。

6.近年来，自然语言处理范式的迁移情况如何？

自然语言处理有七种类型：分类、匹配、序列标记、机器阅读理解、Seq2Seq(当输出长度不确定时使用的模型)、Seq2ASeq(序列到动作序列)和掩码语言模型范式(训练语言模型预测被覆盖的单词，以便在生成文本或其他任务时更准确地预测语言)。这些也是近年来自然语言处理的范式迁移。

ChatGPT具有很强的多任务能力。它可以处理各种任务，而无需事先教学。事实上，ChatGPT已经通过与人类的沟通，如标记1000多个用户数据，手动编写许多高质量的答案，然后使用这些数据进行培训，从而了解人类的需求。

现在我们有很多公司，每个公司都可以做一项任务，把这项任务做到极致，占据一个细分领域。

未来的自然语言处理将与现在不同。在“七种武器”时代，我们有各种各样的范式。现在，一个模型可以击败世界。

7.MOSS是怎么训练出来的？

统一模型基座可以用一种武器和一种方法统一所有任务。我们在2021年的一份工作(早于ChatGPT的出现)没有做几千项任务，只做了两类。

第一类任务是情感分析，有七个小类别。我们建议使用生成框架将任务转换为语言模型可以生成的输出形式。这样，一个语言模型就可以通过少量的任务数据进行训练。我们模型使用的基础是BART（BART吸收了BERT和GPT的特点）。如果我们使用更强大的基础，我们可以减少所需的样本。

对自然语言的理解是BERT，GPT是自然语言的产生。既然构建大模型的初衷是为了合众归一，我们能把它们总结在一起吗？2021年，我们提出了一种叫CPT的新语言模型，将理解任务与生成任务相结合。CPT是一种不对称的Transformer模型结构，由一个Encoder(任务间共用)和两个Decoder(一个面向理解，一个面向生成)组成，既有理解能力又有生成能力。

我们从去年年底开始训练MOSS，是在CPT的基础上训练的。我们用了更多的计算能力和数据来训练它两个月，然后出来了这样的版本。

8. 我们应该如何在ChatGPT时代使用语言模型？

在ChatGPT时代，我们对如何使用语言模型有几个想法。

第一个想法叫Texttt prompt(文本提示)通过人工设计一些基于文本的指令，激活大模型面向特定下游任务的能力。但这更倾向于特色工程问题，需要工程师根据以往的经验不断调试，耗费大量精力。

第二个想法是In-context learning(场景学习)在GPT模型中表现良好。这种方法开辟了一个很有前途的方向，值得学术界和工业界继续共同研究。

第三个想法是Datata generation(数据生成)不同于直接使用大模型。这种方法是利用大模型生成一定数量的数据，然后利用生成的数据训练一个小模型，以追求小样本场景中的应用效果。

第四个想法是Featuree-based-learning（特征学习）将预训练模型的输出作为Feature，并结合标签输入到一些特定的模型中，使参数从标签空间接近特征空间，大大减轻了端侧优化的负担。我们提出了一种属于特征学习范畴的标签优化方法。

标签调优是什么？当我们做机器学习时，我们通常首先有一个特征空间，如情感分析褒义词和贬义词。如果我们分词，我们可以使用姓氏、头衔和其他特征。以前的做法是在标签空间做微调，但我们发现其实可以反而求之。我们冻结参数，然后将标签调整到参数空间。在未来，我们可以使用统一的生成框架来解决问题。例如，我们可以在完成分类任务时直接生成类别标签。

第五个想法是Black-box optimization(黑箱优化)让用户根据推理API的返回结果，使用基于搜索的无梯度优化(目标函数的梯度在优化过程中不计算，只使用目标函数的值来优化目标函数)来优化指令。

并非所有的人，所有的公司，所有的学校都能训练ChatGPT模型。如何使ChatGPT等大型模型回归更符合个性化需求的结果？我们想出了一个巧妙的方法，在用户指令中添加一段，如实数向量表示，然后将其发送到大型ChatGPT，以返回结果。这样就可以计算出这个模型是否能满足我们的需求，然后我们就可以调整指令了。因为我们增加的一小段向量可以修改，经过修改后，让它做一些自适应的调整，得到更好的结果。

9.如何测试ChatGPT？

对于ChatGPT，我们已经有了一些直觉的认识，比如写作文，写案例判决，写演讲稿。它的能力范围在哪里？首先是情景学习，给它一个例子，它会回到类似于例子的答案。ChatGPT使用大量代码进行训练。如果你让它做数学问题，而不是直接给例子，用数学公式或程序代码直接写这个过程，它会做得很好。

ChatGPT还有一个与人类反馈对齐的过程。它找到了许多专家，写了许多关于1000多个问题的答案，并使用这些任务数据来提高模型的性能。然后加强学习，用它的模型随机生成几个答案，让许多人标记，从而学习人类的价值取向，然后用这个价值取向修改模型，用新模型提高其性能，最后越来越符合人类的需求。

曾参加谷歌招聘面试的ChatGPT，获得L3级入门工程师录用。除了写代码，我们还让ChatGPT做中国高考题。比如2022年高考历史甲卷第一题，需要分析最接近给定文本“天下太和，人无事”的政治理念。根据ChatGPT分析，根据题干信息，这一思想最接近老子“无为而治”的道家思想，答案也是正确的。我们在客观题上测试了ChatGPT，ChatGPT水平基本相当于500分左右的高考生。我们发现ChatGPT更擅长文科，在历史、地理和政治方面取得了良好的成绩，但在生物、化学、物理等科学方面表现不佳，尤其是在物理方面。

3月2日，我们的实验室发布了一份关于ChatGPT的测试报告，对ChatGPT的各种模型基座进行了数十万次测试。我们发现ChatGPT在阅读理解任务方面比现在最好的方法更好。在关系提取方面，ChatGPT的提取性能不是很好。

我们发现，在现有的机器学习框架下，ChatGPT的强大性能是可以解释的，没有什么是神秘的。我相信今年国内外会有很多机构，包括大学和企业，在ChatGPT模型方面会有很大的突破。

10. 如何与ChatGPT竞争？

未来我们应该如何与ChatGPT错位竞争？它做得好的事情可能不再是我们的重点，也可以进一步改进它做得不好的地方。

在肉眼可见的未来，善用人工智能的人和不使用人工智能的人在工作效率上会有很大的差距，所以我鼓励大家多使用和熟悉与人工智能的沟通。在一段时间内，ChatGPT不足以完全取代某个职位，但它将大大提高各个领域的生产效率。我们希望人工智能是帮助人类的工具，而不是取代人类的机器。

最后，微软首席执行官萨提亚·纳德拉（Satya Nadella）在接受媒体采访时，内燃机带来了廉价的动力，互联网技术降低了信息传输成本，而ChatGPT将使信息的集成、转换和流通更便宜。人工智能可能会像工业革命和信息革命一样引领我们走向下一个时代。

本文的部分内容来自网络，仅供参考。如有侵权行为，请联系删除。