2023-04-30发表2023-11-05更新人工智能 / 大模型20 分钟读完 (大约3045个字)

近期对chatGPT的理解

一、和之前“人工智障”的差异在哪里

1、能联系上下文，并不是一问一答，而是连续对话。

天猫精灵这类初代AI，只能做“天气如何”-“今天的天气是”，“今天几号”-“今天是”，这样一问一答的对话。但是一次问答通常只能“查询属性”、“执行命令”这种简单操作，人类的任务通常更复杂，需要分析对方答案并再次提出问题，直到双方观点对齐。chatGPT能够分析上下文，提供了连续问答的能力，所以现在有很多玩法是，让chatGPT扮演某个角色，然后以角色身份进行交互。

2、能够自我纠错，“你这里错了”，且具有主见，“我认为没有错”。

在连续对话的能力下，我们可以指出chatGPT答案中的错误，chatGPT会分析自己答案中的错误，并以更大的正确概率去修正答案。为什么通过指出错误能得到更正确的答案？目前的主流观点认为，这样做相当于把大任务划分为了小任务，单步拆解能给到更好的提示，辅助下一步的推理形成良性循环，因此最终大任务也具有更高的正确率了。

举个例子：

“小明养了10只猫，每只猫每天都要花30分钟喂食铲屎，请问小明照顾它们每周要花费多少小时，请一步一步回答（step by step，这是个重要的prompt)”。那么chatGPT就会拆解任务，“一共10只猫，每天每只30分钟，10x0.5=5小时／天，5小时／天x7天／周＝35小时／周，答案是每周35小时”。

这种拆解似乎触发AI回忆起之前学过的数据，仿造那些步骤来执行任务，最终产生正确率很高的结论。不过，这也带来人们的一个担忧，就是chatGPT的答案并不一定正确。如果提问不了解的领域的知识，可能chatGPT给出了错误答案会误导人类。因此，目前chatGPT还不能用于容错率较低的行业，比如医疗行业。

3、知识面广泛，总是尝试去回答问题

老AI总是根据“输入”来决定“输出”，一旦超出范围就会提示“我目前还不会这个操作”。但chatGPT是通用型的AI，知识面及其广泛，总是会尝试回答你的问题。即使有些时候条件没给全，他也会提示你“请问xx条件是xx吗？”，或者直接用默认条件“我们假设xx条件是xx，那么”。这种交互对人类非常友好。

4、具备推理能力

我认为推理能力是chatGPT区别于其他AI的核心能力。一个典型的例子就是“为什么我的狗叫三万”实验。在没有先验信息的情况下，分析上下文，给出了正确的结论，这就是推理。

人类：我家有只狗叫三万，你猜猜它为什么叫这个名字？

chatGPT：很难猜测狗狗为什么叫三万。有很多人为宠物起名字都有各种不同的原因。有些人会选择一个容易记住的名字，有些人会根据宠物的性格或外贸来选择一个名字，有些人则是按照家庭成员或朋友的名字来命名宠物。如果您知道了，我很想听听。

人类：提示一，这是一只我们收养的狗，当时它骨折了，宠物医院为它做了骨折手术后，它原来的主人就没来取过它。

chatGPT：哦，那么狗狗叫三万，可能是因为它在宠物医院治疗骨折手术花费了三万元钱。命名狗狗叫三万，是一种对它付出了巨大代价的表示感激和敬爱的方式。

具备推理能力，就能够做很多事情了，这也是把AI从“AI就是一个查询数据库的服务”摘出来最有力的支撑。至于为什么会涌现推理能力，目前还是未解之谜。chatGPT原理很简单，梯度下降和transformer，人们只是发现了现象，就是“喂的数据越多，智能程度越高”。如果能解开这个谜团，也许AI就会再出现一次新的跃升。有时候还在想，人类是不是也只是一个被喂了数据的AI呢？

微软：《人工通用智能的星星之火：GPT-4的早期实验》
我们对GPT-4的研究完全是现象学的：我们关注的是GPT-4可以做的令人惊讶的事情，但我们没有解决它为什么以及如何实现如此卓越的智力的根本问题。它是如何推理、计划和创造的？当它的核心仅仅是简单的算法成分－梯度下降和具有极其大量数据的大规模transformer的组合时，为什么它会表现出如此通用和灵活的智能？这些问题是llm神秘和迷人的一部分，它挑战了我们对学习和认知的理解，激发了我们的好奇心，并激励了更深入的研究。关键方向包括正在进行的对llm中出现现象的研究（见［WTB+22]为最近的调查）。
然而，尽管对1lm能力的问题有浓厚的兴趣，但迄今为止的进展相当有限，只有一些兴起的玩具模型被证实［BEG+22,ABC+22,JSL22].一个普遍的假设［OCS+20]是，大量的数据（特别是内容的多样性）迫使神经网络学习通用和有用的“神经回路”，例如在［OEN+22,ZBB+22,LAG+22]中发现的“神经回路”，而模型的大尺寸为神经回路提供了足够的冗余和多样性，使其专业化和微调到特定的任务。为大规模模型证明这些假设仍然是一个挑战，而且，几乎可以肯定的是，猜想只是答案的一部分。在另一个思考方向上，模型的巨大规模可能有其他几个好处，例如通过连接不同的最小值［VBB19]或简单地实现高维数据的平滑拟合［ES16,BS21],使梯度下降更加有效．总的来说，阐明GPT-4等AI系统的性质和机制是一项艰巨的挑战，突然变得重要和紧迫。

二、机会

目前主要的大方向还是3个：

造轮子：再造一个chatGPT，成为其他应用的基建。
中间商：提供周边产业，比如GPU、存储、网络等
上层应用：chatGPT+传统业务、chatGPT plugin、新一代助手，以及“卖铲子割韭菜”如“卖课”之类。

1、造轮子

语言限定：比如中文版轮子
本地私有部署，照顾安全：轻量级本地轮子

2、中间商

提示词工程师：未来是否会编程已经不大重要，是否能提出独到的见解和问题，并把他们描述清楚更重要。当然，提示工程师这件事也不会长久存在，而会变成我们每个人的基本技能，毕竟现在也很难见到PPT工程师或者Windows工程师。
openAPI改造。提示词工程是基于api的，因此大量软件都需要开放API，且需要有良好的编排（比如接口的英文命名）便于提示词构造。类似aws的api优先原则就很重要，软件不需要图形界面，不需要UI交互，只需要api。
数据制造。数据越来越重要。那“海量数据获取”、“海量数据清洗”都是需要人来做的，或者是人发明更好的设备、算法去做。数据就像是人的性格，AI的不同，更多取决于输入的训练数据的不同。
模型测试基准。目前大模型的评价更多的基于心理学，如果能提供大模型智能程度标准打分的benchmark，也是很有价值的。

3、上层应用

快速试错。做100个东西，筛选有用的拼起来。
流量入口。chatgpt会成为流量入口，类似PC时代的黄页，移动互联网的APP。这个入口的实现形式，就是chatgpt plugin定义的规范。
每个人的助手。最早信息闭塞，老师傅仗着经验丰富很喜欢卡小徒弟的成长、学霸仗着学得更多不肯告诉他人方法；后面网络兴起，获取信息不再难，筛选信息更难，于是一些筛选信息后的小团体（所谓“社群”）喜欢卡其他人的认知，主打一手信息差。现在chatGPT如果兴起，能让每个人平等、舒服地获取任何想要获取的知识，即使是自己未接触的领域，也能通过它产生一些基础的认知。AI助手也能让人越问越想问，不用顾虑任何事情，不用怕被骂被嘲笑，不用担心耽误对方时间，不用怕触犯对方的利益，不用在乎对方的感受。
执行命令。开发chatGPT plugin，执行本地命令。这里相比于天猫精灵，需要充分利用推理能力上做出差异化，比如“给你一个文档，帮我理解后整理大纲”、“帮我计算xxxx”、“这个问题我不会，帮我解答一下，详细解释第3个步骤怎么得到的”、“商品我应该如何选择，为什么”。这些推理是初代AI根本不会的东西，初代AI只会开关灯泡、问问天气。
结合其他新兴行业。自动生成元宇宙素材、自动处理web3。

三、挑战

1、chatGPT不可信？

对于chatGPT不可信的说法，我在想，人就一定可信吗？人也会说谎，遇到不知道的知识也会胡说，也会有偏见，观点甚至更偏激。我认为不是一个大的挑战，不过后续“与人的价值观对齐”的确是一个重要的课题。

2、AI垄断

AIGC出现，唯一的担忧是，他是集中化的。意味着大公司、强国家，可以看到一切，可以控制一切。和财阀垄断生产资料一样，强权和大资本可以垄断AI资源，如果以后AI资源成为之前核酸检测一样生活必需品，变成了生产资料，就会乱象丛生、被无限控制。甚至还可以有意识地训练具有特别观点的AI，引导所有人的价值观。

近期对chatGPT的理解

https://www.bananaoven.com/posts/31323/

作者

浅雾

发布于

2023-04-30

更新于

2023-11-05

许可协议

#大模型 chatGPT

支付宝

微信

近期对chatGPT的理解

一、和之前“人工智障”的差异在哪里

1、能联系上下文，并不是一问一答，而是连续对话。

2、能够自我纠错，“你这里错了”，且具有主见，“我认为没有错”。

3、知识面广泛，总是尝试去回答问题

4、具备推理能力

二、机会

1、造轮子

2、中间商

3、上层应用

三、挑战

1、chatGPT不可信？

2、AI垄断

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

评论

链接

分类

最新文章

归档

标签

目录