近期对chatGPT的理解

近期对chatGPT的理解

一、和之前“人工智障”的差异在哪里

1、能联系上下文,并不是一问一答,而是连续对话。

天猫精灵这类初代AI,只能做“天气如何”-“今天的天气是”,“今天几号”-“今天是”,这样一问一答的对话。但是一次问答通常只能“查询属性”、“执行命令”这种简单操作,人类的任务通常更复杂,需要分析对方答案并再次提出问题,直到双方观点对齐。chatGPT能够分析上下文,提供了连续问答的能力,所以现在有很多玩法是,让chatGPT扮演某个角色,然后以角色身份进行交互。

2、能够自我纠错,“你这里错了”,且具有主见,“我认为没有错”。

在连续对话的能力下,我们可以指出chatGPT答案中的错误,chatGPT会分析自己答案中的错误,并以更大的正确概率去修正答案。为什么通过指出错误能得到更正确的答案?目前的主流观点认为,这样做相当于把大任务划分为了小任务,单步拆解能给到更好的提示,辅助下一步的推理形成良性循环,因此最终大任务也具有更高的正确率了。

举个例子:

“小明养了10只猫,每只猫每天都要花30分钟喂食铲屎,请问小明照顾它们每周要花费多少小时,请一步一步回答(step by step,这是个重要的prompt)”。那么chatGPT就会拆解任务,“一共10只猫,每天每只30分钟,10x0.5=5小时/天,5小时/天x7天/周=35小时/周,答案是每周35小时”。

这种拆解似乎触发AI回忆起之前学过的数据,仿造那些步骤来执行任务,最终产生正确率很高的结论。不过,这也带来人们的一个担忧,就是chatGPT的答案并不一定正确。如果提问不了解的领域的知识,可能chatGPT给出了错误答案会误导人类。因此,目前chatGPT还不能用于容错率较低的行业,比如医疗行业。

3、知识面广泛,总是尝试去回答问题

老AI总是根据“输入”来决定“输出”,一旦超出范围就会提示“我目前还不会这个操作”。但chatGPT是通用型的AI,知识面及其广泛,总是会尝试回答你的问题。即使有些时候条件没给全,他也会提示你“请问xx条件是xx吗?”,或者直接用默认条件“我们假设xx条件是xx,那么”。这种交互对人类非常友好。

4、具备推理能力

我认为推理能力是chatGPT区别于其他AI的核心能力。一个典型的例子就是“为什么我的狗叫三万”实验。在没有先验信息的情况下,分析上下文,给出了正确的结论,这就是推理。

人类:我家有只狗叫三万,你猜猜它为什么叫这个名字?

chatGPT:很难猜测狗狗为什么叫三万。有很多人为宠物起名字都有各种不同的原因。有些人会选择一个容易记住的名字,有些人会根据宠物的性格或外贸来选择一个名字,有些人则是按照家庭成员或朋友的名字来命名宠物。如果您知道了,我很想听听。

人类:提示一,这是一只我们收养的狗,当时它骨折了,宠物医院为它做了骨折手术后,它原来的主人就没来取过它。

chatGPT:哦,那么狗狗叫三万,可能是因为它在宠物医院治疗骨折手术花费了三万元钱。命名狗狗叫三万,是一种对它付出了巨大代价的表示感激和敬爱的方式。

具备推理能力,就能够做很多事情了,这也是把AI从“AI就是一个查询数据库的服务”摘出来最有力的支撑。至于为什么会涌现推理能力,目前还是未解之谜。chatGPT原理很简单,梯度下降和transformer,人们只是发现了现象,就是“喂的数据越多,智能程度越高”。如果能解开这个谜团,也许AI就会再出现一次新的跃升。有时候还在想,人类是不是也只是一个被喂了数据的AI呢?

微软:《人工通用智能的星星之火:GPT-4的早期实验》
我们对GPT-4的研究完全是现象学的:我们关注的是GPT-4可以做的令人惊讶的事情,但我们没有解决它为什么以及如何实现如此卓越的智力的根本问题。它是如何推理、计划和创造的?当它的核心仅仅是简单的算法成分-梯度下降和具有极其大量数据的大规模transformer的组合时,为什么它会表现出如此通用和灵活的智能?这些问题是llm神秘和迷人的一部分,它挑战了我们对学习和认知的理解,激发了我们的好奇心,并激励了更深入的研究。关键方向包括正在进行的对llm中出现现象的研究(见[WTB+22]为最近的调查)。
然而,尽管对1lm能力的问题有浓厚的兴趣,但迄今为止的进展相当有限,只有一些兴起的玩具模型被证实[BEG+22,ABC+22,JSL22].一个普遍的假设[OCS+20]是,大量的数据(特别是内容的多样性)迫使神经网络学习通用和有用的“神经回路”,例如在[OEN+22,ZBB+22,LAG+22]中发现的“神经回路”,而模型的大尺寸为神经回路提供了足够的冗余和多样性,使其专业化和微调到特定的任务。为大规模模型证明这些假设仍然是一个挑战,而且,几乎可以肯定的是,猜想只是答案的一部分。在另一个思考方向上,模型的巨大规模可能有其他几个好处,例如通过连接不同的最小值[VBB19]或简单地实现高维数据的平滑拟合[ES16,BS21],使梯度下降更加有效.总的来说,阐明GPT-4等AI系统的性质和机制是一项艰巨的挑战,突然变得重要和紧迫。

二、机会

目前主要的大方向还是3个:

  • 造轮子:再造一个chatGPT,成为其他应用的基建。
  • 中间商:提供周边产业,比如GPU、存储、网络等
  • 上层应用:chatGPT+传统业务、chatGPT plugin、新一代助手,以及“卖铲子割韭菜”如“卖课”之类。

1、造轮子

  • 语言限定:比如中文版轮子
  • 本地私有部署,照顾安全:轻量级本地轮子

2、中间商

  • 提示词工程师:未来是否会编程已经不大重要,是否能提出独到的见解和问题,并把他们描述清楚更重要。当然,提示工程师这件事也不会长久存在,而会变成我们每个人的基本技能,毕竟现在也很难见到PPT工程师或者Windows工程师。
  • openAPI改造。提示词工程是基于api的,因此大量软件都需要开放API,且需要有良好的编排(比如接口的英文命名)便于提示词构造。类似aws的api优先原则就很重要,软件不需要图形界面,不需要UI交互,只需要api。
  • 数据制造。数据越来越重要。那“海量数据获取”、“海量数据清洗”都是需要人来做的,或者是人发明更好的设备、算法去做。数据就像是人的性格,AI的不同,更多取决于输入的训练数据的不同。
  • 模型测试基准。目前大模型的评价更多的基于心理学,如果能提供大模型智能程度标准打分的benchmark,也是很有价值的。

3、上层应用

  • 快速试错。做100个东西,筛选有用的拼起来。
  • 流量入口。chatgpt会成为流量入口,类似PC时代的黄页,移动互联网的APP。这个入口的实现形式,就是chatgpt plugin定义的规范。
  • 每个人的助手。最早信息闭塞,老师傅仗着经验丰富很喜欢卡小徒弟的成长、学霸仗着学得更多不肯告诉他人方法;后面网络兴起,获取信息不再难,筛选信息更难,于是一些筛选信息后的小团体(所谓“社群”)喜欢卡其他人的认知,主打一手信息差。现在chatGPT如果兴起,能让每个人平等、舒服地获取任何想要获取的知识,即使是自己未接触的领域,也能通过它产生一些基础的认知。AI助手也能让人越问越想问,不用顾虑任何事情,不用怕被骂被嘲笑,不用担心耽误对方时间,不用怕触犯对方的利益,不用在乎对方的感受。
  • 执行命令。开发chatGPT plugin,执行本地命令。这里相比于天猫精灵,需要充分利用推理能力上做出差异化,比如“给你一个文档,帮我理解后整理大纲”、“帮我计算xxxx”、“这个问题我不会,帮我解答一下,详细解释第3个步骤怎么得到的”、“商品我应该如何选择,为什么”。这些推理是初代AI根本不会的东西,初代AI只会开关灯泡、问问天气。
  • 结合其他新兴行业。自动生成元宇宙素材、自动处理web3。

三、挑战

1、chatGPT不可信?

对于chatGPT不可信的说法,我在想,人就一定可信吗?人也会说谎,遇到不知道的知识也会胡说,也会有偏见,观点甚至更偏激。我认为不是一个大的挑战,不过后续“与人的价值观对齐”的确是一个重要的课题。

2、AI垄断

AIGC出现,唯一的担忧是,他是集中化的。意味着大公司、强国家,可以看到一切,可以控制一切。和财阀垄断生产资料一样,强权和大资本可以垄断AI资源,如果以后AI资源成为之前核酸检测一样生活必需品,变成了生产资料,就会乱象丛生、被无限控制。甚至还可以有意识地训练具有特别观点的AI,引导所有人的价值观。

作者

浅雾

发布于

2023-04-30

更新于

2023-11-05

许可协议

评论