科技一站

 找回密码
 立即注册
查看: 136|回复: 1

未来人工智能畅想——从ChatGPT想到的

[复制链接]

3

主题

4

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2022-12-17 19:50:16 | 显示全部楼层 |阅读模式
(本文同步发于 JioNLP 公众号)
这两天,又趁周末把玩了 ChatGPT 一番。大概和它聊天聊了有几百轮对话吧。对话内容可谓说是谈雪,谈星星,谈月亮,从诗词歌赋谈到人生哲学……




最开始接触 ChatGPT 时,更多的是感到惊艳、惊讶。然而,使用 ChatGPT 越多,越感觉到该模型依然存在一些局限性。最近由 ChatGPT 想到一些未来人工智能的发展方向。完全基于纯想象,如果有不妥之处,可以留言评论。
如果你还不知道 ChatGPT  是什么,可以来看看这篇:
一、从 ChatGPT 的缺点说起


  • 我让 ChatGPT 做一个时间的换算,结果它给我的回复是:


前两个季度有365天?上面这段回复中,整体语言流畅、大致算法也是正确的,也符合人们普遍的计算思路,但是结果依然是错误的。
我对模型输出上述文字的评价是:语言表达能力很强,数学和逻辑比较差
换句话说,ChatGPT 压根没有真正理解什么叫前两个季度,也没理解什么叫6个月,什么叫30天,什么又叫365天。搞过语言模型的都知道,它依然是使用概率模型来进行计算和输出的
更本质而言,ChatGPT 不理解时间,它只是记住了,一个月大致有30天,这么一句话,一个抽象的概念而已。
什么叫一个月?生活在这个世界上的人们当然明白,一个月,就是月亮阴晴圆缺的一个周期,是日历表上历经的一段时间,是天亮到天黑30次。
人类有眼睛、有睡眠、有生命,可以感知到时间的流逝,也可以感知到一个月的真实存在。一个月不仅仅是三个字组成的抽象符号,而是一个真实的事物与抽象概念组成的映射。
这里就暴露出了,当前,我们所研究的人工智能模型,与人类的本质区别,人工智能模型仅仅在做概念之间联系的学习,而人类则是在做概念和真实世界事物之间联系的学习
一个例子不具有说服力,再来一个例子。

  • 我再让 ChatGPT 生成一段菜谱


我笑拉了,土豆和洋葱怎么就成了土豆炖豆腐?青椒和洋葱,怎么又生成了香菇?
这是什么魔法黑暗料理?


同样的,ChatGPT 完全不理解什么叫做洋葱,什么叫做豆腐、土豆、香菇。它的训练过程中汇集了大批量的文本数据,多达上万亿条。其中不乏一些食谱语料中,土豆、洋葱、豆腐、青椒、香菇相互之间存在关联关系,导致了在生成回复语句时,这些概念的概率值较高,被模型采样出来。
食谱的错误例子也说明,ChatGPT 拟合的是纯语言概念之间的联系,而并非是语言概念和现实世界可食用植物之间的联系。
相反,人类想到土豆的时候,联想到的是什么?圆圆的一圈大小的,沾土带泥的,硬硬的食物,炒着吃脆脆的,炖着吃绵绵的,淀粉含量高,可以当作主食……
总之,人类对一个概念的理解是丰富的,是与现实世界直接关联的。而非语言模型那样,是纯抽象概念的堆砌和联系。
二、强化学习做了什么

有人说,ChatGPT 没啥创新,纯粹是新瓶装旧酒,把 GPT3 的冷饭用强化学习又回锅炒了一番。
我个人对此不甚苟同。
强化学习一个很重要的目标,就是建立模型概念和现实世界实体之间的联系。
比如,在各种棋牌游戏,包括《王者荣耀》等等,都有相应的强化学习实现的人机角色,玩过的伙伴们应该知道,这些人机的强度高的离谱,如果训练得好,完全可以压制职业选手。


在这些游戏中,强化学习给模型与现实世界打通了一道桥梁。模型的各自参数都是概念的组合,而游戏最终的输赢则是现实世界的最终目标。这两者之间的映射的打通,驱使了模型最终达到或超越人类水平。
ChatGPT 也是在同样的方向上的一次尝试,它尝试用 GPT3 学习到的一堆参数,与人类的交互过程中,学习对现实世界的响应。
当然,也需要承认,所谓的 RLHF 式的,带人工反馈的强化学习,依然是笨拙的。凡是需要人工一条一条标注与评价来完成的,总是低效的。
三、NLP 到底难在哪?

难就难在,现实世界太过多样化,太复杂,语言中的概念又太多,模型想要建立概念与现实世界的映射,这个过程太难。语言里有很多类似下面的例子:
小赵骑车差点摔倒,好在他一把把把把住了。
语言模型对此句子的理解,一般都束手无策,模型根本不理解什么叫一把把把把住了
现在假设有一个外星生物,刚刚来到了地球。它们的星球没有自行车,也不知道车把,不知道自行车有两个轮。试问:此时应该如何向它解释上述句子表述的含义?
这就需要与人工进行一点点的交互才能完成学习。与其说是与人交互,不如说,是让模型与真实的世界进行交互。
交互有两个任务,一个是,如何摄取真实世界的信息;另一个是,交互方式是什么。
四、未来的人工智能触手——传感器

想要与真实世界交互,模型首先得感知到真实世界的信息吧?
人们感知土豆的手段是,看一看、摸一摸、尝一尝、操作操作。
那,模型实际上也需要安装上摄像头、安装上应力传感器、安装上味觉传感器、安装上机械臂,才能真实地感受到土豆这种东西的存在。而非仅仅在大量的语料中,感知到了土豆这种东西。


这就是目前的多模态方向。将图像和文本事物相对应,可以很大程度上提升模型对概念的理解。
人类接受的信息,80%都来自于图像,当然不仅仅是图像,声音、嗅觉、触觉、味觉等等传感器,也可以成为研究方向,与语言模型相结合,提升模型对概念的理解。
五、如何学习语言模型?

传统的标注数据 + finetune 模式,是比较低效的、耗费人工的。
而像 ChatGPT 里那样,应用强化学习同样是效率不高的,因为模型本身并没有真的和人交互,而是利用人工评判的方式来实现拟合。
很大程度上,语言模型没有自驱的学习目标,这导致了模型不知道该如何进行学习。
游戏世界里的自驱学习目标就是,这盘游戏,模型能不能赢。只要在棋盘上走一步棋,就等于向着目标往前走了一步。
同样用人类做比较:
人类的自驱力就是,人类天性怕死,人类具有欲望。人类需要利用语言,从而能够生活下去,满足自己的各自欲望。这样,人就会掌握语言,理解世界。

但是语言模型没有这种驱动力和欲望。所以它的学习过程必须是由人来一点点喂养数据才行。
把语言模型的训练当作一场游戏

人生就像一场戏
现实世界太复杂了,我们可以设定一个简单的场景,比如一些开放世界的游戏,主人公在虚拟的游戏中对游戏世界进行探索。
比如这款游戏 The legend of Zelda



游戏中构建了一个宏大的世界观,主人公由玩家操控,目的就是达成一些成就,完成一些目标。在这个虚拟世界中,人物需要吃饭、需要打猎、需要睡觉、需要休息,月亮和太阳间隔而出,圣剑和杀戮时常出现,同时还要朋友和恋人。这些都是对现实世界的真实映射。
现在假设,主人公不再是人类玩家操控,而是由一个语言模型来操控
讲真,当前的一些大型游戏,其设计事物的精细、画面的精美、剧情的繁复,足够训练一个语言模型学习到一些简单的概念与现实的映射。
语言模型的目标,就是在与游戏虚拟世界的互动和交互过程中,达成游戏的最终目标,这个交互,基于视觉、语言来完成。而非由手柄、按键来完成。
由此,一个可以适应游戏虚拟世界的语言模型就可以非常完美地被训练出来。
现在假设,整个现实世界都被虚拟化成一个游戏,有一个大型的语言模型,甚至多个大型的语言模型,在相互交流中互相合作,自驱地学习语言。

这个过程,有论文称之为 agent 自驱式学习。一个语言模型,就是一个 agent,它们共同沉浸在一个虚拟世界中,相互沟通,通过沟通实现语言的学习。


当然,国外有一些实验室,做过类似的实验,他们在一个封闭空间中,设置了一些条件,多个 agents 在相互沟通中完成在封闭空间中的共同生活。实验结果表面,多个 agents 之间产生一些人类无法理解的黑话。agents 们可以利用这些黑话实现某种交流
这实际上就类似于人类之间,或者动物之间的最原始的语言交流。没有文字、没有复杂的发音方式,仅仅最简单的音节,就可以实现这种交流。
这就是语言最原始的样子
六、如果可能的话,科研往这个方向靠一靠?

ChatGPT 的能量是巨大的,它用简单粗暴的方式,向全世界的人展示了大模型,在拟合人类语言和常规语言逻辑上,有着巨大的能量。
现在 NLP 科研方向,很多还是在继续卷一些具体的 NLP 任务模型,或者在既有的研究范式基础上做一些微创新、微改进。
如果可以的话,我想上述的的方式是值得一试的。当然,这个方向的研究,也依然依赖着大规模的基础性软件的构建,比如,虚拟世界游戏引擎,agents 模型的设计等等。当然,一切都可以从最简单的开始设计。
以上想象完全基于目前的 NLP 研究纯想象出发,并非完全基于现实,如有不妥,欢迎留言。

也欢迎关注我的公众号 JioNLP。
回复

使用道具 举报

2

主题

8

帖子

15

积分

新手上路

Rank: 1

积分
15
发表于 2022-12-17 19:50:44 | 显示全部楼层
如果感兴趣的话可以看看这个,一个AGI组织https://cis.temple.edu/~pwang/Chinese.html【通用人工智能-AGI-讲座-1-哔哩哔哩】 https://b23.tv/F9vp0kv
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|科技一站

GMT+8, 2025-7-7 14:13 , Processed in 0.090152 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表