科技一站

 找回密码
 立即注册
查看: 124|回复: 5

GPT-4模型特征与训练信息最新解读(收录于GPT-4 ...

[复制链接]

6

主题

9

帖子

21

积分

新手上路

Rank: 1

积分
21
发表于 2023-3-25 19:53:28 | 显示全部楼层 |阅读模式
陈巍谈芯:本文将以OpenAI GPT-4 技术报告为基础,介绍GPT-4的特征和训练信息。作者本人曾担任华为系自然语言处理( NLP )企业的首席科学家。
在2023年3月14日,OpenAI发布了他们最新的NLP大作,GPT-4。(大概是致敬圆周率?)GPT-4的技术报告里把OpenAI团队作为唯一作者。(当然Altman特别提到了Jakub Pachocki在预训练方面突出的领导能力和技术远见)参与项目的有数百人,堪称新时代的AI登月工程




1 能看明白图梗的大型多模态模型

与ChatGPT稍有不同,GPT-4 是一个大型多模态模型(输入图像和文本,输出文本输出)。其中GPT是生成式预训练模型的缩写。大型多模态模型可以广泛用于对话系统、文本摘要和机器翻译。一般情况下,大型多模态模型包括额外的视觉语言模型组件(VLM)。
GPT-4实际上是在去年8月完成训练的,直到2023年3月14日才发布。在发布之前,OpenAI一直在对该模型进行对抗性测试和改进。(防止GPT-4乱喷)。
GPT-4的内容窗口能支持多达32,000个token(相当于24000单次或48页文本)


GPT家族内容窗口对比


但更为有趣的是GPT-4已经能看懂一些图梗了,不再仅仅是对话助手。当然这离大家期待的看懂视频还有一段距离。


GPT-4能看明白图梗(原文为英文,由作者翻译为中文)
2 名为GPT-4的考试小能手

据OpenAI介绍,虽然目前GPT-4在现实场景中的能力可能不如人类,但在各种专业和学术考试上表现出明显超越人类水平的能力,包括大家熟悉的GRE考试,堪称考试小能手
这对孩子们是不是一个坏消息?例如,GPT-4在模拟律师考试中,分数排在应试者的前 10%左右。(估计律师们要首先抓狂)GPT-4也优于现有的其他语言模型。相比之下,GPT-3.5 的得分则在倒数10% 附近。如果GPT-4来做中国的高考卷,是不是能上北大清华了?甚至斯坦福博士说GPT-4已经可以考上斯坦福了。


斯坦福博士表示GPT-4已经可以考上斯坦福
典型的成绩包括:
SAT(美国高考): 1410/1600(前 6%)。
美国统一律师资格考试(MBE+MEE+MPT):298/400(前 10%)。
AP(美国大学预科考试):生物学、微积分、宏观经济学、心理学、统计学和历史的大学预修高中考试:100% (5/5)。


GPT-4在专业考试中分数名列前茅
3 GPT-4的技术特征和不足

与ChatGPT类似,GPT-4 也是一种基于 Transformer 的大模型,支持多国语言,经过预训练可以预测或自动生成文本。
OpenAI表示,对GPT-4而言,训练后的对齐(Alignment)是提高性能和改善体验的关键。从技术上看,人类反馈强化学习(RLHF)微调仍然是GPT-4的要点。考虑到LLM领域的竞争格局和 GPT-4 等大型模型的安全隐患,OpenAI暂时还未公布GPT-4的模型架构、模型大小、训练技术。


GPT-4解读图片(原文为英文,由作者翻译为中文)
相对于GPT-3.5和其他大语言模型,GPT-4在复杂任务上表现出更可靠、更有创意,并且能够处理更细微的指示的关键特征。
GPT-4 可以接受文本和图像提示,并允许用户指定任何视觉或语言任务。例如,GPT-4可以在给定由分散的文本和图像组成的输入的情况下反馈文本输出(例如自然语言、代码等)。在带有文本和照片的文档、图表或屏幕截图方面,GPT-4 也驾轻就熟。此外,GPT-4包括few-shot和思维链提示。对于公众来说,图像输入仍然是仅供内部研究预览,并不公开。而且,这次GPT-4直接整合入Bing搜索引擎之中。(Google压力有点大啊)


GPT-4也有一些不足,例如仍然会一本正经的胡说八道,上下文连续对话轮次有限,并且无法从经验中学习。因此如果不对GPT-4的使用进行安全性限制,GPT-4可能会产生大量的认知偏差、虚假信息,甚至侵犯个人隐私。另外,由于数据集时效的原因,GPT-4缺乏对 2021年9 月之后的事件的了解。GPT-4有时会犯一些简单的推理错误,也可能会像人类一样在技术难题上出现错误,例如GPT-4可能在生成的代码中引入安全漏洞。
相比ChatGPT,GPT明显在解决数理问题上有所提升,都能解包含图文的物理题了。(熊孩子的暑假作业有救了)


GPT-4解物理题
4 GPT-4的训练信息

OpenAI表示,在过去2年的GPT-4的研发中,超算和训练技术表现出至关重要的价值。(据称是数百人搞2年)
OpenAI与Azure的超算团队一起,共同设计了针对大模型训练的超级计算机,为GPT-4的训练提供了关键的算力支撑和研发加速。(微软爹的钞能力) OpenAI在GPT-4技术报告中,甚至把Supercomputing lead和Infrastructure lead的排名放在了预训练模型团队的最前面。
并且OpenAI的团队从理论基础层面进行了优化,改进了GPT-3.5的一些bug,使得GPT-4能够以前所未有的进行稳定高速的训练。这方面可以看出OpenAI团队的数学和计算理论功底。
从技术报告描述的模型训练过程来看,GPT-4的训练与GPT-3.5类似。包括SFT的预训练、基于RLHF的奖励模型训练和强化学习的PPO算法微调。与之前的GPT模型不同的是,OpenAI使用基于规则的奖励模型 (RBRM) 在PPO 微调期间向 GPT-4 提供额外的奖励信号。
5 GPT-4的安全性技术

OpenAI投入了大量资源来提高 GPT-4 的安全性和一致性。包括引入领域专家进行对抗性测试和红队测试,模型辅助的安全流水线以及安全指标的改进。OpenAI引入的领域安全专家达到了50多人,覆盖AI一致性风险、网络安全、生物风险等领域。
与ChatGPT一样,OpenAI使用强化学习和人类反馈 (RLHF) 来微调模型的行为,以产生更符合用户意图的响应。但当给定不安全的输入时,模型可能会生成不良内容,例如提供有关犯罪的建议。另外,模型也可能对安全输入变得过于谨慎,拒绝无害的请求。
GPT-4的安全流水线包括两个主要部分:一组额外的安全相关 RLHF 训练提示,以及基于规则的奖励模型 (RBRM)。RBRM是一组zero-shot  GPT-4 分类器。这些分类器在 RLHF 微调期间为 GPT-4 策略模型提供额外的奖励信号,以正确的输出行为为目标进行训练,例如拒绝生成有害内容或不拒绝无害的请求。

技术报告地址:

作者简介:陈巍 博士
存算一体/GPU架构和AI专家,高级职称。中关村云计算产业联盟,中国光学工程学会专家,国际计算机学会(ACM)会员,中国计算机学会(CCF)专业会员。曾任AI企业首席科学家、存储芯片大厂3D NAND设计负责人。
相关阅读参考---------------------------------

------------------------------------------------
回复

使用道具 举报

0

主题

8

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2023-3-25 19:54:01 | 显示全部楼层
那么,哪儿可以买到呢?
回复

使用道具 举报

0

主题

1

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-3-25 19:54:49 | 显示全部楼层
考虑职业后路吧[微笑]
回复

使用道具 举报

2

主题

10

帖子

20

积分

新手上路

Rank: 1

积分
20
发表于 2023-3-25 19:55:41 | 显示全部楼层
??
回复

使用道具 举报

0

主题

4

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-3-25 19:56:35 | 显示全部楼层
请问训练数据集有哪些来源
回复

使用道具 举报

1

主题

4

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2023-3-25 19:57:05 | 显示全部楼层
无后路了,NLP目前已经灭绝了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|科技一站

GMT+8, 2025-8-21 17:50 , Processed in 0.115834 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表