实际上,OmModel预训练大模型的诞生,与赵天成博士个人在学界、产业界多年的观察有着千丝万缕关系。
要知道OmModel的筹备,最早可以追溯到2019年。
那一年BERT刚刚提出,学术界大佬们都在专注实现更强自然语言理解能力的语言大模型研究。
而这时的赵天成已经意识到,预训练大模型,或许不必局限于一种数据模态类型,而且大模型带来的影响力也远远不止自然语言处理的突破,
作为多模态与人机交互领域的资深学者,他想到这一点其实并不稀奇。
早在2016年,赵天成同导师Maxine Eskenazi教授发表的《Towards end-to-end learning for dialog state tracking and management using deep reinforcement learning》是最早利用深度学习打通自然语言模态与数据库模态的工作之一,当年获得最佳论文奖。
2018年后,他便开始接触视觉语言预训练大模型方面的研究,提出了包括多模态视觉对话系统、大规模稀疏向量视觉语言匹配算法等一系列成果。
后面随着大模型风潮逐渐兴起,赵天成意识到,如果将自然语言与视觉理解结合起来,那将颠覆以往计算机视觉领域的应用方式,让AI 机器视觉从视觉感知迈向视觉认知。