• 帮助
  • 广告服务

京财时报

滚动新闻:
·中国广电5G用户突破1800万 ·包含本体及DLC、原声带等特典:消息称《地平线:西之绝境》游戏完全版有望 ·理财直播“连麦诊基”基金投教转向“基民视角” ·最新佛山百强榜:民营企业占比超八成,制造业百强营收连续三年增长 ·汇聚金融力量共创美好生活天津滨海农商银行开展“五进入”消保集中宣教活动 ·长四丙火箭成功发射遥感三十三号04星 ·对比不同理财产品的业绩?这个指标你一定要搞懂 ·专利显示苹果公司未来有望利用电磁线圈“循环热量”,帮助冷却过热的设备 ·全球商品观察|国际大米价格指数达15年来名义高点,中国大米市场受国际影响 ·本田展示未来电动汽车愿景,三款概念车将亮相东京车展 ·微软全新OutlookforWindows支持苹果iCloud帐户,离线 ·安徽宿州:鼓励“现房销售”,年底前买房发放至少5000元/套消费券 ·昆仑健康保险广东分公司走进养老院及社区公园,开展金融知识普及集中宣传活动 ·21深度|蔚来手机发布:车手互联兵临城下 ·年轻人首台阅读本:掌阅iReaderLight3发布,6英寸墨水屏、AI ·走进江南古街、传播金融知识浦发银行无锡分行积极开展”集中教育宣传日“活动 ·微软Win11彩蛋:下次Moment更新有望明年2月24日发布 ·阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型,免费 ·廿载著章丨国寿寿险上市20年:资产规模劲增15倍,高质量发展稳健迈进 ·15.69万元起,2024款小鹏P5汽车正式上市:精简至两款,车长增加5 

视觉版ChatGPT来了,吸收AI画画全技能

京财时报   来源:IT之家    发布时间:2023-03-11 13:13:06   阅读量:7756   

原文标题:《视觉版 ChatGPT 来了!吸收 AI 画画全技能,MSRA 全华人团队打造,微软 16 年老将领衔》

ChatGPT 会画画了!

问它:能生成一张猫片给我吗?

立刻连文带图全有了。

同时也看得懂图、有理解能力。

比如发一张图给它,然后问摩托是什么颜色?它能回答出是黑色。

如上,就是由 MSRA 资深研究人员们提出的视觉版 ChatGPT。

通过给 ChatGPT 结合多种视觉模型,并利用一个提示管理器,他们成功让 ChatGPT 可以处理各种视觉任务。

这项工作一发出来就火了,GitHub 揽星已超过 1.5k。

简单总结一下,就是把 GPT 和 Dall-E 合并的感觉~

又懂文字又会画图…… 有人就说:

这不是终极 meme 图制造机?

诀窍在于提示工程?

Visual ChatGPT,其实就是让 ChatGPT 可以处理多模态信息。

但是从头训练一个多模态模型,工作量非常大。

研究人员想到可以在 ChatGPT 的基础上,结合一些视觉模型。

而想要达到这一目的,关键需要一个中间站。

由此他们提出了提示管理器的概念。

它的作用主要有 3 方面:

第一、明确告诉 ChatGPT,每个视觉模型的作用,并指定好输入输出格式。

第二、转换不同的视觉信息,如将 PNG 图像、深度图像、掩码矩阵等转换为语言格式,方便 ChatGPT 理解。

第三、处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让 ChatGPT 能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。

这样一来,Visual ChatGPT 的工作流大概长这样:

假如用户输入了一张图,模型会先将内容发送给提示管理器,然后转换成语言给 ChatGPT 判断,当它发现这个问题不需要调用视觉模型,就会直接给出输出。

第二个问题时,ChatGPT 分析问题内容需要使用视觉模型,就会让视觉模型开始执行,然后一直迭代,直到 ChatGPT 判断不再需要调用视觉模型时,才会输出结果。

论文介绍,Visual ChatGPT 中包含了 22 个不同的视觉模型。包括 Stable Diffusion、BLIP、pix2pix 等。

为了验证 Visual ChatGPT 的能力,他们还进行了大量零次试验。

结果如开头所示,Visual ChatGPT 具备很强的图像理解能力。

当然,研究人员也提到了这项工作目前还存在一些局限性。

比如生成结果的质量,主要取决于视觉模型的性能。

以及使用大量的提示工程,会一定程度上影响生成结果的速度。而且还可能同时调用多个模型,也会影响实时性。

MSRA 老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠。

他是 MSRA 首席研究员,自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF 杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006 年加入 MSRA,任职已超 16 年。

第一作者 Chenfei Wu,同样是一位资深研究人员了。

据领英资料显示,他于 2012 年加入微软,任职 11 年,目前是一位软件工程师。

论文地址:

参考链接:

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

热文推荐

首页 | 新闻| 财经| 房产| 娱乐| 旅游| 时尚| 生活| 科技| 健康| 汽车| 教育| 今日北京 | 电子报

Copyright @ 2010- 网站地图
关于同意京财时报设立互联网站并提供新闻信息服务的批复