横跨6种模态 Meta开源AI模型ImageBind 为虚拟世界打开大门

区块链
23年5月11日
编辑

泪亚公子

来源：《科创板日报》

编辑宋子乔

当地时间5月9日，Meta宣布开源了一种可以将可以横跨6种不同模态的全新AI模型ImageBind，包括视觉（图像和视频形式）、温度（红外图像）、文本、音频、深度信息、运动读数（由惯性测量单元或IMU产生）。目前，相关源代码已托管至GitHub。

何为横跨6种模态？

即以视觉为核心，ImageBind可做到6个模态之间任意的理解和转换。Meta展示了一些案例，如听到狗叫画出一只狗，同时给出对应的深度图和文字描述；如输入鸟的图像+海浪的声音，得到鸟在海边的图像。

而此前的多模态AI模型一般只支持一个或两个模态，且不同模态之间难以进行互动和检索。ImageBind无疑具有突破性意义，Meta称，ImageBind是第一个能够同时处理6种感官数据的AI模型，也是第一个在没有明确监督的情况下学习一个单一嵌入空间的AI模型。

ImageBind能做到这些，核心方法是把所有模态的数据放入统一的联合嵌入空间，无需使用每种不同模态组合对数据进行训练

先利用最近的大型视觉语言模型它将最近的大规模视觉语言模型的零样本能力扩展到新的模态，它们与图像的自然配对，如视频 – 音频和图像 – 深度数据，来学习一个联合嵌入空间。

而以图像/视频为中心训练好AI后，对于原始数据中没有直接联系的模态，比如语音和热量，ImageBind表现出涌现能力，把他们自发联系起来。

有行业观察者已经迫不及待地将ImageBind于元宇宙联系在一起。

正如Meta的研究团队所说，ImageBind为设计和体验身临其境的虚拟世界打开了大门。该团队还表示，未来还将加入触觉、语音、嗅觉和大脑功能磁共振信号，进一步探索多模态大模型的可能性，“人类可使用多种感官学习、了解世界，借助ImageBin，机器离人类又近了一步”。

值得注意的是，Meta还表示，ImageBind可以利用DINOv2强大的视觉功能进一步提高其能力。DINOv2是Meta开源的计算机视觉领域的预训练大模型，同样与Meta的元宇宙愿景密不可分，Meta CEO扎克伯格此前强调，DINOv2可以极大地加持元宇宙的建设，让用户在元宇宙中的沉浸体验更出色。

尽管ImageBind目前只是研究项目，没有直接的消费者用户或实际应用。但可以想象的是，随着ImageBind模型逐步完善，AI应用场景将进一步拓展，元宇宙建设也将更进一步。

比如当ImageBind融入虚拟现实设备，使用者能获得更沉浸式的体验，玩家进入游戏后不仅能感受游戏场景的温度，还能感知物理层面上运动。

国盛证券分析师刘高畅此前大胆预测，1-5年内，随着多模态的发展带来AI泛化能力提升，通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。未来5-10年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。

本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。

温馨提示：

文章标题：横跨6种模态 Meta开源AI模型ImageBind 为虚拟世界打开大门

文章链接：https://www.btchangqing.cn/531644.html

更新时间：2023年05月11日

本站大部分内容均收集于网络，若内容若侵犯到您的权益，请联系我们，我们将第一时间处理。

{{userData.name}}已认证

横跨6种模态 Meta开源AI模型ImageBind 为虚拟世界打开大门

何为横跨6种模态？

RWA成为DeFi新叙事：2023年成为代币化拐点之年？

全景式解读执行层：EVM一枝独秀，业务能力为成败关键

DAO提出提供早期流动性的提案，Floki有望进军欧洲ETP

比特币ETF资金流出3.38亿美元

比特币在关键趋势线之间徘徊，9.8万美元推动泡菜溢价

超过30%的韩国人投资加密货币资产

贝莱德比特币ETF资金流出量创历史新高，4天内资金流失15亿美元

FAST币

ABR币

比特币/BTC/Bitcoin

泰达币/USDT

瑞波币/XRP