🔥半岛bandao·体育全站app官网入口(中国)官方网站IOS安卓/通用版/手机版APP下载

输出、注入齐可扶持多模态资讯通用版
🔥半岛bandao·体育全站app官网入口(中国)官方网站IOS安卓/通用版/手机版APP下载
栏目分类
🔥半岛bandao·体育全站app官网入口(中国)官方网站IOS安卓/通用版/手机版APP下载
项目管理
时间管理
变革管理
决策分析
输出、注入齐可扶持多模态资讯通用版
发布日期:2024-07-06 14:12    点击次数:140

苹果本周公开显示具备文本、声息、图像交融本领的多模态AI模子考试框架4M,及扶持21种模态资讯的多模态模子。

4M模子框架全名为极多模态掩码模子(Massively Multimodal Masked Modeling),为苹果与瑞士洛桑联邦理工学院(EPFL)合营缔造。揣度全体于客岁12月抢先在2023年神经资讯解决体系(NeurIPS 2023)大会上发表,并向行家开源。本年的最新效力中,揣度全体显示4M-21模子,为一any to any视觉模子,可扶持21种模态任务和模态。

4M模子及关连技巧上,苹果解说,常规视觉机器研习模子只可用于格外化的特定模态或任务,新近的大型说话模子则具备多模态识别本领,而4M则是更进一步的多种模态模子考试设备。它诈欺掩码建模(masked modeling)设备,来考试出单息争合式transformer encoder-decoder,输出、注入齐可扶持多模态资讯,涵盖文本、几何图、语义模态,以及现存美术模子DINOv2和ImageBind的神经网罗符号舆图。

苹果说,4M模子框架能以很小数的就地词元(token)考试并灵验膨大以考试模子,其首要利益包含可实用多种视觉识别任务,经由微调后,也能在新任务或新模态资讯上灵验瞻望,并能考试出如今最潮流的发生式模子。

在最新的揣度推崇下,揣度全体将4M膨大为21种模态资讯,参与了包含东说念主类姿容和体形、SAM(Segment Anything Model)instances、以及metadata,还提议了对准特定模子的词元化(tokenization)设备。揣度全体也收效以4M框架膨大到30亿参数的模子,还能联结视觉与说话资讯来开展考试。

揣度全体本周也发表了二种模子,包含4M-7及4M-21的身手代码和模子。4M-21全名为An Any-to-Any Vision Model for Tens of Tasks and Modalities,揣度全体宣称练出的模子具备未经微调(out-of-box)的极佳视觉识别性能、可实验任何条目及可驾驶(any-conditional & steerable)发生、跨模态截取、扶持多种传感器资讯 掺杂的本领。揣度东说念主员指出,体验4M及4M-21的揣度,他们显示了可贬责了多模态资讯注入任务,比现行模子多3倍,何况总共不损及性能。

VenturBeat指出,此次发表是苹果已往极有数透亮化广告的举动通用版,浮现为了在AI事务上奋发图强,苹果松弛改变举动立场。在6月的WWDC上,苹果文牍将在iOS 18、macOS Sequoia参与和OpenAI ChatGPT的集成,也大约再引入Google Gemini或余下AI模子功能。