苹果发表Manzano:无损融合“看图”与“绘图”的多模态AI模型

网站小编 2
在AI领域中,图像处理和计算机视觉是重要的研究方向,苹果公司最近发布了名为Manzano的新一代人工智能模型,该模型能够实现无损融合“看图”(Image Processing)和“绘图”(Computer Vision)两种任务的功能。,Manzano使用了最新的深度学习技术,如自注意力机制、变换网络和卷积神经网络等,以提高其性能,它的设计旨在为用户提供更加自然的交互体验,特别是在图形编辑等领域。,Manzano还具有良好的可移植性,可以在不同的平台上运行,并且可以轻松地与其他设备集成,这使得它成为一个强大的工具,可用于各种应用程序,包括图像处理、视频编辑和数据分析等。,苹果公司的Manzano模型是一个非常有潜力的AI模型,它将为图像处理和计算机视觉带来革命性的变化。

IT之家 1 月 15 日消息,科技媒体 Appleinsider 今天(1 月 15 日)发布博文,报道称苹果发表重磅研究论文,详细介绍了名为“Manzano”的多模态模型,融合“视觉理解”与“文本生成图像”两大功能。

该模型最大的创新在于“双修”:它不仅能像人类一样精准理解图像内容(视觉理解),还能根据文本描述生成高质量图片(图像生成)。

苹果发表Manzano:无损融合“看图”与“绘图”的多模态AI模型

行业内此前仅有少数模型能同时兼顾这两项任务,且往往需要在画质与理解力之间做出妥协,研究人员指出,核心矛盾在于“视觉分词”的方式不同。

简单来说,AI 进行“图像理解”时喜欢连续的数据流(类似看视频),而进行“图像生成”时则更依赖离散的数据块(类似拼图)。传统模型强行让同一个大脑处理这两种截然不同的信号,往往会导致严重的任务冲突,要么“看得懂但画不出”,要么“画得好但理解偏”。

Manzano 为了解决这一难题,引入了一种创新的三段式架构:

  • 首先,它使用“混合视觉分词器”同时生成连续和离散的视觉表示;
  • 接着,利用大语言模型(LLM)预测图像的语义内容;
  • 最后,将这些预测结果交给“扩散解码器”进行像素级渲染。
  • 苹果发表Manzano:无损融合“看图”与“绘图”的多模态AI模型

    这种设计让 Manzano 既保留了强大的理解能力,又具备了精细的绘图能力,甚至能处理深度估计、风格迁移和图像修复等复杂任务。

    测试数据显示,Manzano 在处理反直觉、违背物理常识的复杂指令时表现惊人。例如,当要求生成“一只鸟在大象下方飞翔”的画面时,Manzano 的逻辑准确性与 OpenAI 的 GPT-4o 以及谷歌的 Nano Banana 模型旗鼓相当。

    苹果发表Manzano:无损融合“看图”与“绘图”的多模态AI模型

    苹果发表Manzano:无损融合“看图”与“绘图”的多模态AI模型

    苹果发表Manzano:无损融合“看图”与“绘图”的多模态AI模型

    研究团队测试了从 3 亿到 300 亿(30B)参数的不同版本,证实了该架构在模型规模扩大时依然能保持高效的性能提升。

    苹果发表Manzano:无损融合“看图”与“绘图”的多模态AI模型

    虽然 Manzano 目前仍处于研究阶段,尚未直接应用于 iPhone 或 Mac 设备,但这表明苹果正在构建更强大的底层 AI 能力。

    该媒体认为这项技术极有可能会被整合进未来的“图乐园 Image Playground”功能中,为用户带来更智能的修图体验和更具想象力的画面生成能力,进一步巩固苹果在端侧 AI 领域的竞争力。

    IT之家附上参考地址

标签: 看图 模型 多模

抱歉,评论功能暂时关闭!