登录
注册
过去几年,视觉人工智能领域的竞争焦点始终围绕'像素'质量展开,即生成的图像或视频在真实感与流畅度上的表现。扩散模型成功将文本指令转化为逼真的视觉内容,使得行业普遍以输出的'相似程度'或'美观程度'作为评估模型能力的核心标准。
然而,a16z 的最新分析指出,视觉人工智能的下一个关键发展阶段并非单纯追求更精美的像素,而是转向生成这些像素背后的代码结构。这种结构化的文件形式才是决定人工智能能否真正融入实际生产流程的关键变量。午方 AI 梳理发现,设计师需要的不仅是 UI 截图,而是包含分层结构、React 组件及可交付文件的 HTML/CSS 代码;动画师需要的不仅是视频片段,而是关键帧、时间曲线及可调整的运动参数;3D 艺术家需要的不仅是渲染结果,而是几何结构、材质、光照效果及场景层次结构。
这一转变将视觉生成分为两条截然不同的路径:以像素为生成目标的路径适合用于创造真实感、营造氛围或进行探索性创作;而以代码为生成目标的路径则更适合用于编辑、迭代和实际生产。后一种方法的核心价值在于能够形成'代码→渲染→检查→修改'的闭环机制,模型不再仅仅是反复采样,而是能够被用来调试一个可验证的视觉程序。午方 AI 注意到,这种区别在生产流程中至关重要,因为生成的图像仅能作为最终输出,而生成的视觉程序则可作为产品被编辑、重复使用、改进并进行版本控制。例如,在徽标设计中,若输出为位图,曲线偏差需通过遮罩或重绘解决;若输出为 SVG 格式,用户可直接编辑路径、渐变及笔触样式,这正是 Quiver 等工具的工作逻辑。
在 UI 设计领域,若输出仅为截图,其价值仅限于启发参考;而若是 HTML/CSS 代码或 React 组件,设计师即可查看 DOM 结构、替换真实组件、测试响应式效果并集成到应用程序中。这种技术架构主要依赖编码模型、符号表示形式及渲染引擎的协同工作。编码模型负责生成 HTML、SVG、Lottie JSON、Blender 脚本或 USD 场景图等结果文件;符号表示形式提供了可编辑的基础,如 UI 中的 DOM 节点、Lottie 中的图层与关键帧、3D 资产中的几何结构与关节设置;渲染引擎则负责将这些结构转化为像素数据。OmniLottie 项目便是典型案例,它将原始 Lottie JSON 文件转换为适合模型理解的命令序列,使模型能更可靠地生成和编辑动画,将反馈信息清晰映射到源代码层面的具体修改处。
这种'代码→渲染→检查→修改'的循环机制使得模型能够在封闭、可验证的环境中调试视觉程序,而非通过反复采样获取结果。每一次迭代都能直接改善底层的结果文件本身,而非仅仅改变渲染输出。午方 AI 分析认为,视觉代码生成技术的发展方向是围绕'运行时环境'展开,包括浏览器、SVG 渲染引擎、Lottie 播放器、Blender、游戏引擎或模拟器。虽然目前 2D 设计领域的应用最为明显,但 3D 资产将从这种'将一致性问题重新定义为编码问题'的方法中获得最大收益。一张椅子的渲染图并非真正的椅子,只有具备稳定几何结构、部件层次关系及功能约束条件(如门能打开、轮子能转动)的资产,才能在游戏或模拟器中真正发挥作用。
VIGA 和 Articraft3D 等项目展示了这一趋势的潜力。VIGA 利用 Blender 作为渲染和反馈工具,将视觉重建转化为循环机制,并为智能体提供观察、修改及记忆工具;Articraft3D 则将带关节的 3D 对象生成定义为一系列可编程步骤,涵盖组件结构、几何形状及测试内容。未来,渲染引擎将演变为反馈工具,迭代过程中的上下文质量将变得至关重要,模型需精准定位源代码修改位置及原因。尽管面临数据表示形式选择、引擎重构及用户偏好捕捉等挑战,但发展方向已十分明确:视觉人工智能正从生成最终输出结果转向生成代码形式的中间结果。第一波技术浪潮解决了生成问题,而下一波技术浪潮将彻底解决生产问题,重塑整个视觉内容的生产流程。