Project AETHER: 混合渲染引擎架构规范 (V2.0_Fixed)
AI 导读
ENGINEERING SPEC V2.1 LOGIC_CORRECTED Project AETHER 基于 NanoBanana Pro 与 GPT-5.2 Thinking 的混合渲染架构。 摒弃 OCR-Free 纯图生成路线,确立“像素造景,代码写字”的工业级标准。 COMPUTE STACK [🧠] GPT-5.2 Thinking [🎨] NanoBanana Pro [🧬]...
Project AETHER
基于 NanoBanana Pro 与 GPT-5.2 Thinking 的混合渲染架构。
摒弃 OCR-Free 纯图生成路线,确立“像素造景,代码写字”的工业级标准。
架构修正说明 (Architectural Correction)
V1 版本的错误: 试图让生图模型直接生成包含文字的图片。这在工程上是死路(Text-in-Image 导致不可编辑、多语言适配困难)。
V2 版本的修正: 采用 Hybrid Rendering (混合渲染)。
- Raster Layer (光栅层): NanoBanana Pro 仅负责生成“带留白的背景图”。
- Vector Layer (矢量层): Claude Opus 4.5 生成 HTML/CSS 代码,将文字精准覆盖在留白区。
01. 算力矩阵分工 (The Stack)
GPT-5.2 Thinking
角色:排版演算 (Layout Solver)
利用 CoT 思维链,不只提取内容,而是计算“信息密度”。它决定每一页的布局掩码(如:左侧留白 40%)。
Image 1.5
角色:风格投影 (Style Projection)
它不生成图片。它负责将用户上传的任何参考图转化为 Style Embedding (风格张量),注入给下游模型。
NanoBanana Pro
角色:掩码生成 (Masked Gen)
基于 GPT 指定的掩码和 Image 1.5 的风格,生成一张“完美避让文字区域”的背景图 (Clean Plate)。
Claude Opus 4.5
角色:视觉编码 (Vision-to-CSS)
“看”着生成的背景图,编写像素级对齐的 CSS 代码。它负责解决对比度问题(如:自动变色、加阴影)。
02. 数据流拓扑 (The Pipeline)
LAYER 1: 布局意图协议 (The Protocol)
MODEL: GPT-5.2{
"slide_id": "seq_04",
"narrative_logic": "conflict_reveal",
// 核心:指挥 NanoBanana 的留白策略
// 这是一个"反向掩码",告诉模型哪里不能画东西
"composition_mask": {
"safe_zone_bbox": [0.0, 0.0, 0.4, 1.0], // 左侧 40% 必须干净
"visual_weight": "heavy_right", // 视觉重心在右
"complexity_cap": 0.3 // 纹理复杂度限制
},
"content_payload": {
"headline": "Market Fragmentation",
"body": "Users are overwhelmed by choices."
}
}
GPT-5.2 不直接生成 Prompt,而是生成 **Layout Constraints (布局约束)**。这是保证文字永远有地方放的关键。
LAYER 3: 视觉代码合成 (The Synthesis)
MODEL: CLAUDE OPUS 4.5// Claude Opus 接收背景图,进行"视觉编程"
// 它会根据背景图的亮度和色相,动态调整文字样式
async function synthesize(bgImage, content) {
// 1. 视觉感知: 采样安全区的平均颜色
const safeZoneColor = await vision.sampleColor(bgImage, 'left_40%');
// 2. 决策: 是否需要蒙层?
// 如果背景太花,文字下面加磨砂玻璃效果
const needsScrim = safeZoneColor.variance > 0.5;
return (
<div className="relative w-full h-full">
<img src={bgImage} className="absolute inset-0 z-0" />
{/* 3. 动态 CSS 生成 (Vector Layer) */}
<div className={`absolute left-0 w-[40%] h-full flex flex-col justify-center px-12 z-10
${needsScrim ? 'bg-black/40 backdrop-blur-md' : ''}`}
>
<h1 className="text-white font-bold text-5xl drop-shadow-lg">
{content.headline}
</h1>
</div>
</div>
);
}
Claude Opus 4.5 实际上充当了 **Design System Engineer** 的角色,它保证了即使 NanoBanana 生成的背景有瑕疵,文字依然可读。
03. 闭环质检 (The Feedback Loop)
GEMINI 3 PRO 视觉审计
Gemini 3 Pro 在此流程中不作为生成器,而是作为Audit Agent (审计智能体)。它会模拟色盲用户、投影仪低对比度环境,对生成的 Slide 进行评分。
如果评分低于 0.85,它会自动将错误日志发回给 Claude Opus 要求重写 CSS。