Project AETHER: 混合渲染引擎架构规范 (V2.0_Fixed)

原创灵阙教研团队

C 参考提升 | 约 4 分钟阅读更新于 2026-01-13

AI 导读

ENGINEERING SPEC V2.1 LOGIC_CORRECTED Project AETHER 基于 NanoBanana Pro 与 GPT-5.2 Thinking 的混合渲染架构。摒弃 OCR-Free 纯图生成路线，确立“像素造景，代码写字”的工业级标准。 COMPUTE STACK [🧠] GPT-5.2 Thinking [🎨] NanoBanana Pro [🧬]...

ENGINEERING SPEC V2.1 LOGIC_CORRECTED

Project AETHER

基于 NanoBanana Pro 与 GPT-5.2 Thinking 的混合渲染架构。
摒弃 OCR-Free 纯图生成路线，确立“像素造景，代码写字”的工业级标准。

COMPUTE STACK

[🧠] GPT-5.2 Thinking [🎨] NanoBanana Pro [🧬] Image 1.5 [⚡] Claude Opus 4.5

⚠️

架构修正说明 (Architectural Correction)

V1 版本的错误： 试图让生图模型直接生成包含文字的图片。这在工程上是死路（Text-in-Image 导致不可编辑、多语言适配困难）。
V2 版本的修正： 采用 Hybrid Rendering (混合渲染)。

Raster Layer (光栅层): NanoBanana Pro 仅负责生成“带留白的背景图”。
Vector Layer (矢量层): Claude Opus 4.5 生成 HTML/CSS 代码，将文字精准覆盖在留白区。

01. 算力矩阵分工 (The Stack)

BRAIN / LOGIC

GPT-5.2 Thinking

角色：排版演算 (Layout Solver)
利用 CoT 思维链，不只提取内容，而是计算“信息密度”。它决定每一页的布局掩码（如：左侧留白 40%）。

STYLE ENCODER

Image 1.5

角色：风格投影 (Style Projection)
它不生成图片。它负责将用户上传的任何参考图转化为 Style Embedding (风格张量)，注入给下游模型。

PIXEL ENGINE

NanoBanana Pro

角色：掩码生成 (Masked Gen)
基于 GPT 指定的掩码和 Image 1.5 的风格，生成一张“完美避让文字区域”的背景图 (Clean Plate)。

COMPOSITOR

Claude Opus 4.5

角色：视觉编码 (Vision-to-CSS)
“看”着生成的背景图，编写像素级对齐的 CSS 代码。它负责解决对比度问题（如：自动变色、加阴影）。

02. 数据流拓扑 (The Pipeline)

sequenceDiagram participant User participant Brain as 🧠 GPT-5.2 (Thinking) participant Style as 🧬 Image 1.5 participant Nano as 🎨 NanoBanana Pro participant Opus as ⚡ Claude Opus 4.5 participant QA as 👁️ Gemini 3 Pro User->>Brain: 输入文档 + 风格参考图 rect rgb(20, 25, 40) note right of Brain: Phase 1: 布局演算 (Logic) Brain->>Brain: 思考链: "内容多 -> 需要大面积留白" Brain->>Nano: 输出 Layout Mask (JSON) Brain->>Opus: 输出文本内容 (Text Payload) end rect rgb(30, 40, 30) note right of Brain: Phase 2: 潜空间渲染 (Visual) User->>Style: 提取特征 Style->>Nano: 注入 Style Embedding (向量) Nano->>Nano: 生成背景图 (In-painting Mode) Nano-->>Opus: 返回 Background URL + 显著性图 end rect rgb(40, 30, 30) note right of Brain: Phase 3: 矢量合成 (Code) Opus->>Opus: 视觉分析 (读取显著性图) Opus->>Opus: 编写 HTML/Tailwind Opus->>QA: 提交渲染截图 end rect rgb(20, 20, 20) note right of Brain: Phase 4: 闭环质检 (Audit) QA->>QA: 检查对比度 & 遮挡 alt 检查通过 QA-->>User: 最终 Slide else 检查失败 QA->>Opus: 反馈: "文字在深色区看不清" Opus->>Opus: 修正 CSS (添加 Backdrop Blur) end end

LAYER 1: 布局意图协议 (The Protocol)

MODEL: GPT-5.2

layout_intent.json

{
  "slide_id": "seq_04",
  "narrative_logic": "conflict_reveal",
  
  // 核心：指挥 NanoBanana 的留白策略
  // 这是一个"反向掩码"，告诉模型哪里不能画东西
  "composition_mask": {
    "safe_zone_bbox": [0.0, 0.0, 0.4, 1.0], // 左侧 40% 必须干净
    "visual_weight": "heavy_right",         // 视觉重心在右
    "complexity_cap": 0.3                   // 纹理复杂度限制
  },

  "content_payload": {
    "headline": "Market Fragmentation",
    "body": "Users are overwhelmed by choices."
  }
}

GPT-5.2 不直接生成 Prompt，而是生成 **Layout Constraints (布局约束)**。这是保证文字永远有地方放的关键。

LAYER 3: 视觉代码合成 (The Synthesis)

MODEL: CLAUDE OPUS 4.5

compositor.tsx

// Claude Opus 接收背景图，进行"视觉编程"
// 它会根据背景图的亮度和色相，动态调整文字样式

async function synthesize(bgImage, content) {
  // 1. 视觉感知: 采样安全区的平均颜色
  const safeZoneColor = await vision.sampleColor(bgImage, 'left_40%');
  
  // 2. 决策: 是否需要蒙层?
  // 如果背景太花，文字下面加磨砂玻璃效果
  const needsScrim = safeZoneColor.variance > 0.5; 

  return (
    <div className="relative w-full h-full">
      <img src={bgImage} className="absolute inset-0 z-0" />
      
      {/* 3. 动态 CSS 生成 (Vector Layer) */}
      <div className={`absolute left-0 w-[40%] h-full flex flex-col justify-center px-12 z-10 
        ${needsScrim ? 'bg-black/40 backdrop-blur-md' : ''}`}
      >
        <h1 className="text-white font-bold text-5xl drop-shadow-lg">
          {content.headline}
        </h1>
      </div>
    </div>
  );
}

Claude Opus 4.5 实际上充当了 **Design System Engineer** 的角色，它保证了即使 NanoBanana 生成的背景有瑕疵，文字依然可读。

03. 闭环质检 (The Feedback Loop)

GEMINI 3 PRO 视觉审计

Gemini 3 Pro 在此流程中不作为生成器，而是作为Audit Agent (审计智能体)。它会模拟色盲用户、投影仪低对比度环境，对生成的 Slide 进行评分。
如果评分低于 0.85，它会自动将错误日志发回给 Claude Opus 要求重写 CSS。

Check 1

Contrast Ratio > 4.5:1

Check 2

Text Overlap IoU < 5%

🛡️