ENGINEERING SPEC V2.1 LOGIC_CORRECTED

Project AETHER

基于 NanoBanana ProGPT-5.2 Thinking 的混合渲染架构。
摒弃 OCR-Free 纯图生成路线,确立“像素造景,代码写字”的工业级标准。

⚠️

架构修正说明 (Architectural Correction)

V1 版本的错误: 试图让生图模型直接生成包含文字的图片。这在工程上是死路(Text-in-Image 导致不可编辑、多语言适配困难)。
V2 版本的修正: 采用 Hybrid Rendering (混合渲染)

  • Raster Layer (光栅层): NanoBanana Pro 仅负责生成“带留白的背景图”。
  • Vector Layer (矢量层): Claude Opus 4.5 生成 HTML/CSS 代码,将文字精准覆盖在留白区。

01. 算力矩阵分工 (The Stack)

1
BRAIN / LOGIC

GPT-5.2 Thinking

角色:排版演算 (Layout Solver)
利用 CoT 思维链,不只提取内容,而是计算“信息密度”。它决定每一页的布局掩码(如:左侧留白 40%)。

2
STYLE ENCODER

Image 1.5

角色:风格投影 (Style Projection)
它不生成图片。它负责将用户上传的任何参考图转化为 Style Embedding (风格张量),注入给下游模型。

3
PIXEL ENGINE

NanoBanana Pro

角色:掩码生成 (Masked Gen)
基于 GPT 指定的掩码和 Image 1.5 的风格,生成一张“完美避让文字区域”的背景图 (Clean Plate)。

4
COMPOSITOR

Claude Opus 4.5

角色:视觉编码 (Vision-to-CSS)
“看”着生成的背景图,编写像素级对齐的 CSS 代码。它负责解决对比度问题(如:自动变色、加阴影)。

02. 数据流拓扑 (The Pipeline)

sequenceDiagram participant User participant Brain as 🧠 GPT-5.2 (Thinking) participant Style as 🧬 Image 1.5 participant Nano as 🎨 NanoBanana Pro participant Opus as ⚡ Claude Opus 4.5 participant QA as 👁️ Gemini 3 Pro User->>Brain: 输入文档 + 风格参考图 rect rgb(20, 25, 40) note right of Brain: Phase 1: 布局演算 (Logic) Brain->>Brain: 思考链: "内容多 -> 需要大面积留白" Brain->>Nano: 输出 Layout Mask (JSON) Brain->>Opus: 输出 文本内容 (Text Payload) end rect rgb(30, 40, 30) note right of Brain: Phase 2: 潜空间渲染 (Visual) User->>Style: 提取特征 Style->>Nano: 注入 Style Embedding (向量) Nano->>Nano: 生成背景图 (In-painting Mode) Nano-->>Opus: 返回 Background URL + 显著性图 end rect rgb(40, 30, 30) note right of Brain: Phase 3: 矢量合成 (Code) Opus->>Opus: 视觉分析 (读取显著性图) Opus->>Opus: 编写 HTML/Tailwind Opus->>QA: 提交渲染截图 end rect rgb(20, 20, 20) note right of Brain: Phase 4: 闭环质检 (Audit) QA->>QA: 检查对比度 & 遮挡 alt 检查通过 QA-->>User: 最终 Slide else 检查失败 QA->>Opus: 反馈: "文字在深色区看不清" Opus->>Opus: 修正 CSS (添加 Backdrop Blur) end end

LAYER 1: 布局意图协议 (The Protocol)

MODEL: GPT-5.2
layout_intent.json
{
  "slide_id": "seq_04",
  "narrative_logic": "conflict_reveal",
  
  // 核心:指挥 NanoBanana 的留白策略
  // 这是一个"反向掩码",告诉模型哪里不能画东西
  "composition_mask": {
    "safe_zone_bbox": [0.0, 0.0, 0.4, 1.0], // 左侧 40% 必须干净
    "visual_weight": "heavy_right",         // 视觉重心在右
    "complexity_cap": 0.3                   // 纹理复杂度限制
  },

  "content_payload": {
    "headline": "Market Fragmentation",
    "body": "Users are overwhelmed by choices."
  }
}

GPT-5.2 不直接生成 Prompt,而是生成 **Layout Constraints (布局约束)**。这是保证文字永远有地方放的关键。

LAYER 3: 视觉代码合成 (The Synthesis)

MODEL: CLAUDE OPUS 4.5
compositor.tsx
// Claude Opus 接收背景图,进行"视觉编程"
// 它会根据背景图的亮度和色相,动态调整文字样式

async function synthesize(bgImage, content) {
  // 1. 视觉感知: 采样安全区的平均颜色
  const safeZoneColor = await vision.sampleColor(bgImage, 'left_40%');
  
  // 2. 决策: 是否需要蒙层?
  // 如果背景太花,文字下面加磨砂玻璃效果
  const needsScrim = safeZoneColor.variance > 0.5; 

  return (
    <div className="relative w-full h-full">
      <img src={bgImage} className="absolute inset-0 z-0" />
      
      {/* 3. 动态 CSS 生成 (Vector Layer) */}
      <div className={`absolute left-0 w-[40%] h-full flex flex-col justify-center px-12 z-10 
        ${needsScrim ? 'bg-black/40 backdrop-blur-md' : ''}`}
      >
        <h1 className="text-white font-bold text-5xl drop-shadow-lg">
          {content.headline}
        </h1>
      </div>
    </div>
  );
}

Claude Opus 4.5 实际上充当了 **Design System Engineer** 的角色,它保证了即使 NanoBanana 生成的背景有瑕疵,文字依然可读。

03. 闭环质检 (The Feedback Loop)

GEMINI 3 PRO 视觉审计

Gemini 3 Pro 在此流程中不作为生成器,而是作为Audit Agent (审计智能体)。它会模拟色盲用户、投影仪低对比度环境,对生成的 Slide 进行评分。
如果评分低于 0.85,它会自动将错误日志发回给 Claude Opus 要求重写 CSS。

Check 1
Contrast Ratio > 4.5:1
Check 2
Text Overlap IoU < 5%

PROJECT AETHER ARCHITECTURE SPEC | GENERATED FOR ENGINEERING REVIEW