ISP(Image Signal Processor)关键技术指标

🕒 2025-12-16 📁 外设 👤 laumy 🔥 3 热度

什么是ISP

一句话定义ISP:ISP就是把传感器吐出来的RAW电信号处理成可用于人眼、算法的图像数据的一整套“信号处理流水线”。

上面这张图是传统ISP流水线到AI ISP的演变。

(1)传统的ISP

传统的ISP,把传感器的RAW变成“人眼看起来好看”的sRGB图像,设计目标是给显示、编码、存储。核心指标是好看、稳定、符合显示标准。

名字 是什么(一句话) 在干嘛(直观理解) 不做会怎样 背后的直观原理
RAW 相机刚拍出来的“底片” 又暗又花,还是马赛克 人和算法几乎都用不了 传感器每个像素只看到一种颜色
Pre-Processing 修相机自己的毛病 修坏点、去黑边、补暗角 图像天生就歪、不均匀 把硬件缺陷在最早阶段修掉
Noise Reduction 去“雪花噪点” 把随机的脏点抹掉 图像像下雪,细节被噪声淹没 噪声是乱的,真实图像是连续的
Demosaicing 把马赛克变成彩色图 给每个像素补齐 RGB 画面全是格子,看不清 用邻居像素“猜”缺失颜色
White Balance 修正灯光颜色 让白的东西真的是白的 一会儿偏黄一会儿偏蓝 给 R/G/B 不同放大倍数
Color Space Transform 换颜色表达方式 从“相机语言”换成“通用语言” 不同设备颜色对不上 颜色坐标系的数学转换
Color Mapping 调色 / 美颜 让颜色更鲜艳、舒服 颜色发灰、发闷 用查表/曲线改颜色分布
Tone Mapping 调明暗 亮的压暗,暗的提亮 不是过曝就是全黑 用非线性曲线压亮度范围
Color Space Transform 输出前再转一次格式 变成显示/编码能用的格式 没法显示、没法存 适配显示/视频标准
sRGB 最终给人看的照片 手机上/屏幕看到的图 —— 人眼友好的标准颜色空间

3A是什么?

名字 全称 一句话白话
AE Auto Exposure 自动调亮度
AWB Auto White Balance 自动调颜色
AF Auto Focus 自动对焦

(2)Separate ISP & High-Level Vision

工业界的常见做法,特点仍然是为“人民服务”,被迫适应ISP输出。

RAW → ISP → RGB → Downstream Network
  • step 1:摄像头通过ISP把RAW变成漂亮的sRGB图片,让人看起来舒服。
  • step 2:Down-Stream Network(下游网络,即 AI) 接收这张 sRGB 图片,进行 Detection(检测)或 Segmentation(分割)。

问题就是,ISP 为了让人眼舒服,可能会做“有损处理”。例如,为了降噪,把远处的纹理抹平了;或者为了 HDR,把原本线性的光照关系破坏了;AI 实际上是在“吃”人眼剩下的残羹冷炙。这就是为什么很多时候,人眼看着清楚,但 AI 识别率却上不去的原因。

(3)AI驱动的ISP

这是高端 AI 芯片(如自动驾驶芯片)正在探索的方向。原理: 不再使用固定的 ISP 参数。而是把 ISP 看作是一个可学习的网络 (ISP Network) 或者 可调参数的模块 (Tunable ISP)。

  • Backpropagation(反向传播): 注意那条虚线箭头。这意味着,如果 AI 识别错了,误差会反向传导回 ISP,告诉 ISP:“你刚才处理得不对,下次参数改一下。”
  • 结果: ISP 不再为了“好看”而工作,而是专门为了“AI 识别率高”而工作。输出的图像可能人眼看着很怪(比如颜色发紫、对比度极高),但 AI 能够看清每一个细节。

(4)真正的端到端训练ISP

保留传统的ISP框架,在关键点引入可学习模块,输入/模型级的适配。旨在解决 (c) 方案太复杂、太难训练的问题。原理: 不完全抛弃传统 ISP,也不完全重写 ISP。而是在 RAW 数据和下游 AI 网络之间,插入一个轻量级的 Adapter(适配器)。

  • Learnable ISP stages: 让一小部分 ISP 功能变得“可学习”,专门把 RAW 数据转换成 AI 最喜欢的格式。
  • 优势: 既利用了 RAW 数据的丰富信息,又不需要重新设计整个复杂的 ISP 硬件。

ISP的关键指标

图像质量(Image Quality, IQ)

这部分是最传统、也是厂商最爱卷的部分,关键的子指标如下:

指标 它解决什么问题 原理直觉
去噪 NR 低照、夜景噪声 空域/时域滤波
HDR / WDR 逆光、强对比 多曝光合成 / 曲线压缩
去马赛克 Demosaic RAW → RGB 插值 + 边缘保护
色彩还原 偏色、发灰 CCM / 3D LUT
锐化 发虚 高频增强
去雾 雾霾 对比度恢复模型

对于机器人来说,不是“越强越好”,主要关心的是能不能关掉、能不能锁参数、会不会引入时间的不稳定。

动态范围(Dynamic Range)

指标怎么看?把“亮的别爆,暗的别死”

  • dB:60dB / 90dB / 120dB
  • HDR:多帧 HDR(Multi-exposure),数字 WDR(Tone mapping)

对于机器人来说重要,尤其是户外、逆光、进出隧道,必须要。

时延(Latency)与确定性(Determinism)

这是机器人 vs消费电子的分水岭。

指标 含义
Line-based latency 不等一整帧
Frame-based latency 缓存整帧
Pipeline 深度 模块越多延迟越大
抖动(jitter) 帧到帧延迟是否稳定

延迟 ≠ 可怕,延迟不稳定 ≫ 可怕

同步与时间戳(Sync & Timestamp)

这是几乎所有 ISP 宣传页都会回避,但机器人最关键的点。关键问题。

  • 多相机是否支持 硬同步
  • 是否有 硬件时间戳
  • 时间戳在哪一层打?曝光开始?帧结束?DMA 完成?

原理一句话,视觉 + IMU + 轮速 ≠ 同一个时间轴,SLAM就会崩。没有时间戳体系 = 再强 ISP 也不适合机器人。

几何一致性

用途
LDC 畸变校正 广角 / 鱼眼
标定模型 相机内参
双目 rectification 深度/SLAM
深度-RGB 对齐 传感器融合

ISP 不只是“修图”,它在 改变像素在空间中的几何含义。

可控性

  • AE/AWB/AF:是否可锁定、半自动、外部算法接管。
  • 每个模块是否:可旁路、可独立配置、有确定顺序。

发表你的看法

\t