ISP(Image Signal Processor)关键技术指标
什么是ISP
一句话定义ISP:ISP就是把传感器吐出来的RAW电信号处理成可用于人眼、算法的图像数据的一整套“信号处理流水线”。
上面这张图是传统ISP流水线到AI ISP的演变。
(1)传统的ISP
传统的ISP,把传感器的RAW变成“人眼看起来好看”的sRGB图像,设计目标是给显示、编码、存储。核心指标是好看、稳定、符合显示标准。
| 名字 | 是什么(一句话) | 在干嘛(直观理解) | 不做会怎样 | 背后的直观原理 |
|---|---|---|---|---|
| RAW | 相机刚拍出来的“底片” | 又暗又花,还是马赛克 | 人和算法几乎都用不了 | 传感器每个像素只看到一种颜色 |
| Pre-Processing | 修相机自己的毛病 | 修坏点、去黑边、补暗角 | 图像天生就歪、不均匀 | 把硬件缺陷在最早阶段修掉 |
| Noise Reduction | 去“雪花噪点” | 把随机的脏点抹掉 | 图像像下雪,细节被噪声淹没 | 噪声是乱的,真实图像是连续的 |
| Demosaicing | 把马赛克变成彩色图 | 给每个像素补齐 RGB | 画面全是格子,看不清 | 用邻居像素“猜”缺失颜色 |
| White Balance | 修正灯光颜色 | 让白的东西真的是白的 | 一会儿偏黄一会儿偏蓝 | 给 R/G/B 不同放大倍数 |
| Color Space Transform | 换颜色表达方式 | 从“相机语言”换成“通用语言” | 不同设备颜色对不上 | 颜色坐标系的数学转换 |
| Color Mapping | 调色 / 美颜 | 让颜色更鲜艳、舒服 | 颜色发灰、发闷 | 用查表/曲线改颜色分布 |
| Tone Mapping | 调明暗 | 亮的压暗,暗的提亮 | 不是过曝就是全黑 | 用非线性曲线压亮度范围 |
| Color Space Transform | 输出前再转一次格式 | 变成显示/编码能用的格式 | 没法显示、没法存 | 适配显示/视频标准 |
| sRGB | 最终给人看的照片 | 手机上/屏幕看到的图 | —— | 人眼友好的标准颜色空间 |
3A是什么?
| 名字 | 全称 | 一句话白话 |
|---|---|---|
| AE | Auto Exposure | 自动调亮度 |
| AWB | Auto White Balance | 自动调颜色 |
| AF | Auto Focus | 自动对焦 |
(2)Separate ISP & High-Level Vision
工业界的常见做法,特点仍然是为“人民服务”,被迫适应ISP输出。
RAW → ISP → RGB → Downstream Network
- step 1:摄像头通过ISP把RAW变成漂亮的sRGB图片,让人看起来舒服。
- step 2:Down-Stream Network(下游网络,即 AI) 接收这张 sRGB 图片,进行 Detection(检测)或 Segmentation(分割)。
问题就是,ISP 为了让人眼舒服,可能会做“有损处理”。例如,为了降噪,把远处的纹理抹平了;或者为了 HDR,把原本线性的光照关系破坏了;AI 实际上是在“吃”人眼剩下的残羹冷炙。这就是为什么很多时候,人眼看着清楚,但 AI 识别率却上不去的原因。
(3)AI驱动的ISP
这是高端 AI 芯片(如自动驾驶芯片)正在探索的方向。原理: 不再使用固定的 ISP 参数。而是把 ISP 看作是一个可学习的网络 (ISP Network) 或者 可调参数的模块 (Tunable ISP)。
- Backpropagation(反向传播): 注意那条虚线箭头。这意味着,如果 AI 识别错了,误差会反向传导回 ISP,告诉 ISP:“你刚才处理得不对,下次参数改一下。”
- 结果: ISP 不再为了“好看”而工作,而是专门为了“AI 识别率高”而工作。输出的图像可能人眼看着很怪(比如颜色发紫、对比度极高),但 AI 能够看清每一个细节。
(4)真正的端到端训练ISP
保留传统的ISP框架,在关键点引入可学习模块,输入/模型级的适配。旨在解决 (c) 方案太复杂、太难训练的问题。原理: 不完全抛弃传统 ISP,也不完全重写 ISP。而是在 RAW 数据和下游 AI 网络之间,插入一个轻量级的 Adapter(适配器)。
- Learnable ISP stages: 让一小部分 ISP 功能变得“可学习”,专门把 RAW 数据转换成 AI 最喜欢的格式。
- 优势: 既利用了 RAW 数据的丰富信息,又不需要重新设计整个复杂的 ISP 硬件。
ISP的关键指标
图像质量(Image Quality, IQ)
这部分是最传统、也是厂商最爱卷的部分,关键的子指标如下:
| 指标 | 它解决什么问题 | 原理直觉 |
|---|---|---|
| 去噪 NR | 低照、夜景噪声 | 空域/时域滤波 |
| HDR / WDR | 逆光、强对比 | 多曝光合成 / 曲线压缩 |
| 去马赛克 Demosaic | RAW → RGB | 插值 + 边缘保护 |
| 色彩还原 | 偏色、发灰 | CCM / 3D LUT |
| 锐化 | 发虚 | 高频增强 |
| 去雾 | 雾霾 | 对比度恢复模型 |
对于机器人来说,不是“越强越好”,主要关心的是能不能关掉、能不能锁参数、会不会引入时间的不稳定。
动态范围(Dynamic Range)
指标怎么看?把“亮的别爆,暗的别死”
- dB:60dB / 90dB / 120dB
- HDR:多帧 HDR(Multi-exposure),数字 WDR(Tone mapping)
对于机器人来说重要,尤其是户外、逆光、进出隧道,必须要。
时延(Latency)与确定性(Determinism)
这是机器人 vs消费电子的分水岭。
| 指标 | 含义 |
|---|---|
| Line-based latency | 不等一整帧 |
| Frame-based latency | 缓存整帧 |
| Pipeline 深度 | 模块越多延迟越大 |
| 抖动(jitter) | 帧到帧延迟是否稳定 |
延迟 ≠ 可怕,延迟不稳定 ≫ 可怕
同步与时间戳(Sync & Timestamp)
这是几乎所有 ISP 宣传页都会回避,但机器人最关键的点。关键问题。
- 多相机是否支持 硬同步
- 是否有 硬件时间戳
- 时间戳在哪一层打?曝光开始?帧结束?DMA 完成?
原理一句话,视觉 + IMU + 轮速 ≠ 同一个时间轴,SLAM就会崩。没有时间戳体系 = 再强 ISP 也不适合机器人。
几何一致性
| 项 | 用途 |
|---|---|
| LDC 畸变校正 | 广角 / 鱼眼 |
| 标定模型 | 相机内参 |
| 双目 rectification | 深度/SLAM |
| 深度-RGB 对齐 | 传感器融合 |
ISP 不只是“修图”,它在 改变像素在空间中的几何含义。
可控性
- AE/AWB/AF:是否可锁定、半自动、外部算法接管。
- 每个模块是否:可旁路、可独立配置、有确定顺序。







