ISP（Image Signal Processor）关键技术指标

🕒 2025-12-16 📁 外设 👤 laumy 🔥 310 热度

什么是ISP

一句话定义ISP：ISP就是把传感器吐出来的RAW电信号处理成可用于人眼、算法的图像数据的一整套“信号处理流水线”。

上面这张图是传统ISP流水线到AI ISP的演变。

（1）传统的ISP

传统的ISP，把传感器的RAW变成“人眼看起来好看”的sRGB图像，设计目标是给显示、编码、存储。核心指标是好看、稳定、符合显示标准。

名字	是什么（一句话）	在干嘛（直观理解）	不做会怎样	背后的直观原理
RAW	相机刚拍出来的“底片”	又暗又花，还是马赛克	人和算法几乎都用不了	传感器每个像素只看到一种颜色
Pre-Processing	修相机自己的毛病	修坏点、去黑边、补暗角	图像天生就歪、不均匀	把硬件缺陷在最早阶段修掉
Noise Reduction	去“雪花噪点”	把随机的脏点抹掉	图像像下雪，细节被噪声淹没	噪声是乱的，真实图像是连续的
Demosaicing	把马赛克变成彩色图	给每个像素补齐 RGB	画面全是格子，看不清	用邻居像素“猜”缺失颜色
White Balance	修正灯光颜色	让白的东西真的是白的	一会儿偏黄一会儿偏蓝	给 R/G/B 不同放大倍数
Color Space Transform	换颜色表达方式	从“相机语言”换成“通用语言”	不同设备颜色对不上	颜色坐标系的数学转换
Color Mapping	调色 / 美颜	让颜色更鲜艳、舒服	颜色发灰、发闷	用查表/曲线改颜色分布
Tone Mapping	调明暗	亮的压暗，暗的提亮	不是过曝就是全黑	用非线性曲线压亮度范围
Color Space Transform	输出前再转一次格式	变成显示/编码能用的格式	没法显示、没法存	适配显示/视频标准
sRGB	最终给人看的照片	手机上/屏幕看到的图	——	人眼友好的标准颜色空间

3A是什么？

名字	全称	一句话白话
AE	Auto Exposure	自动调亮度
AWB	Auto White Balance	自动调颜色
AF	Auto Focus	自动对焦

（2）Separate ISP & High-Level Vision

工业界的常见做法，特点仍然是为“人民服务”，被迫适应ISP输出。

RAW → ISP → RGB → Downstream Network

step 1：摄像头通过ISP把RAW变成漂亮的sRGB图片，让人看起来舒服。
step 2：Down-Stream Network（下游网络，即 AI）接收这张 sRGB 图片，进行 Detection（检测）或 Segmentation（分割）。

问题就是，ISP 为了让人眼舒服，可能会做“有损处理”。例如，为了降噪，把远处的纹理抹平了；或者为了 HDR，把原本线性的光照关系破坏了；AI 实际上是在“吃”人眼剩下的残羹冷炙。这就是为什么很多时候，人眼看着清楚，但 AI 识别率却上不去的原因。

（3）AI驱动的ISP

这是高端 AI 芯片（如自动驾驶芯片）正在探索的方向。原理：不再使用固定的 ISP 参数。而是把 ISP 看作是一个可学习的网络 (ISP Network) 或者可调参数的模块 (Tunable ISP)。

Backpropagation（反向传播）：注意那条虚线箭头。这意味着，如果 AI 识别错了，误差会反向传导回 ISP，告诉 ISP：“你刚才处理得不对，下次参数改一下。”
结果： ISP 不再为了“好看”而工作，而是专门为了“AI 识别率高”而工作。输出的图像可能人眼看着很怪（比如颜色发紫、对比度极高），但 AI 能够看清每一个细节。

（4）真正的端到端训练ISP

保留传统的ISP框架，在关键点引入可学习模块，输入/模型级的适配。旨在解决 (c) 方案太复杂、太难训练的问题。原理：不完全抛弃传统 ISP，也不完全重写 ISP。而是在 RAW 数据和下游 AI 网络之间，插入一个轻量级的 Adapter（适配器）。

Learnable ISP stages：让一小部分 ISP 功能变得“可学习”，专门把 RAW 数据转换成 AI 最喜欢的格式。
优势：既利用了 RAW 数据的丰富信息，又不需要重新设计整个复杂的 ISP 硬件。

ISP的关键指标

图像质量（Image Quality, IQ）

这部分是最传统、也是厂商最爱卷的部分，关键的子指标如下：

指标	它解决什么问题	原理直觉
去噪 NR	低照、夜景噪声	空域/时域滤波
HDR / WDR	逆光、强对比	多曝光合成 / 曲线压缩
去马赛克 Demosaic	RAW → RGB	插值 + 边缘保护
色彩还原	偏色、发灰	CCM / 3D LUT
锐化	发虚	高频增强
去雾	雾霾	对比度恢复模型

对于机器人来说，不是“越强越好”，主要关心的是能不能关掉、能不能锁参数、会不会引入时间的不稳定。

动态范围（Dynamic Range）

指标怎么看？把“亮的别爆，暗的别死”

dB：60dB / 90dB / 120dB
HDR:多帧 HDR（Multi-exposure）,数字 WDR（Tone mapping）

对于机器人来说重要，尤其是户外、逆光、进出隧道，必须要。

时延（Latency）与确定性（Determinism）

这是机器人 vs消费电子的分水岭。

指标	含义
Line-based latency	不等一整帧
Frame-based latency	缓存整帧
Pipeline 深度	模块越多延迟越大
抖动（jitter）	帧到帧延迟是否稳定

延迟 ≠ 可怕，延迟不稳定 ≫ 可怕

同步与时间戳（Sync & Timestamp）

这是几乎所有 ISP 宣传页都会回避，但机器人最关键的点。关键问题。

多相机是否支持硬同步
是否有硬件时间戳
时间戳在哪一层打？曝光开始？帧结束？DMA 完成？

原理一句话，视觉 + IMU + 轮速 ≠ 同一个时间轴，SLAM就会崩。没有时间戳体系 = 再强 ISP 也不适合机器人。

几何一致性

项	用途
LDC 畸变校正	广角 / 鱼眼
标定模型	相机内参
双目 rectification	深度/SLAM
深度-RGB 对齐	传感器融合

ISP 不只是“修图”，它在改变像素在空间中的几何含义。

可控性

AE/AWB/AF：是否可锁定、半自动、外部算法接管。
每个模块是否：可旁路、可独立配置、有确定顺序。