ISP(Image Signal Processor)关键技术指标

什么是ISP

一句话定义ISP:ISP就是把传感器吐出来的RAW电信号处理成可用于人眼、算法的图像数据的一整套“信号处理流水线”。

上面这张图是传统ISP流水线到AI ISP的演变。 (1)传统的ISP 传统的ISP,把传感器的RAW变成“人眼看起来好看”的sRGB图像,设计目标是给显示、编码、存储。核心指标是好看、稳定、符合显示标准。

名字是什么(一句话)在干嘛(直观理解)不做会怎样背后的直观原理
RAW相机刚拍出来的“底片”又暗又花,还是马赛克人和算法几乎都用不了传感器每个像素只看到一种颜色
Pre-Processing修相机自己的毛病修坏点、去黑边、补暗角图像天生就歪、不均匀把硬件缺陷在最早阶段修掉
Noise Reduction去“雪花噪点”把随机的脏点抹掉图像像下雪,细节被噪声淹没噪声是乱的,真实图像是连续的
Demosaicing把马赛克变成彩色图给每个像素补齐 RGB画面全是格子,看不清用邻居像素“猜”缺失颜色
White Balance修正灯光颜色让白的东西真的是白的一会儿偏黄一会儿偏蓝给 R/G/B 不同放大倍数
Color Space Transform换颜色表达方式从“相机语言”换成“通用语言”不同设备颜色对不上颜色坐标系的数学转换
Color Mapping调色 / 美颜让颜色更鲜艳、舒服颜色发灰、发闷用查表/曲线改颜色分布
Tone Mapping调明暗亮的压暗,暗的提亮不是过曝就是全黑用非线性曲线压亮度范围
Color Space Transform输出前再转一次格式变成显示/编码能用的格式没法显示、没法存适配显示/视频标准
sRGB最终给人看的照片手机上/屏幕看到的图——人眼友好的标准颜色空间

3A是什么?

名字全称一句话白话
AEAuto Exposure自动调亮度
AWBAuto White Balance自动调颜色
AFAuto Focus自动对焦

(2)Separate ISP & High-Level Vision 工业界的常见做法,特点仍然是为“人民服务”,被迫适应ISP输出。

RAW → ISP → RGB → Downstream Network
  • step 1:摄像头通过ISP把RAW变成漂亮的sRGB图片,让人看起来舒服。
  • step 2:Down-Stream Network(下游网络,即 AI) 接收这张 sRGB 图片,进行 Detection(检测)或 Segmentation(分割)。

问题就是,ISP 为了让人眼舒服,可能会做“有损处理”。例如,为了降噪,把远处的纹理抹平了;或者为了 HDR,把原本线性的光照关系破坏了;AI 实际上是在“吃”人眼剩下的残羹冷炙。这就是为什么很多时候,人眼看着清楚,但 AI 识别率却上不去的原因。 (3)AI驱动的ISP 这是高端 AI 芯片(如自动驾驶芯片)正在探索的方向。原理: 不再使用固定的 ISP 参数。而是把 ISP 看作是一个可学习的网络 (ISP Network) 或者 可调参数的模块 (Tunable ISP)。

  • Backpropagation(反向传播): 注意那条虚线箭头。这意味着,如果 AI 识别错了,误差会反向传导回 ISP,告诉 ISP:“你刚才处理得不对,下次参数改一下。”
  • 结果: ISP 不再为了“好看”而工作,而是专门为了“AI 识别率高”而工作。输出的图像可能人眼看着很怪(比如颜色发紫、对比度极高),但 AI 能够看清每一个细节。

(4)真正的端到端训练ISP 保留传统的ISP框架,在关键点引入可学习模块,输入/模型级的适配。旨在解决 (c) 方案太复杂、太难训练的问题。原理: 不完全抛弃传统 ISP,也不完全重写 ISP。而是在 RAW 数据和下游 AI 网络之间,插入一个轻量级的 Adapter(适配器)。

  • Learnable ISP stages: 让一小部分 ISP 功能变得“可学习”,专门把 RAW 数据转换成 AI 最喜欢的格式。
  • 优势: 既利用了 RAW 数据的丰富信息,又不需要重新设计整个复杂的 ISP 硬件。

ISP的关键指标

图像质量(Image Quality, IQ)

这部分是最传统、也是厂商最爱卷的部分,关键的子指标如下:

指标它解决什么问题原理直觉
去噪 NR低照、夜景噪声空域/时域滤波
HDR / WDR逆光、强对比多曝光合成 / 曲线压缩
去马赛克 DemosaicRAW → RGB插值 + 边缘保护
色彩还原偏色、发灰CCM / 3D LUT
锐化发虚高频增强
去雾雾霾对比度恢复模型

对于机器人来说,不是“越强越好”,主要关心的是能不能关掉、能不能锁参数、会不会引入时间的不稳定。

动态范围(Dynamic Range)

指标怎么看?把“亮的别爆,暗的别死”

  • dB:60dB / 90dB / 120dB
  • HDR:多帧 HDR(Multi-exposure),数字 WDR(Tone mapping)

对于机器人来说重要,尤其是户外、逆光、进出隧道,必须要。

时延(Latency)与确定性(Determinism)

这是机器人 vs消费电子的分水岭。

指标含义
Line-based latency不等一整帧
Frame-based latency缓存整帧
Pipeline 深度模块越多延迟越大
抖动(jitter)帧到帧延迟是否稳定

延迟 ≠ 可怕,延迟不稳定 ≫ 可怕

同步与时间戳(Sync & Timestamp)

这是几乎所有 ISP 宣传页都会回避,但机器人最关键的点。关键问题。

  • 多相机是否支持 硬同步
  • 是否有 硬件时间戳
  • 时间戳在哪一层打?曝光开始?帧结束?DMA 完成?

原理一句话,视觉 + IMU + 轮速 ≠ 同一个时间轴,SLAM就会崩。没有时间戳体系 = 再强 ISP 也不适合机器人。

几何一致性

用途
LDC 畸变校正广角 / 鱼眼
标定模型相机内参
双目 rectification深度/SLAM
深度-RGB 对齐传感器融合

ISP 不只是“修图”,它在 改变像素在空间中的几何含义。

可控性

  • AE/AWB/AF:是否可锁定、半自动、外部算法接管。
  • 每个模块是否:可旁路、可独立配置、有确定顺序。

评论