看这两篇论文主要是是受nldf模型的影响,想在损失函数上下手,而这个函数融合了亮度,对比度,结构三个量,我觉得这个是很好的一个损失函数。目前实验还没做。
数字图像在采集、处理、压缩、存储、传输和复制等方面受到广泛的扭曲,任何一种都可能导致视觉质量的降低。对于最终被人类观看的图像应用程序,通过主观评价来衡量视觉图像质量的唯一“正确”方法是通过主观评价。然而,在实践中,主观评价通常是太不方便、耗时和昂贵的。客观图像质量评估研究的目标是制定量化措施,自动预测感知图像质量。客观图像质量度量可以在图像处理应用程序中发挥各种作用。首先,它可以用来动态监测和调整图像质量。例如,一个网络数字视频服务器可以检查传输视频的质量,以控制和分配流资源。第二,可用于图像处理系统的优化算法和参数设置。例如,在可视化通信系统中,一个质量度量可以帮助在编码器和最优重构、错误隐藏和解码器的后滤波算法的优化设计。第三,可以用于基准图像处理系统和算法。
客观图像质量指标可以根据原始(无失真)图像的可用性进行分类,图像扭曲图像将被比较。大多数现有的方法被称为完全参考,这意味着一个完整的参考图像被认为是已知的。然而,在许多实际应用中,参考图像是不可用的,而没有引用或“盲”的质量评估方法是可取的。在第三种类型的方法中,引用图像只是部分可用的,以一组提取的特性的形式,作为侧信息来帮助评估失真图像的质量。这被称为减少参考质量评估。本文重点介绍了全参考图像质量评价。
最简单、最广泛使用的全参考质量指标是均值平方误差(MSE),计算出畸变和参考图像像素的平方强度差异,以及峰值信噪比(PSNR)的相关数量。这些都很吸引人,因为它们很简单,有清晰的物理意义,在优化的背景下数学上很方便。但它们与感知的视觉质量不太吻合。在过去的30年里,大量的努力已经进入了质量评估方法的发展,这些方法利用了人类视觉系统(HVS)的已知特征。所提出的感知质量评估模型的大多数都遵循了一种修改数据的策略,这样就可以根据其可见性来惩罚错误。
一个图像信号,它的质量正在被评估,可以被认为是一个未扭曲的参考信号和一个错误信号的和。一种广泛采用的假设是,感知质量的丧失直接与错误信号的可见性有关。这个概念的最简单的实现是MSE,它客观地量化了错误信号的强度。但是两个扭曲的图像与相同的MSE可能有非常不同的错误,其中一些比其他的更明显。在文献中提出的大多数感知图像质量评估方法都是根据其可见性,根据人类或动物的生理测量来决定错误信号的不同方面。
错误共享:所有质量指标的最后阶段必须将标准化的错误信号与图像的空间范围和不同的通道之间结合起来,进入一个单一的值。对于大多数质量评估方法,池化以Minkowski的形式为如下:
是第个通道中第个系数的归一化误差,通常选择在1到4之间的常数指数。Minkowski池化可以在空间(index k)上进行,然后在频率(index l)上进行,反之亦然,它们之间有一些非线性,或者可能有不同的指数。一个空间映射,表明不同区域的相对重要性也可以用来提供空间变的加权
限制:
错误敏感性方法的基本原则是,通过量化错误的可见性来最好地估计知觉质量。这本质上是通过模拟HVS早期阶段的功能特性来实现的,它的特点是精神物理和生理实验。尽管这种自底向上的方法已经发现了几乎普遍的接受性,但认识到它的局限性是很重要的。特别是,HVS是一个复杂而高度非线性的系统,但大多数早期视觉的模型都是基于线性或准线性算子,它的特点是使用受限和简单的刺激。因此,错误敏感性的方法必须依赖于一些强有力的假设和概括。
自然图像信号是高度结构化的:它们的像素显示了强大的依赖项,特别是当它们是空间近似的时候,而这些依赖项携带重要的信息,即在视觉场景中物体的结构。
SSIM指数:
从图像形成的角度,构建了一种基于SSIM质量测度的具体例子。在[6]-[8]中进行了这一方法的实例化,并实现了简单测试的前景。在本文中,我们推广了该算法,并提供了一组更广泛的验证结果。
提出的质量评估系统的系统图如图3所示。假设是两个非负图像信号,它们已经相互对齐。,从每个图像中提取的空间斑块。如果我们考虑一个信号的完美质量,那么相似度可以作为第二个信号质量的定量测量。该系统将相似性测量的任务分为三种比较:亮度、对比度和结构。
首先,比较各信号的亮度。假设离散信号,估计为平均强度
亮度比较函数是和的函数。
其次,我们从信号中去除平均强度。在离散形式下,得到的信号对应于向量在超平面上的投影,定义为:
我们用标准差(方差的平方根)来估计信号的对比度。给出了一个离散形式的无偏估计
亮度比较函数是和的函数。
第三,将信号归一化(除以)自身的标准差,使被比较的两个信号具有单位标准差。用结构函数对这些归一化信号和进行了结构比较。
最后,将这三个组件组合起来,生成一个总体相似性度量
重要的一点是,这三个部分是相对独立的。例如,亮度或对比度的变化不会影响图像的结构。
为了完成式(5)中相似度测度的定义,我们需要定义三个函数,和以及组合函数 ,我们同样需要相似度测度满足以下条件:
1)对称:
2)有界性:
3)唯一极大值:当且仅当 (在离散表示中,为所有 )
对于亮度比较,我们定义:
其中包含常数 ,以避免在非常接近于零时的不稳定性。具体来说,我们选择
其中为像素值的动态范围(8位灰度图像255),为小常数。类似的考虑也适用于后面描述的对比比较和结构比较。式(6)很容易符合上面列出的三个性质。
式(6)在定性上也与韦伯定律一致,韦伯定律被广泛用于HVS中光适应模型(也称为亮度掩蔽)。根据韦伯定律,在大范围的亮度值下,刚刚可以注意到的亮度变化的大小与背景亮度近似成正比。换句话说,HVS对相对亮度变化敏感,而对绝对亮度变化不敏感。
让表示亮度变化相对于背景亮度的大小,我们将失真信号的亮度重写为。把这个代入(6)给出
如果我们假设足够小(相对于)可以忽略,那么只是的函数,定性上符合韦伯定律
对比比较函数采用类似的形式:
其中,。这个定义再次满足上面列出的三个属性。该函数的一个重要特征是,在对比度变化量 相同的情况下,该方法对高基色对比度的敏感度低于对低基色对比度的敏感度。这与HVS的对比度掩蔽特性是一致的。
在亮度相减和方差归一化后进行结构比较。具体地说,我们将这两个单位向量以及 (3)所定义的超平面中的每个单位向量与这两个图像的结构联系起来。它们之间的相关(内积)是量化结构相似性的一种简单而有效的方法。注意和之间的相关关系等价于和之间的相关系数。因此,我们将结构比较函数定义如下
和亮度和对比度测量一样,我们在分母和分子上都引入了一个小常数。在离散形式下, 可估计为
几何上,相关系数对应于向量与之间夹角的余弦值。注意它也可以取。
最后,我们将(6)、(9)和(10)的三种比较组合起来,并将得到的结果命名为信号和之间的相似性度量SSIM指数
式中,和为调整三个组件相对重要性的参数。很容易证明这个定义满足上面给出的三个条件。为了简化这个表达式,我们在本文中设置,。这导致了特定形式的SSIM指数
在[6]和[7]中定义的“普遍质量指数”(UQI)对应的特殊情况是 ,当两者之一非常接近于零时,会产生不稳定的结果。
在图像分量的矢量空间中,SSIM指数与传统质量指标之间的关系可以用几何方法来表示。这些图像组件可以是像素强度,也可以是其他提取的特征,如变换后的线性系数。图4是围绕三个不同的参考向量绘制的等失真等值线,每个参考向量表示一个参考图像的局部内容。为了便于说明,我们只显示一个二维空间,但一般来说,维数应该与被比较的图像组件的数量相匹配。每个轮廓表示一组相对于所包含的参考图像具有同等扭曲度的图像。图4(a)显示了一个简单Minkowski度量的结果。每个轮廓都有相同的大小和形状(这里是一个圆,我们假设指数为2),即感知距离对应于欧式距离。图4(b)为Minkowski度规,其中不同的图像分量权重不同。这可以是,例如,根据CSF加权,这在许多模型中很常见。这里的轮廓是椭圆,但仍然是相同的大小。这些显示与坐标轴对齐,但通常可以倾斜到任何固定的方向。
近年来的许多模型都加入了对比度掩蔽行为,其效果是根据信号大小对等失真轮廓进行重新标定,如图4(c)所示。这可以看作是一种自适应失真度量:它不仅取决于信号之间的差异,而且取决于信号本身。图4(d)显示了对比度掩蔽(幅度加权)和分量加权的组合。另一方面,我们提出的方法分别计算两个独立量的比较:向量长度和它们的角度。因此,等高线将与极坐标系的轴线对齐。图4(e)和图4(f)给出了用不同指数计算的两个例子。同样,这可以看作是一种自适应失真度度量,但与以前的模型不同,轮廓的大小和形状都与底层信号相适应。最近一些使用分裂归一化来描述掩蔽效应的模型也表现出与信号相关的轮廓方向(如[45]、[46]、[48]),尽管在这些方法中没有观察到与极坐标系统轴线的精确对齐,如图4(e)和(f)所示。
在图像质量评价中,局部应用SSIM指数比全局应用SSIM指数更为有效。首先,图像统计特征通常在空间上是非平稳的。第二,图像失真也可能是空变的,它可能依赖于局部图像统计,也可能不依赖于局部图像统计。第三,在典型的观测距离下,人类观察者在同一时刻只能以高分辨率感知到图像中的局部区域(由于HVS[49]、[50]的中心凹特性)。最后,局部质量测量可以提供一个空间变化的图像质量地图,提供更多关于图像质量退化的信息,在某些应用中可能是有用的。
在[6]和[7]中,局部统计信息在局部8*8正方形窗口内计算,该窗口在整个图像上逐像素移动。在每个步骤中,在本地窗口中计算本地统计信息和SSIM索引。这种方法的一个问题是,生成的SSIM索引映射经常显示不需要的“阻塞”构件。本文采用11*11循环对称高斯加权函数,将样本标准差为1.5,归一化为单位和 。估计的局部统计信息,然后相应地修改为
使用这种窗口方法,质量映射显示出局部各向同性。在本文中,SSIM测量使用了以下参数设置。这些值是任意的,但是我们发现在我们目前的实验中,SSIM索引算法的性能对这些值的变化相当不敏感。
在实践中,通常需要对整个图像进行单一的整体质量度量。我们使用平均SSIM (MSSIM)指数来评估整体图像质量
其中,为参考图像,为畸变图像;和为第局部窗口的图像内容;是图像的本地窗口的数量。根据应用程序的不同,还可以计算SSIM索引图中不同样本的加权平均值。例如,兴趣区域图像处理系统可能会给图像中不同的分割区域赋予不同的权重。另一个例子,我们观察到不同的图像纹理会以不同的程度吸引人类的注视(如[51],[52])。一个平滑变化的中心加权模型(如[50])可以用来定义权重。然而,在本文中,我们使用统一加权。
用于神经网络图像重建的损失函数
- 针对问题
在图像处理中,神经网络损失层的影响并没有得到太多的关注:默认的,实际上唯一的选择是L2。然而,L2有众所周知的局限性。例如,当手头的任务涉及到图像质量时,L2与人类观察者所感知到的图像质量关系很差。这是因为在使用L2时隐含了一些假设。首先,使用L2假设噪声的影响与图像的局部特征无关。相反,人类视觉系统(HVS)对噪声的敏感度取决于局部亮度、对比度和结构。在高斯白噪声的假设下,L2的损耗也可以工作,但这在一般情况下是不成立的。
- 提出模型
在本文中,我们提出了图像重建的替代选择。特别地,当由人类观察者评估所得到的图像时,我们展示了感知动机损失的重要性。我们比较了几种损失的性能,并提出了一种新的可微误差函数。结果表明,即使保持网络体系结构不变,损失函数越好,结果的质量也会显著提高。
的选择对用SSIM训练的网络处理结果的质量有影响,这可以从上一节的导数中看出。具体来说,对于较小的值,网络失去了保存本地结构的能力,并且在平坦区域重新引入了斑点工件,请参见图9(e)。对于较大的值,我们观察到网络倾向于保留边缘附近的噪声,图9(c)。
与其微调,我们建议使用多尺度版本的SSIM, MS-SSIM。给定的二元金字塔层,MS-SSIM定义为
其中和分别是我们在第III-B节中定义的尺度和。为了方便起见,我们设,对于。类似于方程7,我们可以近似出块 的损失,计算损失的中心像素为 :
导数:
使用来训练网络,方程11要求我们计算一个由个层次的块构成的金字塔,考虑到它需要在每次迭代中执行,这是一个计算上很昂贵的操作。为了避免这种情况,我们建议近似并替换金字塔的构造:我们不计算金字塔的个层次,而是在全分辨率块上使用个不同的值,每个值都是前一个值的一半。具体来说,我们使用定义,其中高斯滤波器以像素为中心,“.”为点乘。依赖于的术语可以用类似的方式定义。我们在所有的实验中都使用这个技巧来加速训练。
根据设计,MS-SSIM和SSIM对均匀偏差都不是特别敏感(见V-B节)。这可能会导致亮度的变化或颜色的变化,通常会变得更加暗淡。然而,MS-SSIM在高频区域比我们实验的其他损耗函数更好地保持了对比度。另一方面,保留了颜色和亮度,无论局部结构如何,误差的权重都是相等的,但不会产生与MS-SSIM完全相同的对比度。”为了获得这两个错误函数的最佳特性,我们建议将它们结合起来
在这里,我们省略了所有损失函数对块的依赖关系,我们根据经验设置式14的导数只是我们在前面几节中计算的两项导数的加权和。注意,我们在之间添加了一个点乘:这是因为MS-SSIM基于其对中心像素的MS-SSIM的贡献在像素处传播误差,如由高斯权重确定的,参见等式9和10。