- 计算图像集之间的差异,首先计算在desert和snow原始场景下的余弦相似度,即在10000张的desert数据集中,计算同一文件下下互相的余弦相似度,与此同时在10000张snow数据集中也计算互相的余弦相似度。然后经过VAE编码后得到的潜空间z,也计算自身的余弦相似度再进行KL散度计算。
- 数据集展示:
余弦相似度分布 | KL(desert:snow) | KL(snow:desert) |
---|---|---|
原始图像数据集之间 | 0.2772956083271298 | 1.4756203876735612 |
潜空间变换后数据集之间 | 0.2475340868099947 | 0.2376507904854414 |
**数据分析:**可以看出不论是desert:snow,还是snow:desert,经过潜空间变换后z分布间的KL散度值总是小于原始图像数据集分布间的KL散度,即经过VAE的潜空间变换后,数据间的相似性提升了。
- EMD距离是一种用于衡量两个概率分布之间差异的距离度量方法。它通过计算将一个分布变成另一个分布所需的最小代价来衡量它们之间的距离。这里的代价可以理解为将一个分布中的物质移动到另一个分布中所需的工作量。EMD的取值范围通常是非负实数,因为它是两个分布之间的距离度量。具体而言,EMD的取值范围是[0, +∞),其中0表示两个分布完全相同,+∞表示两个分布完全不同。在本工作中,首先直接计算了两个原始图像数据集之间各图像间的EMD距离,并将其分布作图;同时经过潜空间变换后,再计算相应的一维数组间的EMD距离。
**数据分析:**通过上述频数分布直方图可以看出,未经过潜空间编码前图像之间的EMD距离大多是分布在[20,100]区间外,EMD距离较大表明数据间的差异较大,经过编码后z的EMD距离大多是分布在[0,10]区间,EMD距离明显变小了,表明数据间的差异变小了。
由于上述分布图如果在数据较多的情况下不能直观地体现具体的大小差异,因此需要对图形进行量化分析,将所有的图像整合在一起去形成一个大的数组或者频率直方图分布再去计算EMD距离。
分布 | EMD距离 |
---|---|
10000张合并的原始图像数据集 | 42.2445030246313 |
10000个合并的潜空间z数组 | 5.044183926 |