Pyramid Match Kernel理解

我们做 object recognizing时,bag of features(BOF)方法的效率给人留下深刻的印象。然而常用SVM的核函数往往用于固定长度的输入,并不适合这种无序的,长度不同的BOF的描述符输入。Kristen Grauman于2005年提出SPM核函数,这种把方法把feature投射到不同尺度的金字塔直方图上,然后计算出加权的histogram intersection。这种方法得到的结果很好,之后人们又对它进行了进一步的改进。

本文并不尝试将英文的论文翻译于此,其中的细节见文末的附的两篇论文。这里我贴一些图片,并简要谈谈我的理解。

所谓的match,其实match的是两个图片描述符,计算其similarity,以此进行classification或recognizing。普通的BOF方法就是:首先用sift描述符描绘图像的interest of region,然后进行聚类,得到具有索引的dictionary,从而建立起直方图的描述符便具有了识别一个物体的功能。

那么spm方法的优势在哪里呢?观察上图你会发现,普通的BOF方法在计算similarity时只是在一个尺度上计算的,而spm是将一个描述符映射到不同的尺度空间,然后计算上个尺度和本尺度的相关的差值,最后求的是把这些差值加权的值,无疑直观上讲,后者的准确性会比普通的BOF好,同时实验也证明了同样的结论。

如果你理解了Grauman 的方法后,那么Lazebnik的方法也应该比较容易理解。其实Lazebnik方法是在Grauman 的方法上进行了一点改进。她在描述符映射到不同尺度空间之后,同时也在不同尺度上将图片划分成不同的小块,并在不同的小块中进行直方图统计(最后把这些小的直方图的描述符线性连接形成总的描述符)。如下图

其实你可以这样想,比如在图片的左上方有个足球,那么普通的spm的直方图比较时会丢失这个足球features的位置信息,因为它是在整幅图片上进行的直方图统计,而改进后的spm则会很好的解决这个问题,例如在左上方方块进行的直方图统计,它比较时会和另一幅的相应位置比较看有没有足球。

参考资料:

K. Grauman and T. Darrell. The Pyramid Match Kernel: Discriminative Classification with Sets of Image Features, ICCV 2005.

Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories. S. Lazebnik, C. Schmid, and J. Ponce. CVPR 2006

http://videolectures.net/nips05_grauman_elsf/




comments powered by Disqus