图像处理中的数学修炼(第2版)
上QQ阅读APP看书,第一时间看更新

2.2 凸函数与詹森不等式

函数的凹凸性在求解最优化问题时是一种非常有利的工具。不仅在图像处理,甚至在机器学习中也常被用到。例如,在EM算法和支持向量机的推导中都用到了凸函数的性质。与函数的凹凸性紧密相连的是著名的詹森不等式。本书后续的许多定理都可以利用詹森不等式加以证明。

2.2.1 凸函数的概念

凸函数是一个定义在某个向量空间的凸子集C(区间)上的实值函数f,而且对于凸子集C中任意两个向量p1p2,以及存在任意有理数θ∈(0,1),则有

如果f连续,那么θ可以改为(0,1)中的实数。若这里的凸子集θ即某个区间,那么f就为定义在该区间上的函数,p1p2则为该区间上的任意两点。

图2-1 凸函数示意图

图2-1为一个凸函数示意图,结合图形,不难分析在凸函数的定义式中,θp2+(1-θp1可以看作是p1p2的加权平均,因此p2+(1-θp1[

]是位于函数f曲线上介于p1p2区间内的一点。而θfp2)+(1-θfp1)则是fp1)和fp2)的加权平均,也就是以fp1)和fp2)为端点的一条直线段上的一点,或者也可以从直线的两点式方程考查它。已知点(x1y1)和(x2y2),则可以确定一条直线的方程为

现在已知直线上的两个点为[p1fp1)]和[p2fp2)],于是便可根据上式写出直线方程,即

然后又知直线上一点的横坐标为θp2+(1-θp1,代入上式便可求得其对应的纵坐标为θfp2)+(1-θfp1)。

如果f是定义在一个开区间(ab)上的可微实值函数,那么f是一个凸函数的充要条件就是f′为定义在(ab)上的一个单调递增的函数。

现在证明这个结论。首先证明充分性。假设f′在区间(ab)上是单调递增的,证明f是一个凸函数。再假设p1p2p3是区间(ab)上的三个点,根据拉格朗日中值定理,在(p1p2)内至少存在一点ξ1,使得

同理,在(p2p3)内至少存在一点ξ2,使得

又因为f′是单调递增的,所以f′ξ1)≤f′ξ2),即

因为p2∈(p1p3),所以必然有一个λ∈(0,1)使得p2=λp1+(1-λp3。进而有

这其实已经得到了想要的结论。但是最初如果假设p1p3,这在原命题中是不存在的。为了去除这个条件,还需要再讨论p1p3的情况。但基于已经得到的结论,这方面的讨论是非常容易的。此时,类似地可以得到

这时可以令α=1-λ,于是便会得到

于是,当f′是一个单调递增函数时,f就是一个凸函数的结论得证。

现在来证明必要性。由f是一个凸函数出发来证明f′是一个单调递增函数。

方法一 假设f是定义在(ab)上的凸函数。那么根据凸函数的定义,可得

其中,p1p3为区间(ab)上的任意两点,且p1p3。对于p1p3之间的任意一点p2,将之前的求证过程从后向前推导,便会得到结论

根据导数的定义可知

因此可得

f′p1)≤f′p3),所以f′是单调递增的,必要性得证。

方法二 假设f是定义在(ab)上的凸函数。那么根据凸函数的定义,可得

其中,p1p2为区间(ab)上的任意两点,且0≤λ≤1。

对于给定的ap1p2b,定义函数

显然在[0,1]上有gλ)≤0,而且g(0)=g(1)=0。可见函数gλ)在两个端点处取得最大值,也就是说gλ)在大于0的某个子区间内是递减的,而在小于1的某个子区间内则是递增的,即g′(0)≤0≤g′(1)。再根据链式求导法则可得

因为p1p2,可知f′p1)≤f′p2),所以f′是单调递增的。

综上所述,结论得证。

更进一步地,如果对于每个x∈(ab)而言,f″x)都存在,那么f″x)≥0也是f为凸函数的充分必要条件。

把本小节开头给出的凸函数定义拓展到3个变量p1p2p3和3个权重λ1λ2λ3的情况。此时,λ1+λ2+λ3=1,即λ2+λ3=1-λ1。所以有

事实上,上面这个不等式关系很容易推广到n个变量和n个权重的情况,这个结论就是著名的詹森不等式。

2.2.2 詹森不等式及其证明

从凸函数的性质中所引申出来的一个重要结论就是詹森(Jensen)不等式:如果f是定义在实数区间[ab]上的连续凸函数,x1x2,…,xn∈[ab]。并且有一组实数λ1λ2,…,λn≥0满足=1,那么则有下列不等式关系成立

如果函数f是凹函数,那么不等号方向逆转。

下面试着用数学归纳法来证明詹森不等式,注意我们仅讨论凸函数的情况,凹函数的证明与此类似。

证明 当n=2时,则根据上一小节给出的凸函数之定义可得命题显然成立。设n=k时命题成立,即对任意x1x2,…,xk∈[ab]以及α1α2,…,αk≥0满足=1都有

现在假设x1x2,…,xkxk+1∈[ab]以及λ1λ2,…,λkλk+1≥0满足=1,令

如此一来,显然满足=1。由数学归纳法假设可推得(注意,第一个不等号的取得利用了n=2时的詹森不等式)

故命题成立。

不同资料上,所给出的詹森不等式可能具有不同的形式(但本质上它们是统一的)。如果把λ1λ2,…,λn看做是一组权重,那就还可以从数学期望的角度去理解詹森不等式。即如果f是凸函数,X是随机变量,那么就有E[fx)]≥fE[X])。特别地,如果f是严格的凸函数,那么当且仅当X是常量时,上式取等号。

用图形来表示詹森不等式的结论是一目了然的。仍然以图2-7为例,假设随机变量Xθ的可能性取得值p2,有(1-θ)的可能性取得值p1,根据数学期望的定义可知E[X]=θp2+(1-θp1。同样道理,E[fx)]=θfp2)+(1-θfp1)。所以可得

下面给出一个更为严谨的证明。假设f是一个可微的凸函数,对于任意的p1p2,一定存在一个点ξp1ξp2,满足

注意这里应用了上一小节给出的定理,即f′是单调递增函数这个结论。进而有

p1=Xp2=E[X],重写上式就为

然后对两边同时取期望,就得

其中不等式右边可进一步化简得

于是结论得证。

2.2.3 詹森不等式的应用

詹森不等式在诸多领域都有重要应用,其中一个重要的用途就是证明不等式。本小节举两个例子演示詹森不等式的应用。首先,来看一下重要的算术-几何平均值不等式:

x1x2,…,xnn个正实数,它们的算术平均数是An=(x1+x2+…+xn)/n,它们的几何平均数是Gn=。算术-几何平均值不等式表明,对于任意正实数,总有AnGn,等号成立当且仅当x1=x2=…=xn

在下一章中,我们还会演示利用拉格朗日乘数法证明算术-几何平均值不等式的方法。现在先来看看如何用詹森不等式证明它。

证明 因为-lnx是一个凸函数,那么lnx显然就是一个凹函数。根据詹森不等式

因为lnx是单调递增的,所以

所以结论得证。

在第3章中,本书会谈到闵可夫斯基不等式和柯西-施瓦茨不等式。闵可夫斯基不等式的证明用到了赫尔德(Hö lder)不等式,柯西-施瓦茨不等式则可被认为是赫尔德不等式的特殊情况。所以下面我们试着利用詹森不等式来证明赫尔德不等式。

赫尔德不等式:设对i=1,2,…,nai>0,bi>0,又p>1,p′>1,1/p+1/p′=1,则

特别地,当p=p′=2时,得

这其实就是本书后面还会介绍的柯西-施瓦茨不等式。

证明赫尔德不等式之前,先证明一个引理:当a>0,b>0,p>1,1/p+1/p′=1,则

证明 令fx)=-lnx,则f″x)=x-2>0,x∈(0,+∞)。这样显然fx)是定义在(0,+∞)上的凸函数。令1/p=λ1,1/p′=λ2ap>0,bp′>0。由于p>1,显然p′>1。由詹森不等式可知

两边同时取指数,于是可得证原结论成立。

下面证明赫尔德不等式。

证明 设

则由上述引理可知

i=1,2,…,nn个不等式相加,则有

结论得证。