2.2 凸函数与詹森不等式
函数的凹凸性在求解最优化问题时是一种非常有利的工具。不仅在图像处理,甚至在机器学习中也常被用到。例如,在EM算法和支持向量机的推导中都用到了凸函数的性质。与函数的凹凸性紧密相连的是著名的詹森不等式。本书后续的许多定理都可以利用詹森不等式加以证明。
2.2.1 凸函数的概念
凸函数是一个定义在某个向量空间的凸子集C(区间)上的实值函数f,而且对于凸子集C中任意两个向量p1和p2,以及存在任意有理数θ∈(0,1),则有
如果f连续,那么θ可以改为(0,1)中的实数。若这里的凸子集θ即某个区间,那么f就为定义在该区间上的函数,p1和p2则为该区间上的任意两点。
图2-1 凸函数示意图
图2-1为一个凸函数示意图,结合图形,不难分析在凸函数的定义式中,θp2+(1-θ)p1可以看作是p1和p2的加权平均,因此fθp2+(1-θ)p1[
]是位于函数f曲线上介于p1和p2区间内的一点。而θf(p2)+(1-θ)f(p1)则是f(p1)和f(p2)的加权平均,也就是以f(p1)和f(p2)为端点的一条直线段上的一点,或者也可以从直线的两点式方程考查它。已知点(x1,y1)和(x2,y2),则可以确定一条直线的方程为
现在已知直线上的两个点为[p1,f(p1)]和[p2,f(p2)],于是便可根据上式写出直线方程,即
然后又知直线上一点的横坐标为θp2+(1-θ)p1,代入上式便可求得其对应的纵坐标为θf(p2)+(1-θ)f(p1)。
如果f是定义在一个开区间(a,b)上的可微实值函数,那么f是一个凸函数的充要条件就是f′为定义在(a,b)上的一个单调递增的函数。
现在证明这个结论。首先证明充分性。假设f′在区间(a,b)上是单调递增的,证明f是一个凸函数。再假设p1<p2<p3是区间(a,b)上的三个点,根据拉格朗日中值定理,在(p1,p2)内至少存在一点ξ1,使得
同理,在(p2,p3)内至少存在一点ξ2,使得
又因为f′是单调递增的,所以f′(ξ1)≤f′(ξ2),即
因为p2∈(p1,p3),所以必然有一个λ∈(0,1)使得p2=λp1+(1-λ)p3。进而有
这其实已经得到了想要的结论。但是最初如果假设p1<p3,这在原命题中是不存在的。为了去除这个条件,还需要再讨论p1>p3的情况。但基于已经得到的结论,这方面的讨论是非常容易的。此时,类似地可以得到
这时可以令α=1-λ,于是便会得到
于是,当f′是一个单调递增函数时,f就是一个凸函数的结论得证。
现在来证明必要性。由f是一个凸函数出发来证明f′是一个单调递增函数。
方法一 假设f是定义在(a,b)上的凸函数。那么根据凸函数的定义,可得
其中,p1和p3为区间(a,b)上的任意两点,且p1<p3。对于p1和p3之间的任意一点p2,将之前的求证过程从后向前推导,便会得到结论
根据导数的定义可知
因此可得
即f′(p1)≤f′(p3),所以f′是单调递增的,必要性得证。
方法二 假设f是定义在(a,b)上的凸函数。那么根据凸函数的定义,可得
其中,p1和p2为区间(a,b)上的任意两点,且0≤λ≤1。
对于给定的a<p1<p2<b,定义函数
显然在[0,1]上有g(λ)≤0,而且g(0)=g(1)=0。可见函数g(λ)在两个端点处取得最大值,也就是说g(λ)在大于0的某个子区间内是递减的,而在小于1的某个子区间内则是递增的,即g′(0)≤0≤g′(1)。再根据链式求导法则可得
因为p1<p2,可知f′(p1)≤f′(p2),所以f′是单调递增的。
综上所述,结论得证。
更进一步地,如果对于每个x∈(a,b)而言,f″(x)都存在,那么f″(x)≥0也是f为凸函数的充分必要条件。
把本小节开头给出的凸函数定义拓展到3个变量p1、p2、p3和3个权重λ1,λ2和λ3的情况。此时,λ1+λ2+λ3=1,即λ2+λ3=1-λ1。所以有
事实上,上面这个不等式关系很容易推广到n个变量和n个权重的情况,这个结论就是著名的詹森不等式。
2.2.2 詹森不等式及其证明
从凸函数的性质中所引申出来的一个重要结论就是詹森(Jensen)不等式:如果f是定义在实数区间[a,b]上的连续凸函数,x1,x2,…,xn∈[a,b]。并且有一组实数λ1,λ2,…,λn≥0满足=1,那么则有下列不等式关系成立
如果函数f是凹函数,那么不等号方向逆转。
下面试着用数学归纳法来证明詹森不等式,注意我们仅讨论凸函数的情况,凹函数的证明与此类似。
证明 当n=2时,则根据上一小节给出的凸函数之定义可得命题显然成立。设n=k时命题成立,即对任意x1,x2,…,xk∈[a,b]以及α1,α2,…,αk≥0满足=1都有
现在假设x1,x2,…,xk,xk+1∈[a,b]以及λ1,λ2,…,λk,λk+1≥0满足=1,令
如此一来,显然满足=1。由数学归纳法假设可推得(注意,第一个不等号的取得利用了n=2时的詹森不等式)
故命题成立。
不同资料上,所给出的詹森不等式可能具有不同的形式(但本质上它们是统一的)。如果把λ1,λ2,…,λn看做是一组权重,那就还可以从数学期望的角度去理解詹森不等式。即如果f是凸函数,X是随机变量,那么就有E[f(x)]≥f(E[X])。特别地,如果f是严格的凸函数,那么当且仅当X是常量时,上式取等号。
用图形来表示詹森不等式的结论是一目了然的。仍然以图2-7为例,假设随机变量X有θ的可能性取得值p2,有(1-θ)的可能性取得值p1,根据数学期望的定义可知E[X]=θp2+(1-θ)p1。同样道理,E[f(x)]=θf(p2)+(1-θ)f(p1)。所以可得
下面给出一个更为严谨的证明。假设f是一个可微的凸函数,对于任意的p1<p2,一定存在一个点ξ,p1<ξ<p2,满足
注意这里应用了上一小节给出的定理,即f′是单调递增函数这个结论。进而有
令p1=X,p2=E[X],重写上式就为
然后对两边同时取期望,就得
其中不等式右边可进一步化简得
于是结论得证。
2.2.3 詹森不等式的应用
詹森不等式在诸多领域都有重要应用,其中一个重要的用途就是证明不等式。本小节举两个例子演示詹森不等式的应用。首先,来看一下重要的算术-几何平均值不等式:
设x1,x2,…,xn为n个正实数,它们的算术平均数是An=(x1+x2+…+xn)/n,它们的几何平均数是Gn=。算术-几何平均值不等式表明,对于任意正实数,总有An≥Gn,等号成立当且仅当x1=x2=…=xn。
在下一章中,我们还会演示利用拉格朗日乘数法证明算术-几何平均值不等式的方法。现在先来看看如何用詹森不等式证明它。
证明 因为-lnx是一个凸函数,那么lnx显然就是一个凹函数。根据詹森不等式
因为lnx是单调递增的,所以
所以结论得证。
在第3章中,本书会谈到闵可夫斯基不等式和柯西-施瓦茨不等式。闵可夫斯基不等式的证明用到了赫尔德(Hö lder)不等式,柯西-施瓦茨不等式则可被认为是赫尔德不等式的特殊情况。所以下面我们试着利用詹森不等式来证明赫尔德不等式。
赫尔德不等式:设对i=1,2,…,n,ai>0,bi>0,又p>1,p′>1,1/p+1/p′=1,则
特别地,当p=p′=2时,得
这其实就是本书后面还会介绍的柯西-施瓦茨不等式。
证明赫尔德不等式之前,先证明一个引理:当a>0,b>0,p>1,1/p+1/p′=1,则
证明 令f(x)=-lnx,则f″(x)=x-2>0,x∈(0,+∞)。这样显然f(x)是定义在(0,+∞)上的凸函数。令1/p=λ1,1/p′=λ2,ap>0,bp′>0。由于p>1,显然p′>1。由詹森不等式可知
两边同时取指数,于是可得证原结论成立。
下面证明赫尔德不等式。
证明 设
则由上述引理可知
把i=1,2,…,n的n个不等式相加,则有
结论得证。