凸优化笔记-根本概念

火影  金牌会员 | 2024-7-27 17:26:13 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 643|帖子 643|积分 1929

原文

  
                                    m                         i                         n                         i                         m                         i                         z                         e                                                               f                            0                                  (                         x                         )                              minimize\ \ \ f_0(x)                  minimize   f0​(x)
                                    s                         u                         b                         j                         e                         c                         t                                                   t                         o                                                               f                            i                                  (                         x                         )                         ≤                                   b                            i                                  ,                         i                         =                         1                         ,                         .                         .                         .                         ,                         m                              subject\ to\ \ \ f_i(x)\le b_i, i = 1,...,m                  subject to   fi​(x)≤bi​,i=1,...,m
凸优化问题
                                                    f                               i                                      (                            α                            x                            +                            β                            y                            )                            ≤                            α                                       f                               i                                      (                            x                            )                            +                            β                                       f                               i                                      (                            y                            )                            ,                                                         x                            ,                            y                            ∈                                       R                               n                                      ,                            α                            +                            β                            =                            1                            ,                            α                            ≥                            0                            ,                            β                            ≥                            0                                  f_i(\alpha x+\beta y) \le \alpha f_i(x)+\beta f_i(y), \ x,y\in R^n, \alpha +\beta = 1,\alpha \ge 0,\beta\ge 0                     fi​(αx+βy)≤αfi​(x)+βfi​(y), x,y∈Rn,α+β=1,α≥0,β≥0
所有的函数都是凸函数时这个规划问题成为凸优化问题。
最小二乘问题

无约束条件下
                                         m                            i                            n                            i                            m                            i                            z                            e                            ∣                            ∣                            A                            x                            −                            b                            ∣                                       ∣                               2                               2                                            minimize ||Ax-b||_2^2                     minimize∣∣Ax−b∣∣22​
                                                    A                               T                                      A                            x                            =                                       A                               T                                      b                                  A^TAx = A^Tb                     ATAx=ATb
                                         x                            =                            (                                       A                               T                                      A                                       )                                           −                                  1                                                            A                               T                                      b                                  x = (A^TA)^{-1}A^Tb                     x=(ATA)−1ATb
                                         A                            ∈                                       R                                           k                                  ×                                  n                                                 ,                            k                            ≥                            n                                  A\in R^{k\times n},k\ge n                     A∈Rk×n,k≥n
此处可以猜想一下,举例如k个点拟合一条直线。k个方程求解n个自变量。
带权的最小二乘
                                         Σ                                       w                               i                                      (                                       a                               i                               T                                      x                            −                            b                            )                                  \Sigma w_i(a_i^Tx-b)                     Σwi​(aiT​x−b)
regularization
                                                    Σ                                           i                                  =                                  1                                          k                                      (                                       a                               i                               T                                      x                            −                                       b                               i                                                 )                               2                                      +                            ρ                                       Σ                                           i                                  =                                  1                                          n                                                 x                               i                               2                                            \Sigma_{i=1}^k(a_i^Tx-b_i)^2 + \rho \Sigma_{i=1}^n x_i^2                     Σi=1k​(aiT​x−bi​)2+ρΣi=1n​xi2​
线性规划
切比雪夫近似问题
                                         m                            i                            n                            i                            m                            i                            z                            e                                                         m                            a                                       x                                           i                                  =                                  1...                                  k                                                                              ∣                                       a                               i                               T                                      x                            −                                       b                               i                                      ∣                                  minimize\ max_{i=1...k}\ |a_i^Tx-b_i|                     minimize maxi=1...k​ ∣aiT​x−bi​∣
与最小二乘差别,不利用平方而是利用极大值——一阶矩?1范数
不可微
转化为
                                         m                            i                            n                            i                            m                            i                            z                            e                                                         t                                  minimize\ t                     minimize t
                                         s                            u                            b                            j                            e                            c                            t                                                         t                            o                                                                    a                               i                               T                                      x                            −                            t                            ≤                                       b                               i                                      ,                            −                                       a                               i                               T                                      x                            −                            t                            ≤                            −                                       b                               i                                            subject\ to\ a_i^Tx-t\le b_i,-a_i^Tx-t\le-b_i                     subject to aiT​x−t≤bi​,−aiT​x−t≤−bi​
内点法?
仿射

仿射集合:一个集合 C 在一个向量空间中被称为仿射集合,如果对于集合 CC 中的任意两个点 x 和 y,以及任意实数 α,其中 0≤α≤1,集合 CC 都包罗点 (1−α)x+αy。
线性方程组的解集是一个仿射集合
                                    A                         x                         =                         b                              Ax=b                  Ax=b的解                                             x                            1                                  ≠                                   x                            2                                       x_1\not=x_2                  x1​=x2​
                                         A                                       x                               1                                      =                            b                            ,                            A                                       x                               2                                      =                            b                                  Ax_1=b,Ax_2=b                     Ax1​=b,Ax2​=b
                                         A                            (                            α                                       x                               1                                      +                            β                                       x                               2                                      )                            =                            A                            (                            α                                       x                               1                                      )                            +                            A                            (                            β                                       x                               2                                      )                            =                            (                            α                            +                            β                            )                            b                            =                            b                                  A(\alpha x_1 +\beta x_2) =A(\alpha x_1)+A(\beta x_2)= (\alpha+\beta)b = b                     A(αx1​+βx2​)=A(αx1​)+A(βx2​)=(α+β)b=b
affine hull

  1. The set of all affine combinations of points in some set C ⊆ Rn is called the affine hull of C, and denoted aff C
复制代码
在欧几里得空间 Rn 中,一个集合 C 的仿射包(affine hull)是指所有包罗在集合 C 中的点的仿射组合的集合。换句话说,它是通过 C中任意有限个点 x1,x2,…,xk的所有大概的线性组合的集合。
仿射包的理解?
                                         aff                                                         C                            =                            {                                       θ                               1                                                 x                               1                                      +                            .                            .                            .                            +                                       θ                               n                                                 x                               n                                      ∣                                       x                               k                                      ∈                            C                            ,                            Σ                                       θ                               i                                      =                            1                            }                                  \textbf{aff}\ C = \{\theta_1x_1+...+\theta_nx_n |x_k\in C,\Sigma\theta_i=1 \}                     aff C={θ1​x1​+...+θn​xn​∣xk​∈C,Σθi​=1}
affine dimension

集合C的仿射维度定义为他的仿射包(?)
例:对单位圆上的点
                                         {                            x                            ∈                                       R                               2                                      ∣                                       x                               1                               2                                      +                                       x                               2                               2                                      =                            1                            }                                  \{x\in R^2|x_1^2+x_2^2 = 1 \}                     {x∈R2∣x12​+x22​=1}
其仿射包是                                             R                            2                                       R^2                  R2(单位圆上的点通过线性组合可以产生)
相对内部(relative interior)
                                         r                            e                            l                            i                            n                            t                                                         C                            =                            {                            x                            ∈                            C                            ∣                            B                            (                            x                            ,                            r                            )                            ∩                            aff                            C                            ⊆                            C                                                         f                            o                            r                                                         s                            o                            m                            e                                                         r                            >                            0                            }                                  relint\ C = \{x\in C|B(x,r)\cap\textbf{aff}C\subseteq C\ for\ some\ r > 0\}                     relint C={x∈C∣B(x,r)∩affC⊆C for some r>0}
就是这些点的邻域与aff C的交集仍旧在C中。
                                    c                         l                                                   C                                                           r                         e                         l                         i                         n                         t                                                   C                              cl\ C \\ \ relint\ C                  cl C relint C 为界限
三维空间中的正方形
                                         C                            =                            {                            x                            ∈                                       R                               3                                      ∣                            ∣                                       x                               1                                      ∣                            ≤                            1                            ,                            ∣                                       x                               2                                      ∣                            ≤                            2                            ,                                       x                               3                                      =                            0                            }                                  C = \{x\in R^3||x_1|\le1,|x_2|\le2,x_3 = 0\}                     C={x∈R3∣∣x1​∣≤1,∣x2​∣≤2,x3​=0}
其仿射包是什么呢?是由平面上的点组成的所有线性组合,那么自然是整个平面。那么dimension应该是2
凸集

                                                    x                               1                                      ∈                            C                            ,                                       x                               2                                      ∈                            C                            ,                            0                            ≤                            θ                            ≤                            1                            ,                            θ                                       x                               1                                      +                            (                            1                            −                            θ                            )                                       x                               2                                      ∈                            C                                  x_1\in C,x_2\in C,0\le\theta\le1,\theta x_1+(1-\theta)x_2\in C                     x1​∈C,x2​∈C,0≤θ≤1,θx1​+(1−θ)x2​∈C
则为凸集
仿射集都是凸集
凸组合:
                                                    θ                               1                                                 x                               1                                      +                                       θ                               2                                                 x                               2                                      +                            .                            .                            .                            +                                       θ                               n                                                 x                               n                                      ,                                       θ                               i                                      ≥                            0                                  \theta_1 x_1+\theta_2x_2+...+\theta_nx_n,\theta_i\ge0                     θ1​x1​+θ2​x2​+...+θn​xn​,θi​≥0
凸包:
                                         conv                            C                            =                            {                                       θ                               1                                                 x                               1                                      +                            .                            .                            .                            +                                       θ                               k                                                 x                               k                                      ∣                                       x                               i                                      ∈                            C                            ,                                       θ                               i                                      ≥                            0                            ,                            i                            =                            1                            ,                            .                            .                            .                            ,                            k                            ,                                       θ                               1                                      +                            .                            .                            .                            +                                       θ                               k                                      =                            1                            }                                  \textbf{conv} C = \{\theta_1x_1+...+\theta_kx_k|x_i\in C,\theta_i\ge 0,i=1,...,k,\theta_1+...+\theta_k = 1\}                     convC={θ1​x1​+...+θk​xk​∣xi​∈C,θi​≥0,i=1,...,k,θ1​+...+θk​=1}
设 CC 是一个集合,那么 CC 的凸包 conv©conv© 是包罗 CC 中所有点的最小凸集合。换句话说,conv©conv© 是包罗 CC 的所有点的最小凸集合,且没有其他凸集合包罗 CC 中的所有点。
线性组合、仿射组合与凸组合
对比一下,都是
                                                    θ                               1                                                 x                               1                                      +                            .                            .                            .                            +                                       θ                               k                                                 x                               k                                            \theta_1x_1+...+\theta_kx_k                     θ1​x1​+...+θk​xk​
但是线性组合对                                             θ                            i                                       \theta_i                  θi​无要求,仿射要求                                   Σ                                   θ                            i                                  =                         1                              \Sigma\theta_i=1                  Σθi​=1,凸组合要求                                   Σ                                   θ                            i                                  =                         1                              \Sigma\theta_i=1                  Σθi​=1,且                                             θ                            i                                  ≥                         0                              \theta_i\ge 0                  θi​≥0
条件越来越强。
![./凸优化问题/凸优化笔记-根本概念/

锥集

对任意                                   x                         ∈                         C                              x\in C                  x∈C,都有                                   θ                         x                         ∈                         C                              \theta x\in C                  θx∈C
锥的极点在原点。
凸锥====== 又凸又锥(比如一个立在原点的在最粗的地方切开的洋葱头?)
                                                    θ                               1                                                 x                               1                                      +                            .                            .                            .                            +                                       θ                               k                                                 x                               k                                      ,                                       θ                               i                                      ≥                            0                                  \theta_1x_1+...+\theta_kx_k,\theta_i\ge 0                     θ1​x1​+...+θk​xk​,θi​≥0
conic combination
锥组合
锥包
                                         {                                       θ                               1                                                 x                               1                                      +                            .                            .                            .                            +                                       θ                               k                                                 x                               k                                      ∣                                       x                               i                                      ∈                            C                            ,                                       θ                               i                                      ≥                            0                            ,                            i                            =                            1                            ,                            .                            .                            .                            ,                            k                            }                                  \{\theta_1x_1+...+\theta_kx_k|x_i\in C,\theta_i\ge 0,i=1,...,k\}                     {θ1​x1​+...+θk​xk​∣xi​∈C,θi​≥0,i=1,...,k}
C的锥包是能包罗C的最小的锥集
![./凸优化问题/凸优化笔记-根本概念/

超平面和半空间

超平面
                                                    a                               T                                      x                            =                            b                                  a^Tx = b                     aTx=b
半空间
                                         {                            x                            ∣                                       a                               T                                      x                            ≥                            b                            }                                  \{x|a^Tx\ge b\}                     {x∣aTx≥b}
椭球
                                         ϵ                            =                            {                            x                            ∣                            (                            x                            −                                       x                               c                                                 )                               T                                                 P                                           −                                  1                                                 (                            x                            −                                       x                               c                                      )                            ≤                            1                            }                                  \epsilon = \{x|(x-x_c)^TP^{-1}(x-x_c)\le 1\}                     ϵ={x∣(x−xc​)TP−1(x−xc​)≤1}
P是对称且正定的,对称轴的长度由特征值的根号给出                                                        λ                               i                                                 \sqrt{\lambda_i}                  λi​            ​
多面体
                                         P                            =                            {                            x                            ∣                            A                            x                            ≼                            b                            ,                            C                            x                            =                            d                            }                                  P=\{x|Ax≼ b,Cx = d\}                     P={x∣Ax≼b,Cx=d}
                                         A                            =                                       [                                                                                                     a                                              1                                              T                                                                                                                                  .                                                                                                                   .                                                                                                                   .                                                                                                                                   a                                              m                                              T                                                                                                ]                                      ,                            C                            =                                       [                                                                                                     c                                              1                                              T                                                                                                                                  .                                                                                                                   .                                                                                                                   .                                                                                                                                   c                                              p                                              T                                                                                                ]                                            A = \begin{bmatrix}a_1^T\\.\\.\\.\\a_m^T\end{bmatrix},C = \begin{bmatrix}c_1^T\\.\\.\\.\\c_p^T\end{bmatrix}                     A=               ​a1T​...amT​​               ​,C=               ​c1T​...cpT​​               ​
单纯形

n维单纯形有n+1个极点,如1维线段,2维三角形,三维四面体
单位单纯形                                   x                         ⪰                         0                         ,                                   1                            T                                  x                         ≤                         1                              x\succeq0,\textbf 1^Tx\le1                  x⪰0,1Tx≤1 , n维度
概率单纯形                                   x                         ⪰                         0                         ,                                   1                            T                                  x                         =                         1                              x\succeq 0,\textbf 1^Tx=1                  x⪰0,1Tx=1, n-1维度
整半定锥

对称矩阵集合                                                   S                               n                                      =                            {                            X                            ∈                                       R                                           n                                  ×                                  n                                                 ∣                            X                            =                                       X                               T                                      }                                  S^n=\{X\in R^{n\times n}|X=X^T\}                     Sn={X∈Rn×n∣X=XT}
其维度为                                   (                         n                         +                         1                         )                         n                         /                         2                              (n+1)n/2                  (n+1)n/2,可以想想有多少个独立的元素。
非负
                                                    S                               +                               n                                      =                            {                            X                            ∈                                       R                                           n                                  ×                                  n                                                 ∣                            X                            =                                       X                               T                                      ,                            X                            ⪰                            0                            }                                  S^n_+=\{X\in R^{n\times n}|X=X^T,X\succeq0\}                     S+n​={X∈Rn×n∣X=XT,X⪰0}

                                                    S                               +                               n                                      +                            =                            {                            X                            ∈                                       R                                           n                                  ×                                  n                                                 ∣                            X                            =                                       X                               T                                      ,                            X                            ≻                            0                            }                                  S^n_++=\{X\in R^{n\times n}|X=X^T,X\succ 0\}                     S+n​+={X∈Rn×n∣X=XT,X≻0}
convex set:都是
convex cone:                                             S                            +                            n                                  +                              S^n_++                  S+n​+不是,因为没有0
保凸性的操作

仿射变更、凸集的交集、求和、笛卡尔内积
设有线性矩阵不等式(LMI)
                                         A                            (                            x                            )                            =                                       x                               1                                                 A                               1                                      +                            .                            .                            .                            +                                       x                               n                                                 A                               n                                      ⪯                            B                                  A(x)=x_1A_1+...+x_nA_n\preceq B                     A(x)=x1​A1​+...+xn​An​⪯B
其解集是convex的
仿射变更呢?
透视函数

降低维度                                    P                         :                                   R                                       n                               +                               1                                            →                                   R                            n                                       P:R^{n+1}\to R^n                  P:Rn+1→Rn
可以等效为一个小孔成像摄像机
接受平面位置在                                             x                            3                                  =                         −                         1                              x_3 = -1                  x3​=−1
小孔在原点,被测物                                             x                            1                                  ,                                   x                            2                                  ,                                   x                            3                                       x_1,x_2,x_3                  x1​,x2​,x3​
则相点为                                   −                         (                                   x                            1                                  /                                   x                            3                                  ,                                   x                            2                                  /                                   x                            3                                  ,                         1                         )                              -(x_1/x_3,x_2/x_3,1)                  −(x1​/x3​,x2​/x3​,1)
                                         d                            o                            m                            P                            =                                       R                               n                                      ×                                       R                                           +                                  +                                                       dom P = R^n\times R_{++}                     domP=Rn×R++​
                                         P                            (                            z                            ,                            t                            )                            =                            z                            /                            t                                  P(z,t)=z/t                     P(z,t)=z/t
如果domP中的C是凸点,他的像
                                         P                            (                            C                            )                            =                            {                            P                            (                            x                            )                            ∣                            x                            ∈                            C                            }                                  P(C)=\{P(x)|x\in C\}                     P(C)={P(x)∣x∈C}
也是凸的
凸函数的条件

1阶判定条件

若f可微,当且仅当dom f凸,而且
                                         f                            (                            y                            )                            ≥                            f                            (                            x                            )                            +                            ∇                            f                            (                            x                                       )                               T                                      (                            y                            −                            x                            )                                  f(y)\ge f(x)+\nabla f(x)^T(y-x)                     f(y)≥f(x)+∇f(x)T(y−x)
![./凸优化问题/凸优化笔记-根本概念/

其几何意义为函数上的点永久比某一条切线上的点高(或重合)
(该形式为泰勒一阶展开)
2阶判定条件

                                         ∇                            f                            ⪰                            0                                  \nabla f \succeq 0                     ∇f⪰0
  Epigraph 外图

函数f的graph定义为
                                         {                            (                            x                            ,                            f                            (                            x                            )                            )                            ∣                            x                            ∈                            dom                                                         f                            }                                  \{(x,f(x))|x\in \textbf{dom}\ f\}                     {(x,f(x))∣x∈dom f}
是                                             R                                       n                               +                               1                                                 \textbf{R}^{n+1}                  Rn+1的子集
其epigraph为
                                         epi                                                         f                            =                            {                            (                            x                            ,                            t                            )                            ∣                            x                            ∈                            dom                                                         f                            ,                            f                            ≤                            t                            }                                  \textbf{epi}\ f=\{ (x,t) | x\in \textbf{dom} \ f,f\le t\}                     epi f={(x,t)∣x∈dom f,f≤t}
(‘Epi’ means ‘above’ so epigraph means ‘above the graph’.)
亚图为
                                         hypo                            f                            =                            {                            (                            x                            ,                            t                            )                            ∣                            x                            ∈                            dom                                                         f                            ,                            f                            ≥                            t                            }                                  \textbf{hypo}f = \{ (x,t) | x\in \textbf{dom} \ f,f\ge t \}                     hypof={(x,t)∣x∈dom f,f≥t}

这个图能创建凸集和凸函数的关系。当且仅当外图(epi f)是凸的时间函数是凸的。
当且仅当亚图(hypo f)是凸的时间函数是凹的


  • 矩阵分式函数
                                                  f                               (                               x                               ,                               Y                               )                               =                                           x                                  T                                                      Y                                               −                                     1                                                      x                               ,                                                                 dom                                                               f                               =                                           R                                  n                                          ×                                           S                                               +                                     +                                              n                                                 f(x,Y) = x^TY^{-1}x,\ \ \ \textbf{dom} \ f=\textbf{R}^n\times\textbf{S}^n_{++}                        f(x,Y)=xTY−1x,   dom f=Rn×S++n​
                                         epi                            f                            =                            {                            (                            x                            ,                            Y                            ,                            t                            )                            ∣                            Y                            ≻                            0                            ,                            f                            (                            x                            ,                            Y                            )                            ≤                            t                            }                                  \textbf{epi} f =\{(x,Y,t)|Y\succ0, f(x,Y)\le t \}                     epif={(x,Y,t)∣Y≻0,f(x,Y)≤t}
                                                    x                               T                                                 Y                                           −                                  1                                                 x                            ≤                            t                                  x^TY^{-1}x\le t                     xTY−1x≤t
此处须要用到舒尔补(Schur complement)
                                         M                            =                                       [                                                                                     A                                                                                             B                                                                                                                   C                                                                                             D                                                                                 ]                                            M = \begin{bmatrix}A&B\\C&D\end{bmatrix}                     M=[AC​BD​]
如果A可逆,则其舒尔补为                                   D                         −                         C                                   A                                       −                               1                                            B                              D-CA^{-1}B                  D−CA−1B
代入有
                                         M                            =                                       [                                                                                     Y                                                                                             x                                                                                                                                   x                                              T                                                                                                            t                                                                                 ]                                      ⪰                            0                                  M = \begin{bmatrix}Y&x\\x^T&t\end{bmatrix}\succeq 0                     M=[YxT​xt​]⪰0

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

火影

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表