凸优化笔记-根本概念

火影 · 2024-7-27 17:26:13

原文


                                 m                      i                      n                      i                      m                      i                      z                      e                                                            f                         0                               (                      x                      )                            minimize\ \ \ f_0(x)                minimize   f0(x)
                                 s                      u                      b                      j                      e                      c                      t                                              t                      o                                                            f                         i                               (                      x                      )                      ≤                                  b                         i                               ,                      i                      =                      1                      ,                      .                      .                      .                      ,                      m                            subject\ to\ \ \ f_i(x)\le b_i, i = 1,...,m                subject to   fi(x)≤bi,i=1,...,m
凸优化问题：
                                                f                            i                                     (                         α                         x                         +                         β                         y                         )                         ≤                         α                                     f                            i                                     (                         x                         )                         +                         β                                     f                            i                                     (                         y                         )                         ,                                                    x                         ,                         y                         ∈                                     R                            n                                     ,                         α                         +                         β                         =                         1                         ,                         α                         ≥                         0                         ,                         β                         ≥                         0                               f_i(\alpha x+\beta y) \le \alpha f_i(x)+\beta f_i(y), \ x,y\in R^n, \alpha +\beta = 1,\alpha \ge 0,\beta\ge 0                   fi(αx+βy)≤αfi(x)+βfi(y), x,y∈Rn,α+β=1,α≥0,β≥0
所有的函数都是凸函数时这个规划问题成为凸优化问题。
最小二乘问题

无约束条件下
                                       m                         i                         n                         i                         m                         i                         z                         e                         ∣                         ∣                         A                         x                         −                         b                         ∣                                     ∣                            2                            2                                           minimize ||Ax-b||_2^2                   minimize∣∣Ax−b∣∣22
                                                A                            T                                     A                         x                         =                                     A                            T                                     b                               A^TAx = A^Tb                   ATAx=ATb
                                       x                         =                         (                                     A                            T                                     A                                     )                                        −                               1                                                          A                            T                                     b                               x = (A^TA)^{-1}A^Tb                   x=(ATA)−1ATb
                                       A                         ∈                                     R                                        k                               ×                               n                                              ,                         k                         ≥                         n                               A\in R^{k\times n},k\ge n                   A∈Rk×n,k≥n
此处可以猜想一下，举例如k个点拟合一条直线。k个方程求解n个自变量。
带权的最小二乘
                                       Σ                                     w                            i                                     (                                     a                            i                            T                                     x                         −                         b                         )                               \Sigma w_i(a_i^Tx-b)                   Σwi(aiTx−b)
regularization
                                                Σ                                        i                               =                               1                                        k                                     (                                     a                            i                            T                                     x                         −                                     b                            i                                              )                            2                                     +                         ρ                                     Σ                                        i                               =                               1                                        n                                              x                            i                            2                                           \Sigma_{i=1}^k(a_i^Tx-b_i)^2 + \rho \Sigma_{i=1}^n x_i^2                   Σi=1k(aiTx−bi)2+ρΣi=1nxi2
线性规划
切比雪夫近似问题
                                       m                         i                         n                         i                         m                         i                         z                         e                                                    m                         a                                     x                                        i                               =                               1...                               k                                                                         ∣                                     a                            i                            T                                     x                         −                                     b                            i                                     ∣                               minimize\ max_{i=1...k}\ |a_i^Tx-b_i|                   minimize maxi=1...k ∣aiTx−bi∣
与最小二乘差别，不利用平方而是利用极大值——一阶矩？1范数
不可微
转化为
                                       m                         i                         n                         i                         m                         i                         z                         e                                                    t                               minimize\ t                   minimize t
                                       s                         u                         b                         j                         e                         c                         t                                                    t                         o                                                                a                            i                            T                                     x                         −                         t                         ≤                                     b                            i                                     ,                         −                                     a                            i                            T                                     x                         −                         t                         ≤                         −                                     b                            i                                           subject\ to\ a_i^Tx-t\le b_i,-a_i^Tx-t\le-b_i                   subject to aiTx−t≤bi,−aiTx−t≤−bi
内点法？
仿射

仿射集合：一个集合 C 在一个向量空间中被称为仿射集合，如果对于集合 CC 中的任意两个点 x 和 y，以及任意实数 α，其中 0≤α≤1，集合 CC 都包罗点 (1−α)x+αy。
线性方程组的解集是一个仿射集合
                                 A                      x                      =                      b                            Ax=b                Ax=b的解                                           x                         1                               ≠                                  x                         2                                     x_1\not=x_2                x1=x2
                                       A                                     x                            1                                     =                         b                         ,                         A                                     x                            2                                     =                         b                               Ax_1=b,Ax_2=b                   Ax1=b,Ax2=b
                                       A                         (                         α                                     x                            1                                     +                         β                                     x                            2                                     )                         =                         A                         (                         α                                     x                            1                                     )                         +                         A                         (                         β                                     x                            2                                     )                         =                         (                         α                         +                         β                         )                         b                         =                         b                               A(\alpha x_1 +\beta x_2) =A(\alpha x_1)+A(\beta x_2)= (\alpha+\beta)b = b                   A(αx1+βx2)=A(αx1)+A(βx2)=(α+β)b=b
affine hull

The set of all affine combinations of points in some set C ⊆ Rn is called the affine hull of C, and denoted aff C

复制代码

在欧几里得空间 Rn 中，一个集合 C 的仿射包（affine hull）是指所有包罗在集合 C 中的点的仿射组合的集合。换句话说，它是通过 C中任意有限个点 x1,x2,…,xk的所有大概的线性组合的集合。
仿射包的理解？
                                       aff                                                    C                         =                         {                                     θ                            1                                              x                            1                                     +                         .                         .                         .                         +                                     θ                            n                                              x                            n                                     ∣                                     x                            k                                     ∈                         C                         ,                         Σ                                     θ                            i                                     =                         1                         }                               \textbf{aff}\ C = \{\theta_1x_1+...+\theta_nx_n |x_k\in C,\Sigma\theta_i=1 \}                   aff C={θ1x1+...+θnxn∣xk∈C,Σθi=1}
affine dimension

集合C的仿射维度定义为他的仿射包（？）
例：对单位圆上的点
                                       {                         x                         ∈                                     R                            2                                     ∣                                     x                            1                            2                                     +                                     x                            2                            2                                     =                         1                         }                               \{x\in R^2|x_1^2+x_2^2 = 1 \}                   {x∈R2∣x12+x22=1}
其仿射包是                                           R                         2                                     R^2                R2（单位圆上的点通过线性组合可以产生）
相对内部（relative interior）
                                       r                         e                         l                         i                         n                         t                                                    C                         =                         {                         x                         ∈                         C                         ∣                         B                         (                         x                         ,                         r                         )                         ∩                         aff                         C                         ⊆                         C                                                    f                         o                         r                                                    s                         o                         m                         e                                                    r                         >                         0                         }                               relint\ C = \{x\in C|B(x,r)\cap\textbf{aff}C\subseteq C\ for\ some\ r > 0\}                   relint C={x∈C∣B(x,r)∩affC⊆C for some r>0}
就是这些点的邻域与aff C的交集仍旧在C中。
                                 c                      l                                              C                                                        r                      e                      l                      i                      n                      t                                              C                            cl\ C \\ \ relint\ C                cl C relint C 为界限
三维空间中的正方形
                                       C                         =                         {                         x                         ∈                                     R                            3                                     ∣                         ∣                                     x                            1                                     ∣                         ≤                         1                         ,                         ∣                                     x                            2                                     ∣                         ≤                         2                         ,                                     x                            3                                     =                         0                         }                               C = \{x\in R^3||x_1|\le1,|x_2|\le2,x_3 = 0\}                   C={x∈R3∣∣x1∣≤1,∣x2∣≤2,x3=0}
其仿射包是什么呢？是由平面上的点组成的所有线性组合，那么自然是整个平面。那么dimension应该是2
凸集

                                                x                            1                                     ∈                         C                         ,                                     x                            2                                     ∈                         C                         ,                         0                         ≤                         θ                         ≤                         1                         ,                         θ                                     x                            1                                     +                         (                         1                         −                         θ                         )                                     x                            2                                     ∈                         C                               x_1\in C,x_2\in C,0\le\theta\le1,\theta x_1+(1-\theta)x_2\in C                   x1∈C,x2∈C,0≤θ≤1,θx1+(1−θ)x2∈C
则为凸集
仿射集都是凸集
凸组合：
                                                θ                            1                                              x                            1                                     +                                     θ                            2                                              x                            2                                     +                         .                         .                         .                         +                                     θ                            n                                              x                            n                                     ,                                     θ                            i                                     ≥                         0                               \theta_1 x_1+\theta_2x_2+...+\theta_nx_n,\theta_i\ge0                   θ1x1+θ2x2+...+θnxn,θi≥0
凸包：
                                       conv                         C                         =                         {                                     θ                            1                                              x                            1                                     +                         .                         .                         .                         +                                     θ                            k                                              x                            k                                     ∣                                     x                            i                                     ∈                         C                         ,                                     θ                            i                                     ≥                         0                         ,                         i                         =                         1                         ,                         .                         .                         .                         ,                         k                         ,                                     θ                            1                                     +                         .                         .                         .                         +                                     θ                            k                                     =                         1                         }                               \textbf{conv} C = \{\theta_1x_1+...+\theta_kx_k|x_i\in C,\theta_i\ge 0,i=1,...,k,\theta_1+...+\theta_k = 1\}                   convC={θ1x1+...+θkxk∣xi∈C,θi≥0,i=1,...,k,θ1+...+θk=1}
设 CC 是一个集合，那么 CC 的凸包 conv©conv© 是包罗 CC 中所有点的最小凸集合。换句话说，conv©conv© 是包罗 CC 的所有点的最小凸集合，且没有其他凸集合包罗 CC 中的所有点。
线性组合、仿射组合与凸组合
对比一下，都是
                                                θ                            1                                              x                            1                                     +                         .                         .                         .                         +                                     θ                            k                                              x                            k                                           \theta_1x_1+...+\theta_kx_k                   θ1x1+...+θkxk
但是线性组合对                                           θ                         i                                     \theta_i                θi无要求，仿射要求                                  Σ                                  θ                         i                               =                      1                            \Sigma\theta_i=1                Σθi=1，凸组合要求                                  Σ                                  θ                         i                               =                      1                            \Sigma\theta_i=1                Σθi=1，且                                           θ                         i                               ≥                      0                            \theta_i\ge 0                θi≥0
条件越来越强。
![./凸优化问题/凸优化笔记-根本概念/

锥集

对任意                                  x                      ∈                      C                            x\in C                x∈C，都有                                  θ                      x                      ∈                      C                            \theta x\in C                θx∈C
锥的极点在原点。
凸锥====== 又凸又锥（比如一个立在原点的在最粗的地方切开的洋葱头？）
                                                θ                            1                                              x                            1                                     +                         .                         .                         .                         +                                     θ                            k                                              x                            k                                     ,                                     θ                            i                                     ≥                         0                               \theta_1x_1+...+\theta_kx_k,\theta_i\ge 0                   θ1x1+...+θkxk,θi≥0
conic combination
锥组合
锥包
                                       {                                     θ                            1                                              x                            1                                     +                         .                         .                         .                         +                                     θ                            k                                              x                            k                                     ∣                                     x                            i                                     ∈                         C                         ,                                     θ                            i                                     ≥                         0                         ,                         i                         =                         1                         ,                         .                         .                         .                         ,                         k                         }                               \{\theta_1x_1+...+\theta_kx_k|x_i\in C,\theta_i\ge 0,i=1,...,k\}                   {θ1x1+...+θkxk∣xi∈C,θi≥0,i=1,...,k}
C的锥包是能包罗C的最小的锥集
![./凸优化问题/凸优化笔记-根本概念/

超平面和半空间

超平面
                                                a                            T                                     x                         =                         b                               a^Tx = b                   aTx=b
半空间
                                       {                         x                         ∣                                     a                            T                                     x                         ≥                         b                         }                               \{x|a^Tx\ge b\}                   {x∣aTx≥b}
椭球
                                       ϵ                         =                         {                         x                         ∣                         (                         x                         −                                     x                            c                                              )                            T                                              P                                        −                               1                                              (                         x                         −                                     x                            c                                     )                         ≤                         1                         }                               \epsilon = \{x|(x-x_c)^TP^{-1}(x-x_c)\le 1\}                   ϵ={x∣(x−xc)TP−1(x−xc)≤1}
P是对称且正定的，对称轴的长度由特征值的根号给出                                                       λ                            i                                              \sqrt{\lambda_i}                λi
多面体
                                       P                         =                         {                         x                         ∣                         A                         x                         ≼                         b                         ,                         C                         x                         =                         d                         }                               P=\{x|Ax≼ b,Cx = d\}                   P={x∣Ax≼b,Cx=d}
                                       A                         =                                     [                                                                                                    a                                           1                                           T                                                                                                                               .                                                                                                                .                                                                                                                .                                                                                                                                  a                                           m                                           T                                                                                              ]                                     ,                         C                         =                                     [                                                                                                    c                                           1                                           T                                                                                                                               .                                                                                                                .                                                                                                                .                                                                                                                                  c                                           p                                           T                                                                                              ]                                           A = \begin{bmatrix}a_1^T\\.\\.\\.\\a_m^T\end{bmatrix},C = \begin{bmatrix}c_1^T\\.\\.\\.\\c_p^T\end{bmatrix}                   A=             a1T...amT             ,C=             c1T...cpT
单纯形

n维单纯形有n+1个极点，如1维线段，2维三角形，三维四面体
单位单纯形                                  x                      ⪰                      0                      ,                                  1                         T                               x                      ≤                      1                            x\succeq0,\textbf 1^Tx\le1                x⪰0,1Tx≤1 , n维度
概率单纯形                                  x                      ⪰                      0                      ,                                  1                         T                               x                      =                      1                            x\succeq 0,\textbf 1^Tx=1                x⪰0,1Tx=1, n-1维度
整半定锥

对称矩阵集合                                                 S                            n                                     =                         {                         X                         ∈                                     R                                        n                               ×                               n                                              ∣                         X                         =                                     X                            T                                     }                               S^n=\{X\in R^{n\times n}|X=X^T\}                   Sn={X∈Rn×n∣X=XT}
其维度为                                  (                      n                      +                      1                      )                      n                      /                      2                            (n+1)n/2                (n+1)n/2，可以想想有多少个独立的元素。
非负
                                                S                            +                            n                                     =                         {                         X                         ∈                                     R                                        n                               ×                               n                                              ∣                         X                         =                                     X                            T                                     ,                         X                         ⪰                         0                         }                               S^n_+=\{X\in R^{n\times n}|X=X^T,X\succeq0\}                   S+n={X∈Rn×n∣X=XT,X⪰0}
正
                                                S                            +                            n                                     +                         =                         {                         X                         ∈                                     R                                        n                               ×                               n                                              ∣                         X                         =                                     X                            T                                     ,                         X                         ≻                         0                         }                               S^n_++=\{X\in R^{n\times n}|X=X^T,X\succ 0\}                   S+n+={X∈Rn×n∣X=XT,X≻0}
convex set:都是
convex cone:                                           S                         +                         n                               +                            S^n_++                S+n+不是，因为没有0
保凸性的操作

仿射变更、凸集的交集、求和、笛卡尔内积
设有线性矩阵不等式(LMI)
                                       A                         (                         x                         )                         =                                     x                            1                                              A                            1                                     +                         .                         .                         .                         +                                     x                            n                                              A                            n                                     ⪯                         B                               A(x)=x_1A_1+...+x_nA_n\preceq B                   A(x)=x1A1+...+xnAn⪯B
其解集是convex的
仿射变更呢？
透视函数

降低维度                                  P                      :                                  R                                     n                            +                            1                                           →                                  R                         n                                     P:R^{n+1}\to R^n                P:Rn+1→Rn
可以等效为一个小孔成像摄像机
接受平面位置在                                           x                         3                               =                      −                      1                            x_3 = -1                x3=−1
小孔在原点，被测物                                           x                         1                               ,                                  x                         2                               ,                                  x                         3                                     x_1,x_2,x_3                x1,x2,x3
则相点为                                  −                      (                                  x                         1                               /                                  x                         3                               ,                                  x                         2                               /                                  x                         3                               ,                      1                      )                            -(x_1/x_3,x_2/x_3,1)                −(x1/x3,x2/x3,1)
                                       d                         o                         m                         P                         =                                     R                            n                                     ×                                     R                                        +                               +                                                    dom P = R^n\times R_{++}                   domP=Rn×R++
                                       P                         (                         z                         ,                         t                         )                         =                         z                         /                         t                               P(z,t)=z/t                   P(z,t)=z/t
如果domP中的C是凸点，他的像
                                       P                         (                         C                         )                         =                         {                         P                         (                         x                         )                         ∣                         x                         ∈                         C                         }                               P(C)=\{P(x)|x\in C\}                   P(C)={P(x)∣x∈C}
也是凸的
凸函数的条件

1阶判定条件

若f可微，当且仅当dom f凸，而且
                                       f                         (                         y                         )                         ≥                         f                         (                         x                         )                         +                         ∇                         f                         (                         x                                     )                            T                                     (                         y                         −                         x                         )                               f(y)\ge f(x)+\nabla f(x)^T(y-x)                   f(y)≥f(x)+∇f(x)T(y−x)
![./凸优化问题/凸优化笔记-根本概念/

其几何意义为函数上的点永久比某一条切线上的点高（或重合）
（该形式为泰勒一阶展开）
2阶判定条件

                                       ∇                         f                         ⪰                         0                               \nabla f \succeq 0                   ∇f⪰0
  Epigraph 外图

函数f的graph定义为
                                       {                         (                         x                         ,                         f                         (                         x                         )                         )                         ∣                         x                         ∈                         dom                                                    f                         }                               \{(x,f(x))|x\in \textbf{dom}\ f\}                   {(x,f(x))∣x∈dom f}
是                                           R                                     n                            +                            1                                              \textbf{R}^{n+1}                Rn+1的子集
其epigraph为
                                       epi                                                    f                         =                         {                         (                         x                         ,                         t                         )                         ∣                         x                         ∈                         dom                                                    f                         ,                         f                         ≤                         t                         }                               \textbf{epi}\ f=\{ (x,t) | x\in \textbf{dom} \ f,f\le t\}                   epi f={(x,t)∣x∈dom f,f≤t}
(‘Epi’ means ‘above’ so epigraph means ‘above the graph’.)
亚图为
                                       hypo                         f                         =                         {                         (                         x                         ,                         t                         )                         ∣                         x                         ∈                         dom                                                    f                         ,                         f                         ≥                         t                         }                               \textbf{hypo}f = \{ (x,t) | x\in \textbf{dom} \ f,f\ge t \}                   hypof={(x,t)∣x∈dom f,f≥t}

这个图能创建凸集和凸函数的关系。当且仅当外图(epi f)是凸的时间函数是凸的。
当且仅当亚图(hypo f)是凸的时间函数是凹的

矩阵分式函数
f ( x , Y ) = x T Y − 1 x , dom f = R n × S + + n f(x,Y) = x^TY^{-1}x,\ \ \ \textbf{dom} \ f=\textbf{R}^n\times\textbf{S}^n_{++} f(x,Y)=xTY−1x, dom f=Rn×S++n

                                       epi                         f                         =                         {                         (                         x                         ,                         Y                         ,                         t                         )                         ∣                         Y                         ≻                         0                         ,                         f                         (                         x                         ,                         Y                         )                         ≤                         t                         }                               \textbf{epi} f =\{(x,Y,t)|Y\succ0, f(x,Y)\le t \}                   epif={(x,Y,t)∣Y≻0,f(x,Y)≤t}
                                                x                            T                                              Y                                        −                               1                                              x                         ≤                         t                               x^TY^{-1}x\le t                   xTY−1x≤t
此处须要用到舒尔补（Schur complement)
                                       M                         =                                     [                                                                                  A                                                                                           B                                                                                                                C                                                                                           D                                                                               ]                                           M = \begin{bmatrix}A&B\\C&D\end{bmatrix}                   M=[ACBD]
如果A可逆，则其舒尔补为                                  D                      −                      C                                  A                                     −                            1                                           B                            D-CA^{-1}B                D−CA−1B
代入有
                                       M                         =                                     [                                                                                  Y                                                                                           x                                                                                                                                  x                                           T                                                                                                          t                                                                               ]                                     ⪰                         0                               M = \begin{bmatrix}Y&x\\x^T&t\end{bmatrix}\succeq 0                   M=[YxTxt]⪰0

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

凸优化笔记-根本概念

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云