预编码论文阅读（二）——深度学习（一）

由于没有非常系统地看完MIMO的相关内容，整理中必定有很多的问题，欢迎在评论区批评指正。

整理很乱。。。

由于网页公式渲染器KaTeX不支持公式交叉引用，我的前端水平就不足以把我这个模板加入mathjax。故将所有公式交叉引用均删除了，有的是在显示不出来的建议贴到markdown里面去吧

Beamforming Design for Large-Scale Antenna Arrays Using Deep Learning——2020

MISO-mmWave——maximizing the spectral efficiency (SE) with hardware limitation and imperfect CSI.

$r=\mathbf{h}^H\mathbf{v}_{RF}s+n$

其中， $\mathbf{v}_{RF}\in\mathbb{C}^{N_t\times 1}$

信道矩阵：

$\mathbf{h}^{H}=\sqrt{\frac{N_{\mathrm{t}}}{L}} \sum_{l=1}^{L} \alpha_{l} \mathbf{a}_{\mathrm{t}}^{H}\left(\phi_{\mathrm{t}}^{l}\right)$

其中， $L$ 条路径， $l=1$ 为LoS路径

优化问题——sum-rate problem

$\begin{aligned} \underset{\mathbf{v}_{\mathrm{RF}}}{\operatorname{max}} \quad & \log _{2}\left(1+\frac{\gamma}{N_{\mathrm{t}}}\left\|\mathbf{h}^{H} \mathbf{v}_{\mathrm{RF}}\right\|^{2}\right) \\ \text { s.t. } \quad &\left|\left[\mathbf{v}_{\mathrm{RF}}\right]_{i}\right|^{2}=1, \quad \text { for } i=1, \ldots, N_{\mathrm{t}}, \end{aligned}$

$\gamma=\frac{P}{\sigma^2}$ 是信噪比，最优的数字波束赋形 $v_D=\sqrt{\frac{P}{N_t}}$ 。约束条件由恒模约束和功率约束。

流程

通过估计的 $\mathbf{h}_{est},\gamma_{est}$ 优化RF预编码向量 $\mathbf{v}_{RF}$ 。相较于CSI， $\gamma_{est}=\gamma$

离线训练：随机生成信道（可以获得perfect CSI），输入估计的 $\mathbf{h}_{est}$ ，在BFNN中优化 $\mathbf{v}_{RF}$ 。再通过 $\mathbf{v}_{RF}$ 和perfect CSI条件下的CSI和信噪比计算Loss函数。——学习在perfect CSI获得理想频谱效率的方法，同时增强信道估计误差的鲁棒性。
在线部署：实际环境信道(imperfect CSI)估计出 $\mathbf{h}_{est},\gamma_{est}$ ，利用BFNN设计出 $\mathbf{v}_{RF}$ 。

网络结构

输入： $N_t=64$ 根发射天线，将 $N_t=64$ 个信道 $\mathbf{h}_{est}$ 的实部、虚部和估计的信噪比 $\gamma_{est}$ 作为输入 $(2N_t+1)\times 1$
每层开始前先做Batch-Norm
最后输出前通过Lambda层将其变成符合恒模约束的复数矢量 $\mathbf{v}_{RF}$ (由于sigmoid函数， $\alpha_i\in(0,1)$ )

$\mathbf{v}_{RF}=\exp(j2\pi\boldsymbol{\alpha})=\cos(2\pi\boldsymbol{\alpha})+j\sin(2\pi\boldsymbol{\alpha})$
Loss函数：越小越好

$Loss=-\frac 1N\sum_{n=1}^N\log_2\left(1+\frac{\gamma_n}{N_t}\left\|\mathbf{h}_n^H\mathbf{v}_{RF,n} \right\|^2\right)$

算法复杂度

每一层的浮点数运算次数是 $(2N_I-1)N_O$ ， $N_I$ 是输入参数个数， $N_O$ 是输出参数个数。且可以使用并行运算。

仿真

见BFNN中ffbn_v2.py为pytorch的实数运算版本，ffbn_test.py为测试。ffbn_complex为复数运算版本。

注意： $\log_2(A)$ 使用换底公式通过 $\frac{\log(A)}{\log(2)}$ 实现。

Contribution

新的设计方法：利用估计的CSI作为BFNN输入，直接输出最优beamforming权值。估计的信道矩阵 $\mathbf{h}_{\mathrm{est}}$ ,估计的信噪比 $\gamma_{\text {est }}$ 作为输入。
新颖的Loss函数：在作者的设计中不需要标签，创新性地提出了与SE十分相关的一个Loss函数

$\text { Loss }=-\frac{1}{N} \sum_{n=1}^{N} \log _{2}\left(1+\frac{\gamma_{n}}{N_{\mathrm{t}}}\left\|\mathbf{h}_{n}^{H} \mathbf{v}_{\mathrm{RF}, n}\right\|^{2}\right)$

Loss函数的减少正好对应着平均SE的增加
对于非理性CSI的鲁棒性：提出了一种两阶段设计方法，利用估计的CSI作为输入，让BFNN学会接近理想CSI下的SE。在线部署阶段，BFNN能够适应非理性CS实现对信道估计误差的鲁棒性。
Lamda层满足恒模约束：经典的、完美的欧拉公式

$\mathbf{v}_{\mathrm{RF}}=\exp (\mathrm{j} \cdot \boldsymbol{\theta})=\cos (\boldsymbol{\theta})+{j} \cdot \sin (\boldsymbol{\theta})$

将相位 $\boldsymbol{\theta}$ 作为在最后一个Dense层的输出，然后添加一个基于欧拉公式的Lamda层满足恒模约束。

改进思路

略

A Deep Learning Framework for Optimization of MISO Downlink Beamforming——2020【是否可以改成transfer？共用前面网络层的参数】-TCOMM

有约束！

MU-MISO

$y_k=\mathbf{h}_k^H\sum_{i=1}^K\mathbf{w}_ix_i+n_k$

其中， $\mathbf{h}_k\in \mathbb{C}^{N\times 1}$ ， $x_i\sim\mathcal{CN}(0,1),n_i\sim\mathcal{CN}(0,\sigma^2)$

本文解决的问题：(P1、P2可以解得最优解，可采用监督学习；P3非凸，无最优解)

SINR balancing problem under a total power constraint,

$\begin{aligned} \mathbf{P1:}\underset{\mathbf{W}}{\operatorname{maximize}} \quad & \min_{1 \leq k \leq K}\left\{ \frac{\gamma_{k}^{d l}}{\rho_{k}}\right\}, \\ \text { s.t. } \quad&\sum_{k=1}^{K}\left\|\mathbf{w}_{k}\right\|^{2} \leq P_{\max } \end{aligned}$

$\rho_k$ 是importance of the sub-streams， $\mathbf{W}=[\mathbf{w_1,w_2,\cdots,w_K}]$ ， $P_{\max}$ 是power budget
power minimization problem under QoS(Quality of Service) constraints,

$\begin{aligned} \mathbf{P2:}\min_{\mathbf{W}} \quad& \sum_{k=1}^K||\mathbf{w}_k||^2\\ \mathrm{s.t.}\quad&\gamma_k^{dl}\ge \Gamma_k,\forall k. \end{aligned}$

$\boldsymbol{\Gamma}=[\Gamma_1,\cdots,\Gamma_K]^T$ 是SINR constraint
sum rate maximization problem under a total power constraint.

$\begin{aligned} \mathbf{P3:}\max_{\mathbf{W}}\quad&\sum_{k=1}^K\alpha_k\log_2(1+\gamma_k^{dl})\\ \mathrm{s.t.}\quad&\sum_{k=1}^{K}\left\|\mathbf{w}_{k}\right\|^{2} \leq P_{\max } \end{aligned}$

网络框架

A DL-based framework for the beamforming optimization in MISO downlink, which includes two main modules: the neural network module and the beamforming recovery module. The neural network module is composed of an input layer, convolutional (CL) layers, batch normalization (BN) layers, activation (AC) layers, a flatten layer, a fully-connected (FC) layer, and an output layer, whereas the key features and the functional layers in the beamforming recovery module are specified by the expert knowledge.

输入层： $\mathbf{h}=[\mathbf{h}_1^H,\cdots,\mathbf{h}_K^H]^H\in\mathbb{C}^{NK\times1}$ –>I/Q transformation–> $[\mathfrak{R}(\mathbf{h}),\mathfrak{I}(\mathbf{h})]^T\in\mathbb{R}^{2\times NK}$
本文，BN在CONV前进行
MSE loss对异常值敏感，但数据集由仿真产生，故仍采用MSE
比起完全预测整个BF矩阵，专家知识可以有效减小需要预测的变量

P1（功率约束下SINR平衡）的网络——supervised

通过 $\mathbf{h}$ 预测上行链路power allocation矢量 $\mathbf{\hat q}$ （最优值通过迭代获得【ai2-12】），再通过上行链路-下行链路二元性，得到下行链路的最优功率分配矢量 $\mathbf{p}^*$ 和BF矢量 $\mathbf{\tilde W}^*$ ，有 $\mathbf{W}^*=\mathbf{\tilde W}^*\mathbf{P}^*$

除了最后一个激活函数为Sigmoid，其它均为ReLU
Scaling——满足功率限制

$\mathbf{\hat q}^*=\frac{P_{\max}}{||\mathbf{\hat q}||_1}\mathbf{\hat q}$
conversion——由 $\mathbf{\hat q}^*$ 求 $\mathbf{\hat W}^*$
Loss函数采用MSE度量

P2（服务质量约束下功率最小）的网络

同样，通过 $\mathbf{h}$ 预测上行链路power allocation矢量 $\mathbf{\hat q}$ （最优值通过迭代获得【ai2-5】），再通过上行链路-下行链路二元性，得到下行链路的最优功率分配矢量 $\mathbf{p}^*$ 和BF矢量 $\mathbf{\tilde W}^*$ ，有 $\mathbf{W}^*=\mathbf{\tilde W}^*\mathbf{P}^*$ 。但无功率约束，不需要上行链路power allocation矢量归一化。

conversion
与P1不同，当 $\mathbf{\hat q}^*$ 与实际优化值 $\mathbf{q}^*$ 相差过大时，会导致 $\mathbf{\hat p}^*$ 不符合物理规律从而导致波束成型不可行

P3（功率约束下SR最高）的网络

Sum-rate优化问题没有最优解。

第一阶段先通过监督学习逼近传统WMMSE算法的局部最优解，称为“预训练”

$Loss=\frac{1}{2LK}\sum_{l=1}^L\left(\left\|\mathbf{\underline p}^{(l)}-\mathbf{\hat p}^{(l)}\right\|_2^2+\left\|\boldsymbol{\underline \lambda}^{(l)}-\boldsymbol{\hat \lambda}^{(l)}\right\|_2^2\right)$

其中， $\mathbf{p}$ 是BF的功率分配矢量， $\boldsymbol{\lambda}$ 是lagrange乘子，可以看作虚拟的功率分配矢量。
第二阶段直接计算这个算法的优化目标函数作为loss，进行无监督学习。

$\text { Loss }=-\frac{1}{2 K L} \sum_{l=1}^{L} \underbrace{\sum_{k=1}^{K} \alpha_{k}^{(l)} \log _{2}\left(1+\gamma_{k}^{u l,(l)}\right)}_{sum-rate}$
分两个阶段的作用：显著增强学习效果，加快收敛。（杨神：？）
scaling——满足功率约束， $2K$ 个参数

$\mathbf{\hat p}^*=\frac{P_{\max}}{||\mathbf{\hat p}||_1}\mathbf{\hat p}\quad\text{and}\quad\boldsymbol{\hat \lambda}^*=\frac{P_{\max}}{||\boldsymbol{\hat \lambda}||_1}\boldsymbol{\hat \lambda}$
construction—— $P_{\max}$ 和 $\sum_{k=1}^K\lambda_i=P_{\max}$ 是lagrange对偶问题【ai2-2】

$\hat{\mathbf{w}}_{k}^{*}=\sqrt{\hat{p}_{k}^{*}} \frac{\left(\mathbf{I}_{N}+\sum_{k=1}^{K} \frac{\hat{\lambda}_{k}^{*}}{\sigma^{2}} \mathbf{h}_{k} \mathbf{h}_{k}^{H}\right)^{-1} \mathbf{h}_{k}}{\left\|\left(\mathbf{I}_{N}+\sum_{k=1}^{K} \frac{\hat{\lambda}_{k}^{*}}{\sigma^{2}} \mathbf{h}_{k} \mathbf{h}_{k}^{H}\right)^{-1} \mathbf{h}_{k}\right\|_{2}}, \quad \forall k$

仿真

contributions

所提出的框架利用了专家知识，如上行链路和下行链路的二元性以及已知的最佳解决方案的结构。这种知识通过允许人们指定要学习的最佳参数来提高精简效率；这些参数通常不是波束成形矩阵条目。

改进思路——针对SR的思考

略

Deep Learning Enabled Optimization of Downlink Beamforming Under Per-Antenna Power Constraints: Algorithms and Experimental Demonstration——2020-TWC

三类DL处理的问题：

One of the areas of interest is to deal with scenarios in which the channel
model does not exist, 传统信道模型不存在
Another area of interest is to optimize the end-to-end system performance，对端到端系统的优化
The third area of interest is to overcome the complexity of wireless networks，无线网络的复杂度问题

在上一篇文章的基础上增加了单天线约束（过去大部分文章讨论MU-MISO，即基站多天线用户单天线问题）

在基站侧单天线功率约束下，最大化最小接收信干噪比或平衡信干噪比

——独立的非频选瑞利快衰落

波束赋形矩阵： $\mathbf{W}=[\mathbf{w_1,w_2,\cdots,w_K}]\in\mathbb{C}^{N_t\times K}$ 。单天线约束为

$p_n=\left\|\mathbf{W}(n,:) \right\|^2=\left\|\mathbf{e}_n\mathbf{W} \right\|^2$

其中， $\mathbf{e}_n$ 是除了第 $n$ 个元素为1外的零矢量。

单天线约束下的SINR balancing问题：

$\begin{aligned} \textbf { P1: } \max _{\mathbf{W}, \Gamma} \quad &\Gamma \\ \text { s.t. }\quad& \gamma_{k} =\frac{\left|\mathbf{h}_{k}^{T} \mathbf{w}_{k}\right|^{2}}{\sum_{i=1, i \neq k}^{K}\left|\mathbf{h}_{k}^{T} \mathbf{w}_{i}\right|^{2}+N_{0}} \geq \Gamma, \quad \forall k, \\ & p_{n} =\left\|\mathbf{e}_{n}^{T} \mathbf{W}\right\|^{2} \leq P_{n}, \quad \forall n . \end{aligned}$

通过广义特征值算法，可以转化为问题P2

$\begin{aligned} \mathbf{P 2}: \max _{\beta, \boldsymbol{\lambda}, \boldsymbol{\mu}}\quad & \beta \\ \text { s.t. } \quad&\beta \lambda_{k} \mathbf{h}_{k}^{T} \mathbf{G}(\boldsymbol{\lambda}, \boldsymbol{\mu})^{-1} \mathbf{h}_{k}^{*} \leq 1, \quad \forall k, \\ & \sum_{k=1}^{K} \lambda_{k} N_{0}=1, \\ & \sum_{n=1}^{N_{t}} \mu_{n} P_{n}=1, \\ & \boldsymbol{\lambda}, \boldsymbol{\mu}, \beta \geq \mathbf{0} . \end{aligned}$

其中， $\mathbf{G}(\boldsymbol{\lambda}, \boldsymbol{\mu})\triangleq\sum_{i=1}^K\lambda_i\mathbf{h}_i^*\mathbf{h}_i^T+diag(\boldsymbol{\mu})$ ，

$\boldsymbol{\lambda}\in\mathbb{Z}^K$ 与SINR约束相关,
$\boldsymbol{\mu}\in\mathbb{Z}^{N_t}$ 与单天线约束相关，

$\beta=1+\frac{1}{\Gamma}$ 。

The optimal downlink beamforming problem P2 with per-antenna power constraints can be solved via a dual uplink channel in which the SINR constraints remain the same and the noise is uncertain. 通过对偶性转化成上行链路问题P3 $\max_{\boldsymbol{\mu}}\max_{\Gamma,\boldsymbol{\lambda}} \Gamma$ ，P3是两个max嵌套，内层的max是 $\mathbf{u}$ 的函数，先求解内层问题P4 $f(\mathbf{u})=\max_{\Gamma,\boldsymbol{\lambda}} \Gamma$ ，再通过subgradient算法，求解外层关于 $\boldsymbol{\mu}$ 的问题。

流程

two strategies：

one is to learn the dual variables μ and λ with fast recovery of the original beamforming solution,——算法类似A2，但不需要更新
the other is to learn only the dual variable μ with improved learning accuracy, to achieve various tradeoffs.——只通过神经网络估计 $\boldsymbol{\mu}$ ，而 $\boldsymbol{\lambda}$ 通过算法1求解，可以更精确

DL结构的一般性：由于用户数量 $K$ 和发射天线数量 $N_t$ 会发生变化，所以要采取相应措施保证其泛化能力。

Transfer learning——【ai3-52】
training set augmentation（训练集扩大）——训练集中样本的 $N_t,K$ 不固定，但是输入输出固定为 $2\times N_t'K'$ 和 $K'$ ， $N_t'>N_t,K'>K$ ，多的补零。（杨神：？）

仿真

本文提出的和优化算法针对信道估计误差是鲁棒的。

当 $N_t\geq K$ 则ZF需要解决复杂度更高的SOCP问题。

Contributions

提出了subgradient算法，收敛更快
提出了学习双变量的DL框架
开发了一种启发式算法，通过数据augmentation适应不同的用户数和天线数，提高泛化能力（？）
testbed实验

IAIDNN——2021-TWC

Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding Design for Multiuser MIMO Systems

本文部分链接和引用没法用，链接的是预编码论文阅读（一）中迭代的那篇文章“An Iteratively Weighted MMSE Approach to Distributed Sum-Utility Maximization for a MIMO Interfering Broadcast Channel”

建模同文章“An Iteratively Weighted MMSE Approach to Distributed Sum-Utility Maximization for a MIMO Interfering Broadcast Channel”

深度展开网络的搭建

优化问题（目标函数）：

$\min_\mathbf{X}\quad \mathbb{E}_\mathbf{Z}\{f(\mathbf{X};\boldsymbol{\theta},\mathbf{Z})\},\quad\text{s.t.}\ \mathbf{X}\in\mathcal{X}$

其中， $\boldsymbol{\theta}$ 是可以训练的参数， $\mathbf{X}$ 是变量， $\mathbf{Z}$ 是随机参数
前向传播：

$\mathbf{X}^l=\mathcal{F}_l(\mathbf{X}^{l-1};\boldsymbol{\theta},\mathbf{Z})$

在本文中，前向传播的模型为

$\mathbf{X}^l=\bar{\mathbf{A}}\mathbf{X}^{l-1}\bar{\mathbf{B}}\mathbf{X}^{l-1}\bar{\mathbf{C}}+\varphi(\bar{\mathbf{A}}\mathbf{X}^{l-1}\bar{\mathbf{B}}\mathbf{X}^{l-1}\bar{\mathbf{C}})\bar{\mathbf{D}}$
反向传播：GCR in Matrix Form（更一般的链式法则）

$\begin{aligned} &\operatorname{Tr}\left\{\mathbf{G}^{l} d \mathbf{X}^{l}\right\} \\ &\stackrel{(5)}{=} \operatorname{Tr}\left\{\left(\overline{\mathbf{B}} \mathbf{X}^{l-1} \overline{\mathbf{C}} \mathbf{G}^{l}\left(\overline{\mathbf{D}} \circ \varphi^{\prime}\left(\overline{\mathbf{A}} \mathbf{X}^{l-1} \overline{\mathbf{B}} \mathbf{X}^{l-1} \overline{\mathbf{C}}\right)^{T}+\mathbf{I}\right) \overline{\mathbf{A}}\right.\right. \\ &\left.\left.\quad+\overline{\mathbf{C}} \mathbf{G}^{l}\left(\overline{\mathbf{D}} \circ \varphi^{\prime}\left(\overline{\mathbf{A}} \mathbf{X}^{l-1} \overline{\mathbf{B}} \mathbf{X}^{l-1} \overline{\mathbf{C}}\right)^{T}+\mathbf{I}\right) \overline{\mathbf{A}} \mathbf{X}^{l-1} \overline{\mathbf{B}}\right) d \mathbf{X}^{l-1}\right\} \end{aligned}$

$\mathbf{G}^l$ 是 $\mathbf{X}^l$ 的梯度， $\circ$ 是element-wise。
**该网络的创新点：**In comparison with applying the platforms such as “Pytorch” and “Tensorflow” to do the BP, the GCR has three advantages
- The platforms cannot do BP for the complex trainable parameters;
- There are some operations these platforms cannot do, such as the inversion and the determinant of a complex matrix;
- Based on the GCR, the closed-form gradients are obtained, which is more accurate and provides faster convergence speed compared with the automatic differential of the platforms.
- Then, based on the GCR presented in Theorem 1, the gradient in each layer, i.e., $\{\mathbf{G}^l,l\in\mathcal{L}\}$ is obtained. Finally, the gradient of trainable parameter $\boldsymbol{\theta}^l$ is calculated based on $\mathbf{G}^l$ .

IWMMSE算法的转换

将功率限制，考虑到\eqref{eq:2-1}的目标函数中，考虑无约束的SR问题(13)

$\begin{aligned} \max _{\left\{\mathbf{V}_{k}\right\}} \quad& \sum_{k=1}^{K} \omega_{k} \log \operatorname{det}\left(\mathbf{I}+\mathbf{H}_{k} \mathbf{V}_{k} \mathbf{V}_{k}^{H} \mathbf{H}_{k}^{H}\right.\\ &\left.\left(\sum_{m \neq k} \mathbf{H}_{k} \mathbf{V}_{m} \mathbf{V}_{m}^{H} \mathbf{H}_{k}^{H}+\frac{\sigma_{k}^{2}}{P_{T}} \sum_{n=1}^{K} \operatorname{Tr}\left(\mathbf{V}_{n} \mathbf{V}_{n}^{H}\right) \mathbf{I}\right)^{-1}\right) \end{aligned}$

式\eqref{eq:ai4-13}的最优解 $\mathbf{V}^{\star\star}$ 和式\eqref{eq:2-1}的最优解 $\mathbf{V}^{\star}$ 存在关系:

$\mathbf{V}_k^{\star}=\alpha\mathbf{V}_k^{\star\star},\quad\alpha=\frac{\sqrt{P_T}}{\left(\sum_{k=1}^K Tr(\mathbf{V}_k^{\star\star}(\mathbf{V}_k^{\star\star})^H) \right)^{\frac12}}$

进一步考虑，MMSE问题和WSR问题的同一性，将问题就转换成了无约束的MMSE问题

$\min _{\left\{\mathbf{W}_{k}, \mathbf{U}_{k}, \mathbf{V}_{k}\right\}} \sum_{k=1}^{K} \omega_{k}\left(\operatorname{Tr}\left(\mathbf{W}_{k} \mathbf{E}_{2, k}\right)-\log \operatorname{det}\left(\mathbf{W}_{k}\right)\right)$

其中，

$\begin{aligned} &\mathbf{E}_{2, k} \triangleq\left(\mathbf{I}-\mathbf{U}_{k}^{H} \mathbf{H}_{k} \mathbf{V}_{k}\right)\left(\mathbf{I}-\mathbf{U}_{k}^{H} \mathbf{H}_{k} \mathbf{V}_{k}\right)^{H} \\ &+\sum_{m \neq k} \mathbf{U}_{k}^{H} \mathbf{H}_{k} \mathbf{V}_{m} \mathbf{V}_{m}^{H} \mathbf{H}_{k}^{H} \mathbf{U}_{k}+\frac{\sum_{n=1}^{K} \operatorname{Tr}\left(\mathbf{V}_{n} \mathbf{V}_{n}^{H}\right)}{P_{T}} \sigma_{k}^{2} \mathbf{U}_{k}^{H} \mathbf{U}_{k} \end{aligned}$

算法流程图：

与上述分析的深度展开网络中参数的对照：

$\begin{aligned} \mathbf{X}\equiv&\left\{\mathbf{W}_k,\mathbf{U}_k,\mathbf{V}_k,\forall k\in\mathcal{K} \right\}\\ \mathbf{Z}\equiv&\left\{\mathbf{H}_k,\omega_k,\sigma_k,P_T,\forall k\in\mathcal{K} \right\} \end{aligned}$

迭代过程：

$\begin{aligned} \mathbf{U}^t=&F_t(\mathbf{V}^{t-1})\\ \mathbf{W}^t=&G_t(\mathbf{U}^t,\mathbf{V}^{t-1})\\ \mathbf{V}^t=&J_t(\mathbf{U}^t,\mathbf{W}^t) \end{aligned}$

IAIDNN(iterative algorithm induced Deep-Unfolding Neural Network)

前向传播

减小矩阵求逆的计算量的两种途径
- 用 $\mathbf{A}^+=(\mathbf{A}\circ\mathbf{I})^{-1}$ 逼近 $\mathbf{A}^{-1}$ ，因为对角元比非对角元大得多=>训练 $\mathbf{A^+X}$ 中的 $\mathbf{X}$
- 用 $\mathbf{A}^{-1}$ 的一阶taylor展开 $2\mathbf{A}_0^{-1}-\mathbf{A}_0^{-1}\mathbf{AA}_0^{-1}$ 逼近=>训练 $\mathbf{AY+Z}$ 中的 $\mathbf{Y,Z}$
- 【？】用 $\mathbf{A^+X+AY+Z}$ 来逼近 $\mathbf{A}^{-1}$
迭代算法中 $\mathbf{U,W,V}$ 的估计均用此法估计，同时 $\mathbf{U,V}$ 的估计还有训练补偿(offset) $\left\{\mathbf{O}_k^{u,l+1},\mathbf{O}_k^{v,l+1} \right\}$
$\mathbf{V}$ 的维数比 $\mathbf{U,W}$ 的维数大得多，将 $\mathbf{U,W}$ 作为网络的输出，将 $\mathbf{V}$ 对 $\mathbf{U,W}$ 的表达式作为网络的Loss
Loss函数：

$\max _{\left\{\mathbf{V}_{k}\right\}} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{H}_{k}}\left\{\omega_{k} \log \operatorname{det}\left(\mathbf{I}+\mathbf{H}_{k} \mathbf{V}_{k} \mathbf{V}_{k}^{H} \mathbf{H}_{k}^{H}\left(\sum_{m \neq k} \mathbf{H}_{k} \mathbf{V}_{m} \mathbf{V}_{m}^{H} \mathbf{H}_{k}^{H}+\frac{\sigma_{k}^{2}}{P_{T}} \sum_{k} \operatorname{Tr}\left(\mathbf{V}_{k} \mathbf{V}_{k}^{H}\right) \mathbf{I}\right)^{-1}\right)\right\}$

反向传播

反向传播不直接对训练参数进行计算，而先对中间的迭代变量进行计算！

对迭代变量 $\mathbf{U,W,V}$ $U, W, V$ 的梯度：
- 最后一层由目标函数代入 $\mathbf{V}_k^L$ 的表达式，对 $\mathbf{U_k^L,W_k^L}$ 求梯度 $\mathbf{G_k^{u,L}},\mathbf{G_k^{v,L}}$
- 中间层由GCR算法，从 $l+1$ 层的对 $\mathbf{U,W,V}$ 的梯度计算得到 $l$ 层的梯度
进一步通过链式法则求解出训练参数的梯度
采取梯度下降方法训练网络
初始值的选定：训练参数随机初始化； $\mathbf{V}^0_k$ 用ZF初始化

算法流程

benchmark——CNN

类似【ai2】，

输入： $\mathbf{H}\triangleq [\mathbf H_1^T,\mathbf H_2^T,\cdots,\mathbf H_k^T]^T$
输出： $\mathbf{U_k,W_k}$
流程：
- 监督：先逼近传统的WMMSE，用求 $\mathbf{U,W}$ 的MSE作为loss
- 无监督：再用代入 $\mathbf V_k$ 的SR作为loss

分析

参数
- IAIDNN的参数维度取决于需要训练的参数 $\left\{\mathbf X_k^{u,l},\mathbf Y_k^{u,l},\mathbf Z_k^{u,l},\mathbf O_k^{u,l}\right\}$ , $\left\{\mathbf X_k^{w,l},\mathbf Y_k^{w,l},\mathbf Z_k^{w,l}\right\}$ , $\left\{\mathbf X_k^{v,l},\mathbf Y_k^{v,l},\mathbf Z_k^{v,l},\mathbf O_k^{v,l}\right\}$ ，最后一层无 $\mathbf V$ 相关的参数
  
  $\begin{aligned} \text{普通中间层：}&\left(3 N_{r}^{2}+3 d^{2}+3 N_{t}^{2}+d N_{r}+d N_{t}\right) K\\ \text{最后一层：}&L K\left(3 N_{r}^{2}+3 d^{2}+d N_{r}\right)+(L-1) K\left(3 N_{t}^{2}+d N_{t}\right) \end{aligned}$
- CNN
  
  $\sum_{l=1}^{L-2} S_{l}^{2} C_{l-1} C_{l}+K N_{r} N_{t} C_{L-2} C_{\text {out }}$
  
  卷积核 $S_l=5$ ，通道数 $C_l=32$ ，全连接层输出 $C_{out}=1024$
复杂度
- 传统WMMSE需要迭代 $L_W$ 次，但IAIDNN只有 $L_a$ 层， $L_a\ll L_w$
- 相比传统的矩阵求逆需要 $\mathcal{O}(n^3)$ ，本文中的近似只需要 $\mathcal{O}(n^{2.37})$
- IAIDNN的闭式梯度比传统黑箱CNN训练时间更短、效果更好
泛化能力
- 同【ai3】可以训练 $(N_{t0},N_{r0},K_0)$ 的网络，但实际情景 $(N_{t1},N_{r1},K_1)$ 时， $(N_{t1}<N_{t0},N_{r1}<N_{t0},K_1<K_{0})$ 也是可行的（这篇文章我觉得时可行的，因为都是矩阵运算）
- 同【ai1】可以训练在不同 $P_T,\sigma_k$ 环境下的 $\mathbf V$ ，以增强鲁棒性

Contributions

We propose a framework for deep-unfolding, where the general form of IAIDNN is developed in matrix form to better solve the problems in communication systems. To train the IAIDNN, the GCR is proposed to calculate the gradients of the trainable parameters.
We implement the proposed deep-unfolding framework to solve the sum-rate maximization problem for precoding design in MU-MIMO systems. Based on the structure of the iterative WMMSE algorithm, an efficient IAIDNN is developed, where the iterative WMMSE algorithm is unfolded into a layer-wise structure.
We analyze the computational complexity and generalization ability of the proposed schemes. Simulation results show that the proposed IAIDNN efficiently achieves the performance of the iterative WMMSE algorithm with reduced computational complexity. The contribution becomes more significant in a massive MU-MIMO system.

model-driven

反向传播——矩阵形式的广义链式法则

DL-DSC-FDD-Massive-MIMO——2021-TWC

Deep Learning for Distributed Channel Feedback and Multiuser Precoding in FDD Massive MIMO——imperfect CSI

MU-MISO

$\begin{aligned} \underset{\tilde{\mathbf{X}},\left\{\mathcal{F}_{k}(\cdot)\right\}_{\forall k}, \mathcal{P}(\cdot)}{\operatorname{maximize}} \quad & \sum_{k=1}^{K} \log _{2}\left(1+\frac{\left|\mathbf{h}_{k}^{H} \mathbf{v}_{k}\right|^{2}}{\sum_{j \neq k}\left|\mathbf{h}_{k}^{H} \mathbf{v}_{j}\right|^{2}+\sigma^{2}}\right) \\ \text { subject to } \quad & \mathbf{V}=\mathcal{P}\left(\left[\mathbf{q}_{1}^{T}, \ldots, \mathbf{q}_{K}^{T}\right]^{T}\right) \\ & \mathbf{q}_{k}=\mathcal{F}_{k}\left(\mathbf{h}_{k}^{H} \widetilde{\mathbf{X}}+\widetilde{\mathbf{z}}_{k}\right), \quad \forall k \\ & \operatorname{Tr}\left(\mathbf{V} \mathbf{V}^{H}\right) \leq P \\ &\left\|\widetilde{\mathbf{x}}_{\ell}\right\|_{2}^{2} \leq P, \quad \forall \ell \end{aligned}$

其中， $\tilde{\mathbf{X}}$ 是下行链路训练导频， $\mathcal{F}_k:\mathbb{C}^{1\times L}\to \{\pm 1\}^B$ 表示第 $k$ 个用户的反馈策略， $\mathbf{q}_k$ 是 $B$ 位反馈比特用于帮助设计预编码矩阵。 $\mathcal{P}:\{\pm 1\}^{KB}\to \mathbb{C}^{M\times K}$ 表示下行链路预编码策略。

分布式信源编码

网络结构

downlink training and uplink feedback phase
downlink data transmission phase

流程

前向传播

Downlink Pilot Training：训练参数 $\widetilde{\mathbf X}$
- 作为全连接层，训练导频 $\tilde{\mathbf{X}}$ 看成权重矩阵，bias看作0，加上一个 $\sigma^2$ 的加性噪声
Uplink Feedback：（用户侧）参数 $\Theta_\text{R}^{(k)}=\left\{\mathbf W_r^{(k)},\mathbf b_r^{(k)} \right\}_{r=1}^R$
- 输入：
  
  $\bar{\mathbf y}_k\triangleq[\Re{(\tilde{\mathbf y}_k)},\mathcal{I} (\tilde{\mathbf y}_k)]$
- 中间层采用ReLU，最后一层用符号函数
  
  $\mathbf{q}_k=sgn\left(\mathbf W_R^{(k)}\sigma_{R-1}\left(\cdots\sigma_1\left(\mathbf W_1\bar{\mathbf y}_k+\mathbf b_1^{(k)}\right)\cdots\right)+\mathbf b_R^{(k)}\right)$
Downlink Precoding Design: （BS侧）参数 $\Theta_\text{T}=\left\{\mathbf W_t,\mathbf b_t \right\}_{t=1}^T$
- 输出：
  
  $\mathbf v=\left[vec(\Re{(\mathbf V)})^T,vec(\mathcal{I} (\mathbf V))^T\right]T$
- 中间层采用ReLU，最后一层则需要功率约束，对功率进行归一化 $\tilde\sigma_T(\bullet)=\sqrt{P}\frac{\bullet}{\left\|\bullet\right\|_2}$
  
  $\mathbf v=\tilde \sigma_{T}\left(\tilde{\mathbf W}_T^{(k)}\tilde \sigma_{T-1}\left(\cdots\tilde \sigma_1\left(\tilde {\mathbf W}_1\bar{\mathbf y}_k+\tilde{\mathbf b}_1^{(k)}\right)\cdots\right)+\tilde{\mathbf b}_T^{(k)}\right)$
Loss函数：对信道矩阵 $\mathbf H$ 和下行链路训练阶段的噪声 $\tilde{\mathbf z}$ 做期望

$\max _{\tilde{\mathbf{x}},\{\Theta_{\mathrm{R}}^{(k)}\}_{k=1}^{K}, \Theta_{\mathrm{T}}} \mathbb{E}_{\mathbf{H}, \tilde{\mathbf z}}\left[\sum_{k} \log _{2}\left(1+\frac{\left|\mathbf{h}_{k}^{H} \mathbf{v}_{k}\right|^{2}}{\sum_{j \neq k}\left|\mathbf{h}_{k}^{H} \mathbf{v}_{j}\right|^{2}+\sigma^{2}}\right)\right]$

反向传播

随机梯度下降SGD
针对用户侧最后一步二值化，采用slope annealing(斜率退火)的sigmoid-adjusted straight-through(sigmoid调节直通)——用sigmoid函数去表示二值函数，从而使其可微

$sgn(u)\to 2\,\mathrm{sigmoid}(\alpha^{(i)}u)-1=\frac{2}{1+\exp(-\alpha^{i}u)}-1$

其中， $\alpha^{(i)}$ 是第 $i$ 个epoch中的退火因子， $\alpha^{(i)}\geq\alpha^{(i-1)}$

算法流程

用户侧和BS侧均为 $R=T=4$ 层网络，用户侧 $[1024,512,256,B]$ ，BS侧 $[1024,512,512,2MK]$

泛化能力（🌟）

B（反馈的编码位数）
- 用户侧通过tanh输出 $S$ 个 $[-1,1]$ 间的软二进制值，通过一定的 $Q-bit$ 量化方式，传送到BS侧（ $B=S\times Q$ ，原来是传递B位二进制值，现在改为S位Q进制值）——相当于在用户侧DNN输出后加了个量化器
- BS侧根据 $KS$ 个Q进制量化的值，映射到 $M\times K$ 的预编码矩阵（原来是通过 $KB$ 个二进制 $\{\pm1\}$ 量化值映射到 $M\times K$ 的预编码矩阵）
K（用户数量）
- 每个用户信道分布i.i.d.，则只需要训练一个用户侧的DNN
- 分两个阶段：先利用单用户系统，训练导频 $\tilde{\mathbf X}$ 和用户侧的网络；再针对多用户系统（训练导频和用户侧网络复制）训练BS侧网络。

仿真

基准算法

训练的DNN具备减小频分双工多用户系统用户间干扰的能力
先估计后量化信道参数是有限导频长度下的次优解
导频长度长，能逼近最优解，且本文方法的SR一般更高

$L_p$ 的泛化能力

训练集和测试集的不匹配，会导致表现恶化
在更大范围的信道参数上训练DNN，能在无关于信道参数的先验条件时帮助我们设计更鲁棒的网络。

$B$ 的泛化能力

通过上面的设计，只有微不足道的损失。但同时能帮助神经网络提升在反馈容量方面的泛化能力。

$K$ 的泛化能力

DNN远好于其它有限下行链路训练资源
两步实现和end-to-end差异不大

预编码论文阅读（二）——深度学习（一）

Beamforming Design for Large-Scale Antenna Arrays Using Deep Learning——2020

流程

网络结构

算法复杂度

仿真

Contribution

改进思路

A Deep Learning Framework for Optimization of MISO Downlink Beamforming——2020【是否可以改成transfer？共用前面网络层的参数】-TCOMM

网络框架

P1（功率约束下SINR平衡）的网络——supervised

P2（服务质量约束下功率最小）的网络

P3（功率约束下SR最高）的网络

仿真

contributions

改进思路——针对SR的思考

Deep Learning Enabled Optimization of Downlink Beamforming Under Per-Antenna Power Constraints: Algorithms and Experimental Demonstration——2020-TWC

单天线约束下的SINR balancing问题：

流程

仿真

Contributions

IAIDNN——2021-TWC

深度展开网络的搭建

IWMMSE算法的转换

IAIDNN(iterative algorithm induced Deep-Unfolding Neural Network)

前向传播

反向传播

算法流程

benchmark——CNN

分析

Contributions

DL-DSC-FDD-Massive-MIMO——2021-TWC

网络结构

流程

前向传播

反向传播

算法流程

泛化能力（🌟）

仿真

基准算法

LpL_pLp​的泛化能力

BBB的泛化能力

KKK的泛化能力

$L_p$ 的泛化能力

$B$ 的泛化能力

$K$ 的泛化能力