预编码论文阅读（三）——深度学习（二）

由于没有非常系统地看完MIMO的相关内容，整理中必定有很多的问题，欢迎在评论区批评指正。

整理很乱。。。

由于网页公式渲染器KaTeX不支持公式交叉引用，我的前端水平就不足以把我这个模板加入mathjax。故将所有公式交叉引用均删除了，有的是在显示不出来的建议贴到markdown里面去吧

Transfer learning/Meta Learning+online learning【迁移学习、元学习】——2021-TWC

Transfer Learning and Meta Learning-Based Fast Downlink Beamforming Adaptation

提出背景——传统深度学习方法无法很好处理训练集和测试集的mismatch

Transfer learning is a promising technique to deal with the task mismatch issue experienced in the practical wireless communication systems due to its ability to transfer the useful prior knowledge to a new scenario [27].
Another efficient way to deal with the task mismatch issue is meta-learning, which aims to improve the learning ability by leveraging
the different but related training and testing data [30].Meta Learning中希望把超参数，如网络结构，参数初始化，优化器等由机器自行设计（注：此处区别于AutoML，迁移学习（Transfer Learning）和终身学习（Life Long Learning）），使网络有更强的学习能力和表现。

解决的任务——SINR balancing problem under a total power constraint

通过上行链路-下行链路对偶性，可以先求上行链路的功率分配矢量 $\mathbf q$

Loss采用MSE

$Loss_{\mathbb{D}}(\theta)=\frac 1N\sum_{i=1}^N\left\|\hat{\mathbf q}^{(i)}(\theta)-{\mathbf q}^{(i)} \right\|_2^2$

离线训练算法

joint training

Transfer Learning

先在分布不同的训练集下训练，再固定前 $L-1$ 层，在有限样本的优化集下训练第 $L$ 层

Meta learning

一文入门元学习（Meta-Learning）（附代码） - 知乎 (zhihu.com)

构建很多N-ways，K-shot的任务，每个任务中有训练集support set，验证集query set。
MAML的目的是获取一组更好的模型初始化参数（即让模型自己学会初始化）。->使得模型学习到“先验知识”（初始化的参数）。这个“先验知识”在新的N-ways，K-shot任务上可以表现的更好。

训练阶段

inner-task——在每个任务中计算support set的Loss，并更新任务参数:

$\phi_k^{(i)}=\phi_k^{(i-1)}-\beta\nabla_{\phi_k^{(i-1)}}Loss_{\mathbb{D}_{mts}(k)}\left(\phi_k^{(i-1)}\right)$

第一轮为 $\theta$ 更新至 $\phi_k^{(0)}$
cross-task——计算各任务query set的Loss的和，更新全局的参数：

$\theta\leftarrow\theta- \alpha\nabla_\theta \sum_{k=1}^{N_b}Loss_{\mathbb{D}_{mtq}(k)}\left(\phi_k\right)$

适应阶段

在adaptation set $\mathbb{D}_{Ap}$ 上训练
$\phi_{Ap}^{(j+1)}\leftarrow\phi_{Ap}^{(j)}-\beta\nabla_{\phi_{Ap}^{(j)}}Loss_{\mathbb{D}_{Ap}}\left(\phi_{Ap}^{(j)}\right)$

Comparison of Transfer Learning and Meta Leaning: Transfer learning and meta learning both have the training and adaption stages. Although they have the same objective of achieving fast adaption, the strategies used in the training and adaption stages are different. Hence, transfer learning is not a special case of meta learning. Meta learning uses two iterative procedures to train the model, which means that it needs two backward passes in the training stage. However, transfer learning uses one backward pass to train the model in the training stage. In the adaption stage, meta learning re-trains all parameters on the new task whereas transfer learning only re-trains the parameter of the last layer while retaining the rest parameters.

在线学习

在线学习——解决串行数据
在线meta learning：不重新学习了，从第一个时刻前开始就是通过前面的时间的数据来进行元学习，再通过每次更新的步长计算这一次的

inner-task：——task-specific(16)、(17)，第一次通过 $\theta_t$ 迭代

$\phi_k^{(j)}=\phi_k^{(j-1)}-\beta\nabla_{\phi_k^{(j-1)}}Loss_{\mathcal{D}_{k}^{train}}\left(\phi_k^{(j-1)}\right)$
cross-task：——shared network(18)

$\theta_t\leftarrow\theta_t- \alpha\nabla_\theta \sum_{k=1}^{t-1}Z_kLoss_{\mathcal{D}_{k}^{validation}}\left(\phi_k^{N_{in}}\right)$

$Z_k$ 是task $\mathcal{T}_k$ 发生的次数， $N_{in}$ 是迭代步数
通过线下学习到的网络参数作为线上学习的初始值

既然要算监督学习的Loss，那么标签也就是真实的上行链路功率分配矢量 $\mathbf q$ 在哪里呢？莫非是到下一个time shot，上一次的标签就计算出来了？

————online learning是监督学习！！！是有标签的！

the offline algorithm heavily relies on the stationary environment.

Contributions

DTL(先在分布不同的训练集下训练，再固定普遍特征的层在有限样本的优化集训练全连接层)
MAML(①meta-learning，②fine-tuning)
FTL(解决序列形式的实时系统)、meta-learning(快速自适应)
不需要大量数据和训练，达到near optimal

Meta Learning+Embedding model【元学习】——2021-TWC

Embedding Model Based Fast Meta Learning for Downlink Beamforming Adaptation

general utility maximization problem under the total power constraint

$\begin{aligned} \max_\mathbf W \quad&U(\gamma_1,\cdots,\gamma_K)\\ s.t.\quad&\sum_{k=1}^K\left\|\mathbf w_k\right\|_2^2\le P \end{aligned}$

fast meta learning with embedding model

只关注提取特征，

先将所有meta learning的support set和query set构成训练集 $\mathcal{D}_{fast}$ ，训练参数 $\theta$ ——embedding model training-> $f_\theta$

$\theta=\arg\min_\theta Loss_{\mathcal{D}_{fast}}(\theta)$
在 $\mathbb{D}_{adapt}$ 上训练参数 $\varphi$ ，拟合 $\mathbb{D}_{adapt}$ 的标签 $\mathbb{D}_{adapt}(y)$ 和embedding model输出值 $y_{out}=f_\theta(\mathbb{D}_{adapt})$ ——adaptation-> $f_{\varphi^*}$

$\varphi^*=\arg\min_\varphi Loss_{\mathbb{D}_{adapt}(y)}(Wy_{out}+b,\mathbb{D}_{adapt}(y))$
再通过训练得到的 $f_\theta$ 和 $f_{\varphi^*}$ 进行测试

Applications

SINR balancing problem

$\begin{aligned} \max_{\mathbf W}\min_{1\le k\le K}\quad&\gamma_k\\ s.t.\quad&\sum_{k=1}^K\left\|\mathbf w_k\right\|_2^2\le P \end{aligned}$
- 由上行链路-下行链路对偶性，将上行链路的功率分配矢量 $\mathbf q$ 作为网络输出
- embedding model training阶段和adaptation、testing阶段的数据产生一致，（只是来源分布不同？）
SR Maximization peoblem
- embedding model：由无监督学习产生，Loss为SR
  
  $Loss=-\frac{1}{2KL}\sum_{l=1}^L\sum_{k=1}^K\log_2\left(1+\gamma_k^{(l)}\right)$
- adaptation阶段：用WMMSE的作为标签
  
  $Loss=\frac{1}{2LK}\sum_{l=1}^L\left(\left\|\underline{\mathbf q}^{(l)}-\hat{\mathbf q}^{*(l)} \right\|_2^2\right)$
  
  $\underline{\mathbf q}^{(l)}$ 是WWMSE的功率分配矢量， $\hat{\mathbf q}^{*(l)}$ 是adaptation预测阶段的输出结果

Online learning

extracting features from adaptation data of the current time slot; $\mathcal{B}_t$ 是缓冲区用来存放适应数据(adaptation data)

在time shot $t$ ，提取的特征是：

$\hat{\mathbf q}_t^*=f_\theta(\mathcal{B}_t(\mathbf h_t))$

将提取到的特征 $\hat{\mathbf q}_t^*$ 和 $\mathcal{B}_t$ 中现有的输出 $\mathbf q_t$ 通过SVR计算loss：

$\phi_t=\arg\min_{\phi_t}Loss(\mathbf W_t\hat{\mathbf q}_t^*+\mathbf{b_t},\mathcal{B}_t(\mathbf q_t))$

online learning是监督学习！

Knowledge Distillation【知识蒸馏】——2021-TVT

Knowledge Distillation-Aided End-to-End Learning for Linear Precoding in Multiuser MIMO Downlink Systems With Finite-Rate Feedback——思路类似【ai5】

在一般的方法中，类似【ai5】都采用了Straight-through estimator。但是伪梯度可能会导致不在正确的方向上更新参数。

本文提出了一种与知识蒸馏(KD)相结合的训练方法，在辅助教师网络的帮助下，通过使用附加的“无损梯度”来有效地训练接收方DNN。随后，联合执行端到端学习以确定最大化下行链路和速率的预编码矩阵。提出的数据驱动方案优于传统的基于码本的线性预编码方法。

优化问题：最大化速率(下面这个公式感觉有点问题)

$R_k\triangleq \mathbb{E}\left[\log_2\left|\mathbf{I}_N+\frac PM\sum_{l=1}^{K}\mathbf H_k^H\mathbf V_l\mathbf V_l^H\mathbf H_k \right|\right]-\mathbb{E}\left[\log_2\left|\mathbf{I}_N+\frac PM\sum_{l=1,l\neq k}^{K}\mathbf H_k^H\mathbf V_l\mathbf V_l^H\mathbf H_k \right|\right]$

导频估计：

训练导频 $\mathbf p_l\in \mathbb{C}^{M\times 1}$
接收信号 $\mathbf y_{l,k}^{train}=\sqrt{P_{train}}\mathbf H_k^H\mathbf p_l+\mathbf n_k$ 来估计信道矩阵 $\bar{\mathbf H}$
将信道矩阵进行紧凑形奇异值分解

$\underbrace{\bar{\mathbf H}_k}_{M\times N}=\underbrace{\tilde{\mathbf H}_k}_{M\times N}\underbrace{\boldsymbol{\Sigma}^{\frac12}_k}_{N\times N}\underbrace{\mathbf{U}_k^H}_{N\times N}$

$\tilde{\mathbf H}$ 中含有方向信息，需要量化反馈酉阵 $\tilde{\mathbf H}$ ，但是注意到 $\tilde{\mathbf H}_k$ 丢失了部分数量上的细节 $\boldsymbol{\Sigma}_k$
第 $k$ 用户侧利用 $B$ 位的码本 $\mathcal{C}_k=\{\mathbf A_{k,1},\cdots,\mathbf A_{k,2^B}\}$ ，通过一定的距离度量 $d(\bullet,\bullet)$ 进行量化，将索引 $q_k$ 反馈

$q_k=\arg\min_{j\in\{1,\cdots,2^B\}}d\left(\mathbf A_{k,j},\tilde{\mathbf H}_k\right)$
基站侧通过码本 $\mathcal{C}_k$ 得到量化的信道矩阵 $\hat {\mathbf H}_k=\mathbf A_{k,q_k}$

网络结构

流程

接收机DNN：——全连接网络的激活函数采用ReLU

$\begin{aligned} \hat{\mathbf{q}}_{k} &=f_{k}^{\mathrm{Rx}}\left(\mathbf{Y}_{k}^{\mathrm{train}}, \boldsymbol\Theta_{k}^{\mathrm{Rx}}\right)=\operatorname{sign}\left(\tanh \left(\mathrm{FC}_{k}^{\mathrm{Rx}}\left(\mathbf{r}_{k}^{\mathrm{Re}}, \boldsymbol\Theta_{k}^{\mathrm{Rx}}\right)\right)\right) \\ &=\left[\operatorname{sign}\left(\tanh \left(\left[\mathbf{u}_{k}\right]_{1}\right)\right), \ldots, \operatorname{sign}\left(\tanh \left(\left[\mathbf{u}_{k}\right]_{B}\right)\right)\right] \end{aligned}$

其中，
- $\mathbf r_k^{Re}$ 是将训练数据 $\mathbf Y_k^{train}$ 实部虚部组合而成的列向量；
- $\boldsymbol{\Theta}_k^{Rx}$ 是接收机DNN需要训练的所有参数；
- $\mathbf u_k$ 是全连接网络输出的 $B$ 维实值矢量后通过tanh压缩，sign量化
发射机DNN：

$\begin{aligned} \mathbf V=[\mathbf V_1,\cdots,\mathbf V_K]&=f^{Tx}(\hat{\mathbf q}_1,\cdots,\hat{\mathbf q}_K,P;\boldsymbol{\Theta}^{Tx})\\ &=h(FC^{Tx}(\hat{\mathbf q_1},\cdots,\hat{\mathbf q_K},P;\boldsymbol{\Theta}^{Tx})) \end{aligned}$

其中， $h$ 是将 $2MNK$ 维的实列向量重组为 $M\times NK$ 的波束成型矩阵
Loss：

$\begin{aligned} &L_{\operatorname{main}}\left(\left\{\boldsymbol\Theta_{k}^{\mathrm{Rx}}\right\}_{k=1}^{K}, \boldsymbol\Theta^{\mathrm{Tx}}\right) \\ &\quad=-\sum_{k=1}^{K} R_{k}\left(f^{\mathrm{Tx}}\left(\left\{f_{k}^{\mathrm{Rx}}\left(\mathbf{Y}_{k}^{\mathrm{train}} ; \boldsymbol\Theta_{k}^{\mathrm{Rx}}\right)\right\}_{k=1}^{K}, P ; \boldsymbol\Theta^{\mathrm{Tx}}\right)\right) . \end{aligned}$

优化目标：

$\min _{\boldsymbol\Theta^{\mathrm{Tx}}, \boldsymbol\Theta_{1}^{\mathrm{Rx}}, \ldots, \boldsymbol\Theta_{K}^{\mathrm{Rx}}} L_{\operatorname{main}}\left(\left\{\boldsymbol\Theta_{k}^{\mathrm{Rx}}\right\}_{k=1}^{K}, \boldsymbol\Theta^{\mathrm{Tx}}\right)$

KD

反向传播：注意到二值化无法反向传播，常见的方法是采用直通（STE），本文中类似【KD-14】考虑到双曲正切函数的性质

$\nabla_{\Theta_k^R}\ \mathrm{sign}(\tanh(z))\approx\nabla_{\Theta_k^R}\tanh(z)$

但是上述方法的噪声积累仍会导致DNN参数梯度下降方向不正确，表现变差，故最好的方式是将“损失更小的梯度”反向传播给接收机DNN，于是就引出了KD。The best solution to overcome the noisy gradient problems is to provide “lossless gradients” to receiver DNNs. To achieve this, we propose a novel joint training method using KD.

因为有一个二值化，所以要用STE才能反向传播，但这样就会累计误差，所以把辅助发射机DNN在还没有二值化的地方，先训练“接收机DNN+辅助发射机DNN”再训练“接收机DNN+发射机DNN”

在接收机DNNs的末端只有一个瓶颈(二进制层)。换言之，浅层学生网络(原始发射机DNN)和深层教师网络(辅助发射机DNN)具有相同的结构，除了tanh函数和二值化层(tanh层和二值化层都不用于深层教师网络，因为它们导致梯度消失问题)。

Model-Driven Beamforming Neural Networks——2020-MWC

可以看作是【ai2】【ai3】的介绍

两类BNN网络框架(architecture)：
- data-based：看称黑箱（black-box） blind to any specialized signal structures, does not have the same computational efficiency, and the performance is often inferior to that of traditional SP methods.
- model-based： Inside the SP module are the functional layers that are designed according to prior expert knowledge of beamforming problems, which is problem-specific and has no unified form. It is also possible to replace one or more layers in the ordinary NN module by the SP module to achieve better feature extraction ability.——【ai2】
监督学习/无监督学习
- 监督学习：适应于存在最优解算法、易于获得标签的问题，常采用MSE/MAE Loss——【ai2】中的P1（功率约束下SINR balancing）、P2（Qos下功率最小）
- 无监督学习：不存在最优解算法，采用目标函数作为Loss——【ai2】中的P3（功率约束下SR最大）、【ai3】中的单天线约束下SINR balancing
- 混合(Hybrid)：类似【ai2】中对于P3的训练方式，两阶段，先监督逼近WMMSE，后无监督用SR作为Loss
复杂度
- 优化问题复杂度：【ai2】通过model-based的引入，不直接输出波束形成矩阵，而先输出一些关键特征，如上行/下行链路的功率分配矢量
- NN模块的复杂度：冗余的神经元——为了降低神经网络模块的复杂度，我们可以首先使用边缘检测来剪除所有权值在一定阈值以下的连接和那些具有零激活神经元的连接。然后，我们通过压缩技术减少用于表示每个权重的比特数，并在不同的连接之间实施权重分担以减少权重的数量。最后，可以采用霍夫曼编码来使用具有更少比特的符号来表示更多的公共权重[11]。
泛化能力——【ai3】中提及
- training-set augmentation：难以获取大量的数据
- transfer learning：fine-tuning
open issue
- 现实环境的数据集
- 对可能导致BNN训练不一致和失败的损坏数据具有鲁棒性

Deep Learning for SVD and Hybrid Beamforming——2020-TWC

SU-MIMO

unconstrained SVD

$\mathbf y=\mathbf R^H\mathbf{HTs}+\mathbf R^H\mathbf n$

achieved rate:

$R=\log_2\left(\left|\mathbf I+\frac PL\mathbf C_n^{-1}\mathbf R_{opt}^H\mathbf {HT}_{opt}\mathbf T_{opt}^H \mathbf H^H\mathbf R_{opt}\right|\right)$

其中， $\mathbf T_{opt}=\mathbf V_L\in\mathbb C^{N_T\times L},\mathbf R_{opt}=\mathbf U_L\in\mathbb C^{N_R\times L},$ 为右奇异值矩阵和左奇异值矩阵 $\mathbf C=\mathbf R_{opt}^H\mathbf R_{opt}$
constrained SVD

$\mathbf y=\mathbf R_{BB}^H\mathbf R_{RF}^H\mathbf{HT}_{RF}\mathbf T_{BB}\mathbf{s}+\mathbf R_{BB}^H\mathbf R_{RF}^H\mathbf n$

约束条件：
- 发射信号假设： $\mathbb{E}[\mathbf {ss}^H]=\frac PL\mathbf I_L$
- 恒模约束： $\left|[\mathbf T_{RF}]_{i,j}\right|^2=N_T^{-1},\left|[\mathbf R_{RF}]_{i,j}\right|^2=N_R^{-1},$
- 移相量化：第 $n$ 根发射天线(第 $m$ 根接收天线)用 $N_q$ 位移相器 $e^{\frac{j2\pi nk_q}{N_q}}(e^{\frac{j2\pi mk_q}{N_q}})$ ，其中 $k_q=0,1,\cdots,2^{N_q}-1$
- 功率约束： $\left\|\mathbf{T}_{RF}\mathbf{T}_{BB}\right\|^2_F=L,\left\|\mathbf{R}_{RF}\mathbf{R}_{BB}\right\|^2_F=L$

SVD近似

$\mathbf H_k=\mathbf U_k\mathbf \Sigma_k\mathbf V_k^H$

写成秩1近似的和

$\mathbf H_k=\sum_{i=1}^k\sigma_i\mathbf u_i\mathbf v_i$

for Rank-k Matrix Approximation

Loss函数：

$\mathcal{L}(\theta)=\frac{\left\|\mathbf{H}_{k}-\tilde{\mathbf{H}}_{k}\right\|_{F}}{\left\|\mathbf{H}_{k}\right\|_{F}}+\lambda_{1} \sum_{i \neq j}\left\|\tilde{\mathbf{u}}_{i}^{*} \tilde{\mathbf{u}}_{j}\right\|_{2}+\lambda_{2} \sum_{i \neq j}\left\|\tilde{\mathbf{v}}_{i}^{*} \tilde{\mathbf{v}}_{j}\right\|_{2}$

（信道矩阵 $\mathbf H$ 尽可能接近，左右奇异矩阵为酉阵且列正交）

低复杂度——for Rank-k Matrix Approximation

每次求当前最大的奇异值、奇异矩阵，下一次减掉它

trained jointly

$\mathcal{L}(\theta_1,\theta_2,\cdots,\theta_k)=\frac{\left\|\mathbf{H}_{k}-\tilde{\mathbf{H}}_{k}\right\|_{F}}{\left\|\mathbf{H}_{k}\right\|_{F}}+\lambda_{1} \sum_{i \neq j}\left\|\tilde{\mathbf{u}}_{i}^{*} \tilde{\mathbf{u}}_{j}\right\|_{2}+\lambda_{2} \sum_{i \neq j}\left\|\tilde{\mathbf{v}}_{i}^{*} \tilde{\mathbf{v}}_{j}\right\|_{2}$
sequence（ $\theta_1$ 不需要考虑正交性）

$\mathcal{L}\left(\theta_{i}\right)=\frac{\left\|\sigma_{i} \mathbf{u}_{i} \mathbf{v}_{i}^{*}-\tilde{\sigma}_{i} \tilde{\mathbf{u}}_{i} \tilde{\mathbf{v}}_{i}^{*}\right\|_{F}}{\left\|\sigma_{i} \mathbf{u}_{i} \mathbf{v}_{i}^{*}\right\|_{F}}+\lambda_{1} \sum_{i, j<i}\left\|\tilde{\mathbf{u}}_{i}^{*} \tilde{\mathbf{u}}_{j}\right\|_{2} +\lambda_{2} \sum_{i, j<i}\left\|\tilde{\mathbf{v}}_{i}^{*} \tilde{\mathbf{v}}_{j}\right\|_{2}$

采用梯度下降更新参数

Rank-1 Matrix Approximation

将低复杂度Rank-k的 $k$ 个神经网络变成1个。它使用单个DNN递归地估计 $k$ 个奇异值和奇异向量。

Loss函数：

混合预编码

在该方法中，我们不是直接最大化速率，而是最小化无约束波束形成器和混合波束形成器获得的秩-k近似之间的Frobenius距离（？）。

【理解】

$\mathbf y=\mathbf R_{BB}^H\mathbf R_{RF}^H\mathbf{HT}_{RF}\mathbf T_{BB}\mathbf{s}+\mathbf R_{BB}^H\mathbf R_{RF}^H\mathbf n\\$

对信道矩阵作SVD，

$\mathbf H=\mathbf{U\Sigma V^H}$

只要让
\mathbf R_{BB}^H\mathbf R_{RF}^H=\mathbf U^H, \mathbf{T}_{RF}\mathbf T_{BB}=\mathbf V\label{eq:123}
因为 $\mathbf \Sigma$ 是对角阵，就可以转化为并行信道

$\mathbf y=\mathbf \Sigma \mathbf s+\mathbf U^H \mathbf n$

即上述网络想实现\eqref{eq:123}的近似相等，以保证实现并行信道。同时接近的 $\mathbf{U,V}$ 不是实际值，而是上述三种SVD近似得到的结果

RF预编码恒模约束的四种方法

训练阶段，使用分段线性函数的组合来近似均匀量化。

测试阶段直接量化。

$\tilde\alpha_i=\frac{2\pi n}{2^{N_q}}$

$\gamma=0$ 时，训练和测试阶段一致
法一存在间断点，不平滑->利用sigmoid函数

$\tilde\alpha_i=\frac{1}{1=\exp(\beta(\alpha_i-b_n))}+o_n$

其中， $n=1,\cdots,2^{N_q}$ ， $b_n$ 时第n个量化阶的bias（偏差）， $o_n$ 是其offset（偏置）。
在前向传播中，我们使用阶跃函数来应用均匀量化。在反向传播过程中，我们使用Sigmoid函数的线性组合。
在前向传播期间实现随机量化方法，

$\tilde{\alpha}_{i}=\frac{\left\lfloor 2^{N_{q}} \alpha_{i}\right\rfloor}{2^{N_{q}}}+\frac{r_{i}}{2^{N_{q}}}$

而在反向传播期间用直通估计器替换。

$\frac{\partial Q(\alpha)_i}{\tilde\alpha_j}=\left\{\begin{array}{ll}1,&\alpha_i\text{被量化到$\tilde \alpha_j$}\\ 0,&otherwise\end{array}\right.$

功率约束

用未归一的 $\hat{\mathbf T}_{BB},\hat{\mathbf R}_{BB}$ 和量化后的 $\tilde{\mathbf T}_{RF},\tilde{\mathbf R}_{RF}$ 归一化

$\begin{aligned} \tilde{\mathbf T}_{BB}=\sqrt{L}\frac{\hat{\mathbf T}_{BB}}{\left\|\tilde{\mathbf T}_{RF}\hat{\mathbf T}_{BB}\right\|_F}\\ \tilde{\mathbf R}_{BB}=\sqrt{L}\frac{\hat{\mathbf T}_{BB}}{\left\|\tilde{\mathbf R}_{RF}\hat{\mathbf R}_{BB}\right\|_F} \end{aligned}$

Loss函数：—— $L$ for rank- $L$

$\mathcal{L}(\theta)=\frac{\left\|\mathbf{H}_{L}-\tilde{\mathbf{H}}_{L}\right\|_{F}}{\left\|\mathbf{H}_{L}\right\|_{F}}+\lambda_{1} \sum_{i \neq j}\left\|\tilde{\mathbf{r}}_{i}^{*} \tilde{\mathbf{r}}_{j}\right\|_{2}+\lambda_{2} \sum_{i \neq j}\left\|\tilde{\mathbf{t}}_{i}^{*} \tilde{\mathbf{t}}_{j}\right\|_{2}$

$\tilde{\mathbf r}_i$ 是 $\tilde{\mathbf R}_{opt}$ 的列向量， $\tilde{\mathbf t}_i$ 是 $\tilde{\mathbf T}_{opt}$ 的列向量

仿真

对于不同规模的毫米波系统，基于DNN的混合BF方法用于秩-k矩阵近似的性能优于基于低复杂度DNN的混合BF方法(用于秩k近似)和基于DNN的混合BF方法(用于秩1近似)。——低复杂度秩-k和秩-1的方法在估计后续奇异值、奇异向量时用了之前预测的结果，会带来积累误差。由于在这些仿真中我们考虑满秩信道矩阵，发射和接收天线的数目等于信道的秩，这导致天线数目越多，性能差距越大。
图18-a显示了基于DNN的混合BF用于秩-k矩阵近似时的实现速率，我们观察到当使用DNN用于秩-k矩阵近似时，第一和第二量化方法获得了相似的速率并且优于其他量化方法。在18-b中表明，第三种量化方法以用于秩-k矩阵近似的低复杂度DNN获得了最高的数据速率。我们在18-c中观察到，当使用秩1矩阵的DNN近似时，第四量化方法优于其他方法。

Contributions

三种DNN结构
- 第一种体系结构使用单个DNN的矩阵预测给定的k个最重要的奇异值和奇异向量。利用奇异值分解(SVD)的结构，提出了一种低复杂度的秩-k矩阵逼近DNN结构。
- 第二种结构由k个低复杂度DNN组成，每个DNN被训练来估计给定矩阵的最大奇异值和相应的右、左奇异向量。
- 为了进一步简化奇异值分解运算，我们提出了秩1矩阵逼近的第三种结构，它使用单个DNN递归地估计k个奇异值和奇异向量。
- 我们引入了定制的损失函数来训练三种DNN结构，原则上训练DNN的目的是最小化矩阵的真实值和估计秩-k近似之间的Frobenius距离，同时强制奇异向量正交。
四种量化方法
- 在第一种方法中，我们使用步长和分段线性函数的组合来近似相位量化操作，这在训练过程中提供了非零梯度。
- 在第二种方法中，我们考虑在前向和后向传播过程中使用几个具有不同参数的Sigmoid函数的组合来进行软量子化。
- 在第三种方法中，我们在前向传播中使用阶跃函数，而在后向传播中结合不同参数的Sigmoid函数。
- 在第四种方法中，我们在前向传播期间实现随机量化方法[37]，而在反向传播期间用直通估计器[38]替换。
- 最后，在所提出的DNN体系结构中，我们通过归一化层满足功率约束。