/ 笔记  

【预编码论文阅读(三)】深度学习(二)

预编码论文阅读(三)——深度学习(二)

由于没有非常系统地看完MIMO的相关内容,整理中必定有很多的问题,欢迎在评论区批评指正。

整理很乱。。。

由于网页公式渲染器KaTeX不支持公式交叉引用,我的前端水平就不足以把我这个模板加入mathjax。故将所有公式交叉引用均删除了,有的是在显示不出来的建议贴到markdown里面去吧


Transfer learning/Meta Learning+online learning【迁移学习、元学习】——2021-TWC

Transfer Learning and Meta Learning-Based Fast Downlink Beamforming Adaptation

提出背景——传统深度学习方法无法很好处理训练集和测试集的mismatch

  • Transfer learning is a promising technique to deal with the task mismatch issue experienced in the practical wireless communication systems due to its ability to transfer the useful prior knowledge to a new scenario [27].
  • Another efficient way to deal with the task mismatch issue is meta-learning, which aims to improve the learning ability by leveraging
    the different but related training and testing data [30].Meta Learning中希望把超参数,如网络结构,参数初始化,优化器等由机器自行设计(注:此处区别于AutoML,迁移学习(Transfer Learning)和终身学习(Life Long Learning) ),使网络有更强的学习能力和表现。

解决的任务——SINR balancing problem under a total power constraint

通过上行链路-下行链路对偶性,可以先求上行链路的功率分配矢量q\mathbf q

Loss采用MSE

LossD(θ)=1Ni=1Nq^(i)(θ)q(i)22Loss_{\mathbb{D}}(\theta)=\frac 1N\sum_{i=1}^N\left\|\hat{\mathbf q}^{(i)}(\theta)-{\mathbf q}^{(i)} \right\|_2^2

离线训练算法

  • joint training

Transfer Learning

先在分布不同的训练集下训练,再固定前L1L-1层,在有限样本的优化集下训练第LL
image-20211130154718588

Meta learning

一文入门元学习(Meta-Learning)(附代码) - 知乎 (zhihu.com)

  • 构建很多N-ways,K-shot的任务,每个任务中有训练集support set,验证集query set。

  • MAML的目的是获取一组更好的模型初始化参数(即让模型自己学会初始化)。->使得模型学习到“先验知识”(初始化的参数)。这个“先验知识”在新的N-ways,K-shot任务上可以表现的更好。

训练阶段

  • image-20211130165712424

  • inner-task——在每个任务中计算support set的Loss,并更新任务参数:

    ϕk(i)=ϕk(i1)βϕk(i1)LossDmts(k)(ϕk(i1))\phi_k^{(i)}=\phi_k^{(i-1)}-\beta\nabla_{\phi_k^{(i-1)}}Loss_{\mathbb{D}_{mts}(k)}\left(\phi_k^{(i-1)}\right)

    ​ 第一轮为θ\theta更新至ϕk(0)\phi_k^{(0)}

  • cross-task——计算各任务query set的Loss的和,更新全局的参数:

    θθαθk=1NbLossDmtq(k)(ϕk)\theta\leftarrow\theta- \alpha\nabla_\theta \sum_{k=1}^{N_b}Loss_{\mathbb{D}_{mtq}(k)}\left(\phi_k\right)

适应阶段

  • 在adaptation set DAp\mathbb{D}_{Ap}上训练

    ϕAp(j+1)ϕAp(j)βϕAp(j)LossDAp(ϕAp(j))\phi_{Ap}^{(j+1)}\leftarrow\phi_{Ap}^{(j)}-\beta\nabla_{\phi_{Ap}^{(j)}}Loss_{\mathbb{D}_{Ap}}\left(\phi_{Ap}^{(j)}\right)

image-20211130172502018

Comparison of Transfer Learning and Meta Leaning: Transfer learning and meta learning both have the training and adaption stages. Although they have the same objective of achieving fast adaption, the strategies used in the training and adaption stages are different. Hence, transfer learning is not a special case of meta learning. Meta learning uses two iterative procedures to train the model, which means that it needs two backward passes in the training stage. However, transfer learning uses one backward pass to train the model in the training stage. In the adaption stage, meta learning re-trains all parameters on the new task whereas transfer learning only re-trains the parameter of the last layer while retaining the rest parameters.

在线学习

  • 在线学习——解决串行数据
  • 在线meta learning:不重新学习了,从第一个时刻前开始就是通过前面的时间的数据来进行元学习,再通过每次更新的步长计算这一次的

image-20211201132759864

  • inner-task:——task-specific(16)、(17),第一次通过θt\theta_t迭代

    ϕk(j)=ϕk(j1)βϕk(j1)LossDktrain(ϕk(j1))\phi_k^{(j)}=\phi_k^{(j-1)}-\beta\nabla_{\phi_k^{(j-1)}}Loss_{\mathcal{D}_{k}^{train}}\left(\phi_k^{(j-1)}\right)

  • cross-task:——shared network(18)

    θtθtαθk=1t1ZkLossDkvalidation(ϕkNin)\theta_t\leftarrow\theta_t- \alpha\nabla_\theta \sum_{k=1}^{t-1}Z_kLoss_{\mathcal{D}_{k}^{validation}}\left(\phi_k^{N_{in}}\right)

    ZkZ_k是taskTk\mathcal{T}_k发生的次数,NinN_{in}是迭代步数

  • 通过线下学习到的网络参数作为线上学习的初始值

既然要算监督学习的Loss,那么标签也就是真实的上行链路功率分配矢量q\mathbf q在哪里呢?莫非是到下一个time shot,上一次的标签就计算出来了?

————online learning是监督学习!!!是有标签的!

the offline algorithm heavily relies on the stationary environment.

Contributions

  1. DTL(先在分布不同的训练集下训练,再固定普遍特征的层在有限样本的优化集训练全连接层)
  2. MAML(①meta-learning,②fine-tuning)
  3. FTL(解决序列形式的实时系统)、meta-learning(快速自适应)
  4. 不需要大量数据和训练,达到near optimal

Meta Learning+Embedding model【元学习】——2021-TWC

Embedding Model Based Fast Meta Learning for Downlink Beamforming Adaptation

general utility maximization problem under the total power constraint

maxWU(γ1,,γK)s.t.k=1Kwk22P\begin{aligned} \max_\mathbf W \quad&U(\gamma_1,\cdots,\gamma_K)\\ s.t.\quad&\sum_{k=1}^K\left\|\mathbf w_k\right\|_2^2\le P \end{aligned}

fast meta learning with embedding model

只关注提取特征,
image-20211202095207396

  • 先将所有meta learning的support set和query set构成训练集Dfast\mathcal{D}_{fast},训练参数θ\theta——embedding model training->fθf_\theta

    θ=argminθLossDfast(θ)\theta=\arg\min_\theta Loss_{\mathcal{D}_{fast}}(\theta)

  • Dadapt\mathbb{D}_{adapt}上训练参数φ\varphi,拟合Dadapt\mathbb{D}_{adapt}的标签Dadapt(y)\mathbb{D}_{adapt}(y)和embedding model输出值yout=fθ(Dadapt)y_{out}=f_\theta(\mathbb{D}_{adapt})——adaptation->fφf_{\varphi^*}

    φ=argminφLossDadapt(y)(Wyout+b,Dadapt(y))\varphi^*=\arg\min_\varphi Loss_{\mathbb{D}_{adapt}(y)}(Wy_{out}+b,\mathbb{D}_{adapt}(y))

  • 再通过训练得到的fθf_\thetafφf_{\varphi^*}进行测试

image-20211202094544360

Applications

  • SINR balancing problem

    maxWmin1kKγks.t.k=1Kwk22P\begin{aligned} \max_{\mathbf W}\min_{1\le k\le K}\quad&\gamma_k\\ s.t.\quad&\sum_{k=1}^K\left\|\mathbf w_k\right\|_2^2\le P \end{aligned}

    • 由上行链路-下行链路对偶性,将上行链路的功率分配矢量q\mathbf q作为网络输出
    • embedding model training阶段和adaptation、testing阶段的数据产生一致,(只是来源分布不同?)
  • SR Maximization peoblem

    • embedding model:由无监督学习产生,Loss为SR

      Loss=12KLl=1Lk=1Klog2(1+γk(l))Loss=-\frac{1}{2KL}\sum_{l=1}^L\sum_{k=1}^K\log_2\left(1+\gamma_k^{(l)}\right)

    • adaptation阶段:用WMMSE的作为标签

      Loss=12LKl=1L(q(l)q^(l)22)Loss=\frac{1}{2LK}\sum_{l=1}^L\left(\left\|\underline{\mathbf q}^{(l)}-\hat{\mathbf q}^{*(l)} \right\|_2^2\right)

      q(l)\underline{\mathbf q}^{(l)}是WWMSE的功率分配矢量,q^(l)\hat{\mathbf q}^{*(l)}是adaptation预测阶段的输出结果

    • image-20211202111717068

Online learning

extracting features from adaptation data of the current time slot; Bt\mathcal{B}_t是缓冲区用来存放适应数据(adaptation data)

在time shot tt,提取的特征是:

q^t=fθ(Bt(ht))\hat{\mathbf q}_t^*=f_\theta(\mathcal{B}_t(\mathbf h_t))

将提取到的特征q^t\hat{\mathbf q}_t^*Bt\mathcal{B}_t中现有的输出qt\mathbf q_t通过SVR计算loss:

ϕt=argminϕtLoss(Wtq^t+bt,Bt(qt))\phi_t=\arg\min_{\phi_t}Loss(\mathbf W_t\hat{\mathbf q}_t^*+\mathbf{b_t},\mathcal{B}_t(\mathbf q_t))

online learning是监督学习!

Knowledge Distillation【知识蒸馏】——2021-TVT

Knowledge Distillation-Aided End-to-End Learning for Linear Precoding in Multiuser MIMO Downlink Systems With Finite-Rate Feedback——思路类似【ai5】

在一般的方法中,类似【ai5】都采用了Straight-through estimator。但是伪梯度可能会导致不在正确的方向上更新参数。

本文提出了一种与知识蒸馏(KD)相结合的训练方法,在辅助教师网络的帮助下,通过使用附加的“无损梯度”来有效地训练接收方DNN。随后,联合执行端到端学习以确定最大化下行链路和速率的预编码矩阵。提出的数据驱动方案优于传统的基于码本的线性预编码方法。

优化问题:最大化速率(下面这个公式感觉有点问题)

RkE[log2IN+PMl=1KHkHVlVlHHk]E[log2IN+PMl=1,lkKHkHVlVlHHk]R_k\triangleq \mathbb{E}\left[\log_2\left|\mathbf{I}_N+\frac PM\sum_{l=1}^{K}\mathbf H_k^H\mathbf V_l\mathbf V_l^H\mathbf H_k \right|\right]-\mathbb{E}\left[\log_2\left|\mathbf{I}_N+\frac PM\sum_{l=1,l\neq k}^{K}\mathbf H_k^H\mathbf V_l\mathbf V_l^H\mathbf H_k \right|\right]

导频估计:

  • 训练导频plCM×1\mathbf p_l\in \mathbb{C}^{M\times 1}

  • 接收信号yl,ktrain=PtrainHkHpl+nk\mathbf y_{l,k}^{train}=\sqrt{P_{train}}\mathbf H_k^H\mathbf p_l+\mathbf n_k来估计信道矩阵Hˉ\bar{\mathbf H}

  • 将信道矩阵进行紧凑形奇异值分解

    HˉkM×N=H~kM×NΣk12N×NUkHN×N\underbrace{\bar{\mathbf H}_k}_{M\times N}=\underbrace{\tilde{\mathbf H}_k}_{M\times N}\underbrace{\boldsymbol{\Sigma}^{\frac12}_k}_{N\times N}\underbrace{\mathbf{U}_k^H}_{N\times N}

    H~\tilde{\mathbf H}中含有方向信息,需要量化反馈酉阵H~\tilde{\mathbf H},但是注意到H~k\tilde{\mathbf H}_k丢失了部分数量上的细节Σk\boldsymbol{\Sigma}_k

  • kk用户侧利用BB位的码本Ck={Ak,1,,Ak,2B}\mathcal{C}_k=\{\mathbf A_{k,1},\cdots,\mathbf A_{k,2^B}\},通过一定的距离度量d(,)d(\bullet,\bullet)进行量化,将索引qkq_k反馈

    qk=argminj{1,,2B}d(Ak,j,H~k)q_k=\arg\min_{j\in\{1,\cdots,2^B\}}d\left(\mathbf A_{k,j},\tilde{\mathbf H}_k\right)

  • 基站侧通过码本Ck\mathcal{C}_k得到量化的信道矩阵H^k=Ak,qk\hat {\mathbf H}_k=\mathbf A_{k,q_k}

image-20211208150213090

网络结构

image-20211208150301854

流程

  • 接收机DNN:——全连接网络的激活函数采用ReLU

    q^k=fkRx(Yktrain,ΘkRx)=sign(tanh(FCkRx(rkRe,ΘkRx)))=[sign(tanh([uk]1)),,sign(tanh([uk]B))]\begin{aligned} \hat{\mathbf{q}}_{k} &=f_{k}^{\mathrm{Rx}}\left(\mathbf{Y}_{k}^{\mathrm{train}}, \boldsymbol\Theta_{k}^{\mathrm{Rx}}\right)=\operatorname{sign}\left(\tanh \left(\mathrm{FC}_{k}^{\mathrm{Rx}}\left(\mathbf{r}_{k}^{\mathrm{Re}}, \boldsymbol\Theta_{k}^{\mathrm{Rx}}\right)\right)\right) \\ &=\left[\operatorname{sign}\left(\tanh \left(\left[\mathbf{u}_{k}\right]_{1}\right)\right), \ldots, \operatorname{sign}\left(\tanh \left(\left[\mathbf{u}_{k}\right]_{B}\right)\right)\right] \end{aligned}

    其中,

    • rkRe\mathbf r_k^{Re}是将训练数据Yktrain\mathbf Y_k^{train}实部虚部组合而成的列向量;
    • ΘkRx\boldsymbol{\Theta}_k^{Rx}是接收机DNN需要训练的所有参数;
    • uk\mathbf u_k是全连接网络输出的BB维实值矢量后通过tanh压缩,sign量化
  • 发射机DNN:

    V=[V1,,VK]=fTx(q^1,,q^K,P;ΘTx)=h(FCTx(q1^,,qK^,P;ΘTx))\begin{aligned} \mathbf V=[\mathbf V_1,\cdots,\mathbf V_K]&=f^{Tx}(\hat{\mathbf q}_1,\cdots,\hat{\mathbf q}_K,P;\boldsymbol{\Theta}^{Tx})\\ &=h(FC^{Tx}(\hat{\mathbf q_1},\cdots,\hat{\mathbf q_K},P;\boldsymbol{\Theta}^{Tx})) \end{aligned}

    其中,hh是将2MNK2MNK维的实列向量重组为M×NKM\times NK的波束成型矩阵

  • Loss:

    Lmain({ΘkRx}k=1K,ΘTx)=k=1KRk(fTx({fkRx(Yktrain;ΘkRx)}k=1K,P;ΘTx)).\begin{aligned} &L_{\operatorname{main}}\left(\left\{\boldsymbol\Theta_{k}^{\mathrm{Rx}}\right\}_{k=1}^{K}, \boldsymbol\Theta^{\mathrm{Tx}}\right) \\ &\quad=-\sum_{k=1}^{K} R_{k}\left(f^{\mathrm{Tx}}\left(\left\{f_{k}^{\mathrm{Rx}}\left(\mathbf{Y}_{k}^{\mathrm{train}} ; \boldsymbol\Theta_{k}^{\mathrm{Rx}}\right)\right\}_{k=1}^{K}, P ; \boldsymbol\Theta^{\mathrm{Tx}}\right)\right) . \end{aligned}

    优化目标:

    minΘTx,Θ1Rx,,ΘKRxLmain({ΘkRx}k=1K,ΘTx)\min _{\boldsymbol\Theta^{\mathrm{Tx}}, \boldsymbol\Theta_{1}^{\mathrm{Rx}}, \ldots, \boldsymbol\Theta_{K}^{\mathrm{Rx}}} L_{\operatorname{main}}\left(\left\{\boldsymbol\Theta_{k}^{\mathrm{Rx}}\right\}_{k=1}^{K}, \boldsymbol\Theta^{\mathrm{Tx}}\right)

KD

反向传播:注意到二值化无法反向传播,常见的方法是采用直通(STE),本文中类似【KD-14】考虑到双曲正切函数的性质

ΘkR sign(tanh(z))ΘkRtanh(z) \nabla_{\Theta_k^R}\ \mathrm{sign}(\tanh(z))\approx\nabla_{\Theta_k^R}\tanh(z)

但是上述方法的噪声积累仍会导致DNN参数梯度下降方向不正确,表现变差,故最好的方式是将“损失更小的梯度”反向传播给接收机DNN,于是就引出了KD。The best solution to overcome the noisy gradient problems is to provide “lossless gradients” to receiver DNNs. To achieve this, we propose a novel joint training method using KD.

因为有一个二值化,所以要用STE才能反向传播,但这样就会累计误差,所以把辅助发射机DNN在还没有二值化的地方,先训练“接收机DNN+辅助发射机DNN”再训练“接收机DNN+发射机DNN”

image-20211208170425951

在接收机DNNs的末端只有一个瓶颈(二进制层)。换言之,浅层学生网络(原始发射机DNN)和深层教师网络(辅助发射机DNN)具有相同的结构,除了tanh函数和二值化层(tanh层和二值化层都不用于深层教师网络,因为它们导致梯度消失问题)。

Model-Driven Beamforming Neural Networks——2020-MWC

可以看作是【ai2】【ai3】的介绍

  • 两类BNN网络框架(architecture):
    • data-based:看称黑箱(black-box) blind to any specialized signal structures, does not have the same computational efficiency, and the performance is often inferior to that of traditional SP methods.
    • model-based: Inside the SP module are the functional layers that are designed according to prior expert knowledge of beamforming problems, which is problem-specific and has no unified form. It is also possible to replace one or more layers in the ordinary NN module by the SP module to achieve better feature extraction ability.——【ai2】
      image-20211209102042438
  • 监督学习/无监督学习
    • 监督学习:适应于存在最优解算法、易于获得标签的问题,常采用MSE/MAE Loss——【ai2】中的P1(功率约束下SINR balancing)、P2(Qos下功率最小)
    • 无监督学习:不存在最优解算法,采用目标函数作为Loss——【ai2】中的P3(功率约束下SR最大)、【ai3】中的单天线约束下SINR balancing
    • 混合(Hybrid):类似【ai2】中对于P3的训练方式,两阶段,先监督逼近WMMSE,后无监督用SR作为Loss
  • 复杂度
    • 优化问题复杂度:【ai2】通过model-based的引入,不直接输出波束形成矩阵,而先输出一些关键特征,如上行/下行链路的功率分配矢量
    • NN模块的复杂度:冗余的神经元——为了降低神经网络模块的复杂度,我们可以首先使用边缘检测来剪除所有权值在一定阈值以下的连接和那些具有零激活神经元的连接。然后,我们通过压缩技术减少用于表示每个权重的比特数,并在不同的连接之间实施权重分担以减少权重的数量。最后,可以采用霍夫曼编码来使用具有更少比特的符号来表示更多的公共权重[11]。
  • 泛化能力——【ai3】中提及
    • training-set augmentation:难以获取大量的数据
    • transfer learning:fine-tuning
      image-20211209110800360
  • open issue
    • 现实环境的数据集
    • 对可能导致BNN训练不一致和失败的损坏数据具有鲁棒性

Deep Learning for SVD and Hybrid Beamforming——2020-TWC

SU-MIMO

  • unconstrained SVD

    y=RHHTs+RHn\mathbf y=\mathbf R^H\mathbf{HTs}+\mathbf R^H\mathbf n

    achieved rate:

    R=log2(I+PLCn1RoptHHToptToptHHHRopt)R=\log_2\left(\left|\mathbf I+\frac PL\mathbf C_n^{-1}\mathbf R_{opt}^H\mathbf {HT}_{opt}\mathbf T_{opt}^H \mathbf H^H\mathbf R_{opt}\right|\right)

    其中,Topt=VLCNT×L,Ropt=ULCNR×L,\mathbf T_{opt}=\mathbf V_L\in\mathbb C^{N_T\times L},\mathbf R_{opt}=\mathbf U_L\in\mathbb C^{N_R\times L},为右奇异值矩阵和左奇异值矩阵C=RoptHRopt\mathbf C=\mathbf R_{opt}^H\mathbf R_{opt}

  • constrained SVD

    y=RBBHRRFHHTRFTBBs+RBBHRRFHn\mathbf y=\mathbf R_{BB}^H\mathbf R_{RF}^H\mathbf{HT}_{RF}\mathbf T_{BB}\mathbf{s}+\mathbf R_{BB}^H\mathbf R_{RF}^H\mathbf n

    约束条件:

    • 发射信号假设:E[ssH]=PLIL\mathbb{E}[\mathbf {ss}^H]=\frac PL\mathbf I_L
    • 恒模约束:[TRF]i,j2=NT1,[RRF]i,j2=NR1,\left|[\mathbf T_{RF}]_{i,j}\right|^2=N_T^{-1},\left|[\mathbf R_{RF}]_{i,j}\right|^2=N_R^{-1},
    • 移相量化:第nn根发射天线(第mm根接收天线)用NqN_q位移相器ej2πnkqNq(ej2πmkqNq)e^{\frac{j2\pi nk_q}{N_q}}(e^{\frac{j2\pi mk_q}{N_q}}),其中kq=0,1,,2Nq1k_q=0,1,\cdots,2^{N_q}-1
    • 功率约束:TRFTBBF2=L,RRFRBBF2=L\left\|\mathbf{T}_{RF}\mathbf{T}_{BB}\right\|^2_F=L,\left\|\mathbf{R}_{RF}\mathbf{R}_{BB}\right\|^2_F=L

SVD近似

Hk=UkΣkVkH\mathbf H_k=\mathbf U_k\mathbf \Sigma_k\mathbf V_k^H

写成秩1近似的和

Hk=i=1kσiuivi\mathbf H_k=\sum_{i=1}^k\sigma_i\mathbf u_i\mathbf v_i

for Rank-k Matrix Approximation

image-20211213110603767

Loss函数:

L(θ)=HkH~kFHkF+λ1iju~iu~j2+λ2ijv~iv~j2\mathcal{L}(\theta)=\frac{\left\|\mathbf{H}_{k}-\tilde{\mathbf{H}}_{k}\right\|_{F}}{\left\|\mathbf{H}_{k}\right\|_{F}}+\lambda_{1} \sum_{i \neq j}\left\|\tilde{\mathbf{u}}_{i}^{*} \tilde{\mathbf{u}}_{j}\right\|_{2}+\lambda_{2} \sum_{i \neq j}\left\|\tilde{\mathbf{v}}_{i}^{*} \tilde{\mathbf{v}}_{j}\right\|_{2}

(信道矩阵H\mathbf H尽可能接近,左右奇异矩阵为酉阵且列正交)

低复杂度——for Rank-k Matrix Approximation

每次求当前最大的奇异值、奇异矩阵,下一次减掉它

image-20211214084539548

  • trained jointly

    L(θ1,θ2,,θk)=HkH~kFHkF+λ1iju~iu~j2+λ2ijv~iv~j2\mathcal{L}(\theta_1,\theta_2,\cdots,\theta_k)=\frac{\left\|\mathbf{H}_{k}-\tilde{\mathbf{H}}_{k}\right\|_{F}}{\left\|\mathbf{H}_{k}\right\|_{F}}+\lambda_{1} \sum_{i \neq j}\left\|\tilde{\mathbf{u}}_{i}^{*} \tilde{\mathbf{u}}_{j}\right\|_{2}+\lambda_{2} \sum_{i \neq j}\left\|\tilde{\mathbf{v}}_{i}^{*} \tilde{\mathbf{v}}_{j}\right\|_{2}

  • sequence(θ1\theta_1不需要考虑正交性)

    L(θi)=σiuiviσ~iu~iv~iFσiuiviF+λ1i,j<iu~iu~j2+λ2i,j<iv~iv~j2\mathcal{L}\left(\theta_{i}\right)=\frac{\left\|\sigma_{i} \mathbf{u}_{i} \mathbf{v}_{i}^{*}-\tilde{\sigma}_{i} \tilde{\mathbf{u}}_{i} \tilde{\mathbf{v}}_{i}^{*}\right\|_{F}}{\left\|\sigma_{i} \mathbf{u}_{i} \mathbf{v}_{i}^{*}\right\|_{F}}+\lambda_{1} \sum_{i, j<i}\left\|\tilde{\mathbf{u}}_{i}^{*} \tilde{\mathbf{u}}_{j}\right\|_{2} +\lambda_{2} \sum_{i, j<i}\left\|\tilde{\mathbf{v}}_{i}^{*} \tilde{\mathbf{v}}_{j}\right\|_{2}

采用梯度下降更新参数

Rank-1 Matrix Approximation

将低复杂度Rank-kkk个神经网络变成1个。它使用单个DNN递归地估计kk个奇异值和奇异向量。

image-20211214085038717

Loss函数:

L(θ)=HkH~kFHkF+λ1iju~iu~j2+λ2ijv~iv~j2\mathcal{L}(\theta)=\frac{\left\|\mathbf{H}_{k}-\tilde{\mathbf{H}}_{k}\right\|_{F}}{\left\|\mathbf{H}_{k}\right\|_{F}}+\lambda_{1} \sum_{i \neq j}\left\|\tilde{\mathbf{u}}_{i}^{*} \tilde{\mathbf{u}}_{j}\right\|_{2}+\lambda_{2} \sum_{i \neq j}\left\|\tilde{\mathbf{v}}_{i}^{*} \tilde{\mathbf{v}}_{j}\right\|_{2}

混合预编码

image-20211214103300159

在该方法中,我们不是直接最大化速率,而是最小化无约束波束形成器和混合波束形成器获得的秩-k近似之间的Frobenius距离(?)。

【理解】

y=RBBHRRFHHTRFTBBs+RBBHRRFHn\mathbf y=\mathbf R_{BB}^H\mathbf R_{RF}^H\mathbf{HT}_{RF}\mathbf T_{BB}\mathbf{s}+\mathbf R_{BB}^H\mathbf R_{RF}^H\mathbf n\\

image-20211214104710646

对信道矩阵作SVD,

H=UΣVH\mathbf H=\mathbf{U\Sigma V^H}

只要让

\mathbf R_{BB}^H\mathbf R_{RF}^H=\mathbf U^H, \mathbf{T}_{RF}\mathbf T_{BB}=\mathbf V\label{eq:123}

因为Σ\mathbf \Sigma是对角阵,就可以转化为并行信道

y=Σs+UHn\mathbf y=\mathbf \Sigma \mathbf s+\mathbf U^H \mathbf n

即上述网络想实现\eqref{eq:123}的近似相等,以保证实现并行信道。同时接近的U,V\mathbf{U,V}不是实际值,而是上述三种SVD近似得到的结果

RF预编码恒模约束的四种方法

  1. 训练阶段,使用分段线性函数的组合来近似均匀量化。
    image-20211214135127640
    测试阶段直接量化。

    α~i=2πn2Nq\tilde\alpha_i=\frac{2\pi n}{2^{N_q}}

    γ=0\gamma=0时,训练和测试阶段一致

    image-20211214135323497

  2. 法一存在间断点,不平滑->利用sigmoid函数

    α~i=11=exp(β(αibn))+on\tilde\alpha_i=\frac{1}{1=\exp(\beta(\alpha_i-b_n))}+o_n

    其中,n=1,,2Nqn=1,\cdots,2^{N_q}bnb_n时第n个量化阶的bias(偏差),ono_n是其offset(偏置)。

    image-20211214135802275

  3. 在前向传播中,我们使用阶跃函数来应用均匀量化。在反向传播过程中,我们使用Sigmoid函数的线性组合。

  4. 在前向传播期间实现随机量化方法,

    α~i=2Nqαi2Nq+ri2Nq\tilde{\alpha}_{i}=\frac{\left\lfloor 2^{N_{q}} \alpha_{i}\right\rfloor}{2^{N_{q}}}+\frac{r_{i}}{2^{N_{q}}}

    而在反向传播期间用直通估计器替换。

    Q(α)iα~j={1,αi被量化到α~j0,otherwise\frac{\partial Q(\alpha)_i}{\tilde\alpha_j}=\left\{\begin{array}{ll}1,&\alpha_i\text{被量化到$\tilde \alpha_j$}\\ 0,&otherwise\end{array}\right.

功率约束

用未归一的T^BB,R^BB\hat{\mathbf T}_{BB},\hat{\mathbf R}_{BB}和量化后的T~RF,R~RF\tilde{\mathbf T}_{RF},\tilde{\mathbf R}_{RF}归一化

T~BB=LT^BBT~RFT^BBFR~BB=LT^BBR~RFR^BBF\begin{aligned} \tilde{\mathbf T}_{BB}=\sqrt{L}\frac{\hat{\mathbf T}_{BB}}{\left\|\tilde{\mathbf T}_{RF}\hat{\mathbf T}_{BB}\right\|_F}\\ \tilde{\mathbf R}_{BB}=\sqrt{L}\frac{\hat{\mathbf T}_{BB}}{\left\|\tilde{\mathbf R}_{RF}\hat{\mathbf R}_{BB}\right\|_F} \end{aligned}

Loss函数:——LL for rank-LL

L(θ)=HLH~LFHLF+λ1ijr~ir~j2+λ2ijt~it~j2\mathcal{L}(\theta)=\frac{\left\|\mathbf{H}_{L}-\tilde{\mathbf{H}}_{L}\right\|_{F}}{\left\|\mathbf{H}_{L}\right\|_{F}}+\lambda_{1} \sum_{i \neq j}\left\|\tilde{\mathbf{r}}_{i}^{*} \tilde{\mathbf{r}}_{j}\right\|_{2}+\lambda_{2} \sum_{i \neq j}\left\|\tilde{\mathbf{t}}_{i}^{*} \tilde{\mathbf{t}}_{j}\right\|_{2}

r~i\tilde{\mathbf r}_iR~opt\tilde{\mathbf R}_{opt}的列向量,t~i\tilde{\mathbf t}_iT~opt\tilde{\mathbf T}_{opt}的列向量

仿真

  • 对于不同规模的毫米波系统,基于DNN的混合BF方法用于秩-k矩阵近似的性能优于基于低复杂度DNN的混合BF方法(用于秩k近似)和基于DNN的混合BF方法(用于秩1近似)。——低复杂度秩-k和秩-1的方法在估计后续奇异值、奇异向量时用了之前预测的结果,会带来积累误差。由于在这些仿真中我们考虑满秩信道矩阵,发射和接收天线的数目等于信道的秩,这导致天线数目越多,性能差距越大。

  • 图18-a显示了基于DNN的混合BF用于秩-k矩阵近似时的实现速率,我们观察到当使用DNN用于秩-k矩阵近似时,第一和第二量化方法获得了相似的速率并且优于其他量化方法。在18-b中表明,第三种量化方法以用于秩-k矩阵近似的低复杂度DNN获得了最高的数据速率。我们在18-c中观察到,当使用秩1矩阵的DNN近似时,第四量化方法优于其他方法。image-20211214150104362

Contributions

  • 三种DNN结构

    • 第一种体系结构使用单个DNN的矩阵预测给定的k个最重要的奇异值和奇异向量。利用奇异值分解(SVD)的结构,提出了一种低复杂度的秩-k矩阵逼近DNN结构。
    • 第二种结构由k个低复杂度DNN组成,每个DNN被训练来估计给定矩阵的最大奇异值和相应的右、左奇异向量。
    • 为了进一步简化奇异值分解运算,我们提出了秩1矩阵逼近的第三种结构,它使用单个DNN递归地估计k个奇异值和奇异向量。
    • 我们引入了定制的损失函数来训练三种DNN结构,原则上训练DNN的目的是最小化矩阵的真实值和估计秩-k近似之间的Frobenius距离,同时强制奇异向量正交。
  • 四种量化方法

    • 在第一种方法中,我们使用步长和分段线性函数的组合来近似相位量化操作,这在训练过程中提供了非零梯度。
    • 在第二种方法中,我们考虑在前向和后向传播过程中使用几个具有不同参数的Sigmoid函数的组合来进行软量子化。
    • 在第三种方法中,我们在前向传播中使用阶跃函数,而在后向传播中结合不同参数的Sigmoid函数。
    • 在第四种方法中,我们在前向传播期间实现随机量化方法[37],而在反向传播期间用直通估计器[38]替换。
    • 最后,在所提出的DNN体系结构中,我们通过归一化层满足功率约束。

本文标题:【预编码论文阅读(三)】深度学习(二)

文章作者:Levitate_

发布时间:2022年01月06日 - 10:56:40

原始链接:https://levitate-qian.github.io/2022/01/06/procoding-3/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。