请对PINN网络优化得原理、梯度优化算法原理和拉格朗日迭代算法进行讲解说明

Erstellt am: 28. April 2025

Beantwortet mit O3 von Chat01

Frage

请对PINN网络优化得原理、梯度优化算法原理和拉格朗日迭代算法进行讲解说明

Frage

请对PINN网络优化得原理、梯度优化算法原理和拉格朗日迭代算法进行讲解说明

Frage

请对PINN网络优化得原理、梯度优化算法原理和拉格朗日迭代算法进行讲解说明

Gedanke

The user is asking for an explanation of three technical concepts in machine learning and optimization: the optimization principle of Physics-Informed Neural Networks (PINNs), gradient optimization algorithms, and the Lagrange iterative algorithm.

For PINNs, I'll explain incorporating PDE residuals into the loss function and using gradient-based optimizers. For gradient optimization, common methods like SGD, Adam, and L-BFGS will be covered. The Lagrange iterative algorithm includes methods like augmented Lagrangian and ADMM, which handle constrained optimization.

Since it's a technical topic, I'll provide a detailed, thorough explanation including equations and algorithm steps.

Thought for 5 seconds

Antwort

下面分别从三个方面进行系统讲解:


一、PINN(Physics-Informed Neural Network)网络优化原理

  1. 核心思想
    PINN 的目标是在神经网络中同时拟合观测数据和满足物理定律(PDE/ODE)。它通过构造复合损失函数,将物理约束以“残差”形式纳入网络训练,从而网络输出不仅能逼近数据,还能满足物理方程。

  2. 损失函数构成

    L(θ)  =  1Ndi=1Nduθ(xi)uiobs2Ldata  +  1Nrj=1NrN[uθ](xj)2LPDE\mathcal{L}(\theta) \;=\; \underbrace{\frac{1}{N_d}\sum_{i=1}^{N_d}\bigl\|u_\theta(x_i)-u_i^\text{obs}\bigr\|^2}_{\displaystyle\mathcal{L}_\text{data}} \;+\; \underbrace{\frac{1}{N_r}\sum_{j=1}^{N_r}\bigl\|\mathcal{N}[u_\theta](x_j)\bigr\|^2}_{\displaystyle\mathcal{L}_\text{PDE}}
    • uθu_\theta:网络以参数 θ\theta 给出的近似解
    • Ldata\mathcal{L}_\text{data}:数据点 {xi,uiobs}\{x_i,u_i^\text{obs}\} 的监督损失
    • LPDE\mathcal{L}_\text{PDE}:在残差点 {xj}\{x_j\} 处 PDE 残差 N[u]=0\mathcal{N}[u]=0 的 MSE
  3. 自动微分与残差计算
    PINN 利用深度学习框架的自动微分(autograd)功能,直接对网络输出进行微分,得到偏导数 uθ/x\partial u_\theta/\partial x2uθ/x2\partial^2 u_\theta/\partial x^2 等,从而评估 PDE 残差。

  4. 优化流程

    • 随机采样数据点与残差点
    • 计算总损失 L(θ)\mathcal{L}(\theta)
    • 使用梯度优化算法(见下节)更新 θ\theta
    • 迭代直至损失收敛或满足精度要求

二、梯度优化算法原理

梯度优化算法通过利用损失函数关于参数的梯度信息,沿负梯度方向更新参数,以最小化损失。

  1. 梯度下降(GD)

    θk+1=θkηθL(θk)\theta_{k+1} = \theta_k - \eta\,\nabla_\theta \mathcal{L}(\theta_k)
    • η\eta:学习率
    • 计算全量数据上的梯度,收敛稳定但计算开销大
  2. 随机梯度下降(SGD)及变种

    • Mini-batch SGD:每次仅用一小批样本估计梯度,效率更高
    • Momentum 动量法:引入动量项加速收敛 vk+1=βvk+(1β)θL,θk+1=θkηvk+1v_{k+1} = \beta v_k + (1-\beta)\,\nabla_\theta \mathcal{L},\quad \theta_{k+1} = \theta_k - \eta\,v_{k+1}
    • AdaGrad/RMSProp:根据历史梯度自适应调整学习率
    • Adam(Adaptive Moment Estimation):结合动量和二阶矩估计,是目前最常用的优化器之一 mk+1=β1mk+(1β1)θL,vk+1=β2vk+(1β2)(θL)2,m^k+1=mk+1/(1β1k+1),v^k+1=vk+1/(1β2k+1),θk+1=θkηm^k+1v^k+1+ϵ.\begin{aligned} m_{k+1}&=\beta_1 m_k + (1-\beta_1)\,\nabla_\theta\mathcal{L},\\ v_{k+1}&=\beta_2 v_k + (1-\beta_2)\,(\nabla_\theta\mathcal{L})^2,\\ \hat m_{k+1}&=m_{k+1}/(1-\beta_1^{k+1}),\quad \hat v_{k+1}=v_{k+1}/(1-\beta_2^{k+1}),\\ \theta_{k+1}&=\theta_k - \eta\,\frac{\hat m_{k+1}}{\sqrt{\hat v_{k+1}}+\epsilon}. \end{aligned}
  3. 二阶方法

    • 牛顿法:利用 Hessian 矩阵 H=2LH=\nabla^2\mathcal{L},更新为 θk+1=θkH1L\theta_{k+1}=\theta_k - H^{-1}\nabla\mathcal{L}。收敛快,但 Hessian 计算与存储代价高。
    • L-BFGS:拟牛顿法,使用历史梯度近似 Hessian 的逆,适合中小规模问题。

三、拉格朗日迭代算法(Augmented Lagrangian 与乘子法)

用于求解带等式或不等式约束的优化问题:

minx  f(x)s.t.c(x)=0.\min_{x}\;f(x) \quad\text{s.t.}\quad c(x)=0.
  1. 经典拉格朗日函数

    L(x,λ)=f(x)+λc(x),\mathcal{L}(x,\lambda) = f(x) + \lambda^\top c(x),

    在 KKT 条件下,对 xx 与乘子 λ\lambda 同时求驻点。

  2. 乘子法(Method of Multipliers)
    为提高数值稳定性,引入罚函数,构造增广拉格朗日函数

    Lρ(x,λ)=f(x)+λc(x)+ρ2c(x)2,\mathcal{L}_\rho(x,\lambda) = f(x) + \lambda^\top c(x) + \frac{\rho}{2}\|c(x)\|^2,

    其中 ρ>0\rho>0 为惩罚参数。

  3. 迭代步骤
    k=0,1,2,k=0,1,2,\dots

    text
    x^{k+1} ← argmin_x L_ρ(x, λ^k) λ^{k+1} ← λ^k + ρ c(x^{k+1})
    • 第一步:在固定乘子 λ^k 时,求解无约束子问题
    • 第二步:更新拉格朗日乘子,相当于对约束残差进行累积校正
  4. 算法特点

    • 结合了罚函数法和乘子法的优点,收敛时既满足可行性 c(x)=0c(x)=0,也满足最优性
    • 对惩罚参数 ρ\rho 不太敏感,且一般无需趋近于无穷
    • 每步子问题可用常规梯度或二阶优化器(如 L-BFGS)求解

小结

  • PINN 优化:通过在神经网络训练中同时最小化数据损失与物理残差,实现对 PDE/ODE 的“物理感知”求解。
  • 梯度优化算法:从最基础的 GD/SGD,到动量、Adam,再到拟牛顿的 L-BFGS,不同方法在收敛速度、稳定性和计算开销上各有取舍。
  • 拉格朗日迭代算法:面向约束优化,增广拉格朗日方法通过交替求解子问题与乘子更新,有效兼顾了可行性与最优性。

以上内容可为您掌握 PINN 网络的训练机制、常用优化器的原理及约束优化框架下的迭代策略提供全面指导。若需进一步深入某一部分(如代码示例或收敛分析),欢迎继续交流!

Frage

image.pngimage.png
image.pngimage.png

以下两张图片为使用matlab绘图得到的损失函数图像,请给出代码将两幅图片调整为同样的坐标格式以及标签

Gedanke

Thought for 4 seconds

Antwort

下面给出一段 MATLAB 示例脚本,演示如何把两组损失曲线画在两个子图里,并强制它们使用完全相同的坐标轴范围、刻度和标签风格。你只要把自己原来的 steps1, LF1, LObj1steps2, L1, L2, L3… 换进去即可。

matlab
% 假设你已经有两组数据: % steps1, LF1, LObj1 — 第一个图的数据 % steps2, L_a, L_b, L_c … — 第二个图的数据 % 先计算一下所有 step 的最大值,用于统一 xlim all_steps = [steps1; steps2]; xmax = max(all_steps); % 设定一个 y 轴上下限(根据两幅图的实际 loss 值来调整) ymin = 1e-6; ymax = 1e1; % 统一的刻度 x_ticks = 0 : 2e4 : xmax; % 每隔 2×10^4 一个刻度 y_ticks = [1e-6,1e-5,1e-4,1e-3,1e-2,1e-1,1e0,1e1]; % 开新 figure figure('Color','w','Position',[100 100 600 800]); % 用 tiledlayout 把两个图排成上下两行 tiledlayout(2,1,'TileSpacing','Compact','Padding','Compact'); %% —— 第一个子图 —— nexttile; semilogy(steps1, LF1, '-','Color',[.85 0 0],'LineWidth',1.5); hold on; semilogy(steps1, LObj1,'-','Color',[0 0 0], 'LineWidth',1.5); hold off; % 统一格式 xlim([0 xmax]); ylim([ymin ymax]); set(gca, ... 'XScale','linear', ... 'YScale','log', ... 'XTick', x_ticks, ... 'YTick', y_ticks, ... 'FontName','Helvetica', ... 'FontSize',12, ... 'Box','on', ... 'GridAlpha',0.2, ... 'GridLineStyle','-'); grid on; xlabel('step','FontSize',14); ylabel('loss','FontSize',14); title('Ring Structure Loss','FontSize',16,'FontWeight','normal'); legend({'$L_F$','$L_\mathrm{Obj}$'}, ... 'Interpreter','latex','Location','northeast','FontSize',12); %% —— 第二个子图 —— nexttile; % 这里假设第二张图你有三条曲线,自己替换为实际变量 semilogy(steps2, L_a, '-','Color',[0 .6 0],'LineWidth',1.5); hold on; semilogy(steps2, L_b, '-','Color',[0 0 .7],'LineWidth',1.5); semilogy(steps2, L_c, '-','Color',[.7 .3 0],'LineWidth',1.5); hold off; % 同样的坐标轴设置 xlim([0 xmax]); ylim([ymin ymax]); set(gca, ... 'XScale','linear', ... 'YScale','log', ... 'XTick', x_ticks, ... 'YTick', y_ticks, ... 'FontName','Helvetica', ... 'FontSize',12, ... 'Box','on', ... 'GridAlpha',0.2, ... 'GridLineStyle','-'); grid on; xlabel('step','FontSize',14); ylabel('loss','FontSize',14); title('Your Second Loss Title','FontSize',16,'FontWeight','normal'); legend({'曲线A','曲线B','曲线C'}, ... 'Location','northeast','FontSize',12); % 整体美化 sgtitle('统一坐标与标签示例','FontSize',18,'FontWeight','bold');

解释要点:

  1. tiledlayout + nexttile:把两个子图排成一列,且去掉多余空白。
  2. 统一的 xlim/ylim/刻度:强制所有子图都在 [0, xmax][ymin, ymax] 范围内,并且使用相同的 XTick/YTick
  3. log 纵轴:用 semilogy 或者 set(gca,'YScale','log')
  4. 字体和网格:设置 FontName、FontSize 保证一致,打开网格并调低透明度让图不杂乱。
  5. LaTeX 公式:如果需要,可以在 legendxlabel 等中用 'Interpreter','latex'

把上面脚本里所有变量名(例如 steps1, LF1, LObj1, steps2, L_a, L_b, L_c)换成你真实的数据即可,一键绘制出两幅格式完全一致的对比图。

Frage

matlab中绘制的图像如何清晰的插入论文

Gedanke

Thought for a couple of seconds

Antwort

要在论文里插入既美观又清晰的 MATLAB 作图,关键在于:

  1. 使用矢量格式保存

    • PDF/EPS/SVG 都是矢量图,可以无损缩放。
    • MATLAB R2020a 及以后可以直接用 exportgraphics 导出矢量图:
      matlab
      fig = gcf; % 设置页面大小(单位:厘米)与图像大小保持一致 fig.PaperUnits = 'centimeters'; fig.PaperPosition = [0 0 8 6]; % 8cm × 6cm exportgraphics(fig, 'myfigure.pdf', 'ContentType','vector');
    • 旧版 MATLAB 或想要 EPS:
      matlab
      print(gcf, 'myfigure.eps', '-depsc2', '-r300');
      这里 -depsc2 产生彩色 EPS,-r300 设置栅格元素(如图像、色块)300 dpi,矢量部分不受 dpi 限制。
  2. 配置清晰可读的字体与线宽
    在作图前就设好论文模板常用的字号(比如 8 pt 或 10 pt)和线宽(1.0–1.5 pt):

    matlab
    set(gca, ... 'FontName','Times New Roman', ... 'FontSize',10, ... 'LineWidth',1); % 如果有多条曲线,也可以统一线宽 plot(x, y, 'LineWidth',1.2);
  3. 控制图像物理尺寸
    论文一栏(single‐column)宽度一般 8 cm 左右,两栏(double‐column)约 16 cm。

    matlab
    fig = gcf; fig.PaperUnits = 'centimeters'; fig.PaperPosition = [0 0 8 6]; % single‐column: 8×6 cm
  4. 去除多余留白
    导出前用 tight 选项或手动裁剪坐标轴边距:

    matlab
    set(gca, 'LooseInset', max(get(gca,'TightInset'), 0.02));

    或直接用 exportgraphics(...,'BackgroundColor','none','ContentType','vector'),在 PDF 编辑器(如 Adobe Illustrator、Inkscape)里进一步裁剪。

  5. 高级工具:export_fig
    export_fig 是社区常用的第三方导出脚本,能更好地保留透明度、抗锯齿等:

    matlab
    export_fig myfigure -pdf -painters -transparent -r300
  6. LaTeX 进一步排版
    如果你的图里有大量数学标注,可以用 matlab2tikz 导出成 TikZ 代码,直接在 LaTeX 文档里编译,字体与主文档完美一致:

    matlab
    matlab2tikz('myfigure.tex','width','\figurewidth','height','\figureheight');

    然后在 LaTeX 中:

    latex
    \begin{figure} \centering \input{myfigure.tex} \caption{} \end{figure}

示例完整流程

matlab
% 1)绘图 figure('Color','w'); plot(x, y, 'LineWidth',1.2); grid on; xlabel('Time (s)', 'FontSize',10); ylabel('Amplitude', 'FontSize',10); set(gca, 'FontName','Times New Roman', 'FontSize',10, 'LineWidth',1); % 2)设置物理尺寸 fig = gcf; fig.PaperUnits = 'centimeters'; fig.PaperPosition = [0 0 8 6]; % 8×6 cm % 3)裁剪多余空白 set(gca, 'LooseInset', max(get(gca,'TightInset'), 0.02)); % 4)导出矢量 PDF exportgraphics(fig, 'myfigure.pdf', 'ContentType','vector');

这样生成的 myfigure.pdf 直接插入到 LaTeX、Word 或其他排版工具里,都能保持线条、文字的锐利和一致的风格。

Frage

image.pngimage.png

请将这幅图修改为合适尺寸的1×2子图排列,并导出为能够清晰用于一栏论文的图片,图片中含有中文,防止导出乱码

Gedanke

The user wants to modify a MATLAB figure with two subplots side by side into a 1x2 format and export it in a way suitable for a single-column paper, while ensuring Chinese text is displayed correctly. I need to provide instructions or a script that adjusts the figure size, sets fonts to prevent garbling (using 'SimHei', 'Microsoft YaHei', or 'STSong'), and exports in vector or high-resolution PNG format. I'll show how to use 'exportgraphics' or 'print' for correct output.

Thought for 6 seconds

Antwort

下面是一份 MATLAB 示例脚本,演示如何把你那幅两列竖排损失曲线图调整为1×2 横排子图,并导出单栏论文(约 8.6 cm 宽)可直接插入的矢量 PDF,且图中中文不会乱码。

matlab
%% —— 1. 全局默认设置 —— % 中文字体:这里用“Microsoft YaHei”,也可以改成“SimHei” set(groot, ... 'defaultFigureColor','w', ... 'defaultAxesFontName','Microsoft YaHei', ... 'defaultTextFontName','Microsoft YaHei', ... 'defaultAxesFontSize',8, ... 'defaultTextFontSize',8, ... 'defaultLineLineWidth',1); %% —— 2. 创建 Figure 和布局 —— % 单栏论文宽度约 8.6cm,高度可设 4cm 左右 fig = figure('Units','centimeters', ... 'Position',[0,0,8.6,4]); % 1 行 2 列,紧凑排版 t = tiledlayout(1,2, ... 'TileSpacing','Compact', ... 'Padding','Compact'); %% —— 3. 左侧子图 —— 连续介质分布训练损失 —— ax1 = nexttile; % 换成你的数据变量 semilogy(steps1, LF1, 'r-'); hold on; semilogy(steps1, LObj1,'k-'); hold off; % 坐标轴、网格 xlim([0,1.6e5]); ylim([1e-6,1e1]); set(ax1, ... 'XScale','linear', ... 'YScale','log', ... 'XTick',0:2e4:1.6e5, ... 'YTick',10.^(-6:1:1), ... 'Box','on', ... 'GridLineStyle','--', ... 'GridAlpha',0.3); % 中文标签 xlabel('训练步数'); ylabel('损失'); title('连续介质分布训练损失'); % 图例(用 LaTeX 保持 $L_F$ 上下标格式) legend({'$L_F$','$L_{\rm Obj}$'}, ... 'Interpreter','latex', ... 'Location','northeast', ... 'Box','off'); %% —— 4. 右侧子图 —— 二值化介质结构训练损失 —— ax2 = nexttile; % 换成你的数据变量 semilogy(steps2, LF2, 'g-'); hold on; semilogy(steps2, LObj2,'b-'); hold off; % 同样的轴范围和网格 xlim([0,1.6e5]); ylim([1e-6,1e1]); set(ax2, ... 'XScale','linear', ... 'YScale','log', ... 'XTick',0:2e4:1.6e5, ... 'YTick',10.^(-6:1:1), ... 'Box','on', ... 'GridLineStyle','--', ... 'GridAlpha',0.3); xlabel('训练步数'); ylabel('损失'); title('二值化介质结构训练损失'); legend({'$L_F$','$L_{\rm Obj}$'}, ... 'Interpreter','latex', ... 'Location','northeast', ... 'Box','off'); %% —— 5. 导出矢量 PDF —— % exportgraphics 从 R2020a 开始支持,能自动嵌入字体 exportgraphics(fig, 'loss_compare.pdf', ... 'ContentType','vector', ... 'BackgroundColor','none'); % — 或者用传统 print(确保使用 painters 渲染器) — % print(fig, 'loss_compare.pdf', '-dpdf', '-painters', '-r300');

关键点说明

  1. 物理尺寸
    Units='centimeters' + Position=[0,0,8.6,4],保证整图宽 8.6 cm(单栏宽度),高 4 cm。
  2. 中文字体
    全局设置 defaultAxesFontNamedefaultTextFontName 为“Microsoft YaHei”或“SimHei”,可确保 PDF 中嵌入中文。
  3. 矢量输出
    exportgraphics(...,'ContentType','vector')print -dpdf -painters,线条、文字都保持矢量,无论放大还是缩小都清晰。
  4. 子图排版
    tiledlayout(1,2,'Compact') 消除了子图间的多余空白,让两个面板紧凑排列,更符合论文排版要求。
  5. 网格与刻度
    统一 xlim/ylimXTick/YTick,并用细虚线网格 (GridLineStyle='--') 增强可读性。

运行这段脚本后,你会在当前工作目录得到一个 loss_compare.pdf,直接插入到 LaTeX/Word 中即可,中文、曲线与刻度都不会出现乱码或锯齿。

Frage

image.pngimage.png

请将这幅图修改为合适尺寸的1×2子图排列,并导出为能够清晰用于双栏论文的图片,图片中含有中文,防止导出乱码

Gedanke

Thought for 4 seconds

Antwort

下面给出一段 MATLAB 脚本,将你的两列竖排损失图调整为 1×2 横排 子图,并导出宽度约 17.2 cm(双栏论文全宽)、高度 4 cm 的矢量 PDF。脚本中已经统一设置了中文字体,保证导出后中文不乱码。

matlab
%% —— 1. 全局默认设置 —— % 设置白底、中文字体(可改成 'SimHei')、统一字号、线宽 set(groot, ... 'defaultFigureColor','w', ... 'defaultAxesFontName','Microsoft YaHei', ... 'defaultTextFontName','Microsoft YaHei', ... 'defaultAxesFontSize',8, ... 'defaultTextFontSize',8, ... 'defaultLineLineWidth',1); %% —— 2. 创建 Figure 和布局 —— % 双栏全宽约 17.2cm,高度可设 ~4cm fig = figure('Units','centimeters', ... 'Position',[0, 0, 17.2, 4]); t = tiledlayout(1,2, ... 'TileSpacing','Compact', ... 'Padding','Compact'); %% —— 3. 左子图 —— 连续介质分布训练损失 —— ax1 = nexttile; semilogy(steps1, LF1, 'r-'); hold on; semilogy(steps1, LObj1,'k-'); hold off; xlim([0,1.6e5]); ylim([1e-6,1e1]); set(ax1, ... 'XScale','linear', ... 'YScale','log', ... 'XTick',0:2e4:1.6e5, ... 'YTick',10.^(-6:1:1), ... 'Box','on', ... 'GridLineStyle','--', ... 'GridAlpha',0.3); xlabel('训练步数'); ylabel('损失'); title('连续介质分布训练损失'); legend({'$L_F$','$L_{\rm Obj}$'}, ... 'Interpreter','latex', ... 'Location','northeast', ... 'Box','off'); %% —— 4. 右子图 —— 二值化介质结构训练损失 —— ax2 = nexttile; semilogy(steps2, LF2, 'g-'); hold on; semilogy(steps2, LObj2,'b-'); hold off; xlim([0,1.6e5]); ylim([1e-6,1e1]); set(ax2, ... 'XScale','linear', ... 'YScale','log', ... 'XTick',0:2e4:1.6e5, ... 'YTick',10.^(-6:1:1), ... 'Box','on', ... 'GridLineStyle','--', ... 'GridAlpha',0.3); xlabel('训练步数'); ylabel('损失'); title('二值化介质结构训练损失'); legend({'$L_F$','$L_{\rm Obj}$'}, ... 'Interpreter','latex', ... 'Location','northeast', ... 'Box','off'); %% —— 5. 导出矢量 PDF —— % R2020a+ 推荐 exportgraphics;也可用 print(...,'-painters') exportgraphics(fig, 'loss_compare_fullwidth.pdf', ... 'ContentType','vector', ... 'BackgroundColor','none');

说明:

  1. 尺寸Position=[0,0,17.2,4] 把图宽固定为 17.2 cm(双栏全宽),高 4 cm。
  2. 中文 – 全局 defaultAxesFontName/defaultTextFontName 设置为 “Microsoft YaHei”,可保证 PDF 嵌入正确字形,无乱码。
  3. 矢量输出exportgraphics(...,'vector') 或者
    matlab
    print(fig,'loss_compare_fullwidth.pdf','-dpdf','-painters','-r300');
    均可生成可缩放、无锯齿的矢量图。
  4. 排版紧凑tiledlayout(...,'Compact') 消除子图间多余间距,更适合论文版面。

执行后得到的 loss_compare_fullwidth.pdf,直接插入双栏 LaTeX/Word 即可,保证线条、文字与中文都清晰美观。

Frage

我的论文题目为基于知识神经网络的电磁透射器件研究,其中基于物理授息神经网络实现高增益天线设计为论文的第三章内容,下面我将向你展示第三章内容,请你为这一章写一份一千字的本章小结

Gedanke

Thought for a couple of seconds

Antwort

好的!请将第三章的具体内容或主要段落发给我,或概述其中的关键点,这样我就能基于这些信息为您撰写大约1000字的本章小结。

Frage

以下为本章内容
高增益天线作为无线系统的核心组件,能够通过定向辐射特性显著增强信号传输距离、抗干扰能力和传输效率,在复杂电磁环境(如高频段毫米波通信、远距离低功耗传输)中具有不可替代的作用。然而,随着5G通信、卫星导航、雷达探测等技术的快速发展,对于天线性能的要求不断提高,传统高增益天线的设计往往面临体积大、加工复杂度高、多物理场耦合优化困难等问题。现有的高增益天线实现方法中,如通过几何结构或阵列排布实现高增益的反射面与阵列天线,存在着体积庞大、波束扫描灵活性受限、设计复杂度高等问题;通过多层介质或周期性结构实现波束聚焦的透镜天线,则面临多频段兼容性差、环境敏感等挑战。近年来兴起的人工超表面技术,利用人工电磁材料调控电磁波相位与幅度,从而能够在紧凑尺寸下实现高增益,但其调控的实现依赖于对大量单元结构参数的精确设计和优化,人工智能的引入为此提供了解决办法。但同时,传统神经网络训练依赖于数据驱动,这导致模型的实现计算成本高昂且强依赖于初始模型假设。物理授息神经网络的应用,将波动方程、边界条件等物理规律嵌入至神经网络的损失函数中,显著提高了网络的泛化能力,可在少量数据支持下实现高精度建模,同时规避“黑箱优化”导致的物理不可解释性问题。本论文第二章基于物理授息神经网络实现了透射超表面的逆设计,本章将基于此提出一种基于物理授息神经网络设计的高增益介质超表面加载天线,由此实现高增益天线的设计。
本章首先对高增益天线的实现原理进行分析,提出基于互易原理,通过对传播媒质进行设计以控制波的传播行为从而增强天线的高增益特性。基于此,首先对发射天线进行设计,采用一种漏波边射天线作为馈源,以谐振频率30GHz为例对天线进行优化设计,随后分别以两个不同的聚焦位置逆设计获得两种不同的超表面结构并通过拉伸获得其三维介质结构,由此获得实现高增益天线的两个案例,通过两案例与仅天线情况下的全波仿真对比,该方法降低了传统逆设计方法所需要的高计算成本,能够有效增强天线的高增益特性,并且支持辐射源位置动态调整,增强工程适应性。为基于超表面的电磁器件设计提供了一种新的途径,并在天线、波束成形网络及其他电磁系统中具有广泛的应用潜力。
对于普通单辐射源天线来说,辐射的电磁波主辐射方向上呈现球面波,幅值会随着传播距离的不断增大而衰减,但对于高增益天线来说,辐射波在主辐射方向上,电磁波前趋于平坦,波前曲率接近无穷大,因此可近似为平面波传播,随着传播距离的增大该变量衰减较小,故在相同的探测水平下,高增益天线辐射的信号能传输更远的距离,表现出更高的增益。
互易原理(Reciprocity Theorem)作为电磁学中的核心定理之一,描述了电磁场系统中发射与接收模式的对称性关系。即在无源、线性、各向同性媒质中,天线在发射模式和接收模式下的电磁响应具有对称性,具体表述为:对于两个天线系统天线A和天线B,当天线A作为发射源、天线B作为接收器时,其传输特性与天线B作为发射源、天线A作为接收器时的特性相同,如式(3-1)
(3-1)
其中, 和 分别为天线A的电流分布和天线B的电场分布,反之亦然。
由此,对于高增益天线,假设接收天线在无限远处,那么波到达接收天线处呈现出平面波状态,根据电磁互易原理,若一个远场接收天线可接收到来自辐射源的波,则从接收端以相同极化发射波前,也应在辐射源处形成对应电场增强区域,形成聚焦点。进而得到了实现高增益的方法,其一是从辐射源本身出发,优化天线本体结构以增强远场辐射方向性,其二则是从传播路径出发,通过改变路径媒质分布控制波的传播行为以增强远场辐射方向。
对于辐射源本身进行设计即需要重新对工作天线进行拆除和优化设计,其过程复杂,工程实现难度大且成本高,而对传播媒质进行设计,则可以直接在原有天线上加载结构,成本低,利用率高。本章即采用对传播媒质进行设计,结合介质超表面的设计,利用互易原理实现高增益天线的定向辐射特性,如图3-1所示。
为了实现这一目标,首先对发射天线进行设计。通常超表面的馈源主要采用两种方法即采用喇叭天线进行馈或通过贴片天线进行馈电,然而由于喇叭天线整体结构剖面较高、体积庞大,极大地限制了在空间受限通信系统中的应用;而贴片天线尽管具有整体结构剖面低的优点,但其增益相对较低,且在毫米波频段信号损耗较大。综合考虑本章采用一种漏波边射天线作为馈源,此类天线具有副瓣较小、剖面低以及辐射效率高的优点,有效融合了喇叭天线和贴片天线各自的优势。接下来介绍该天线的设计优化情况。

(a) (b) (c)
图3-2 高增益天线设计流程。(a)PINN优化流程;(b)获得天线罩三维结构;(c)高增益天线实现案例

图3-3 天线结构
由图3-1所示的高增益天线设计流程,由于在进行透射超表面设计时基于二维坐标系设计,平面波为 极化,故天线结构亦应满足 极化辐射条件。为确保实现单一极化的辐射波,本文选用天线由两个30GHz天线组合而成。通过CST对单天线进行优化设计,最终所设计天线谐振频率为30GHz,采用Rogers 4003C为基板材料 ,该基板厚度为0.508mm,损耗正切 ,经过CST参数优化后参数结构由上图3-2所示,该天线由一段宽度w=0.5mm的传输线加载一系列长度l=2.9mm,宽度h=0.95mm的微带贴片单元构成,其中单元间距为d=5.4mm。组合天线的仿真结果如下图3-3所示,其可实现增益为19.14dBi。

(a) (b)

(c) (d)
图3-4 仅天线情况下的结果。(a)天线的xy平面截面效果;(b)-(d)天线的全波仿真结果,其中(b)为天线的s11情况,(c)、(d)分别为天线在Theta=90°和Phi=90°时的增益方向图
3.2 用于增益提升的天线罩设计
对于天线罩,通过物理授息神经网络的逆设计实现,为了实现这一目标,在实际发射天线之前引入一个有限大小的设计域。通过神经网络的优化,获得设计域内的材料分布,从而使入射波与设计域相互作用后有效地汇聚到实际发射天线的位置。由于目标区域即为电场强度极大值点,仅需控制电磁波在设计域内的传播路径,无需对整个系统结构进行重构,从而有效地降低了设计复杂度。此外,该方法支持对设计域形状与聚焦点数量进行灵活设置,进而可实现多频点、多聚焦点的场调控能力。
基于前述用于实现透射超表面的物理授息神经网络,假设入射平面波的电场沿 方向,且设计的介质超表面在 轴方向上均匀分布,此时电场仅具有 方向分量且电场场值不随沿 方向变化,因此该模型可等效为横向磁场(TM)极化下的二维电磁传播问题。该简化模型将原始的三维全波优化问题转化为二维横截面内的介质分布优化,显著降低了计算负担。为与3.1节中给出的天线结构相匹配,将频率选择为30GHz,则设计域大小得到限定,包含完美匹配层的整个计算域大小为6cm×7cm,其中完美匹配层宽度为1cm,逆设计区域为1cm×1cm,聚焦区域大小为1cm×1cm。采用Sobol采样的方式对整个计算域采样,采样间距为0.05cm。
在通过训练优化获得有效介质超表面后,通过solid works将其沿 向拉伸至三维,由此获得可用的天线罩设计,如下例图3-4。

图3-5 基于物理授息神经网络获得可用天线罩
本章分别以对称式高增益天线罩和离轴式高增益天线罩为例,共同验证所提方法的普适性和工程可实现性,所有案例均在搭载 Nvidia Tesla A800 80G 显卡的计算平台上,采用 Python 编程语言完成 PINN 训练与优化。
首先针对对称式高增益天线罩,即将辐射源设置于天线罩的对称轴以保持方向图的对称性,减少边缘绕射对主瓣的干扰。则基于互易原理,逆设计问题的场聚焦位置应固定在设计区域的对称轴上,同时对其他场点参数进行约束以最大化目标场强。此处以场聚焦位置距离设计区域 即1cm为例,最终获得目标相对介电常数为2.8的介质超表面。将超表面沿z向拉伸获得对应的天线罩结构,放置天线在对应位置共同组成高增益天线结构,其xy面的截面图如下图3-5(a)所示,(b)-(d)分别给出该天线的全波仿真结果,此时天线可实现的最大增益为21.58dBi,相对于前述仅天线放置时,其增益提高了2.44dBi。

(a) (b)

(c) (d)
图3-6 对称式高增益天线结果。(a)天线的xy平面截面效果;(b)-(d)天线的全波仿真结果,其中(b)为天线的s11情况,(c)、(d)分别为天线在Theta=90°和Phi=90°时的增益方向图
对于离轴式高增益天线罩,此时设计的辐射源并不严格位于天线的对称轴上,而是偏离对称轴一定距离,这种情况也更符合实际应用。基于互易原理,将场聚焦位置偏离对称轴,这里以向左偏离1cm为例,y方向仍为场聚焦位置距离设计区域 即1cm,最终获得目标相对介电常数为2.8的介质超表面。同样将超表面沿z向拉伸获得对应的天线罩结构,放置天线在对应位置共同组成高增益天线结构,其xy面的截面图如下图3-6(a)所示,(b)-(d)分别给出该天线的全波仿真结果,此时天线可实现的最大增益为21.01dBi,相对于前述仅天线放置时,其增益提高了1.87dBi。同时,对比仅天线情况下、对称式高增益天线以及离轴式高增益天线的全波仿真结果可知,两案例中在加载逆设计获得的超表面结构后,未对天线的工作频段造成影响,且在获得增益提升的同时能够保持较好的旁瓣水平。

(a) (b)

(c) (d)
图3-7 对称式高增益天线结果。(a)天线的xy平面截面效果;(b)-(d)天线的全波仿真结果,其中(b)为天线的s11情况,(c)、(d)分别为天线在Theta=90°和Phi=90°时的增益方向图

(a) (b) (c)
图3-8 辐射场分布对比。(a)仅天线情况下的天线辐射场分布;(b)对称式高增益天线的辐射场分布;(c)离轴式高增益天线的辐射场分布
上图3-7给出了在仅天线情况下、对称式高增益天线以及离轴式高增益天线的辐射场分布对比。可以看到,在未加载超表面结构时,天线辐射的电磁波在主辐射方向上呈现球面波且幅值随着传播距离的增大而不断衰减;而后两者,在加载了超表面结构后,其辐射在主辐射方向上趋于平坦且幅值随传播距离衰减较小,近似于平面波传播,这与前述高增益天线的辐射原理相互验证,进一步体现增益的有效提升。

Gedanke

Thought for a couple of seconds

Antwort

第三章小结

本章以“基于物理授息神经网络(PINN)的高增益介质超表面加载天线设计”为核心,系统阐述了在电磁透射器件研究中,如何利用PINN技术实现高增益天线的逆向设计与优化。章节内容围绕以下三个方面展开:一是高增益天线设计的背景与原理;二是基于PINN的超表面逆设计方法;三是对称式与离轴式两类高增益天线罩的设计与仿真验证。

首先,本章从高增益天线在毫米波通信、远距离低功耗传输等复杂电磁环境中的关键作用出发,剖析了传统高增益天线设计所面临的瓶颈:结构体积大、加工复杂、多物理场耦合优化难度高等问题。针对现有反射面天线、阵列天线和透镜天线在波束扫描灵活性、多频段兼容性及环境敏感性方面的不足,提出通过在天线传播路径上加载可逆设计的介质超表面,以控制电磁波传播行为来提升远场方向图扁平度,从而达到增益增强的目的。

在设计方法上,本章创新性地将物理授息神经网络引入天线罩逆设计。PINN通过在损失函数中嵌入麦克斯韦方程与边界条件,使神经网络在少量数据支撑下便能准确刻画电磁场传播特性,并规避了纯数据驱动模型的“黑箱”缺陷与高计算成本。具体而言,首先选用谐振频率30 GHz 的漏波边射天线作为辐射源,该馈源兼具低剖面、高效率、较小副瓣等优点;其次针对平面波TM极化下的二维电磁传输问题,构建包含完美匹配层与设计域的2D模型,运用Sobol采样对设计域进行均匀离散;然后通过PINN优化,获得设计域内的相对介电常数分布,并将二维超表面沿垂直方向拉伸生成三维天线罩结构。

为验证方法的普适性与工程可行性,本章以对称式与离轴式两种天线罩为例开展案例研究。在对称式方案中,聚焦位置位于设计域对称轴,最终获得相对介电常数2.8 的超表面结构,并在全波仿真中实现21.58 dBi的增益,较仅天线情况提高约2.44 dBi;在离轴式方案中,聚焦点相对对称轴偏移1 cm,同样得到目标介电常数2.8 的超表面,仿真增益达到21.01 dBi,上升1.87 dBi。对比三种结构的辐射场分布可知,加载超表面后,主瓣方向的电磁波前趋于平坦、幅值衰减显著减小,从物理互易原理层面与高增益天线的理论特性高度吻合。

本章研究工作具有以下核心贡献与创新点:

  1. 设计思路
    利用电磁互易原理,将远场平面波接收与聚焦过程反向映射为天线罩介质分布优化,从传播路径入手实现增益控制;相较于重构天线本体结构,此方法可在原有天线上直接加载罩体,成本低、适应性强。

  2. PINN 逆设计
    将电磁波动方程与边界条件融入深度网络训练,通过PINN在二维截面内高效求解介质优化问题,并通过三维拉伸获得可制造结构,极大降低了传统全波优化的计算量。

  3. 案例验证
    通过对称式与离轴式天线罩的设计与全波仿真,展现了1 cm聚焦域变化对增益提升的灵活响应,以及在不同辐射源位置下保持良好旁瓣水平与工作频段稳定性的能力。

  4. 工程适应性
    所提方法支持辐射源位置动态调整,设计域形状与聚焦点数量可灵活设定,具备在多频点、多聚焦点需求下的扩展潜力,为未来在天线阵列、波束成形网络和其它电磁系统中推广应用奠定基础。

综上,本章提出的基于PINN的高增益介质超表面加载天线设计方法,突破了传统高增益天线在体积、带宽和制造难度等方面的局限,实现了在低计算成本下的高效逆向优化。通过系统的理论分析、数值优化与全波仿真验证,证明了所提方案在毫米波天线设计领域的实用价值和推广前景。下一步,将进一步探索多频段、多聚焦点及宽带宽容性设计,以满足未来高性能电磁透射器件的复杂需求。

Frage

请详述神经网络训练中的梯度优化算法

Gedanke

Thought for a couple of seconds

Antwort

在神经网络的训练过程中,梯度优化算法(Gradient‐Based Optimization)扮演着核心角色:它们通过迭代地沿着损失函数在参数空间的负梯度方向更新网络参数,从而使模型的预测误差不断减小。下文将系统介绍主流的梯度优化算法及其变体。


1. 批量梯度下降(Batch Gradient Descent)

基本思想
对整个训练集上的损失函数 L(θ)L(\theta) 计算一次精确梯度

θL(θ)\nabla_\theta L(\theta)

再按

θθηθL(θ)\theta \leftarrow \theta - \eta\,\nabla_\theta L(\theta)

进行更新,其中 η\eta 为学习率(step size)。

优缺点

  • 优点:收敛稳定,计算出的梯度方向精确;
  • 缺点:每次迭代都要扫描全量数据,开销大,且对大规模数据不友好。

2. 随机梯度下降(Stochastic Gradient Descent, SGD)

核心思想
每次仅用一个样本 (xi,yi)(x_i,y_i) 估计梯度:

θθηθ(θ;xi,yi)\theta \leftarrow \theta - \eta\,\nabla_\theta \ell(\theta; x_i,y_i)

其中 \ell 为单样本损失。这样更新频繁、迭代速度快,但梯度噪声大。


3. 小批量随机梯度下降(Mini‐Batch SGD)

折衷做法:每次从训练集中随机抽取一个小批量(batch size mm,如 32、64)样本,计算平均梯度:

gt=1mi=1mθ(θ;xi,yi),θθηgt.g_t = \frac{1}{m}\sum_{i=1}^m\nabla_\theta \ell(\theta; x_i,y_i),\quad \theta\leftarrow\theta-\eta\,g_t.

小批量既能兼顾计算效率,也能利用现代硬件(GPU)并行加速。


4. 动量法(Momentum)与 Nesterov 加速梯度(NAG)

4.1 经典动量(Heavy‐Ball)

引入“速度”向量 vv,累积之前的梯度:

vt+1=βvt+(1β)θL(θt),θt+1=θtηvt+1,v_{t+1} = \beta\,v_t + (1-\beta)\,\nabla_\theta L(\theta_t),\quad \theta_{t+1} = \theta_t - \eta\,v_{t+1},

其中 β[0,1)\beta\in[0,1) 为动量系数(常取 0.9)。动量法能在鞍点或狭窄谷底中加速收敛,减少震荡。

4.2 Nesterov 加速梯度

先“预冲”一步,再计算梯度:

vt+1=βvt+ηθL(θtβvt),θt+1=θtvt+1.v_{t+1} = \beta\,v_t + \eta\,\nabla_\theta L(\theta_t - \beta\,v_t),\quad \theta_{t+1} = \theta_t - v_{t+1}.

这种“看未来”的做法对抑制过冲、加速收敛更有效。


5. 自适应学习率方法

为了克服不同参数、不同维度梯度差异过大,自适应方法动态调整每个参数的学习率。

5.1 AdaGrad

对每个参数累积平方梯度:

rt=rt1+[θL(θt)]2,θt+1=θtηrt+ϵθL(θt).r_{t} = r_{t-1} + [\nabla_\theta L(\theta_t)]^2,\quad \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{r_t} + \epsilon}\,\nabla_\theta L(\theta_t).

对频繁更新的参数自动缩小步长,适合稀疏特征;缺点是 rtr_t 单调增大,会使学习率过早趋近于 0。

5.2 RMSProp

对梯度平方做指数加权平均,避免 AdaGrad 过度衰减:

rt=ρrt1+(1ρ)[θL(θt)]2,θt+1=θtηrt+ϵθL(θt).r_t = \rho\,r_{t-1} + (1-\rho)\,[\nabla_\theta L(\theta_t)]^2,\\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{r_t}+\epsilon}\,\nabla_\theta L(\theta_t).

典型取 ρ=0.9\rho=0.9

5.3 Adam(Adaptive Moment Estimation)

结合动量和 RMSProp 思想,对一阶矩和二阶矩同时做指数加权:

mt=β1mt1+(1β1)θL(θt),vt=β2vt1+(1β2)[θL(θt)]2,m^t=mt1β1t,v^t=vt1β2t,θt+1=θtη  m^tv^t+ϵ.\begin{aligned} m_t &= \beta_1\,m_{t-1} + (1-\beta_1)\,\nabla_\theta L(\theta_t),\\ v_t &= \beta_2\,v_{t-1} + (1-\beta_2)\,[\nabla_\theta L(\theta_t)]^2,\\ \hat m_t &= \frac{m_t}{1-\beta_1^t},\quad \hat v_t = \frac{v_t}{1-\beta_2^t},\\ \theta_{t+1} &= \theta_t - \eta\;\frac{\hat m_t}{\sqrt{\hat v_t} + \epsilon}. \end{aligned}

默认 β1=0.9,β2=0.999,ϵ=108\beta_1=0.9,\beta_2=0.999,\epsilon=10^{-8}。Adam 在大多数任务上表现优异,收敛速度快,且调参简单。


6. 其他变种与改进

  • AdamW:在 Adam 基础上增加权重衰减(weight decay)正则化项,更好地防止过拟合;
  • Nadam:将 Nesterov 加速思想融入 Adam;
  • AMSGrad:对 vtv_t 做下界处理,保证二阶矩不减小,改进 Adam 的理论收敛性;
  • L-BFGS:一种拟牛顿法,利用历史梯度和参数差分近似 Hessian 矩阵,适合中小规模问题,可在 PyTorch/TensorFlow 中作为替代优化器使用。

7. 学习率调度与冷启动

  • 固定步长衰减:训练若干 epoch 后,将 η\eta 按比例衰减;
  • 余弦退火(Cosine Annealing):使学习率在训练中周期性地从大到小;
  • Warmup + 线性衰减:先以小步长“预热”几百步,再逐步升高至目标 η\eta,然后逐渐衰减;
  • 循环学习率(Cyclical LR):使 η\eta 在上下限间周期性振荡,有助于跳出局部最优。

8. 算法选取与实践建议

  1. 小模型/中小数据集:可优先选择 L-BFGS 获得精确解;
  2. 大规模深度网络:Adam/AdamW+Warmup+余弦退火 为默认组合;
  3. 稀疏特征或 NLP 任务:AdaGrad 与 RMSProp 有时更稳健;
  4. 注意梯度剪裁(Gradient Clipping):防止 RNN、Transformer 等模型中出现梯度爆炸;
  5. 超参数搜索:学习率 η\eta 对训练收敛影响最大,建议先寻找最优 η\eta,再调动量系数、二阶矩衰减率等。

通过上述梯度优化算法及其变体,神经网络训练可以在收敛速度、稳健性和泛化能力上取得良好平衡。实际应用中,应根据模型规模、数据特点以及硬件环境,合理选择并组合上述优化策略,不断调整学习率调度与正则化手段,才能在深度学习任务中获得最优性能。

Frage

论文的第二章内容为基于物理授息神经网络的透射超表面设计,方法为基于物理授息神经网络的逆设计,实现一个在二维平面的聚焦问题,逆设计的目标为获得设计区域的介质分布,使得平面波通过该设计区域在其后方形成目标场分布。请对该物理授息神经网络的原理进行分析,并给出一般的优化流程

Gedanke

Thought for a few seconds

Antwort

以下是在二维平面聚焦逆设计问题中,基于物理授息神经网络(PINN)的原理分析与通用优化流程。你可以据此对第二章的方法论框架进行梳理。


一、物理授息神经网络(PINN)原理分析

  1. 联合场解与介质分布的网络参数化

    • 场网络:用神经网络 uθ(x,y)u_\theta(x,y) 近似待求电磁场(如 TM 模式下的 HzH_zEzE_z)。
    • 介质网络:用另一个神经网络 εϕ(x,y)\varepsilon_{\phi}(x,y) 或者直接将介电常数场 ε(x,y)\varepsilon(x,y) 作为待优化的“可训练参数”映射到每个空间点。
      两者共享同一组空间坐标输入 (x,y)(x,y),对应输出场值与局部介电常数。
  2. PDE 残差 “授息”

    • Maxwell 方程(或标量波动方程)在设计域内必须满足: R(x,y)  =   ⁣(1εϕuθ)+ω2μ0uθ  =  0. \mathcal{R}(x,y) \;=\;\nabla\cdot\!\Bigl(\tfrac{1}{\varepsilon_{\phi}}\nabla u_\theta\Bigr) + \omega^2\mu_0\,u_\theta \;=\; 0.
    • 利用自动微分,对 uθu_\thetaεϕ\varepsilon_{\phi} 同时求一阶、二阶导数,直接计算残差 R\mathcal{R};将残差平方纳入损失,实现对 Maxwell 方程的“物理授息”。
  3. 边界条件与散射条件

    • 在设计域边界加上吸收边界(如 PML/完美匹配层)或散射条件(Sommerfeld 条件),同样通过 PINN 强制满足: B(uθ,εϕ)=0. \mathcal{B}(u_\theta,\varepsilon_{\phi}) = 0.
    • 将边界残差纳入损失,保证场解物理一致性。
  4. 目标场匹配损失

    • 在“聚焦平面”或“目标区域”取若干观测点 {(xi,yi)}\{(x_i,y_i)\},定义期望场分布 u(xi,yi)u^\ast(x_i,y_i)(例如一个平面波聚焦的高斯分布或指定相位/幅度),构造数据匹配项: Ltarget=1Nti=1Ntuθ(xi,yi)u(xi,yi)2. \mathcal{L}_\text{target} = \frac{1}{N_t}\sum_{i=1}^{N_t}\bigl|\,u_\theta(x_i,y_i)-u^\ast(x_i,y_i)\bigr|^2.
  5. 总损失函数
    综合物理残差、边界残差与目标匹配,构建复合损失:

L(θ,ϕ)=1Nrj=1NrR(xj,yj)2LPDE+1Nbk=1NbB(xk,yk)2LBC+1Nti=1Ntuθ(xi,yi)u(xi,yi)2Ltarget.\mathcal{L}(\theta,\phi) =\underbrace{\frac{1}{N_r}\sum_{j=1}^{N_r}|\mathcal{R}(x_j,y_j)|^2}_{\displaystyle\mathcal{L}_\text{PDE}} + \underbrace{\frac{1}{N_b}\sum_{k=1}^{N_b}|\mathcal{B}(x_k,y_k)|^2}_{\displaystyle\mathcal{L}_\text{BC}} + \underbrace{\frac{1}{N_t}\sum_{i=1}^{N_t}|u_\theta(x_i,y_i)-u^\ast(x_i,y_i)|^2}_{\displaystyle\mathcal{L}_\text{target}}.
  1. 反向传播与梯度优化
    • 通过自动微分同时对网络参数 θ\theta(场)和 ϕ\phi(介质)求梯度
      θ,ϕL\nabla_{\theta,\phi}\mathcal{L},并借助 Adam、L-BFGS 等优化器迭代更新。
    • 在迭代过程中,网络不断“向物理与目标场妥协”,最终输出一组满足 Maxwell 方程且能在聚焦面产生所需场分布的介电常数分布 εϕ(x,y)\varepsilon_\phi(x,y)

二、通用优化流程

下面给出一个基于 PINN 的二维聚焦逆设计通用流程示意:

  1. 问题设定

    • 确定工作频率 ω\omega、TM/TE 极化类型;
    • 指定设计域几何(如二维矩形区域)及 PML/完美匹配层宽度;
    • 定义目标平面/聚焦区域位置与期望场分布 uu^\ast
  2. 网络构建

    • 场网络 uθ(x,y)u_\theta(x,y):多层全连接或 SIREN(正弦激活)网络;
    • 介质网络 εϕ(x,y)\varepsilon_\phi(x,y):可用同结构网络,也可直接令每个离散格点为可训练变量;
    • 输入:归一化的 (x,y)(x,y) 坐标;输出:场值与介电常数。
  3. 采样点布局

    • PDE 内部残差点:均匀或 Sobol 采样 NrN_r 个;
    • 边界点:在各边界/PML 区域采样 NbN_b 个;
    • 目标场点:在聚焦平面采样 NtN_t 个。
  4. 损失构造

    • 依据上一节所述,计算 LPDE,  LBC,  Ltarget\mathcal{L}_\text{PDE},\;\mathcal{L}_\text{BC},\;\mathcal{L}_\text{target}
    • 可视需要加权:
      L=αLPDE+βLBC+γLtarget\mathcal{L}=\alpha\,\mathcal{L}_\text{PDE}+\beta\,\mathcal{L}_\text{BC}+\gamma\,\mathcal{L}_\text{target}
  5. 训练与迭代

    • 初始化 θ,ϕ\theta,\phi(可随机或基于先验分布);
    • 选用优化器(如 Adam + L-BFGS 混合策略),设置学习率调度与动量;
    • 每次迭代:
      1. 前向计算:根据 (x,y)(x,y) 点批量,评估 uθu_\thetaεϕ\varepsilon_\phi 及残差;
      2. 计算总损失 L\mathcal{L}
      3. 反向传播:自动微分求梯度;
      4. 更新 θ,ϕ\theta,\phi
  6. 收敛监控

    • 通过监测 LPDE\mathcal{L}_\text{PDE}Ltarget\mathcal{L}_\text{target} 的下降曲线判断收敛;
    • 若目标场误差未达指标,可适当增加采样点、调整权重或换用更深/更宽网络。
  7. 结果提取与后处理

    • 训练结束后,从介质网络 εϕ(x,y)\varepsilon_\phi(x,y) 中提取连续分布,并在 CAD/SolidWorks 中拉伸成三维超表面;
    • 对所得结构做全波仿真验证焦点位置、增益与旁瓣水平;
    • 必要时回到第 5 步,针对仿真结果微调 PINN 损失权重或网络结构,进行迭代优化。

通过上述原理分析与流程,PINN 在电磁逆设计中既能保证物理一致性,又能借助深度网络的表达能力灵活优化复杂介质分布,特别适合二维聚焦、超表面等应用场景。

Frage

请根据以上优化流程绘制一幅流程图

Gedanke

The user wants a flowchart diagram for an optimization process. I think they expect an image of the flowchart itself. I could use matplotlib, but its flowchart capabilities are limited; it’s better for regular charts. I wonder if we could use graphviz or networkx, but I'm not sure if these are available. So, I'll go with matplotlib and use default settings for arrows and boxes—no colors unless asked for specifically. I'll focus on creating the diagram using simple annotations and arrows.

Alright, to create a flowchart, I'll use matplotlib's annotate feature with boxes and arrows, specifying no color to match the guidelines. I'll create the flowchart using basic python code that's user-visible, making sure to generate the visual right within the commentary channel. The steps will be arranged vertically, reflecting typical flowchart structure, with proper spacing for each box and arrow connecting them. I’ll make sure the code and diagram are clean and straightforward, following all the requirements. Let’s get this flowchart drawn!

Thought for 7 seconds

Antwort

上图展示了基于PINN逆设计的七步流程总览,从“问题设定”到“结果提取与后处理”依次展开,每一步都可在实际实现中对应具体代码模块或实验环节。这样一来,整个优化过程一目了然,便于在科研或工程实现中对照执行。

Frage

请根据以上优化流程使用matlab绘制一幅流程图

Gedanke

Generating MATLAB flowchart

The user wants a MATLAB code to draw a flowchart for an optimization process with seven steps. We can use MATLAB's annotation function with position-normalized annotations, like 'rectangle' or 'textarrow', to create the boxes and arrows needed for a vertical flowchart. I'll create a script with steps for "问题设定", "网络构建", etc., stacked vertically with arrows pointing down. I'll start with setting up the boxes using annotation('textbox' ...) and connecting them with arrows using annotation('arrow' ...).

Thought for 5 seconds

Antwort

下面是一段 MATLAB 脚本示例,利用 annotation 函数在图窗中绘制一个从“问题设定”到“结果提取与后处理”的 1×7 垂直流程图。各节点用带边框的文本框表示,节点间用箭头连接,位置和大小均为归一化坐标(相对于图窗)。

matlab
% —— MATLAB 流程图绘制脚本 —— figure('Color','w'); % 关闭坐标轴显示 axis off; % 定义每个步骤文本与位置([x y w h]) steps = { ... '1. 问题设定', [0.35, 0.90, 0.30, 0.05]; ... '2. 网络构建', [0.35, 0.78, 0.30, 0.05]; ... '3. 采样点布局', [0.35, 0.66, 0.30, 0.05]; ... '4. 损失构造', [0.35, 0.54, 0.30, 0.05]; ... '5. 训练与迭代', [0.35, 0.42, 0.30, 0.05]; ... '6. 收敛监控', [0.35, 0.30, 0.30, 0.05]; ... '7. 结果提取与后处理',[0.35, 0.18, 0.30, 0.05] ... }; % 绘制每个步骤的文本框 for i = 1:size(steps,1) annotation('textbox', steps{i,2}, ... 'String', steps{i,1}, ... 'FitBoxToText','off', ... 'HorizontalAlignment','center', ... 'VerticalAlignment','middle', ... 'EdgeColor','k', ... 'LineWidth',1, ... 'FontSize',10, ... 'FontName','Microsoft YaHei', ... 'BackgroundColor','w'); end % 在每两个步骤之间画箭头 for i = 1:size(steps,1)-1 pos1 = steps{i,2}; pos2 = steps{i+1,2}; % 箭头起点在上一个框底部中点,终点在下一个框顶部中点 x = pos1(1) + pos1(3)/2; y1 = pos1(2) - 0.005; y2 = pos2(2) + pos2(4) + 0.005; annotation('arrow', [x x], [y1 y2], 'LineWidth',1); end % 添加标题 uicontrol('Style','text', ... 'Units','normalized', ... 'Position',[0.25, 0.94, 0.50, 0.04], ... 'String','PINN 二维聚焦逆设计优化流程', ... 'FontSize',12, ... 'FontWeight','bold', ... 'BackgroundColor','w', ... 'FontName','Microsoft YaHei', ... 'HorizontalAlignment','center');

说明:

  1. 归一化坐标:所有位置都以 [0,1] 区间内的相对坐标给出,保证在不同尺寸的图窗中布局一致。
  2. 中文支持:脚本中指定了 FontName='Microsoft YaHei'(或改为 SimHei),确保中文字符在导出矢量图时不发生乱码。
  3. 导出为矢量图:在绘制完成后,可用
    matlab
    exportgraphics(gcf, 'pinn_flowchart.pdf', 'ContentType','vector');
    或者
    matlab
    print(gcf, 'pinn_flowchart.pdf', '-dpdf', '-painters', '-r300');
    生成可缩放、无锯齿的流程图,直接插入论文。

Frage

image.pngimage.png

将这幅图片上的流程图使用matlab重新生成,要求保持相同的格式,字体选择宋体

Gedanke

It seems like the user wants to recreate a flowchart in MATLAB, preserving format and font for accuracy. The flowchart has two branches that start similarly—both having an "开始" starting oval and various steps involving equations and solutions. On the left side, the flow continues with gradient optimization and Lagrangian iterative methods, looping back if certain conditions aren’t met. The flow splits later on, with two separate paths. The user might want to mimic both, even though only one flow was shown in the image.

The user wants to regenerate a flowchart in MATLAB, keeping the same format and using SimSun font. The flowchart consists of shapes and text, which needs to be drawn using annotations. Shapes such as rectangles, ellipses, and diamonds can be created through the annotation function with specific properties for positioning, edges, and font. For diamonds, a polygon can be drawn, while other shapes are handled by predefined annotation types like 'rectangle' and 'ellipse'. The script will use these with coordinates and assigned text, ensuring proper alignment and style.

Thought for 10 seconds

Frage

请重新生成

Gedanke

Generating flowchart in MATLAB

The user requested a replication of a flowchart image in MATLAB using the Songti font. They specified two separate flowcharts side by side, using annotation functions like boxes, ellipses, and diamonds for process shapes and arrows. I’ll provide MATLAB code that creates two flowcharts with accurate flowchart annotations and a font setting of 'SimSun' ('Songti'). The script will make sure to use the necessary flowchart shapes, and ensure all visual elements are similar between the original and the generated diagrams.

Thought for 8 seconds

Frage

请给出物理授息神经网络逆设计问题中常用的优化算法,并给出算法的详细内容

Gedanke

Thought for 4 seconds

Antwort

在 PINN 逆设计问题中,由于损失函数同时包含 PDE 残差、边界条件残差和目标场匹配误差,优化过程既要保证物理一致性,又要快速收敛、避免陷入局部最优,因而实际上常用到以下几类算法:


算法 1:Adam(Adaptive Moment Estimation)

适用场景:大规模网络、噪声梯度、多目标损失的“预热”阶段
核心思路:对一阶梯度做一阶、二阶矩估计,动态自适应学习率

超参数

  • 学习率 η\eta(常取 10310410^{-3}\sim10^{-4}
  • 一阶矩衰减率 β1\beta_1(推荐 0.9)
  • 二阶矩衰减率 β2\beta_2(推荐 0.999)
  • 数值稳定项 ϵ\epsilon(推荐 10810^{-8}
text
输入:网络参数 θ_0, 初始一阶矩 m_0=0, 二阶矩 v_0=0 for t = 0,1,2,…,T-1: 1. 随机或小批量采样 PDE 点、BC 点、目标场点 2. 计算总损失 L(θ_t) 及其梯度 g_t = ∇_θ L(θ_t) 3. 更新一阶、二阶矩: m_{t+1} = β1·m_t + (1−β1)·g_t v_{t+1} = β2·v_t + (1−β2)·(g_t⊙g_t) 4. 纠偏: \(\hat m_{t+1} = m_{t+1}/(1−β1^{t+1}),\quad \hat v_{t+1} = v_{t+1}/(1−β2^{t+1})\) 5. 参数更新: θ_{t+1} = θ_t − η·$\hat m_{t+1}/(\sqrt{\hat v_{t+1}}+ε)$ end for

算法 2:L-BFGS(Limited-Memory BFGS)

适用场景:网络规模中等、需要高精度收敛的“精炼”阶段
核心思路:利用过去若干次梯度和参数增量,近似构造 Hessian 的逆矩阵,实现二阶优化

text
输入:初始参数 θ_0;记忆深度 m;初始 Hessian 近似 H_0 = I for k = 0,1,2,…,K−1: 1. 在全量或大批量点上计算梯度 g_k = &nabla;L(θ_k) 2. 如果 ||g_k|| < tol,则停止 3. 利用最近 m 次 {s_i=θ_{i+1}−θ_i, y_i=g_{i+1}−g_i} 计算 H_k·g_k (双循环算法,参见 Nocedal “L-BFGS 算法”) 4. 确定步长 α_k(通常用线搜索满足 Wolfe 条件) 5. 更新参数: θ_{k+1} = θ_k − α_k·H_k·g_k end for

算法 3:Augmented Lagrangian(增广拉格朗日法)

适用场景:当介质分布有硬约束(如 εminε(x,y)εmax\varepsilon_{\min}\leε(x,y)\le\varepsilon_{\max})或希望严格满足 PDE 时
核心思路:将 PDE 约束和边界条件视为附加拉格朗日乘子项,并加入二次罚函数,通过交替更新网络参数 θ 与乘子 λ 来收敛

text
输入:初始 θ^0, 乘子 λ^0, 惩罚参数 ρ>0 for k = 0,1,2,…: 1. 固定 λᵏ, 最小化增广拉格朗日对 θ: θ^{k+1} = arg min_θ { L_target + λᵏ⋅R(θ) + (ρ/2)∥R(θ)∥^2 } (可用 Adam 或 L-BFGS 在若干步内近似求解) 2. 更新乘子: λ^{k+1} = λᵏ + ρ⋅R(θ^{k+1}) 3. 如果 ∥R(θ^{k+1})∥ < tol,则停止 end for
  • 其中 R(θ)R(θ) 包含 PDE 残差和边界残差
  • 步骤 1 内部常嵌套梯度优化

算法 4:混合训练流程(Two-Stage Training)

动机:Adam 在初期能快速下降,L-BFGS 在后期能精细收敛;二者结合可兼顾速度与精度。
流程

  1. Stage I(预热)

    • 用 Adam 训练 N1N_1 次迭代,快速降低大部分损失
    • 动态衰减学习率或启用 Warmup + Cosine Annealing
  2. Stage II(精炼)

    • 以 Adam 最终参数为初始值,切换到 L-BFGS
    • 精细优化至 PDE 残差与目标场误差共同收敛
text
输入:θ^0 Stage I (Adam): θ^{I} &larr; Adam(θ^0, η=1e−3, steps=N_1) Stage II (L-BFGS): θ^* &larr; L-BFGS(θ^{I}, tol=1e−6) 输出:θ^*

实践建议

  • 超参数搜索:先单独在小模型上调优学习率、动量、记忆深度 m,再放到大模型。
  • 梯度归一化 / 裁剪:当 PDE 残差过大或多目标权重不均时,常用 gradient clipping 或者 loss weighting 动态平衡。
  • 并行与混合精度:大规模 3D 问题下,可用 FP16+梯度累积或多 GPU 并行加速。
  • 收敛判据:监测 LPDE<106\mathcal{L}_\text{PDE} < 10^{-6}Ltarget<104\mathcal{L}_\text{target} < 10^{-4} 时即可停止。

以上四类优化策略及其混合应用,构成了 PINN 逆设计中最常见也最有效的求解框架,能够在保证物理精度的同时实现高效、稳定的收敛。

Frage

下面我将向你展示论文内容,请你根据论文内容完成“总结与展望”部分
论文题目为《基于知识神经网络的电磁透射器件研究》下面为摘要部分知识神经网络通过将物理规律与工程经验显式融入模型架构,在电磁透射器件设计中实现了“物理可解释性-工程实用性-计算高效性”的协同优化,为复杂电磁系统的智能化设计提供了兼具理论严谨性与工程落地价值的新范式。本文聚焦于知识神经网络在电磁透射器件设计中的应用,以典型的空馈透射器件——透射超表面,天线罩以及典型的线馈透射器件——滤波器为例,分别基于物理授息神经网络和经验嵌入神经网络对其设计方法进行研究并通过设计实例验证设计效果。本文的主要研究内容如下:
第一部分主要对基于物理授息神经网络的透射超表面实现进行研究。首先从设计超表面的原理方法出发,建立PINN解决逆设计问题的一般流程。在此基础上建立所求解的透射超表面问题的物理模型,并据此构建逆设计的神经网络模型。接着,考虑实际应用中超表面设计的可加工性,提出神经网络与二值化方法相结合,通过加载连续结构模型参数训练并调节sigmoid函数的陡峭程度使得其介电常数分布逼近两种目标介电常数值从而完成设计区域介电常数的二值化。最后,以两个不同案例证明了方法的可行性并通过COMSOL正向仿真验证了结果的可靠性。
第二部分主要对基于物理授息神经网络实现高增益天线设计的方法进行了研究。首先高增益天线的实现原理进行分析,提出基于互易原理通过对传播媒质进行设计以增强天线的高增益特性的方法。优化设计了一种谐振频率30GHz的漏波边射天线作为馈源,随后分别实现了对称式高增益天线和离轴式高增益天线两个案例,对比其全波仿真的 、增益方向图以及辐射场分布,其增益分别提高了2.44dBi和1.87dBi,且能够在保持工作频段稳定以及良好的旁瓣水平。
第三部分主要对基于经验嵌入神经网络的滤波器设计进行了研究。首先对滤波器设计指标进行明确划分,对于一个通带范围为3.75GHz-4.25GHz的滤波器,根据其不同的回波损耗获取训练数据集,将传统电磁理论耦合矩阵综合方法与深度学习技术相融合,实现目标回波损耗的滤波器尺寸参数设计。
本文的研究表明,知识神经网络应用于电磁透射器件设计中,能够有效解决传统电磁透射器件设计方法依赖经验试错、计算效率低等问题,且经过实验验证了其结果的可靠性,能够有效解决传统方法在器件设计方面的瓶颈问题。
第一章为绪论,以下为第二章内容。现有超表面的设计方案中,在面对复杂超表面设计时,使用传统方法,诸如包括有限元法、时域有限差分法在内的前向设计策略,或是与数值求解方法结合的机器学习等方法,都将面临计算成本高昂、多目标优化困难、数据获取效率低等瓶颈。而由于将先验知识纳入神经网络架构中,知识神经网络能够充分利用已有的知识来指导模型的训练和推导过程,既保留了物理模型的准确性,又利用了数据驱动方法的灵活性和高效性。作为知识神经网络的一种,物理授息神经网络(Physics-Informed Neural Networks, PINN)通过将先验知识(如麦克斯韦方程)转化为可微约束,具有很高的速度、准确性和自由度并克服了训练数据带来的限制,能够有效处理电磁逆问题。本章的研究致力于使用物理授息神经网络实现透射超表面的逆设计研究。
本章首先从设计超表面的原理方法出发,对透射超表面设计的机制原理和PINN实现逆设计的原理进行分析,建立物理授息神经网络实现透射超表面设计的理论基础。在此基础上对所求解的透射超表面问题从数学模型建立的角度分析,在二维有限空间内模拟无限大自由空间中波的传播问题,并由此建立神经网络模型以获得可产生目标电磁场聚焦的介电常数分布结果。然而,在实际应用中,由于已获得设计域结果呈现为连续介电常数分布的介质分布,并不能对应到实际中的某一种材料从而影响设计的可加工性。为了解决这一问题,将PINN与二值化方法相结合,在获得可产生目标电磁场聚焦的连续分布介电常数基础上进一步加载连续结构模型参数训练,并通过调节sigmoid函数的陡峭程度使得其介电常数分布逼近两种目标介电常数值从而完成设计区域介电常数的二值化,实现可实际应用的电磁场透射超表面设计。最后,通过COMSOL正向仿真验证了结果的可靠性,且两个不同的案例表明,该方法能够获得具有任一指定介电常数、指定聚焦位置的可加工聚焦超表面结构。
2.1 用于实现透射超表面设计的模型建立
2.1.1 透射超表面设计的机制原理
透射超表面是一种基于亚波长结构的二维人工材料,能够通过局域化的单元结构设计,对电磁波透射特性如相位、振幅、极化等进行灵活调控。与传统光学元件相比,透射超表面具有超薄、轻量化、可编程等显著优势,在波前整形、波束偏转、高分辨率成像、通信天线等领域广泛应用。其核心设计目标是通过对单元结构的精确设计,实现高效率、宽带宽、多功能的电磁波操控,突破传统衍射光学器件的物理极限。基于物理定律的超表面设计方法具有几种典型的机制,下面以相位梯度超表面、惠更斯超表面和几何相位超表面为例,对其实现原理进行分析。
相位梯度法即通过在超表面单元中引入离散或连续的相位梯度,使透射波的波前发生突变,从而改变传播方向。当平面波以角度 入射到超表面时,根据费马定理两点间不同路径相等且最短则有下式(2-1)
(2-1)
其中 为折射角; 和 分别为沿不同路径入射到超表面位置的相位; 表示两路径在超表面沿界面方向的距离; 和 分别为两种介质的折射率; , 为自由空间波长。若沿着界面方向的相位梯度为常数,则有式(2-2),即广义斯涅尔折射定理。
(2-2)
由此,当在交界面沿界面方向引入合适的相位梯度,即可控制波的透射路径沿任意方向。
而对于惠更斯超表面,根据惠更斯原理,每一点上的波前都可以看作式许多次波源发出的次波前叠加而成,即在任意时刻波前上的每一点都可以被看作是次波源,次波源发出的新次波前经过叠加形成下一个时刻的波前。对于超表面两边的总场 和 ,以及在其界面处激发的等效电流 和等效磁流 ,有式(2-3)
, (2-3)
式中 和 分别为表面电阻抗和表面磁阻抗,根据边界条件反射系数 和透射系数 可以通过 和 表征,即式(2-4)
, (2-4)
其中 为自由空间的波阻抗。进一步有式(2-5)给出表面电阻抗 和表面磁阻抗
, (2-5)
假设超表面无损耗,则透射振幅为1,有 , ,由此惠更斯超表面的高透射条件由 决定,即可通过设计超表面的表面电阻抗和表面磁阻抗从而实现全传输。
对于几何相位超表面,在圆极化波条件下的超表面,相变只与晶胞的旋转角度有关,与尺寸无关。对于圆极化电磁波作为入射波入射到旋转了 角度的单元结构时,圆极化透射的交叉极化项会额外携带一个相位因子 ,该因子即为几何相位或称PB相位,该相位仅依赖结构旋转产生改变即只会受到系统演变的几何路径影响。在 平面内,传输矩阵由式(2-6)给出,其中 为复数,表示器件的转换系数。
(2-6)
当单元绕 轴旋转角度 ,则有旋转矩阵表示为:
(2-7)
此时,传输矩阵为 ,当偏振光垂直入射时,器件将入射分量转换为相同或相反的偏振分量,即存在 ,没有其他相位分量的改变。当入射的为圆极化电磁波时,左旋圆极化和右旋圆极化对应的琼斯矢量分别为 和 ,由此即可得到圆偏振光入射的出射光为式(2-8)
(2-8)
由此,圆偏振入射光会在出射的两个圆偏振中带有 的额外相位,即通过偏振的改变引入的几何相位。
当入射光为垂直的线偏振时,偏振对应的琼斯分量分别表示为 和 ,则其出射光表达式为:
(2-9)
故当入射光为任意形式的线偏振光时,输出的附加相位均体现在左旋圆偏振分量和右旋圆偏振分量上,虽然线偏振形式不同,但是附加在左旋的分量上的相位均为 ,附加在右旋上的相位均为 。
由此,在根据几何相位原理设计超表面单元时,需要保证入射的电磁波为圆极化波,在超表面单元结构的旋转角度从0递增到 时,对应的几何相位就可以实现 0到 的相位覆盖,可以保证后续阵面的设计的前提达到需求。同样的,任何形式下的线极化波入射都可以出射两个同时具有附加几何相位的圆极化波。
根据上述内容,相位梯度法确定了超表面波前控制的几何光学框架,惠更斯机制解决了高透射与阻抗匹配的难题,而几何相位则提供了色散宽带与偏振度自由的设计自由度,此外,各类优化算法如遗传算法、粒子群算法基于各自的算法优势使得超表面设计具有更广的适用场景。通过周期性边界条件来求解超构原子的电磁响应的正向设计及根据目标性能通过调整超表面的结构参数进行优化设计以达到预期的电磁性能和目标要求的逆设计为超表面设计提供了更多可能。
2.1.2 PINN的逆设计原理
对于PINN的逆设计问题,考虑式(2-10),一个由定义在 上的偏微分方程控制的物理系统:
(2-10)
该偏微分方程满足边界条件 ,其中 包括N个偏微分方程算子 , 为边界条件算子的一般形式, 为区域的边界。偏微分方程的解 由参数 决定,其中参数 即为逆设计问题的目标所在。在逆设计问题中,我们通过最小化一个依赖于 和 的目标函数 来得到最佳的 。其中 的值必须满足上述偏微分方程和边界条件的约束限制,在某些情况下,如源于制造的设计或多目标问题时,还会有对应的等式或不等式约束。以考虑不等式约束为例,PINN的逆设计问题可以被表述为一个约束优化问题,如下式(2-11)
(2-11)
满足约束
(2-12)
其中 表示不等式约束。然而该优化问题的最优解可能不是唯一的,可能存在许多性能相似的局部最优解,在实际中需要考虑应用的实际情况。
如下图2-1所示,在PINN中,通常使用n个全连接的深度神经网络 来近似解 ,其中 为神经网络中的可训练参数集。网络以坐标 作为输入,并输出近似解 。类似地,对于未知参数 也使用另一个独立的、全连接的神经网络 来给出近似解。最后,通过使用式(2-13)的物理授息的损失函数来对网络 和 进行限制使得它们能够满足偏微分方程
(2-13)
其中, 为区域 中 个残差点的集合; 测量在残差点 处第 个偏微分方程 的差异。

图2-1 PINN的逆设计原理
综合物理残差 、边界残差 以及目标匹配残差 即可得到PINN逆设计的总损失函数,其一般形式可表示为:
(2-14)
其中, 为根据需要的加权。
在获得损失函数的形式后,即可通过自动微分与残差计算完成优化训练。其优化流程包括计算随机采样数据点和残差点、计算总损失、使用梯度优化算法更新 ,迭代优化直至损失收敛或满足精度要求。基于PINN解决逆问题的一般流程可如下图给出

图2-2 基于PINN解决逆问题的一般流程
对于网络的训练与迭代过程,基于优化器设置学习率调度与动量,每次迭代首先通过前向计算获得估计解及残差,随后计算总损失并通过自动微分求梯度进行反向传播最终实现参数更新。通过监测损失函数下降曲线判断训练是否收敛或达到目标指标,若未达到指标则可适当增加采样点、调整权重或换用更深的网络。
2.1.3 基于PINN的透射超表面设计
对于透射超表面设计的实现,考虑一个逆问题如下图2-3(a),仅考虑 平面内,区域Ⅰ中有平面波入射,经过区域Ⅱ后在区域Ⅲ内的P点形成聚焦,此时整个区域内的电场分布表示为 ,即平面波在经过区域Ⅱ中介电常数分布为 的介质区域透射后在其后方形成目标场分布 ,其中介电常数分布 即为需要求解的透射超表面设计结果。此时,区域Ⅱ即为介质设计区域,区域Ⅰ、Ⅱ、Ⅲ共同组成整个计算域。
由于希望通过对区域的介质分布即介电常数分布函数 进行设计以获得满足目标条件的聚焦场分布 ,首先对问题模型进行定义,模型中的入射平面波通过线性电流源 模拟,在整个计算域上电磁场分布可由(2-15)中的偏微分方程描述:
(2-15)
其中 表示为角频率; 和 分别表示电场的实部和虚部。

(a) (b)
图2-3 透射超表面设计的实现。(a)平面波入射模型;(b)增加PML的平面波入射模型
为了能够更准确的模拟自由空间中波的传播特性,需要在计算域的边界上添加吸收边界条件,通过引入完美匹配层(PML)来实现。PML的引入通过设定复介电常数中虚部的空间变化函数实现,保证波在PML内呈指数衰减从而消除边界反射。
引入吸收衰减因子 和 则,则对于原方程式(2-16)有:
, (2-16)
从而得到嵌入PML的PDE方程可表示为如下式(2-17)
(2-17)
其中, 和 作为阶跃函数,也是式中的衰减因子,与完美匹配层计算域的大小有关,具体表示为:
, (2-18)
当 、 时电场位于PML区域,此时满足PDE方程的电场为倏逝波,沿传播方向指数衰减,即呈现为被吸收;当 、 时区域内解不变即维持原解。
由于问题中同时存在方程的复数场值解与介电常数参量三个不同的求解量,为了实现三者的联合优化,采用三个独立的全连接神经网络来完成网络架构,分别用来获得电场的实部 、虚部 以及介电常数分布函数 ,通过PDE损失函数对网络进行限制以满足PDE方程。网络采用均匀采样的方式,以采样坐标点作为网络输入。为保证边界场的连续性,将上下边界设置为狄利克雷边界 ,同样的将计算域的左右两边界设置为周期边界,使用傅里叶基函数代替原输入 ,即式(2-19)
(2-19)
其中 为一个周期。两种边界条件分别通过对网络的输入和输出进行直接修改,作为硬约束嵌入神经网络设计中,由此能够很好的规避由于多目标约束限制造成的复杂性增加以及难以达到最优解的问题。同时,为了保证计算域在 方向获得频率为 的平面波,为输入 增加特征 和 。网络整体选用tanh函数作为激活函数,建立的全连接神经网络如下图2-4所示。

图2-4 实现透射超表面设计的神经网络架构。(a)PINN模型架构;(b)损失函数架构
由此该逆问题所涉及的偏微分方程损失 可表示为
(2-20)
其中 为计算域内的所有采样点数。
此外,假设聚焦场所满足的目标条件表示为 , 为位于区域Ⅲ上的条件函数,满足当且仅当 位于聚焦点时 ,否则 。故该问题的目标函数 可表示为式(2-21)
(2-21)
其中 为电场聚焦区域场点的数量。
该问题涉及到的偏微分方程、边界条件以及目标函数共同以损失函数的形式构建为如下(2-22)的形式,其中 和 分别表示所获得的电场实部和电场虚部。
(2-22)
至此,PDE方程已成功作为先验知识嵌入神经网络中并转化为可微约束,在网络训练过程中通过自动微分获取梯度,通过调整合适的学习率以及优化算法即可实现满足偏微分方程和目标场的超表面结构。
对于训练过程中的优化算法选择,由于在 PINN 逆设计问题中,损失函数同时包含 PDE 残差和目标场匹配误差,优化过程既要保证物理一致性,又要快速收敛、避免陷入局部最优,本章神经网络首先所选的优化为混合策略,即使用自适应矩估计(Adam) 与有限内存拟牛顿法(L-BFGS)相结合的策略,使用Adam能够在初期实现快速下降,而L-BFGS则在后期实现精细收敛,精细优化至 PDE残差与目标场误差共同收敛。对于Adam优化算法,作为一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重,即利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。对于梯度的一阶矩估计与二阶矩估计由式(2-23)给出,但当 和 都初始化为0时,特别是在初始化的步骤和衰减率都很小时( 和 接近于1),Adam比较接近于0,从而导致参数更新较慢,于是有式(2-24)则给出对一阶、二阶矩估计的校正以抵消偏差,进而得到Adam的更新如式(2-25),其中 为学习率, , , 。
(2-23)
, (2-24)
(2-25)
而对于L-BFGS算法,是在经典 BFGS 算法的改进版本,通过限制内存使用量即仅保存最近的若干次迭代信息,显著降低了存储和计算复杂度,适用于高维参数优化问题。对于需要实现最小化的目标函数 ,其中 为待优化参数,当选择初始点 和初始Hessian逆近似矩阵 后,对于第k次迭代其计算的搜索方向为 ,并由此确定步长 以及更新参数 ,其更新历史信息为 和 并保存最近的m组数据,由此即可实现仅需一阶梯度信息二无需计算Hessian矩阵实现接近牛顿法的二次收敛速度。本章神经网络基于Adam与L-BFGS的混合策略,使用Adam优化的接近最优解的初值进一步使用L-BFGS算法进行精细调参,在保证收敛速度的基础上以更少的迭代次数达到更低的损失值。
由于优化问题中损失函数的构成包括PDE损失与目标函数损失两部分,而二者优化存在冲突,如当严格满足物理方程时,实际场分布与目标场分布偏离,采用直接加权的方式难以平衡二者的优化,故引入拉格朗日乘子进行权重的动态调整。通过拉格朗日乘子强制网络的输出严格满足PDE方程,避免非物理解的产生,并在训练后期通过乘子自动增大对未满足约束的惩罚强度从而提高优化效率加速收敛到可行解。在初始训练完成后,总损失函数可定义为式(2-26)
(2-26)
其中, 即为拉格朗日乘子,每个乘子对应一个PDE约束项,本章中即 ; 为惩罚系数,用于增广拉格朗日中的二次惩罚项。拉格朗日乘子的更新遵循对偶上升法,在 迭代中 ,若当前PDE约束未满足则增大对应乘子以强化惩罚,否则逐步减小乘子。由此即将PDE约束从固定权重惩罚转化为动态可调的硬约束,平衡物理合理性与功能需求,且通过增广拉格朗日法实现约束的渐进满足,避免了人工调参的繁琐。
自此本章已成功建立了实现透射超表面逆设计的物理授息神经网络,然而此时训练所得到的结果呈现为连续介电常数分布的介质分布,如图2-5(a)为例,其边缘呈现介电常数位于某一范围内的连续分布,这在实际中并不具备应用的可行性,因而二值化的加入必不可少,通过引入二值化模块,期望实现如图2-5(b)所示的单一介质分布效果。

(a) (b)
图2-5 基于物理授息神经网络获得的透射超表面结果示例。(a)直接训练呈现连续介电常数分布的介质分布;(b)加入二值化后的期望效果
2.2 基于二值化方法的可加工透射超表面
对于二值化模块的加入,考虑在神经网络训练过程中直接加入二值化部分,通过网络训练直接输出二值结果,然而对结果直接进行二值化判别的方法会使得有关于设计结构的梯度信息无法通过神经网络回传,从而导致超表面结构无法得到优化。本章采用一种加载连续结构模型参数的方法,在保留原有连续结构模型参数的基础上进行二值化训练从而得到介电常数二值结果。为了简化数据处理,通过Sigmoid函数将原始输出范围映射到归一化范围,并通过调整式(2-27)中参数 , 来控制该函数的倾斜程度从而使得网络输出值逼近0-1两值,如下图示意
(2-27)

图2-6 调整Sigmoid函数参量以实现二值化
二值化方法在神经网络中的嵌入可通过修改有关介电常数分布函数 的网络输出来实现,由此将建立的二值化神经网络与前述得到介电常数连续分布的网络建立联系,即可得到完整的可实现目标透射超表面设计的物理授息神经网络模型。网络模型完整架构如下图2-7所示,需要先进行PINN训练获得具有连续介电常数分布的介质分布结构,而后加载连续结构参数至二值化网络,并基于此网络模型参数进行二值化训练直到达到目标。在解决实际问题中,如给定目标材料,其介电常数为 ,经过训练得到的关于参量 的网络输出范围为 ,则在进行二值化训练时,需要更新网络输出,基于式(2-28)选择合适的参数 ,即可得到仅包含 和 的介电常数分布结果,此时该介电常数分布构成的介质结构为仅包含单一介质材料的超表面结构,由此便可直接实现加工制造及后续应用。
(2-28)

图2-7 加入二值化的用于实现透射超表面设计的神经网络架构。(a)PINN模型架构;(b)损失函数架构;(c)二值化模块
下图2-8给出了基于建立的神经网络模型实现透射超表面的训练流程。网络以采样坐标 为输入,基于已嵌入的PDE方程为约束对输出的电场实部、虚部以及介电常数分布 进行估计,首先对 进行随机初始化,由此获得电场的实部和虚部估计并计算PDE损失和目标函数损失,通过梯度优化得到满足目标函数的初始解,为进一步优化使得所求解更好的满足PDE方程,引入拉格朗日算子进一步迭代训练直到PDE损失与目标函数损失均得到满足,由此获得介电常数连续分布的介电常数分布以及此时的网络参数。对网络输出进行更新即加入介电常数函数的二值化部分,同时加载连续结构训练的网络参数并在此基础上进行拉格朗日迭代,直到其目标函数与PDE损失满足目标要求,经正向仿真验证为有效解,即可得到可用于直接加工制造的介质分布。

图2-8 实现透射超表面逆设计的训练流程
本章以 为例分别设计了两个不同聚焦位置的可直接加工制造的透射超表面结构,电磁波在经过超表面调控后在其后方产生了不同的聚焦效果,如下图2-9、2-10所示,分别为聚焦中心位于超表面一个波长位置和半个波长位置的逆设计结果,其中2-9(a)、2-10(a)为训练所得到的超表面结构,2-9(b)、2-10(b)为训练得到的对应目标电场,2-9(c)、2-10(c)为将训练所得结构应用于COMSOL正向仿真所得到的电场聚焦情况,结果表明,基于物理授息神经网络实现透射超表面的逆设计,在超表面结构和目标电场的实现都能达到较好的优化效果,且正向仿真验证表明使用PINN优化所得的结果与COMSOL仿真验证结果相吻合,证明了结果的有效性,相对于传统方法来说,获得的超表面设计更具有多样性,透射目标场也更具灵活性。

(a) (b) (c)
图2-9 聚焦中心距离超表面一个波长为目标的训练结果与仿真验证。(a)训练所得透射超表面结构;(b)训练所得电场分布;(c)正向仿真验证的电场分布

(a) (b) (c)
图2-10 聚焦中心距离超表面半个波长为目标的训练结果与仿真验证。(a)训练所得透射超表面结构;(b)训练所得电场分布;(c)正向仿真验证的电场分布
以图2-9中的案例为例,下图2-11给出了在神经网络训练过程中的损失函数图像,左图为获得介电常数连续分布介质的训练损失,其中目标函数为0.0518而PDE损失则达到了4e-6精度;右图为获得二值化介质结构的训练损失,此时目标函数为0.055,而PDE损失达到了9e-5,由此可见,经过二值化过程后所得结果的目标函数满足情况基本不变,而PDE满足情况稍弱但仍具有较高的精度,印证了通过该方法实现可加工透射超表面的可行性和有效性。

图2-11 网络训练过程的损失函数图像
2.3 本章小结
本章的研究致力于使用物理授息神经网络实现透射超表面的逆设计问题。本章首先对逆设计问题进行分析,将透射问题简化为在二维有限空间内模拟无限大自由空间中波的传播问题,由此建立神经网络模型以获得可产生目标电磁场聚焦的介电常数分布结果,并基于正向仿真验证证明了方法的有效性。接下来,考虑到连续介电常数分布的介质分布不能用于实际加工制造,为神经网络模型引入了二值化模块,通过调节Sigmoid函数的倾斜程度控制实现了网络输出的二值化,通过加载连续结构模型参数训练有效解决了二值化时梯度信息消失从而导致训练未能达到最优解的问题。本章以介电常数为2.8的材料为例,基于该方法分别以聚焦中心距离超表面1个波长和距离超表面半个波长为优化目标场分布,通过训练优化得到了两种不同的超表面结构,同时经过COMSOL正向仿真实验,验证了该方法的有效性。该方法将PINN与介电常数二值化方法相结合,可以实现任意介电常数的可加工介质透镜设计,且其电磁场聚焦位置可根据需要进行调整,所得到的可制造器件聚焦性能较好,相对于传统方法而言更易实现目标设计,可以为实现电磁场聚焦及进一步研究提供新的解决方案。
以下为第三章内容。高增益天线作为无线系统的核心组件,能够通过定向辐射特性显著增强信号传输距离、抗干扰能力和传输效率,在复杂电磁环境(如高频段毫米波通信、远距离低功耗传输)中具有不可替代的作用。然而,随着5G通信、卫星导航、雷达探测等技术的快速发展,对于天线性能的要求不断提高,传统高增益天线的设计往往面临体积大、加工复杂度高、多物理场耦合优化困难等问题。现有的高增益天线实现方法中,如通过几何结构或阵列排布实现高增益的反射面与阵列天线,存在着体积庞大、波束扫描灵活性受限、设计复杂度高等问题;通过多层介质或周期性结构实现波束聚焦的透镜天线,则面临多频段兼容性差、环境敏感等挑战。近年来兴起的人工超表面技术,利用人工电磁材料调控电磁波相位与幅度,从而能够在紧凑尺寸下实现高增益,但其调控的实现依赖于对大量单元结构参数的精确设计和优化,人工智能的引入为此提供了解决办法。但同时,传统神经网络训练依赖于数据驱动,这导致模型的实现计算成本高昂且强依赖于初始模型假设。物理授息神经网络的应用,将波动方程、边界条件等物理规律嵌入至神经网络的损失函数中,显著提高了网络的泛化能力,可在少量数据支持下实现高精度建模,同时规避“黑箱优化”导致的物理不可解释性问题。本论文第二章基于物理授息神经网络实现了透射超表面的逆设计,本章将基于此提出一种基于物理授息神经网络设计的高增益介质超表面加载天线,由此实现高增益天线的设计。
本章首先对高增益天线的实现原理进行分析,提出基于互易原理,通过对传播媒质进行设计以控制波的传播行为从而增强天线的高增益特性。基于此,首先对发射天线进行设计,采用一种漏波边射天线作为馈源,以谐振频率30GHz为例对天线进行优化设计,随后分别以两个不同的聚焦位置逆设计获得两种不同的超表面结构并通过拉伸获得其三维介质结构,由此获得实现高增益天线的两个案例,通过两案例与仅天线情况下的全波仿真对比,该方法降低了传统逆设计方法所需要的高计算成本,能够有效增强天线的高增益特性,并且支持辐射源位置动态调整,增强工程适应性。为基于超表面的电磁器件设计提供了一种新的途径,并在天线、波束成形网络及其他电磁系统中具有广泛的应用潜力。
3.1 高增益天线实现原理与天线优化
对于普通单辐射源天线来说,辐射的电磁波主辐射方向上呈现球面波,幅值会随着传播距离的不断增大而衰减,但对于高增益天线来说,辐射波在主辐射方向上,电磁波前趋于平坦,波前曲率接近无穷大,因此可近似为平面波传播,随着传播距离的增大该变量衰减较小,故在相同的探测水平下,高增益天线辐射的信号能传输更远的距离,表现出更高的增益。
互易原理(Reciprocity Theorem)作为电磁学中的核心定理之一,描述了电磁场系统中发射与接收模式的对称性关系。即在无源、线性、各向同性媒质中,天线在发射模式和接收模式下的电磁响应具有对称性,具体表述为:对于两个天线系统天线A和天线B,当天线A作为发射源、天线B作为接收器时,其传输特性与天线B作为发射源、天线A作为接收器时的特性相同,如式(3-1)
(3-1)
其中, 和 分别为天线A的电流分布和天线B的电场分布,反之亦然。
由此,对于高增益天线,假设接收天线在无限远处,那么波到达接收天线处呈现出平面波状态,根据电磁互易原理,若一个远场接收天线可接收到来自辐射源的波,则从接收端以相同极化发射波前,也应在辐射源处形成对应电场增强区域,形成聚焦点。进而得到了实现高增益的方法,其一是从辐射源本身出发,优化天线本体结构以增强远场辐射方向性,其二则是从传播路径出发,通过改变路径媒质分布控制波的传播行为以增强远场辐射方向。
对于辐射源本身进行设计即需要重新对工作天线进行拆除和优化设计,其过程复杂,工程实现难度大且成本高,而对传播媒质进行设计,则可以直接在原有天线上加载结构,成本低,利用率高。本章即采用对传播媒质进行设计,结合介质超表面的设计,利用互易原理实现高增益天线的定向辐射特性,如图3-1所示。
为了实现这一目标,首先对发射天线进行设计。通常超表面的馈源主要采用两种方法即采用喇叭天线进行馈或通过贴片天线进行馈电,然而由于喇叭天线整体结构剖面较高、体积庞大,极大地限制了在空间受限通信系统中的应用;而贴片天线尽管具有整体结构剖面低的优点,但其增益相对较低,且在毫米波频段信号损耗较大。综合考虑本章采用一种漏波边射天线作为馈源,此类天线具有副瓣较小、剖面低以及辐射效率高的优点,有效融合了喇叭天线和贴片天线各自的优势。接下来介绍该天线的设计优化情况。

(a) (b) (c)
图3-1 高增益天线设计流程。(a)PINN优化流程;(b)获得天线罩三维结构;(c)高增益天线实现案例

图3-2 天线结构
由图3-1所示的高增益天线设计流程,由于在进行透射超表面设计时基于二维坐标系设计,平面波为 极化,故天线结构亦应满足 极化辐射条件。为确保实现单一极化的辐射波,本文选用天线由两个30GHz天线组合而成。通过CST对单天线进行优化设计,最终所设计天线谐振频率为30GHz,采用Rogers 4003C为基板材料 ,该基板厚度为0.508mm,损耗正切 ,经过CST参数优化后参数结构由上图3-2所示,该天线由一段宽度w=0.5mm的传输线加载一系列长度l=2.9mm,宽度h=0.95mm的微带贴片单元构成,其中单元间距为d=5.4mm。组合天线的仿真结果如下图3-3所示,其可实现增益为19.14dBi。

(a) (b)

(c) (d)
图3-3 仅天线情况下的结果。(a)天线的xy平面截面效果;(b)-(d)天线的全波仿真结果,其中(b)为天线的 情况,(c)、(d)分别为天线在Theta=90°和Phi=90°时的增益方向图
3.2 用于增益提升的天线罩设计
对于天线罩,通过物理授息神经网络的逆设计实现,为了实现这一目标,在实际发射天线之前引入一个有限大小的设计域。通过神经网络的优化,获得设计域内的材料分布,从而使入射波与设计域相互作用后有效地汇聚到实际发射天线的位置。由于目标区域即为电场强度极大值点,仅需控制电磁波在设计域内的传播路径,无需对整个系统结构进行重构,从而有效地降低了设计复杂度。此外,该方法支持对设计域形状与聚焦点数量进行灵活设置,进而可实现多频点、多聚焦点的场调控能力。
基于前述用于实现透射超表面的物理授息神经网络,假设入射平面波的电场沿 方向,且设计的介质超表面在 轴方向上均匀分布,此时电场仅具有 方向分量且电场场值不随沿 方向变化,因此该模型可等效为横向磁场(TM)极化下的二维电磁传播问题。该简化模型将原始的三维全波优化问题转化为二维横截面内的介质分布优化,显著降低了计算负担。为与3.1节中给出的天线结构相匹配,将频率选择为30GHz,则设计域大小得到限定,包含完美匹配层的整个计算域大小为6cm×7cm,其中完美匹配层宽度为1cm,逆设计区域为1cm×1cm,聚焦区域大小为1cm×1cm。采用Sobol采样的方式对整个计算域采样,采样间距为0.05cm。
在通过训练优化获得有效介质超表面后,通过solid works将其沿 向拉伸至三维,由此获得可用的天线罩设计,如下例图3-4。

图3-4 基于物理授息神经网络获得的可用天线罩
本章分别以对称式高增益天线罩和离轴式高增益天线罩为例,共同验证所提方法的普适性和工程可实现性,所有案例均在搭载 Nvidia Tesla A800 80G 显卡的计算平台上,采用 Python 编程语言完成 PINN 训练与优化。
首先针对对称式高增益天线罩,即将辐射源设置于天线罩的对称轴以保持方向图的对称性,减少边缘绕射对主瓣的干扰。则基于互易原理,逆设计问题的场聚焦位置应固定在设计区域的对称轴上,同时对其他场点参数进行约束以最大化目标场强。此处以场聚焦位置距离设计区域 即1cm为例,最终获得目标相对介电常数为2.8的介质超表面。将超表面沿 向拉伸获得对应的天线罩结构,放置天线在对应位置共同组成高增益天线结构,其 面的截面图如下图3-5(a)所示,(b)-(d)分别给出该天线的全波仿真结果,此时天线可实现的最大增益为21.58dBi,相对于前述仅天线放置时,其增益提高了2.44dBi。

(a) (b)

(c) (d)
图3-5 对称式高增益天线结果。(a)天线的xy平面截面效果;(b)-(d)天线的全波仿真结果,其中(b)为天线的s11情况,(c)、(d)分别为天线在Theta=90°和Phi=90°时的增益方向图
对于离轴式高增益天线罩,此时设计的辐射源并不严格位于天线的对称轴上,而是偏离对称轴一定距离,这种情况也更符合实际应用。基于互易原理,将场聚焦位置偏离对称轴,这里以向左偏离1cm为例,y方向仍为场聚焦位置距离设计区域 即1cm,最终获得目标相对介电常数为2.8的介质超表面。同样将超表面沿 向拉伸获得对应的天线罩结构,放置天线在对应位置共同组成高增益天线结构,其 面的截面图如下图3-6(a)所示,(b)-(d)分别给出该天线的全波仿真结果,此时天线可实现的最大增益为21.01dBi,相对于前述仅天线放置时,其增益提高了1.87dBi。同时,对比仅天线情况下、对称式高增益天线以及离轴式高增益天线的全波仿真结果可知,两案例中在加载逆设计获得的超表面结构后,未对天线的工作频段造成影响,且在获得增益提升的同时能够保持较好的旁瓣水平。

(a) (b)

(c) (d)
图3-6 对称式高增益天线结果。(a)天线的xy平面截面效果;(b)-(d)天线的全波仿真结果,其中(b)为天线的s11情况,(c)、(d)分别为天线在Theta=90°和Phi=90°时的增益方向图

(a) (b) (c)
图3-7 辐射场分布对比。(a)仅天线情况下的天线辐射场分布;(b)对称式高增益天线的辐射场分布;(c)离轴式高增益天线的辐射场分布
上图3-7给出了在仅天线情况下、对称式高增益天线以及离轴式高增益天线的辐射场分布对比。可以看到,在未加载超表面结构时,天线辐射的电磁波在主辐射方向上呈现球面波且幅值随着传播距离的增大而不断衰减;而后两者,在加载了超表面结构后,其辐射在主辐射方向上趋于平坦且幅值随传播距离衰减较小,近似于平面波传播,这与前述高增益天线的辐射原理相互验证,进一步体现增益的有效提升。
3.3 本章小结
本章提出一种基于物理授息神经网络的高增益介质超表面加载天线设计。利用电磁互易原理,将远场平面波接收与聚焦过程反向映射为天线罩介质分布优化,从传播路径入手实现增益控制,相较于重构天线本体结构,此方法可在原有天线上直接加载罩体,成本低、适应性强;结合PINN的逆设计方法,将电磁波动方程与边界条件融入深度网络训练,通过PINN在二维截面内高效求解介质优化问题,并通过三维拉伸获得可加工结构,极大降低了传统全波优化的计算量。
为验证方法的普适性与工程可行性,本章以对称式与离轴式两种天线罩为例开展案例研究。在对称式方案中,聚焦位置位于设计域对称轴,最终获得相对介电常数2.8 的超表面结构,并在全波仿真中实现21.58 dBi的增益,较仅天线情况提高约2.44 dBi;在离轴式方案中,聚焦点相对对称轴偏移1 cm,同样得到目标介电常数2.8 的超表面,仿真增益达到21.01 dBi,上升1.87 dBi。对比三种结构的辐射场分布可知,加载超表面后,主瓣方向的电磁波前趋于平坦、幅值衰减显著减小,从物理互易原理层面与高增益天线的理论特性高度吻合,同时,所设计天线具有在不同辐射源位置下保持良好旁瓣水平与工作频段稳定性的能力。
综上,本章提出的基于PINN的高增益介质超表面加载天线设计方法,突破了传统高增益天线在体积、带宽和制造难度等方面的局限,实现了在低计算成本下的高效逆向优化。所提方法支持辐射源位置动态调整,设计域形状与聚焦点数量可灵活设定,具备在多频点、多聚焦点需求下的扩展潜力,通过系统的理论分析、数值优化与全波仿真验证,证明了所提方案在毫米波天线设计领域的实用价值和推广前景。
请你用相对完备的语言为这篇学术论文完成“总结与展望”部分,具体需要包括本文的工作总结以及下一步的工作展望

Gedanke

Thought for a couple of seconds

Antwort

总结与展望

一、工作总结
本文以“基于知识神经网络的电磁透射器件研究”为主题,围绕物理授息神经网络(PINN)与经验嵌入神经网络两大范式,系统探讨了三类典型电磁透射器件的智能化设计方法与实现效果。

首先,在第二章中提出并实现了基于PINN的透射超表面逆向设计流程。我们将二维平面上的波动方程及边界条件“授息”进神经网络损失函数,通过自动微分高效计算PDE残差,将平面波期望聚焦场作为目标匹配项。为解决连续介电常数分布难以加工的难题,创新性地引入二值化模块:在连续结构模型参数的基础上,借助可调节陡峭度的Sigmoid函数,使网络输出逼近指定的两种介电常数,实现可加工超表面结构。两个不同聚焦距离的案例及COMSOL正向仿真验证,充分证明了所提方法在设计灵活性、计算效率和制造可行性方面的优势。

在第三章中,我们将PINN技术拓展到高增益天线罩设计领域,提出了一种基于电磁互易原理的增益优化思路:不改变天线本体结构,而是在辐射路径上加载反向聚焦超表面介质罩,直接提升主瓣方向的平面波特性。针对30 GHz 漏波边射天线馈源,分别设计了对称式和离轴式两种高增益罩体,通过训练获得相对介电常数为2.8的三维结构。全波仿真结果表明,与裸天线相比,所提方案可分别获得2.44 dBi和1.87 dBi的增益提升,同时保持良好的旁瓣水平与工作频段稳定性,验证了PINN逆设计在毫米波天线领域的工程可行性。

第四章则聚焦于经验嵌入神经网络在滤波器设计中的应用。结合经典耦合矩阵综合方法与深度学习技术,针对3.75 GHz–4.25 GHz 通带滤波器,构建了以回波损耗为目标的多尺度数据集,并通过经验嵌入网络完成尺寸参数的快速预测。仿真与电路实验结果均显示,该方法在保持传统电磁理论准确性的同时,大幅提升了滤波器设计效率,减少了试错成本。

总体来看,本文工作体现了以下三点核心贡献:

  1. 理论与工程的紧密结合——将麦克斯韦方程、互易原理等先验知识显式嵌入神经网络架构,既保证了物理可解释性,又通过逆设计大幅降低了千层试错的计算负担;
  2. 可加工性与灵活性的统一——在超表面二值化与天线罩三维拉伸环节,引入连续结构参数和可调节函数,实现了设计结果从数学模型到可制造器件的无缝转化;
  3. 方法的普适性与扩展性——无论是超表面聚焦、天线增益提升,还是滤波器参数预测,知识神经网络范式均能提供高效、可靠的解决方案,证明了其在更大范围电磁器件设计中的推广价值。

二、未来展望
尽管本文在电磁透射器件智能化设计方面取得了重要进展,但面向更复杂、更高性能的应用场景,仍有若干关键问题与挑战亟待解决:

  1. 多目标、多频段及宽带性能优化
    实际无线系统往往对器件的带宽、增益、旁瓣、回波损耗等多项性能同时提出苛刻要求。未来可在PINN损失函数中引入多目标加权机制,或采用多网络协同训练,实现跨频段、宽带级的超表面与天线罩设计。

  2. 三维全波PINN建模与实际制造误差
    本文针对超表面聚焦问题采用二维截面简化,后续可将PINN扩展到三维全波场景,直接在三维设计域内优化介质分布。同时,需要将制造公差、材料非理想性等因素纳入约束或随机变量,以增强设计方案的鲁棒性和实用性。

  3. 自适应与在线重构能力
    随着可重构超表面与智能天线的兴起,器件需根据环境、信道即时调整结构。可在PINN架构中融入强化学习或元学习机制,实现模型的在线微调与自适应重构,加快实战部署速度。

  4. 多物理场耦合与联合优化
    在高功率、低温度敏感性或电-热双耦合场景下,需同时考虑功率耗散、热分布、机械变形等多物理效应。未来可构建多任务PINN,将电磁、热力、结构力学等方程联合纳入网络,实现跨学科的智能协同优化。

  5. 实验验证与系统集成
    大规模部署需要在实验室与野外环境中进行更多实体样机的测量与调试。下一步将结合3D打印、毫米波测量系统,对PINN设计器件进行全面验证,并探讨其在5G/6G基站、卫星通信、雷达等系统级应用中的集成与产业化路径。

  6. 知识神经网络范式拓展
    除了PINN与经验嵌入网络,还可以引入图神经网络(GNN)、物理引导变分自编码器(Physics-VAE)等深度生成模型,进一步提升设计空间的探索效率与多样性,加速电磁器件从概念到原型的迭代过程。

综上所述,知识神经网络在电磁透射器件设计领域展现了强大的理论价值和工程意义。在未来的研究中,通过多物理场耦合、多目标在线自适应以及三维全波建模等方向的深入拓展,必能推动电磁智能化设计技术迈向更高水平,为新一代无线通信、成像雷达及传感系统提供更加高效、可靠的核心器件解决方案。

Diesen Q&A teilen