这是我的投稿论文,编辑的意见是修改后重投其他的期刊,以下是审稿意见,应该如何修改原文,有哪些重要的地...

Created on: April 13, 2026

Answered using GPT-5.4 Thinking by Chat01

Question

TGRS-2025-10151_Proof_hi.pdf

这是我的投稿论文,编辑的意见是修改后重投其他的期刊,以下是审稿意见,应该如何修改原文,有哪些重要的地方要改进。对创新性的问题如何重新解释我们文章的行文逻辑。

Thought

Clarifying methodology and strengthening claims

I need to clarify some scientific claims: the terminology is inconsistent, and the phrase "simulated and real-world datasets" is inaccurate — I'll adjust it to "benchmark scenes from natural and remote-sensing hyperspectral datasets under widely used simulation protocols." I also should clarify the difference between central and head attention, maybe with a figure and pseudocode. Adding a complexity table and improving ablation with specific metrics, like per-band spectral errors, would also help. I’ll update the "improved performance" to reflect a more precise interpretation.

Thought for 3m 42s

Answer

我先说明一下:你上传的文件里是论文正文,我这边没有看到真正的外审意见原文。所以我先按“逆向审稿”的方式,基于稿件本身判断最可能被编辑/审稿人卡住的地方,再给你一个可直接执行的重写方案。你这篇稿子的问题,大概率不是结果差,而是创新点表达分散、证据链不够闭环、论文叙事更像模块叠加而不是一个明确科学问题的解决方案。(TGRS-2025-10151_Proof_hi.pdf)

一、最该优先改的,不是结果表,而是“创新性主线”

你们现在的写法是:

  • SL-MMHA 是一个贡献
  • Head Attention 是一个贡献
  • CAB 是一个贡献
  • 实验结果又是一个贡献

这种写法很容易让审稿人产生一个判断:这是在 Swin / window attention / 多尺度卷积 上做了三处工程性改造,再把它们拼起来。而且把“实验结果好”写成 contribution,会进一步削弱“方法本身的原创性”。(TGRS-2025-10151_Proof_hi.pdf)

但其实你们文章里真正最有价值的,不是“三个模块”,而是 Motivation 里提出的那个核心矛盾

HS-MS fusion 中,
想保留光谱保真度,就需要小 token / 甚至 1×1 token;
想扩大空间感受野,又往往依赖 patch merging / hierarchical attention;
这两者天然冲突。

你们后面的多尺度卷积、head attention、center attention,本质上都是在服务这个主问题。这个逻辑在 Motivation 里已经写出来了,但现在没有被提升成整篇文章的主线。(TGRS-2025-10151_Proof_hi.pdf) (TGRS-2025-10151_Proof_hi.pdf)

你应该把创新性重写成一句话

不要再写成“三个点并列”。

更好的核心表述是:

本文的核心创新不是又提出了三个注意力模块,而是提出了一种 token-preserving 的轻量化 HS-MS fusion 框架,用不依赖 patch merging 的方式,同时兼顾 per-pixel spectral fidelity、multi-scale spatial context 和 boundary reconstruction。

然后再说:

  • 为了保留光谱,不做 patch aggregation,而用 1×1 pixel token;
  • 为了补偿感受野缩小,引入多尺度卷积 + 单层跨尺度 head interaction;
  • 为了解决 window 边界上下文缺失,引入 center attention。

这样一改,文章会从“模块堆叠”变成“围绕一个明确矛盾设计的完整解决方案”。这就是你们最该重写的地方。(TGRS-2025-10151_Proof_hi.pdf) (TGRS-2025-10151_Proof_hi.pdf) (TGRS-2025-10151_Proof_hi.pdf)


二、我判断最容易被质疑的 6 个问题

1)创新点拆得太碎,且“主创新”不够聚焦

当前 contributions 直接列 SL-MMHA、Head Attention、CAB、实验结果,容易被看成 incremental engineering。(TGRS-2025-10151_Proof_hi.pdf)

怎么改: 把贡献改成“1 个核心方法学贡献 + 2 个支撑机制 + 1 个实验发现”,不要四个并列创新。

建议改成:

  1. We identify the spectral-fidelity / receptive-field trade-off caused by token aggregation in Transformer-based HS-MS fusion.
  2. We propose a token-preserving lightweight fusion framework that expands spatial context without patch merging.
  3. Within this framework, head-wise cross-scale interaction and center-aligned local attention are introduced to improve multi-scale communication and boundary reconstruction.
  4. Extensive experiments verify that this design yields a better accuracy–efficiency trade-off.

这样更像“方法学贡献”,不像“拼模块”。


2)摘要和正文里对“single-layer” 的表述可能会被抓

摘要和贡献里一直强调 “single self-attention layer” / “Single-Layer MMHA”,但网络结构部分又明确写了有 m 个 FIM layer,每层还有 n 个 MMH block,所以这个说法很容易让人觉得概念上夸大了。(TGRS-2025-10151_Proof_hi.pdf) (TGRS-2025-10151_Proof_hi.pdf)

怎么改: 把 “single-layer” 限定到模块内部机制,不要让人误解成整个网络只有一层 attention。

例如改成:

  • 不说 “achieves ... within a single self-attention layer”
  • 改说 “each MMH block performs multi-scale interaction within a single attention stage, avoiding hierarchical patch merging”

这样更准确。


3)“simulated and real-world datasets” 这个表述前后不一致

摘要里说是 “simulated and real-world datasets”,但实验设置部分又写得很清楚:LR-HSI 和 HR-MSI 是由已有 HR-HSI 通过 blur、downsampling 和 Nikon D700 spectral response 合成出来的。这个写法会让审稿人质疑:你们到底有没有真正的 real sensor pair 实验? (TGRS-2025-10151_Proof_hi.pdf) (TGRS-2025-10151_Proof_hi.pdf)

怎么改: 如果确实没有真实成对传感器数据,就把所有 “real-world datasets” 改成:

  • “benchmark datasets containing natural and remote-sensing scenes”
  • 或者 “simulated fusion settings on standard indoor and remote-sensing HSI benchmarks”

除非你们能补一个真正的 real-data experiment,否则这里一定要降调,不然很容易被认为表述不严谨。


4)“lightweight” 证据不完整

你们在 Motivation 里专门推了复杂度和参数增长公式,核心卖点又是 lightweight,但正文实验表里基本只展示了 params,没有系统给出 FLOPs、推理时间、显存占用、不同尺寸下的 latency。这会让“轻量化”只成立一半。(TGRS-2025-10151_Proof_hi.pdf) (TGRS-2025-10151_Proof_hi.pdf)

怎么改: 重投前一定补一个 efficiency table,至少包含:

  • Params
  • FLOPs/MACs
  • Inference time per image
  • Peak GPU memory
  • 在不同输入尺寸下的 runtime curve

否则审稿人很容易说:你只是参数少,不等于真正轻量。


5)对比实验的“公平性”会被质疑

你们把一些 pansharpening 方法做了结构适配:用 HR-MSI 替换 PAN,用 LR-HSI 替换 LR-MSI,同时“保留核心架构不变”。这种做法并非不能做,但很容易被问一句:这些 baseline 是否真的适用于 HS-MS fusion setting?适配后是否仍代表它们的最佳性能? (TGRS-2025-10151_Proof_hi.pdf) (TGRS-2025-10151_Proof_hi.pdf)

怎么改: 实验部分把 baseline 分成两组:

  • Native HS-MS fusion methods
  • Adapted pansharpening-based baselines

并单独说明:

  1. 为什么这些 adapted baselines 仍有比较价值;
  2. 哪些方法是原生 HS-MS fusion;
  3. 你们的主结论在“原生 HS-MS fusion methods”子集上是否仍然成立。

这样能显著降低 reviewer 对公平性的攻击面。


6)消融实验现在“有,但不够强”

你们做了 MSCM / HA / CA 的消融,但提升幅度整体偏小,而且有一句话逻辑上是有问题的:

“replacement of the central attention module with standard Swin Transformer blocks resulted in improved performance...”

如果“替换掉 CAB 反而 improved”,那和你后面的结论是冲突的。这里很可能是表述错误。(TGRS-2025-10151_Proof_hi.pdf)

而且目前的消融只是泛化指标提升:

  • Exp.I 48.92 → 49.04
  • Exp.II 48.99 → 49.04
  • Exp.III 48.86 → 49.04

这种增益不算大。(TGRS-2025-10151_Proof_hi.pdf)

怎么改: 你们需要把消融从“总指标略升”改成“针对机制的证据”。

对应关系应该是:

  • 1×1 token / spectral fidelity
    → 补充 per-band error curve、spectral angle distribution、典型像素光谱曲线
  • Head Attention / cross-scale interaction
    → 补 attention-map 可视化,或不同 head 之间的信息流分析
  • CAB / boundary reconstruction
    → 单独做 edge-region metrics,或 boundary mask 下的 PSNR / SAM / SSIM

这样 reviewer 才会相信“这个模块真在解决它声称的问题”。


三、整篇文章应该怎么重写行文逻辑

你现在的逻辑更像:

Swin 有问题 → 我们有三个模块 → 实验很好

建议改成下面这个版本:

新逻辑框架

第一层:先定义问题,不要先定义模块

先把问题写成:

Transformer-based HS-MS fusion faces a fundamental trade-off:
token aggregation enlarges receptive fields but mixes spectral signatures;
pixel-wise tokens preserve spectra but restrict spatial context.

这才是整篇文章的“研究问题”。

第二层:提出设计原则

然后给出一句设计原则:

We seek to enlarge spatial context without sacrificing token-level spectral integrity and without relying on hierarchical patch merging.

这句话一出来,你们后面所有模块都有了位置。

第三层:每个模块只承担一个明确功能

  • MSConv:负责“在不做 patch merging 的前提下预先构造多尺度上下文”
  • Head Attention:负责“让不同尺度的信息发生交互,而不是各自独立”
  • CAB:负责“修补 window attention 对边界像素上下文利用不足的问题”

这时 reviewer 会看到:不是三块拼起来,而是三个机制依次解决同一主问题的三个子矛盾。

第四层:最后才说结果

最后落到:

因为这套设计避免了 patch merging,又保留了 per-pixel spectral token,所以在 accuracy–efficiency trade-off 上更优。

这时性能表就成了“验证”,而不是“创新本身”。


四、你们的“创新性”建议这样重写

下面这段可以直接作为你们 Introduction 末尾的思路,英文我给你一个可直接改写的版本:

Reframed novelty statement
Existing Transformer-based HS–MS fusion methods often improve spatial context by enlarging tokens or using hierarchical patch merging, but these operations may mix pixel-wise spectral signatures and increase model complexity. In contrast, our method is built on a token-preserving design: each spatial location is represented without spectral aggregation, while multi-scale spatial context is introduced through pre-attention multi-scale feature construction and cross-scale head interaction. To further compensate for the locality deficiency of window attention near boundaries, we introduce a center-aligned local attention mechanism. Therefore, the novelty of our method lies not in stacking multiple attention variants, but in providing a lightweight solution to the spectral-fidelity / spatial-context trade-off in HS–MS fusion.

这段的关键,是把 novelty 从“有三个模块”改成“解决一个 trade-off 的统一框架”。


五、可以直接替换的 contribution 写法

建议把现在那 4 条贡献改成下面这种结构:

The contributions of this work are threefold:

  1. We formulate Transformer-based HS–MS fusion as a trade-off between token-level spectral preservation and receptive-field expansion, and propose a lightweight token-preserving framework to address it without hierarchical patch merging.
  2. We design a multi-scale attention interaction scheme, where multi-scale features are constructed before attention and further coupled by head-wise cross-scale interaction, enabling efficient spatial-context modeling under pixel-wise tokenization.
  3. We introduce a center-aligned local attention mechanism to improve neighborhood utilization for boundary pixels, and extensive experiments show that the proposed design achieves a favorable accuracy–efficiency trade-off on standard HS–MS fusion benchmarks.

注意这里:

  • 不再把“实验结果好”单独当 contribution 4
  • 不再把每个模块都写成平级“大创新”
  • 而是把它们并入一个统一框架下

六、按章节给你一个“怎么改原文”的清单

1. Abstract

重点改 4 件事:

  • 删掉过强的 “state-of-the-art with substantially fewer parameters” 这种句式,改成 “competitive or superior performance with a favorable accuracy–efficiency trade-off”
  • 把 “single self-attention layer” 改准确
  • 把 “simulated and real-world datasets” 改准确
  • 第一二句不要先报结果,先报问题

摘要建议结构:

  1. 现有 Transformer fusion 的核心矛盾
  2. 你们的设计原则
  3. 三个机制如何分别解决问题
  4. 实验验证 accuracy–efficiency trade-off

2. Introduction

你们现在 Introduction 信息很多,但问题是相关工作铺得太长,主问题聚焦太晚。(TGRS-2025-10151_Proof_hi.pdf)

建议这样改:

  • 第 1 段:HS-MS fusion 的任务背景,缩短
  • 第 2 段:CNN / Transformer 方法的共性问题
  • 第 3 段:把你们的核心 trade-off 提出来
  • 第 4 段:给出你们的整体设计原则
  • 第 5 段:贡献

也就是说,把现在的 Motivation 提前并上升为引言主线


3. Related Work

现在的 Related Work 把 pansharpening、HS-MS fusion、Transformer、甚至 CASSI 都写进来了,信息很全,但边界有点乱。(TGRS-2025-10151_Proof_hi.pdf)

建议分成:

  • HS-MS fusion methods
  • Transformer-based fusion under spectral/spatial trade-offs
  • Lightweight and boundary-aware attention design

不要再按“谁都介绍一下”的方式写,而是按“和我这篇的主问题有什么关系”来写。


4. Method

Method 部分已经比较完整,但有两个增强点:

第一,补你们自己的复杂度分析。
现在你们主要分析的是 Swin patch merging 的复杂度问题,但没有把 proposed method 的复杂度优势明确落成公式或表格。(TGRS-2025-10151_Proof_hi.pdf)

第二,统一命名。
文中有 LMCAN、Multiscale Multi-Head Network、MMH、MMHA、MSCM、MSConv、MConv 等多套叫法,容易让审稿人读得很累。(TGRS-2025-10151_Proof_hi.pdf) (TGRS-2025-10151_Proof_hi.pdf)

建议固定成:

  • LMCAN = whole network
  • MSConv = multi-scale feature constructor
  • MMH block = head-wise cross-scale interaction block
  • CAB = center-aligned boundary refinement block

5. Experiments

这是重投最值得补的部分。

至少加 4 类东西:

  1. Efficiency table:Params/FLOPs/Latency/Memory
  2. Robustness:不同放大倍数、不同 blur/noise 设置
  3. Fair comparison split:native vs adapted baselines
  4. Realism clarification:明确你们是 benchmark simulation protocol 还是 real paired data

现在实验结果本身不差,但“结论支撑力”还不够。(TGRS-2025-10151_Proof_hi.pdf)


6. Ablation

把“泛指标提升”改成“针对每个机制的专属证据”。

这部分是最能救创新性质疑的地方。因为 reviewer 质疑的不是你有没有模块,而是:这些模块是否真的对应一个必要的科学设计,而不是可替换的小修小补。


七、一些容易被 reviewer 扣分的文字问题,也要顺手改掉

这些不是决定性问题,但会明显影响印象:

  • “novel methodology”“state-of-the-art”出现太多,建议整体降调
  • “our dataset” 这种表述要避免,应该明确是 benchmark dataset
  • “hight / wight” 这类拼写错误要统一改
  • “central / center / centralized” 命名统一
  • 图 1、图 2、图 3 的说明需要更明确地区分“问题展示”“整体框架”“局部模块”
  • Table I–V 的描述风格统一,不要有的写 average results,有的写 best performance,有的又写 efficiency

这些语言层面的统一,会让重投版本更成熟。


八、给你一个最实用的重投策略判断

如果编辑意见是“修改后转投其他期刊”,那通常意味着:

  • 文章不是不能发
  • 而是以当前写法和创新定位,不够匹配原刊的 novelty threshold

所以你们重投时,最重要的不是把结果再刷高 0.1 dB,而是:

  1. 把创新表述从“模块叠加”改成“统一问题驱动的设计”
  2. 把 lightweight 证据补完整
  3. 把实验设定的争议点说清楚
  4. 把消融从弱支撑变成强支撑

只要这四件事做扎实,这篇稿子会比现在强很多。


九、我建议你优先动手的顺序

第一轮先改这 5 处:

  1. 重写 Abstract 和 Introduction 末尾的 contributions
  2. 统一 novelty 主线:spectral fidelity vs spatial context trade-off
  3. 修正 simulated / real-world 的表述
  4. 补 efficiency table 和更强的 ablation
  5. 统一术语、删掉过强 claim

把审稿意见原文贴出来后,我再按 Reviewer 1 / 2 / 3 给你拆成“每条意见对应改哪里、怎么改、回复信怎么写”。

Question

原始的审稿意见如下:
Associate Editor Comments:
Associate Editor
Comments to the Author:
After careful consideration of the reviewers' comments and thorough evaluation of the manuscript, it is not considered to accept his paper for publication in its current form. The primary concern lies in the paper's limited novelty and incremental contribution to the field. The manuscript essentially presents a combination of existing attention mechanisms without demonstrating a fundamental innovation that distinguishes it from prior work. As noted by the reviewer, the proposed approach appears "moderate or incremental" since similar concepts such as inter-head communication and pixel-centered neighborhood attention have been extensively explored in previous literature. The authors have not successfully articulated what constitutes the essential novelty beyond merely integrating established components. The Reviewer also emphasized the lack of distinctive argumentation differentiating the proposed method from traditional multi-head attention mechanisms, coupled with insufficient mathematical derivation and theoretical analysis. The paper's claims regarding lightweight advantages remain unsubstantiated without comprehensive computational complexity analysis and runtime efficiency evaluation. Additional concerns include factual inconsistencies between textual claims and experimental results, inaccurate terminology usage, and imprecise metric interpretations. These issues collectively undermine the paper's scientific rigor and contribution significance.

While the technical implementation demonstrates competence, the work's incremental nature and limited theoretical advancement suggest it may be more suitable for journals focusing on engineering applications or methodological combinations rather than fundamental innovations. It is recommended that the authors substantially enhance the theoretical foundation, clarify the unique contributions, and provide more rigorous experimental validation before considering resubmission.

--

Reviewers Comments:
Reviewer: 1

Comments to the Author
1.The paper does not explicitly quantify the model’s lightweight advantages, and it is necessary to highlight its essential differences from multi-layer Transformer architectures.
2.The paper lacks a distinctive argumentation that differentiates it from traditional multi-head attention.The mathematical derivation of Head Attention needs to be elaborated in detail.
3.The paper does not analyze the model’s computational complexity and only demonstrates its lightweight nature through the number of parameters, thus lacking a comprehensive evaluation of runtime efficiency.

Reviewer: 2

Comments to the Author
This paper presents a lightweight Transformer-style HS–MS fusion network that combines multiscale convolutional feature extraction with local or window-based attention, and includes two additional modules.


  1. The authors replace CNN-based feature mixing with Transformer-like local attention and introduce two small refinements. However, the novelty appears moderate or incremental, as similar ideas have been explored in prior work, such as inter-head communication and pixel-centered neighborhood attention. The authors should clarify what is fundamentally new beyond combining these established components.
    
  2. The text claims the method achieves “the highest average values across all four evaluation metrics (PSNR, SAM, ERGAS, SSIM).” However, SAM and ERGAS are lower-is-better metrics, so using “highest” is incorrect and should be revised.
    
  3. The ablation discussion states that replacing the center attention with standard Swin blocks “resulted in improved performance across all evaluation metrics,” but Table V shows the opposite trend (Exp. III is worse than “Ours” in PSNR and SAM or ERGAS). This is a clear factual inconsistency and should be corrected.
    
  4. The text states that patch merging causes “exponential growth in parameters (proportional to n^4).” This is not exponential growth; it is quartic (polynomial) growth in n.
    
  5. Typos: for example, “(H) represents hight, (W) represents wight” should be “height” and “width,” respectively.
    
    先不着急写回搞意见,如何系统性的描述论文创新思路,如何对文章进行更改

Thought

{"pointers":["3:1","3:7","3:8","3:9","3:10","3:18"]}

Thought for 2m 18s

Thought

Crafting concise reply with file citations in Chinese

I need to craft a concise but useful final response in Chinese and make sure to cite file references. The system asks for specific line numbers. Though citation options like "turn0file0" may be valid, I’ll likely need exact line ranges due to the syntax requirement. I'll use "turn4file2" and approximate line numbers based on visible text.

Citing key paragraphs and handling line ranges

I need to cite key areas, like the abstract and contributions, using approximate line ranges from the pages. For instance, the abstract may be from page 2, lines 1-24. I’ll use the source “turn4file2” and approximate line ranges. I'll also check how citations are typically done to ensure accuracy. I’ll map out the text carefully to make sure the citations are reliable.

Thought for 2m 46s

Answer

可以先把问题说透:这次被拒,不是因为你们完全没有工作量,而是因为稿子现在把创新写成了“几个已有模块的组合”,所以编辑和审稿人自然会把它归类为 incremental engineering。而你们稿子里其实已经有一个更强的主线,只是没有被抬升成整篇文章的中心:** HS–MS fusion 里,token 设计同时牵制光谱保真、空间感受野和边界上下文利用,这三者存在结构性矛盾**。你们的方法真正该强调的,不是“三个模块”,而是“围绕这个矛盾提出了一套 patch-merging-free、token-preserving 的轻量化设计”。稿子现在的摘要、引言、贡献点和结论,都还没有把这一点讲透。(TGRS-2025-10151_Proof_hi.pdf) (TGRS-2025-10151_Proof_hi.pdf)

一、先把创新思路重新“立题”

你们现在的写法是:

  • SL-MMHA 是创新
  • Head Attention 是创新
  • CAB 是创新
  • 实验结果好也是创新

这会让人觉得:你们是在 Swin/Window attention 框架上加了几处改件。而审稿意见恰好就是这么看的。

更好的写法应该是把整篇文章统一成一个问题驱动的叙事:

现有 Transformer 型 HS–MS fusion 面临一个核心矛盾:

  1. 为了保留每个像素的光谱签名,token 不能做大,最好是 1×1;
  2. 但 token 变小以后,window attention 的空间上下文又会变窄;
  3. 若再用 patch merging 去扩感受野,又会引入谱混合、层级堆叠和复杂度增加;
  4. 同时,window 机制对边界像素的邻域利用还不充分。(TGRS-2025-10151_Proof_hi.pdf)

这样一来,你们的方法就不再是“三个模块拼起来”,而是:

  • MSConv:在不做 patch merging 的前提下,先构造多尺度上下文;
  • Head Attention:让这些尺度之间真的发生交互,而不是各 head 各算各的;
  • CAB:补 window attention 在边界位置的局部上下文缺失。

这三个部件都变成了同一个主问题下的三个机制


二、你们最该强调的“真正创新”是什么

建议把创新重新定义成下面这句话:

本文的核心创新不在于又提出了几个注意力模块,而在于提出了一种 token-preserving、patch-merging-free 的 HS–MS fusion 框架,在保持 pixel-level spectral fidelity 的同时,用轻量方式补偿 multi-scale spatial context 和 boundary-aware reconstruction。

这句话比“我们有 SL-MMHA、HA、CAB”强得多,因为它回答了审稿人最关心的那个问题:

你们到底解决了什么结构性问题,而不是仅仅组合了什么模块。

你们稿子的 Motivation 部分其实已经接近这个思路:你们明确写了大 patch 会造成 spectral mixing,1×1 token 能保留 spectral signatures,但又会缩小 receptive field,于是再引出 multiscale conv、head interaction 和 center attention。这个段落是全文最有价值的地方,应该前移、强化,并成为引言主线。(TGRS-2025-10151_Proof_hi.pdf)


三、如何系统性地重写“创新叙事”

你们可以把全文逻辑改成下面这个四层结构。

第一层:先定义“研究问题”,不要先定义模块

引言不要一上来就说“我们提出了 LMCAN”。
应该先说:

  • HS–MS fusion 需要同时保留光谱精度和空间细节;
  • Transformer 方法常靠 patch tokenization 和层级结构扩大感受野;
  • 但在 HS–MS fusion 中,patch aggregation 会破坏 pixel-wise spectral signatures;
  • 因而存在 spectral fidelity vs receptive-field expansion 的核心冲突。(TGRS-2025-10151_Proof_hi.pdf)

第二层:提出一个统一设计原则

然后用一句话概括你们的方法论目标:

在不依赖 hierarchical patch merging 的前提下,扩大空间上下文,同时保持逐像素光谱完整性。

这句话非常关键。它是全文的总纲。

第三层:每个模块只承担一个功能

这样写:

  • MSConv 不是“一个新模块”,而是为了在 token 不合并的条件下建立多尺度局部上下文;
  • Head Attention 不是“普通 multi-head 的改版”,而是为了实现尺度间通信
  • CAB 不是“又一个 local attention”,而是为了修复 window 边界上下文缺失

第四层:最后再落到轻量化与性能

最后才说:

  • 因为避免了 patch merging 和深层层级堆叠;
  • 所以在参数规模上更紧凑;
  • 如果补上 FLOPs、latency、memory 后,还可以进一步说明是 accuracy–efficiency trade-off 更优。(TGRS-2025-10151_Proof_hi.pdf)

四、你们现在最薄弱的地方,不是结果,而是“创新表达方式”

编辑意见其实已经说得很明确了:
问题不在“技术实现太差”,而在于没有成功说明 essential novelty

这个问题在稿子里主要体现在四个位置。

1)贡献点写法太碎

现在的 contribution 是四条并列,分别对应三个模块和实验。这样最容易被看成“模块堆叠”。(TGRS-2025-10151_Proof_hi.pdf)

建议改成三条:

  1. 提出问题:把 Transformer-based HS–MS fusion 归结为 token-level spectral preservation 与 receptive-field expansion 的冲突;
  2. 提出框架:给出一个不依赖 patch merging 的 token-preserving 轻量框架;
  3. 提出机制并验证:用 head-wise cross-scale interaction 和 center-aligned local attention 分别解决尺度交互与边界重建问题,并验证其 accuracy–efficiency trade-off。

这会比现在强很多。

2)“single-layer” 容易被抓

摘要和引言里反复说 “within a single self-attention layer” 或 “Single-Layer MMHA”,但方法部分又明确写了 m 个 FIM layers,每层 n 个 MMH block。这很容易让审稿人觉得表述夸大。(TGRS-2025-10151_Proof_hi.pdf) (TGRS-2025-10151_Proof_hi.pdf)

这里建议改成:

  • 不说整个网络是“single-layer”
  • 而说:each MMH block realizes multi-scale interaction within a single attention stage, without hierarchical patch merging

这样就准确了。

3)“real-world datasets” 表述不准确

摘要里说 “simulated and real-world datasets”,但实验设置里实际上写的是:利用已有 HR-HSI 做 blur + downsample,并用 Nikon D700 的谱响应来合成 HR-MSI。也就是说,你们是真实场景数据集上的模拟退化实验,并不是严格意义上的真实配准传感器对。(TGRS-2025-10151_Proof_hi.pdf) (TGRS-2025-10151_Proof_hi.pdf)

所以应该改成:

  • “standard benchmark datasets under simulated degradation settings”
  • 或者 “benchmark datasets containing natural and remote-sensing scenes”

这类表达更稳。

4)轻量化证据不足

现在表格里主要展示的是参数量,确实你们参数少,但审稿人要的是完整 lightweight 证据链
不仅是 params,还要有 FLOPs / MACs、推理时间、显存、不同尺寸下的 runtime。(TGRS-2025-10151_Proof_hi.pdf)


五、怎么把 Head Attention 写得“不是普通 MHA 的换皮”

这是你们最需要补理论的地方。

审稿人说得很准:你们现在还没有充分说明它和传统 multi-head attention 的本质差异。

你们应该明确写出下面这个区分:

传统 MHA 的核心

传统 multi-head attention 是:

  • 每个 head 在token 维度上 independently 做 QKᵀ;
  • head 与 head 之间通常没有显式 attention;
  • 最后只是 concat 再线性映射。

你们 Head Attention 的核心

你们这里的 head 不是任意拆分出来的平行 head,
而是已经被 MSConv 预分配为不同尺度表征的 head
所以 HAB 的作用不是“再做一遍注意力”,而是:

  • 先把每个尺度 head 压缩成 descriptor;
  • head–head / scale–scale 维度上计算相关性;
  • 再用这个 head affinity 去重新调制各尺度表征。

也就是说:

传统 MHA 关注的是 token-token relation within each head
你们的 HAB 关注的是 scale-aware head-head interaction after scale-specific token construction

这个区分不讲清楚,审稿人就会继续认为你们只是“inter-head communication 的一个变体”。


六、方法部分具体应该怎么补

1)把 Head Attention 的数学推导补完整

建议按下面顺序写:

先定义输入:

XRB×N×C,C=HdX \in \mathbb{R}^{B \times N \times C}, \quad C=H \cdot d

再 reshape 成多头值表示:

VRB×N×H×dV \in \mathbb{R}^{B \times N \times H \times d}

再对每个 head 做 token/channel pooling,得到每个 head 的全局描述子:

gRB×Hg \in \mathbb{R}^{B \times H}

然后通过线性映射生成 head-level Q 和 K:

Qh,KhRB×H×dhQ_h, K_h \in \mathbb{R}^{B \times H \times d_h}

再定义 head affinity:

Ah=Softmax(QhKhdh)RB×H×HA_h = \text{Softmax}\left(\frac{Q_h K_h^\top}{\sqrt{d_h}}\right) \in \mathbb{R}^{B \times H \times H}

然后说明它如何重加权各 head 的 value:

V~=AhV\tilde V = A_h V

最后再投影回原空间并和 window self-attention 分支融合。

这样写以后,读者就会非常清楚: 你们不是在 token 维上重复 attention,而是在 head 维上建立尺度间依赖。

2)把复杂度分析补成“你们自己的”

现在稿子里主要分析的是 Swin patch merging 后复杂度怎么涨,但对你们自己的 MSConv、HAB、CAB 总成本没有系统落地。(TGRS-2025-10151_Proof_hi.pdf)

应该补一个小节,例如:

  • MSConv complexity
  • Window SA complexity
  • HAB complexity
  • CAB complexity
  • Total complexity per block
  • 对比 hierarchical Transformer block

然后把结论写清楚:

  • 你们避免了 patch merging 导致的通道放大;
  • HAB 的计算主要发生在 head-level,而不是 full token-token global relation;
  • CAB 的局部 neighborhood attention 是按 K×K 邻域展开,复杂度随图像大小近线性增长,而不是全局平方增长。

3)把术语统一

现在稿子里有:

  • LMCAN
  • MMH
  • MMHA
  • SL-MMHA
  • MConv / MSConv
  • central / center / centralized attention

这些命名太散,会削弱方法感。

建议固定成:

  • LMCAN:整体网络
  • MSConv:多尺度特征构造
  • MMH block:多尺度 window attention + HAB
  • CAB:center-aligned local attention

七、实验部分最应该怎么改

第一优先:补 efficiency 实验

至少新增一张表:

  • Params
  • FLOPs / MACs
  • Inference time per image
  • Peak GPU memory
  • 统一输入尺寸和硬件

因为审稿人现在不接受“参数少 = lightweight”。这点必须正面补。

第二优先:重新组织 baseline

现在你们把 pansharpening 方法做了结构适配:PAN 换成 HR-MSI,LR-MSI 换成 LR-HSI。这个做法不是不能做,但一定要说明清楚,不然会被质疑公平性。(TGRS-2025-10151_Proof_hi.pdf)

建议把 baseline 分成两组:

  • Native HS–MS fusion methods
  • Adapted pansharpening baselines

然后主结论优先建立在 native HS–MS fusion 这一组上。

第三优先:把消融改成“机制证据”,而不是“总指标略升”

现在的消融表能说明模块有帮助,但还不足以支撑“创新机制成立”。而且 CAB 的文字说明和表 V 还是矛盾的:文中说“替换后 improved performance”,但表 V 里 Exp.III 明显比 Ours 差。这个必须改。(TGRS-2025-10151_Proof_hi.pdf)

建议新增三类机制证据:

  1. 验证 1×1 token / no patch merging

    • 每波段误差曲线
    • 典型像素光谱曲线
    • SAM 分布图
  2. 验证 HAB

    • head affinity 可视化
    • 不同 head 对应的尺度响应图
    • 与“无 head interaction”或“简单 concat/shuffle”的对比
  3. 验证 CAB

    • 边缘区域单独评估
    • boundary mask 下的 PSNR/SAM/ERGAS
    • 边界重建放大图

这样 reviewer 才会觉得:
这些模块不是凑出来的,而是分别对应一个明确的机制问题。


八、文字层面哪些一定要改

这些看似小,但会严重影响稿件成熟度。

  • “highest average values across all four metrics” 要改,因为 SAM 和 ERGAS 是越低越好;你们自己在 metrics 小节里已经写对了。(TGRS-2025-10151_Proof_hi.pdf)
  • “exponential growth in parameters (∝ n^4)” 要改成 quartic/polynomial growth,不能叫 exponential。(TGRS-2025-10151_Proof_hi.pdf)
  • “hight / wight” 改成 height / width。(TGRS-2025-10151_Proof_hi.pdf)
  • “state-of-the-art” 这类话整体降调,改成:
    • “competitive or superior performance”
    • “favorable accuracy–efficiency trade-off”
  • 没有 runtime/FLOPs 之前,不要写“significantly reduces computational complexity”这么重的话。

九、我建议你们直接这样重写 contribution

你们可以把现在的四点贡献改成下面这种结构:

The contributions of this work are threefold.

  1. We formulate Transformer-based HS–MS fusion as a trade-off between token-level spectral preservation and receptive-field expansion, and propose a lightweight token-preserving framework that avoids hierarchical patch merging.
  2. We design a multi-scale interaction scheme in which multi-scale spatial context is first constructed before attention and then coupled through head-wise cross-scale interaction, enabling efficient context modeling under pixel-wise tokenization.
  3. We introduce a center-aligned local attention mechanism to improve neighborhood utilization for boundary pixels, and experiments show that the overall design achieves a favorable accuracy–efficiency trade-off on standard HS–MS fusion benchmarks.

这版的好处是:

  • 创新从“模块清单”变成“统一问题 + 统一方案”
  • Head Attention 和 CAB 不再是平级孤立创新
  • 更符合编辑说的“需要 clarify unique contributions”

十、最实用的改稿顺序

你们不要一上来就改全文,按下面顺序最省力:

第一步

先重写 标题、摘要、引言最后两段、contributions
目标只有一个:把创新重新定位成
token-preserving framework for resolving the spectral-fidelity / spatial-context / boundary-context trade-off

第二步

重写 Method 中的 HAB 小节

  • 补数学定义
  • 补与传统 MHA 的差异
  • 补复杂度表达

第三步

efficiency table + stronger ablation

第四步

最后统一:

  • 术语
  • claim 强度
  • factual inconsistency
  • typo 和 metric 表述

十一、最后给你一个判断

这篇稿子不是“没法救”,而是当前写法把最有价值的东西写弱了
你们真正能打动下一个期刊的,不是“我们也有一个 Head Attention”,而是:

我们指出了 Transformer 在 HS–MS fusion 里的一个结构性矛盾,并提出了一个不依赖 patch merging 的统一解决思路。

只要这个主线立住,很多审稿意见会自然缓和。
因为一旦主线成立,MSConv、HAB、CAB 就不再是“已有东西的拼装”,而是为了同一个核心矛盾而设计的三个必要机制

下一步最值得做的,就是把你们的 Abstract + Introduction + Contributions 先按这个思路重写出来。

Share this Q&A