看看我这个代码你先知道我要做什么事然后再根据这篇文章我想把这个FECAM-based TCN ...

Question

看看我这个代码你先知道我要做什么事然后再根据这篇文章我想把这个FECAM-based TCN transformer加进去和其他模型作为对比给我改进后的代码如果改的少直接告诉我在哪改

Answer 1

你这套代码现在做的事是：

训练端：用 INS 的 12 维特征（速度/姿态/加表/陀螺）按 20 点一段组成输入序列，标签是 GNSS 相邻点算出来的 北向/东向位移增量（delta_north, delta_east），归一化后训练多个模型并保存权重与归一化器。 (train_all_models.py) (train_all_models.py)
预测端：对测试 INS 同样按 20 点切段、归一化，加载各模型权重输出增量，反归一化后把 (dn,de) 换算成更新后的经纬度，保存到 predict_data_{name.lower()}.csv。 (predict_all_models.py) (predict_all_models.py)
误差对比：读取每个 predict_data_*.csv，用 Vincenty 算北/东向误差并合成总误差，画对比曲线和箱线图。 (compare_errors.py) (compare_errors.py)

按论文把 “FECAM-based TCN + iTransformer” 加进来

论文的关键结构是：FECAM-based TCN = 两个 TCN residual block 串联，中间插入 FECAM (Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf)；FECAM 用 DCT 频域特征 + channel attention，并通过 FCNN 生成增强张量去提升特征提取 (Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf)。然后 FECAM-based TCN 的输出送入改进 iTransformer 形成端到端预测 (Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf)。
iTransformer 的核心是把“每个变量的整段时间序列”嵌成 Variate Token，做变量间注意力（无需额外位置编码，encoder-only） (Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf) (Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf)。

我已经按这个思路给你补了一个可直接接入你现有 pipeline 的模型类，并把三个脚本里需要改的地方都改好了。

你要加的文件（新增）

把下面这个文件放到你的 models/ 目录：

models/fecam_tcn_itransformer_model.py（已生成好，可直接用）

下载：
models/fecam_tcn_itransformer_model.py

这个类名是 FECAMTCNiTransformerModel，输入 (B,T,12) 输出 (B,2)，和你现在训练/预测代码的接口一致。

你现有 3 个脚本需要改哪里（改动很少）

1）train_all_models.py

需要做 3 件事：

增加 import
在 MODELS = {...} 里新增一个模型
训练曲线子图从固定 2x2 改成“按模型数自动排布”（不然第 5 个模型没地方画）

我已改好版本：
train_all_models.py

关键位置你可以对照看：你原本就是遍历 MODELS 训练并按 name.lower() 存权重的 (train_all_models.py)，所以加一个键就能一起跑。

2）predict_all_models.py

只需要：

增加 import
在 MODELS = {...} 里新增同名键（要和训练一致：FECAM_TCN_iTransformer）

我已改好版本：
predict_all_models.py

你这里按 name.lower() 加载权重、保存 predict_data_{name.lower()}.csv (predict_all_models.py)，所以新模型会自动生成：

fecam_tcn_itransformer_model.pth
predict_data_fecam_tcn_itransformer.csv

3）compare_errors.py

只需要：

MODEL_NAMES 加上 'FECAM_TCN_iTransformer'
COLORS 加一个颜色
“单独绘制每个模型误差”的子图列数从固定 4 改成 len(MODEL_NAMES)（否则第 5 个画不出来）

我已改好版本：
compare_errors.py

你这里是按 MODEL_NAMES 逐个找 predict_data_{name.lower()}.csv 的 (compare_errors.py)，所以只要把名字加进去就会自动纳入统计和作图。

如果你把新文件放进 models/，然后用我给你的三个脚本替换原脚本，直接按你现在的流程跑（train → predict → compare），新模型就会和 Transformer/LSTM/CNN_GRU/TCN 一起出对比结果。

Answer 2

你这个现象其实挺常见：不是模型“理论更强”就一定在你这套数据/训练设置里更强。结合你现在的代码流程 + 论文设定，主要有几类“硬差异”会让 FECAM-TCN-iTransformer 很容易打不过你当前的 Transformer。

1) 你现在的任务/数据形态，和论文的优势场景不一致

论文里这个 hybrid 的优势来自两点：

强噪声下的特征增强 + 去噪：他们明确把 RIME-VMD 分解结果作为补充输入来抑制噪声，并强调这是为了“有效 suppress noise”。(Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf)
长、多变量序列建模：FECAM-TCN 用扩张因果卷积扩大感受野，iTransformer 用“变量 token”建模变量间相关性，适合“长的多变量序列”。(Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf)

而你现在的设置是：

sequence_length = 20，而且还按 step=20 不重叠切窗，每个样本只看 20 点，很短。(train_all_models.py)
标签是 GNSS 的 位移增量（dn,de），最后还要积分到经纬度再算误差，这个任务对“微小系统偏差”非常敏感（偏一点就会累积）。

=> 结论：**在“短窗口 + 位移增量回归 + 误差累积”**这种设定下，简单 Transformer 反而更容易学到一个稳定映射；而 hybrid 更复杂、更容易学出一点点 bias（看起来 MSE 不差，但一积分误差就爆）。

2) 你没把论文里“关键加成”那块喂给新模型：VMD补充输入

论文的抽象和结构图都把 VMD 分解信号作为 supplementary input 写得很明确（它不是可有可无的小技巧）。(Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf)
如果你只把原始 INS 12 维直接丢给 FECAM-TCN-iTransformer，那么：

FECAM 主要靠频域/通道注意力“强调/抑制”某些分量，但输入没有先做分解去噪时，模型可能把“噪声模式”也当成可学习结构；
Transformer 反而可能更“钝”，学到更平滑的映射，在你这种积分误差指标下更占便宜。

3) 训练超参数对新模型不友好：你所有模型一套 lr/epoch，hybrid 往往不收敛或过拟合

你现在 train_model() 固定：

Adam，lr=1e-4
epochs=50
batch_size=32 (train_all_models.py)

但论文里不同目标的最终超参差异很大（比如 iTransformer 他们会用到 lr=1e-3 或 1e-4，epoch 有 50/100，dropout 也分模块设置）。(Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf)

hybrid 参数更多、优化更难：

lr 太小 → 欠拟合（训练/验证都下不去）
lr 合适但正则不够 → 过拟合（训练很好，验证差；积分误差更惨）

4) 还有一个“经常被忽略但杀伤力很大”的点：标签对齐/采样率可能不匹配

你构造标签的方式是：

python
for i in range(0, len(ins_filtered) - sequence_length + 1, sequence_length):
    labels.append(position_deltas.iloc[i//sequence_length].values)

也就是默认 每 20 个 INS 点对应 1 个 GNSS delta。(train_all_models.py)
如果 INS/GNSS 实际频率或时间对齐不是严格“20:1 且无漂移”，那标签噪声会非常大。复杂模型会更容易“记住噪声”，反而比简单模型差。

你可以怎么验证“到底是哪一类问题”（不改太多就能定位）

看训练曲线（你已经画了）：(train_all_models.py)

新模型 train loss 很低，val loss 明显高 → 过拟合（模型太大/正则不够/数据太少）
train/val 都很高 → 欠拟合（lr 太小、epoch 不够、优化难）
train/val 看起来都还行，但最终轨迹误差大 → 偏置/对齐问题（标签映射、积分放大、尺度问题）

最小改动的“优先级建议”（我按性价比排了序）

A. 先只对新模型单独调参（改动最小、收益最大）

在 train_model() 里加个按模型名选择超参（不影响别的模型）：(train_all_models.py)

把新模型 lr 提到 1e-3（或至少 3e-4）
epoch 提到 100
加一点 weight_decay=1e-4
加 gradient clipping（比如 1.0）

这一步通常就能让“复杂模型打不过简单模型”的情况改善一大截。

B. 把窗口从 20 拉长（更贴近论文的用法）

比如 100 或 200（哪怕先试 100）。
FECAM-TCN/iTransformer 这类结构对“长依赖/频域模式”更吃香，20 点真的太短。

C. 检查/修正 GNSS-INS 对齐（这可能是决定性因素）

哪怕你不做复杂插值，也至少确认：

INS 20 点的时间跨度是否真的对应 GNSS 1 个 delta 的时间跨度；
有没有丢点/采样率变化。

D. 真要复现论文优势：补上 VMD（或先用简单替代去噪）

论文把 VMD 当成关键组件。(Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf)
如果你暂时不想上 RIME-VMD（太重），可以先用一个低成本替代（如每通道 Savitzky-Golay / 小波 / 简单带通），先验证“去噪对 hybrid 是否明显更有利”。

如果你愿意，我也可以**直接根据你训练出来的曲线图（training_curves_comparison.png）**帮你判断它现在是欠拟合还是过拟合；你把图或新模型那段 train/val loss 打印结果贴出来就行。

Answer 3

我给你把**“只包含新模型（FECAM-based TCN + iTransformer）”的训练 + 预测 + 误差输出全部整合成一个完整 .py 文件**了，且按你要求把输入改成：

每个输出时刻（GNSS增量时刻）之前 3 秒内的所有 12 维 INS 数据
输出仍是 199900.0–200000.0 之间的 GNSS 北/东向位置增量（m）

并且脚本会自动根据 INS 的时间戳计算“3 秒对应多少个采样点”（固定成长度 L，TCN 才能吃进去），训练完会把 window_len=L 保存到 fecam_meta.json，预测时也严格用同一个 L。

下面是文件下载：

Download fecam_tcn_itransformer_single.py

你怎么用（本地运行）

1）默认：训练 + 预测 + 误差输出（推荐）

bash
python fecam_tcn_itransformer_single.py --mode all --save_plots

2）只训练

bash
python fecam_tcn_itransformer_single.py --mode train --save_plots

3）只预测+误差（前提：已有训练保存的模型/归一化器/meta）

bash
python fecam_tcn_itransformer_single.py --mode eval --save_plots

你需要改的唯一地方

文件顶部参数里 --base_dir 默认还是你之前的目录（和你旧脚本一致），如果你目录不同就改这个：

python
default=r"D:\09-毕业论文\2025.07.08 小论文代码\神经网络缝模块\多模型一键运行"

运行后会生成哪些输出

都在 BASE_DIR 下：

fecam_tcn_itransformer_model.pth（模型）
fecam_feature_scaler.pkl、fecam_label_scaler.pkl
fecam_meta.json（里面存了 window_len=3秒对应的点数、step_samples 等）
predict_data_fecam_tcn_itransformer.csv（预测+误差明细）
error_statistics_fecam_tcn_itransformer.csv（误差统计）
（可选）fecam_training_curve.png、fecam_error_curve.png

如果你想让我把“输出时刻”从现在的“按 GNSS 周期步长输出”（step_samples）改成“每一个 INS 时刻都输出”（更密），我也能直接改，但你得告诉我你希望预测的增量对应1秒还是每采样间隔 dt的位移增量（否则标签定义会变）。

Answer 4

给你改好了：把原来 iTransformer 换成了标准 Transformer Encoder（按时间步做 token），其它部分（FECAM-based TCN、3s窗口输入、输出GNSS增量、预测+误差统计）都不变。

你可以直接下载这个单文件完整代码：

Download fecam_tcn_transformer_single.py

运行方式

bash
# 训练 + 预测 + 误差输出（推荐）
python fecam_tcn_transformer_single.py --mode all --save_plots

# 只训练
python fecam_tcn_transformer_single.py --mode train --save_plots

# 只预测+误差（需要已有训练产物）
python fecam_tcn_transformer_single.py --mode eval --save_plots

路径默认还是你之前脚本的 BASE_DIR；如果你电脑目录不同，用 --base_dir 改。

代码（完整）

python
# -*- coding: utf-8 -*-
"""
FECAM-based TCN + Transformer (single file)
- Train: uses Input_GNSS.csv + Input_INS.csv (time range 199900.0-200000.0 by default)
- Input for each GNSS delta time: all 12 INS channels within previous 3 seconds (fixed window length inferred from INS dt)
- Output: GNSS position increments (delta_north, delta_east) in meters
- Eval: uses 出城INS.csv (or your test INS file) with lat/lon columns to compute coordinate error via Vincenty

Usage:
  python fecam_tcn_transformer_single.py --mode all --save_plots
  python fecam_tcn_transformer_single.py --mode train
  python fecam_tcn_transformer_single.py --mode eval

Notes:
- Column names are the same as your existing scripts.
- The script saves:
    fecam_tcn_transformer_model.pth
    fecam_feature_scaler.pkl
    fecam_label_scaler.pkl
    fecam_meta.json
    predict_data_fecam_tcn_transformer.csv
    error_statistics_fecam_tcn_transformer.csv
    (optional) plots
"""

import argparse
import json
import math
import os
from pathlib import Path
from typing import Dict, List, Tuple

import joblib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.preprocessing import MinMaxScaler
from torch.nn.utils import weight_norm
from torch.utils.data import DataLoader, TensorDataset, random_split


# =========================
# Config / Defaults
# =========================
DEFAULT_BASE_DIR = r"D:\09-毕业论文\2025.07.08 小论文代码\神经网络缝模块\多模型一键运行"

TRAIN_GNSS_FILE = "Input_GNSS.csv"
TRAIN_INS_FILE = "Input_INS.csv"
TEST_INS_FILE = "出城INS.csv"

# Train range (same as your multi-model scripts)
DEFAULT_GNSS_START = 199900.0
DEFAULT_GNSS_END = 200000.0
DEFAULT_INS_START = 199900.008
DEFAULT_INS_END = 200000.008

# Evaluation range (same as your predict_all_models.py defaults)
DEFAULT_TEST_START = 129171.003
DEFAULT_TEST_END = 129181.003

FEATURE_COLS = [
    "北向速度(m/s)", "东向速度(m/s)", "地向速度(m/s)",
    "航向角(°)", "俯仰角(°)", "横滚角(°)",
    "加表x（g）", "加表y（g）", "加表z（g）",
    "陀螺x（°/s）", "陀螺y（°/s）", "陀螺z（°/s）",
]
INS_TIME_COL = "GPS周内秒(s)"
GNSS_TIME_COL = "GNSS周内秒(s)"
GNSS_LAT_COL = "GNSS纬度(°)"
GNSS_LON_COL = "GNSS经度(°)"

# Earth
EARTH_RADIUS = 6371000.0  # for approximate delta computation
WGS84_A = 6378137.0
WGS84_F = 1 / 298.257223563
WGS84_B = WGS84_A * (1 - WGS84_F)


# =========================
# Utilities
# =========================
def set_seed(seed: int = 42) -> None:
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)


def infer_dt(times: np.ndarray) -> float:
    """Infer sampling interval from time series (seconds). Robust to occasional jitter."""
    times = np.asarray(times, dtype=float)
    diffs = np.diff(times)
    diffs = diffs[np.isfinite(diffs)]
    diffs = diffs[diffs > 0]
    if len(diffs) == 0:
        raise ValueError("Cannot infer dt: time diffs are empty/non-positive.")
    return float(np.median(diffs))


def nearest_row_by_time(df: pd.DataFrame, time_col: str, t: float) -> pd.Series:
    """Return row with time closest to t (df must be sorted by time_col)."""
    arr = df[time_col].to_numpy(dtype=float)
    idx = np.searchsorted(arr, t)
    if idx <= 0:
        return df.iloc[0]
    if idx >= len(arr):
        return df.iloc[-1]
    if abs(arr[idx] - t) < abs(arr[idx - 1] - t):
        return df.iloc[idx]
    return df.iloc[idx - 1]


def calculate_gnss_position_deltas(gnss_df: pd.DataFrame) -> pd.DataFrame:
    """Compute north/east displacement between consecutive GNSS points (meters)."""
    df = gnss_df.sort_values(GNSS_TIME_COL).copy()
    lat_rad = np.deg2rad(df[GNSS_LAT_COL].to_numpy(dtype=float))
    lon_rad = np.deg2rad(df[GNSS_LON_COL].to_numpy(dtype=float))
    dlat = np.diff(lat_rad)
    dlon = np.diff(lon_rad)
    dn = dlat * EARTH_RADIUS
    lat_mid = lat_rad[1:]
    de = dlon * EARTH_RADIUS * np.cos(lat_mid)
    out = pd.DataFrame({
        GNSS_TIME_COL: df[GNSS_TIME_COL].iloc[1:].to_numpy(dtype=float),
        "delta_north": dn,
        "delta_east": de,
    })
    return out


def deltas_to_coords(lat_deg: float, lon_deg: float, delta_north_m: float, delta_east_m: float) -> Tuple[float, float]:
    """Approximate lat/lon update from north/east displacements."""
    lat = float(lat_deg)
    lon = float(lon_deg)
    dlat = (delta_north_m / EARTH_RADIUS) * (180.0 / math.pi)
    dlon = (delta_east_m / (EARTH_RADIUS * math.cos(lat * math.pi / 180.0))) * (180.0 / math.pi)
    return lat + dlat, lon + dlon


def vincenty_offset_north_east(lat1_deg: float, lon1_deg: float, lat2_deg: float, lon2_deg: float) -> Tuple[float, float]:
    """
    Vincenty inverse: returns (north_offset_m, east_offset_m) from point1 -> point2 (WGS84).
    """
    a = WGS84_A
    f = WGS84_F
    b = WGS84_B

    phi1, lam1, phi2, lam2 = map(math.radians, [lat1_deg, lon1_deg, lat2_deg, lon2_deg])
    U1 = math.atan((1 - f) * math.tan(phi1))
    U2 = math.atan((1 - f) * math.tan(phi2))
    L = lam2 - lam1
    lam = L

    sinU1, cosU1 = math.sin(U1), math.cos(U1)
    sinU2, cosU2 = math.sin(U2), math.cos(U2)

    for _ in range(200):
        sin_lam = math.sin(lam)
        cos_lam = math.cos(lam)
        sin_sigma = math.sqrt((cosU2 * sin_lam) ** 2 + (cosU1 * sinU2 - sinU1 * cosU2 * cos_lam) ** 2)
        if sin_sigma == 0:
            return 0.0, 0.0
        cos_sigma = sinU1 * sinU2 + cosU1 * cosU2 * cos_lam
        sigma = math.atan2(sin_sigma, cos_sigma)
        sin_alpha = cosU1 * cosU2 * sin_lam / sin_sigma
        cos2_alpha = 1 - sin_alpha ** 2
        if cos2_alpha == 0:
            cos2_sigma_m = 0.0
        else:
            cos2_sigma_m = cos_sigma - 2 * sinU1 * sinU2 / cos2_alpha
        C = f / 16 * cos2_alpha * (4 + f * (4 - 3 * cos2_alpha))
        lam_new = L + (1 - C) * f * sin_alpha * (
            sigma + C * sin_sigma * (cos2_sigma_m + C * cos_sigma * (-1 + 2 * cos2_sigma_m ** 2))
        )
        if abs(lam_new - lam) < 1e-12:
            lam = lam_new
            break
        lam = lam_new

    azimuth = math.atan2(
        cosU2 * math.sin(lam),
        cosU1 * sinU2 - sinU1 * cosU2 * math.cos(lam),
    )
    distance = b * sigma
    north = distance * math.cos(azimuth)
    east = distance * math.sin(azimuth)
    return float(north), float(east)


def find_lat_lon_cols(df: pd.DataFrame) -> Tuple[str, str]:
    """Find lat/lon columns in test INS file."""
    candidates = [
        ("纬度(°)", "经度(°)"),
        ("GNSS纬度(°)", "GNSS经度(°)"),
        ("Latitude", "Longitude"),
        ("lat", "lon"),
    ]
    for lat_c, lon_c in candidates:
        if lat_c in df.columns and lon_c in df.columns:
            return lat_c, lon_c
    raise KeyError(f"Cannot find lat/lon columns in test file. Tried: {candidates}")


# =========================
# Model: FECAM + TCN + Transformer
# =========================
class Chomp1d(nn.Module):
    """Chomp off padding on the right to keep causality."""
    def __init__(self, chomp_size: int):
        super().__init__()
        self.chomp_size = chomp_size

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        if self.chomp_size == 0:
            return x
        return x[:, :, :-self.chomp_size].contiguous()


class TemporalBlock(nn.Module):
    """TCN residual block with dilated causal conv, weight norm, dropout."""
    def __init__(self, in_ch: int, out_ch: int, kernel_size: int, dilation: int, dropout: float):
        super().__init__()
        padding = (kernel_size - 1) * dilation

        self.conv1 = weight_norm(nn.Conv1d(in_ch, out_ch, kernel_size, padding=padding, dilation=dilation))
        self.chomp1 = Chomp1d(padding)
        self.relu1 = nn.ReLU()
        self.drop1 = nn.Dropout(dropout)

        self.conv2 = weight_norm(nn.Conv1d(out_ch, out_ch, kernel_size, padding=padding, dilation=dilation))
        self.chomp2 = Chomp1d(padding)
        self.relu2 = nn.ReLU()
        self.drop2 = nn.Dropout(dropout)

        self.downsample = nn.Conv1d(in_ch, out_ch, 1) if in_ch != out_ch else nn.Identity()
        self.final_relu = nn.ReLU()

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        out = self.conv1(x)
        out = self.chomp1(out)
        out = self.relu1(out)
        out = self.drop1(out)

        out = self.conv2(out)
        out = self.chomp2(out)
        out = self.relu2(out)
        out = self.drop2(out)

        res = self.downsample(x)
        return self.final_relu(out + res)


class DCTCache:
    """Cache cosine basis for DCT-II for a given (T, K)."""
    def __init__(self):
        self._cache: Dict[Tuple[int, int, torch.device, torch.dtype], torch.Tensor] = {}

    def get_basis(self, T: int, K: int, device: torch.device, dtype: torch.dtype) -> torch.Tensor:
        key = (T, K, device, dtype)
        if key in self._cache:
            return self._cache[key]
        n = torch.arange(T, device=device, dtype=dtype).view(1, 1, T)  # (1,1,T)
        k = torch.arange(K, device=device, dtype=dtype).view(1, K, 1)  # (1,K,1)
        basis = torch.cos(math.pi / T * (n + 0.5) * k)  # (1,K,T)
        self._cache[key] = basis
        return basis


_DCT_CACHE = DCTCache()


class FECAM(nn.Module):
    """
    Frequency-Enhanced Channel Attention (practical implementation):
    - DCT along time dimension to get low-frequency descriptors
    - channel attention weights from frequency descriptors
    - small 1x1 Conv "FCNN" to generate enhancement tensor
    """
    def __init__(self, channels: int, dct_k: int = 16, reduction: int = 8, dropout: float = 0.1):
        super().__init__()
        self.channels = channels
        self.dct_k = dct_k
        hidden = max(4, channels // reduction)

        self.ca = nn.Sequential(
            nn.Linear(channels, hidden),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(hidden, channels),
            nn.Sigmoid(),
        )

        self.fcnn = nn.Sequential(
            nn.Conv1d(channels, channels, kernel_size=1),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Conv1d(channels, channels, kernel_size=1),
            nn.Sigmoid(),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        x: (B,C,T)
        """
        B, C, T = x.shape
        K = min(self.dct_k, T)

        basis = _DCT_CACHE.get_basis(T, K, x.device, x.dtype)  # (1,K,T)
        dct = (x.unsqueeze(2) * basis.unsqueeze(1)).sum(dim=-1)  # (B,C,K)
        freq_desc = dct.abs().mean(dim=-1)  # (B,C)

        w = self.ca(freq_desc).unsqueeze(-1)  # (B,C,1)
        x_scaled = x * w

        enh = self.fcnn(x_scaled)  # (B,C,T) in [0,1]
        return x_scaled * (1.0 + enh)


class PositionalEncoding(nn.Module):
    """Standard sinusoidal positional encoding for Transformer."""
    def __init__(self, d_model: int, max_len: int = 5000):
        super().__init__()
        pe = torch.zeros(max_len, d_model, dtype=torch.float32)
        position = torch.arange(0, max_len, dtype=torch.float32).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2, dtype=torch.float32) * (-math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        self.register_buffer("pe", pe.unsqueeze(0), persistent=False)  # (1,max_len,d_model)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        x: (B,T,D)
        """
        T = x.size(1)
        if T > self.pe.size(1):
            raise ValueError(f"Sequence length {T} exceeds max_len {self.pe.size(1)} for positional encoding.")
        return x + self.pe[:, :T, :].to(x.dtype)


class FECAMTCNTransformerModel(nn.Module):
    """
    FECAM-based TCN front-end + standard Transformer encoder (temporal tokens).
    Input: (B,T,input_dim)
    Output: (B,2)
    """
    def __init__(
        self,
        input_dim: int,
        seq_length: int,
        tcn_channels: int = 64,
        kernel_size: int = 3,
        dilation1: int = 1,
        dilation2: int = 2,
        fecam_dct_k: int = 16,
        fecam_dropout: float = 0.1,
        tcn_dropout: float = 0.2,
        d_model: int = 64,
        nhead: int = 8,
        num_layers: int = 2,
        ff_dim: int = 256,
        tr_dropout: float = 0.1,
    ):
        super().__init__()
        self.seq_length = seq_length

        self.in_proj = nn.Conv1d(input_dim, tcn_channels, kernel_size=1)

        self.tcn1 = TemporalBlock(tcn_channels, tcn_channels, kernel_size, dilation1, tcn_dropout)
        self.fecam = FECAM(tcn_channels, dct_k=fecam_dct_k, dropout=fecam_dropout)
        self.tcn2 = TemporalBlock(tcn_channels, tcn_channels, kernel_size, dilation2, tcn_dropout)

        self.to_d_model = nn.Linear(tcn_channels, d_model)
        self.pos_enc = PositionalEncoding(d_model=d_model, max_len=max(5000, seq_length + 10))
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=d_model,
            nhead=nhead,
            dim_feedforward=ff_dim,
            dropout=tr_dropout,
            batch_first=True,
            activation="gelu",
            norm_first=True,
        )
        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)

        self.head = nn.Sequential(
            nn.LayerNorm(d_model),
            nn.Linear(d_model, 128),
            nn.GELU(),
            nn.Dropout(tr_dropout),
            nn.Linear(128, 2),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        x: (B,T,input_dim)
        """
        x = x.transpose(1, 2)  # (B,input_dim,T)
        x = self.in_proj(x)    # (B,tcn_channels,T)
        x = self.tcn1(x)
        x = self.fecam(x)
        x = self.tcn2(x)

        x = x.transpose(1, 2)          # (B,T,tcn_channels)
        x = self.to_d_model(x)         # (B,T,d_model)
        x = self.pos_enc(x)
        x = self.transformer(x)        # (B,T,d_model)
        last = x[:, -1, :]             # (B,d_model)
        return self.head(last)


# =========================
# Data building
# =========================
def build_train_samples(
    gnss_df: pd.DataFrame,
    ins_df: pd.DataFrame,
    window_seconds: float,
) -> Tuple[np.ndarray, np.ndarray, Dict]:
    """
    Create (X, y) for training:
      - y: GNSS displacement between consecutive GNSS points at time t_k
      - X: INS window within [t_k - window_seconds, t_k], sampled at INS rate (fixed length)
    """
    gnss_df = gnss_df.sort_values(GNSS_TIME_COL).reset_index(drop=True)
    ins_df = ins_df.sort_values(INS_TIME_COL).reset_index(drop=True)

    ins_dt = infer_dt(ins_df[INS_TIME_COL].to_numpy())
    window_len = int(round(window_seconds / ins_dt)) + 1

    gnss_times = gnss_df[GNSS_TIME_COL].to_numpy(dtype=float)
    gnss_diffs = np.diff(gnss_times)
    gnss_diffs = gnss_diffs[np.isfinite(gnss_diffs) & (gnss_diffs > 0)]
    gnss_step = float(np.median(gnss_diffs)) if len(gnss_diffs) else 1.0

    offset = float(ins_df[INS_TIME_COL].iloc[0] - gnss_df[GNSS_TIME_COL].iloc[0])

    deltas_df = calculate_gnss_position_deltas(gnss_df)

    ins_times = ins_df[INS_TIME_COL].to_numpy(dtype=float)
    ins_feat = ins_df[FEATURE_COLS].to_numpy(dtype=float)

    X_list: List[np.ndarray] = []
    y_list: List[np.ndarray] = []

    for _, row in deltas_df.iterrows():
        t_gnss = float(row[GNSS_TIME_COL])
        t_end = t_gnss + offset
        end_idx = np.searchsorted(ins_times, t_end, side="right") - 1
        if end_idx < 0:
            continue
        start_idx = end_idx - window_len + 1
        if start_idx < 0:
            continue

        window = ins_feat[start_idx:end_idx + 1]
        if window.shape[0] != window_len:
            continue

        X_list.append(window.astype(np.float32))
        y_list.append(np.array([row["delta_north"], row["delta_east"]], dtype=np.float32))

    if len(X_list) < 10:
        raise RuntimeError(f"Too few training samples built: {len(X_list)}. Check time alignment / ranges.")

    meta = {
        "window_seconds": window_seconds,
        "ins_dt": ins_dt,
        "window_len": window_len,
        "gnss_step_seconds": gnss_step,
        "ins_gnss_offset_seconds": offset,
        "num_samples": len(X_list),
        "label_time_definition": "delta between consecutive GNSS points, timestamp at later GNSS time",
        "features": FEATURE_COLS,
    }
    return np.stack(X_list, axis=0), np.stack(y_list, axis=0), meta


def build_eval_samples(
    ins_df: pd.DataFrame,
    window_len: int,
    window_seconds: float,
    step_seconds: float,
    time_col: str,
    feature_cols: List[str],
    lat_col: str,
    lon_col: str,
) -> Tuple[np.ndarray, List[float], List[Tuple[float, float]], List[Tuple[float, float]]]:
    """
    Build eval windows from a test INS file (with lat/lon ground truth):
      - For each step end time t_end, predict delta from t0=t_end-step_seconds to t_end
      - window ends at t_end, length=window_len
      - base_coords: (lat/lon at t0), true_coords: (lat/lon at t_end)
    """
    ins_df = ins_df.sort_values(time_col).reset_index(drop=True)
    times = ins_df[time_col].to_numpy(dtype=float)
    feats = ins_df[feature_cols].to_numpy(dtype=float)

    t_min = float(times[0])
    t_max = float(times[-1])

    first_end = t_min + window_seconds
    first_end = max(first_end, t_min + step_seconds)

    end_times = np.arange(first_end, t_max + 1e-9, step_seconds, dtype=float)
    if len(end_times) < 3:
        raise RuntimeError("Too few evaluation points. Check your TEST_START/END or step_seconds.")

    X_list: List[np.ndarray] = []
    used_end_times: List[float] = []
    base_coords: List[Tuple[float, float]] = []
    true_coords: List[Tuple[float, float]] = []

    for t_end in end_times:
        end_idx = np.searchsorted(times, t_end, side="right") - 1
        if end_idx < 0:
            continue
        start_idx = end_idx - window_len + 1
        if start_idx < 0:
            continue

        window = feats[start_idx:end_idx + 1]
        if window.shape[0] != window_len:
            continue

        t0 = t_end - step_seconds
        base_row = nearest_row_by_time(ins_df, time_col, t0)
        true_row = nearest_row_by_time(ins_df, time_col, t_end)

        base_coords.append((float(base_row[lat_col]), float(base_row[lon_col])))
        true_coords.append((float(true_row[lat_col]), float(true_row[lon_col])))

        X_list.append(window.astype(np.float32))
        used_end_times.append(float(t_end))

    if len(X_list) < 3:
        raise RuntimeError("Could not build evaluation windows. Check window_len/step_seconds and time coverage.")

    return np.stack(X_list, axis=0), used_end_times, base_coords, true_coords


# =========================
# Train / Eval
# =========================
def train(
    base_dir: Path,
    window_seconds: float,
    epochs: int,
    batch_size: int,
    lr: float,
    weight_decay: float,
    device: torch.device,
    save_plots: bool,
) -> Dict:
    gnss_path = base_dir / TRAIN_GNSS_FILE
    ins_path = base_dir / TRAIN_INS_FILE
    if not gnss_path.exists() or not ins_path.exists():
        raise FileNotFoundError(f"Training files not found: {gnss_path} / {ins_path}")

    gnss = pd.read_csv(gnss_path)
    ins = pd.read_csv(ins_path)

    gnss = gnss[(gnss[GNSS_TIME_COL] >= DEFAULT_GNSS_START) & (gnss[GNSS_TIME_COL] <= DEFAULT_GNSS_END)].copy()
    ins = ins[(ins[INS_TIME_COL] >= DEFAULT_INS_START) & (ins[INS_TIME_COL] <= DEFAULT_INS_END)].copy()

    X, y, meta = build_train_samples(gnss, ins, window_seconds=window_seconds)
    seq_len = int(meta["window_len"])

    feat_scaler = MinMaxScaler()
    X_2d = X.reshape(-1, X.shape[-1])
    Xn = feat_scaler.fit_transform(X_2d).reshape(X.shape)

    label_scaler = MinMaxScaler()
    yn = label_scaler.fit_transform(y)

    joblib.dump(feat_scaler, base_dir / "fecam_feature_scaler.pkl")
    joblib.dump(label_scaler, base_dir / "fecam_label_scaler.pkl")

    meta_path = base_dir / "fecam_meta.json"
    with open(meta_path, "w", encoding="utf-8") as f:
        json.dump(meta, f, ensure_ascii=False, indent=2)

    X_tensor = torch.tensor(Xn, dtype=torch.float32)
    y_tensor = torch.tensor(yn, dtype=torch.float32)

    dataset = TensorDataset(X_tensor, y_tensor)
    train_size = int(0.8 * len(dataset))
    val_size = len(dataset) - train_size
    train_ds, val_ds = random_split(dataset, [train_size, val_size], generator=torch.Generator().manual_seed(42))

    train_loader = DataLoader(train_ds, batch_size=batch_size, shuffle=True, drop_last=False)
    val_loader = DataLoader(val_ds, batch_size=batch_size, shuffle=False, drop_last=False)

    model = FECAMTCNTransformerModel(
        input_dim=len(FEATURE_COLS),
        seq_length=seq_len,
        tcn_channels=64,
        kernel_size=3,
        dilation1=1,
        dilation2=2,
        fecam_dct_k=16,
        fecam_dropout=0.1,
        tcn_dropout=0.2,
        d_model=64,
        nhead=8,
        num_layers=2,
        ff_dim=256,
        tr_dropout=0.1,
    ).to(device)

    criterion = nn.MSELoss()
    optimizer = optim.AdamW(model.parameters(), lr=lr, weight_decay=weight_decay)

    train_losses: List[float] = []
    val_losses: List[float] = []

    best_val = float("inf")
    best_path = base_dir / "fecam_tcn_transformer_model.pth"

    for ep in range(1, epochs + 1):
        model.train()
        total = 0.0
        for xb, yb in train_loader:
            xb = xb.to(device)
            yb = yb.to(device)

            optimizer.zero_grad(set_to_none=True)
            pred = model(xb)
            loss = criterion(pred, yb)
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            optimizer.step()
            total += float(loss.item())
        train_loss = total / max(1, len(train_loader))
        train_losses.append(train_loss)

        model.eval()
        total = 0.0
        with torch.no_grad():
            for xb, yb in val_loader:
                xb = xb.to(device)
                yb = yb.to(device)
                pred = model(xb)
                loss = criterion(pred, yb)
                total += float(loss.item())
        val_loss = total / max(1, len(val_loader))
        val_losses.append(val_loss)

        if val_loss < best_val:
            best_val = val_loss
            torch.save(model.state_dict(), best_path)

        if ep % 10 == 0 or ep == 1 or ep == epochs:
            print(f"[Train] Epoch {ep}/{epochs}  train={train_loss:.6f}  val={val_loss:.6f}  best_val={best_val:.6f}")

    if save_plots:
        plt.figure(figsize=(8, 5))
        plt.plot(range(1, epochs + 1), train_losses, label="Train Loss")
        plt.plot(range(1, epochs + 1), val_losses, label="Val Loss", linestyle="--")
        plt.xlabel("Epoch")
        plt.ylabel("MSE Loss")
        plt.title("FECAM-TCN-Transformer Training Curve")
        plt.grid(True, alpha=0.3)
        plt.legend()
        plt.tight_layout()
        plt.savefig(base_dir / "fecam_tcn_transformer_training_curve.png", dpi=200)
        plt.close()

    return {"meta": meta, "best_model_path": str(best_path)}


def eval_and_report(
    base_dir: Path,
    test_file: str,
    test_start: float,
    test_end: float,
    device: torch.device,
    save_plots: bool,
) -> Dict:
    meta_path = base_dir / "fecam_meta.json"
    if not meta_path.exists():
        raise FileNotFoundError(f"Missing meta file: {meta_path} (train first).")
    meta = json.loads(meta_path.read_text(encoding="utf-8"))

    feat_scaler = joblib.load(base_dir / "fecam_feature_scaler.pkl")
    label_scaler = joblib.load(base_dir / "fecam_label_scaler.pkl")

    model_path = base_dir / "fecam_tcn_transformer_model.pth"
    if not model_path.exists():
        raise FileNotFoundError(f"Missing model: {model_path} (train first).")

    window_len = int(meta["window_len"])
    window_seconds = float(meta["window_seconds"])
    step_seconds = float(meta.get("gnss_step_seconds", 1.0))

    test_path = base_dir / test_file
    if not test_path.exists():
        raise FileNotFoundError(f"Test file not found: {test_path}")
    test_df = pd.read_csv(test_path)
    if INS_TIME_COL not in test_df.columns:
        raise KeyError(f"Test file missing time col '{INS_TIME_COL}'")

    test_df = test_df[(test_df[INS_TIME_COL] >= test_start) & (test_df[INS_TIME_COL] <= test_end)].copy()
    test_df = test_df.sort_values(INS_TIME_COL).reset_index(drop=True)
    if len(test_df) < window_len + 5:
        raise RuntimeError(f"Test data too short after filtering: {len(test_df)} rows.")

    lat_col, lon_col = find_lat_lon_cols(test_df)

    X, end_times, base_coords, true_coords = build_eval_samples(
        ins_df=test_df,
        window_len=window_len,
        window_seconds=window_seconds,
        step_seconds=step_seconds,
        time_col=INS_TIME_COL,
        feature_cols=FEATURE_COLS,
        lat_col=lat_col,
        lon_col=lon_col,
    )

    Xn = feat_scaler.transform(X.reshape(-1, X.shape[-1])).reshape(X.shape)
    X_tensor = torch.tensor(Xn, dtype=torch.float32).to(device)

    model = FECAMTCNTransformerModel(
        input_dim=len(FEATURE_COLS),
        seq_length=window_len,
        tcn_channels=64,
        kernel_size=3,
        dilation1=1,
        dilation2=2,
        fecam_dct_k=16,
        fecam_dropout=0.1,
        tcn_dropout=0.2,
        d_model=64,
        nhead=8,
        num_layers=2,
        ff_dim=256,
        tr_dropout=0.1,
    ).to(device)
    model.load_state_dict(torch.load(model_path, map_location=device))
    model.eval()

    with torch.no_grad():
        pred_norm = model(X_tensor).cpu().numpy()
    pred = label_scaler.inverse_transform(pred_norm)

    pred_coords: List[Tuple[float, float]] = []
    err_n: List[float] = []
    err_e: List[float] = []
    err_total: List[float] = []

    true_dn: List[float] = []
    true_de: List[float] = []

    for (lat0, lon0), (lat_true, lon_true), (dn_pred, de_pred) in zip(base_coords, true_coords, pred):
        lat_pred, lon_pred = deltas_to_coords(lat0, lon0, float(dn_pred), float(de_pred))
        pred_coords.append((lat_pred, lon_pred))

        n, e = vincenty_offset_north_east(lat_true, lon_true, lat_pred, lon_pred)
        err_n.append(n)
        err_e.append(e)
        err_total.append(math.sqrt(n * n + e * e))

        dn_t, de_t = vincenty_offset_north_east(lat0, lon0, lat_true, lon_true)
        true_dn.append(dn_t)
        true_de.append(de_t)

    results = pd.DataFrame({
        "时间戳": end_times,
        "基准纬度": [c[0] for c in base_coords],
        "基准经度": [c[1] for c in base_coords],
        "真值纬度": [c[0] for c in true_coords],
        "真值经度": [c[1] for c in true_coords],
        "北向增量真值(m)": true_dn,
        "东向增量真值(m)": true_de,
        "北向增量预测(m)": pred[:, 0],
        "东向增量预测(m)": pred[:, 1],
        "预测纬度": [c[0] for c in pred_coords],
        "预测经度": [c[1] for c in pred_coords],
        "北向误差(m)": err_n,
        "东向误差(m)": err_e,
        "总误差(m)": err_total,
    })

    pred_csv = base_dir / "predict_data_fecam_tcn_transformer.csv"
    results.to_csv(pred_csv, index=False, encoding="utf-8-sig")

    min_err = float(np.min(err_total))
    max_err = float(np.max(err_total))
    mean_err = float(np.mean(err_total))
    std_err = float(np.std(err_total, ddof=1)) if len(err_total) > 1 else 0.0
    rmse = float(np.sqrt(np.mean(np.square(err_total))))

    stats = pd.DataFrame([{
        "模型": "FECAM_TCN_Transformer",
        "最小误差(m)": min_err,
        "最大误差(m)": max_err,
        "平均误差(m)": mean_err,
        "标准差(m)": std_err,
        "RMSE(m)": rmse,
        "step_seconds": step_seconds,
        "window_seconds": window_seconds,
        "window_len": window_len,
    }])
    stats_csv = base_dir / "error_statistics_fecam_tcn_transformer.csv"
    stats.to_csv(stats_csv, index=False, encoding="utf-8-sig")

    print("=" * 60)
    print("FECAM_TCN_Transformer 误差统计")
    print("=" * 60)
    print(f"最小误差: {min_err:.4f} m")
    print(f"最大误差: {max_err:.4f} m")
    print(f"平均误差: {mean_err:.4f} m")
    print(f"标准差:   {std_err:.4f} m")
    print(f"RMSE:     {rmse:.4f} m")
    print(f"\n预测结果已保存: {pred_csv}")
    print(f"误差统计已保存: {stats_csv}")

    if save_plots:
        plt.figure(figsize=(10, 4))
        plt.plot(results.index, results["总误差(m)"].to_numpy(), linewidth=1.2)
        plt.xlabel("时间步")
        plt.ylabel("总误差 (m)")
        plt.title("FECAM-TCN-Transformer 总误差曲线")
        plt.grid(True, alpha=0.3)
        plt.tight_layout()
        plt.savefig(base_dir / "fecam_tcn_transformer_error_curve.png", dpi=200)
        plt.close()

    return {
        "predict_csv": str(pred_csv),
        "stats_csv": str(stats_csv),
        "rmse": rmse,
        "window_len": window_len,
        "step_seconds": step_seconds,
    }


def main():
    parser = argparse.ArgumentParser()
    parser.add_argument("--base_dir", type=str, default=DEFAULT_BASE_DIR, help="Directory containing csv files")
    parser.add_argument("--mode", type=str, default="all", choices=["train", "eval", "all"])
    parser.add_argument("--window_seconds", type=float, default=3.0, help="INS history length (seconds)")
    parser.add_argument("--epochs", type=int, default=80)
    parser.add_argument("--batch_size", type=int, default=64)
    parser.add_argument("--lr", type=float, default=1e-3)
    parser.add_argument("--weight_decay", type=float, default=1e-4)
    parser.add_argument("--test_file", type=str, default=TEST_INS_FILE)
    parser.add_argument("--test_start", type=float, default=DEFAULT_TEST_START)
    parser.add_argument("--test_end", type=float, default=DEFAULT_TEST_END)
    parser.add_argument("--save_plots", action="store_true")
    parser.add_argument("--seed", type=int, default=42)
    args = parser.parse_args()

    set_seed(args.seed)
    base_dir = Path(args.base_dir)
    base_dir.mkdir(parents=True, exist_ok=True)

    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"Using device: {device}")

    if args.mode in ("train", "all"):
        train(
            base_dir=base_dir,
            window_seconds=args.window_seconds,
            epochs=args.epochs,
            batch_size=args.batch_size,
            lr=args.lr,
            weight_decay=args.weight_decay,
            device=device,
            save_plots=args.save_plots,
        )

    if args.mode in ("eval", "all"):
        eval_and_report(
            base_dir=base_dir,
            test_file=args.test_file,
            test_start=args.test_start,
            test_end=args.test_end,
            device=device,
            save_plots=args.save_plots,
        )


if __name__ == "__main__":
    main()

如果你还想更“严格在线”的定义：预测第 k 个 GNSS 增量时输入只用 (k-1,k] 区间之前的数据（不吃到 k 时刻附近的 INS），我也能给你把取窗逻辑改成那种。

Answer 5

是的，完全正确 👍

你看到的这一行：

Epoch 1/80

意思就是：模型一共要训练 80 轮（epochs），现在显示的是第 1 轮 / 共 80 轮。

具体解释一下「Epoch 是什么」

1 个 epoch：
👉 把 整个训练集（train_loader 里的所有 batch）完整训练一遍
80 个 epoch：
👉 把同一份训练数据 反复学习 80 次

所以：

text
Epoch 1/80   → 第 1 次完整遍历训练集
Epoch 80/80  → 最后一轮

结合你这份代码来看（非常关键）

在你的脚本里（FECAM + TCN + Transformer 这个）：

python
parser.add_argument("--epochs", type=int, default=80)

以及训练循环：

python
for ep in range(1, epochs + 1):
    ...
    print(f"Epoch {ep}/{epochs}")

所以：

epochs=80 → 训练 80 轮
如果你运行时没额外指定参数：
```
bash
python fecam_tcn_transformer_single.py
```
那就是 80 轮

如果你想改成 50 轮：

bash
python fecam_tcn_transformer_single.py --epochs 50

再帮你对照一下论文（你现在其实是“对齐论文的”）

论文里多次明确写了（例如 Table 3）：

Epoch = 50 或 100
学习率 0.001 / 0.0001
不同目标参数 epoch 不同

你现在用的：

text
epochs = 80
lr = 1e-3

👉 完全是合理区间，而且比你之前多模型脚本里统一 50 epoch 要更友好于复杂模型（FECAM + TCN + Transformer）。

一个非常实用的判断标准（建议你现在就用）

看训练日志里三样东西：

text
Epoch 10/80  train=...  val=...
Epoch 40/80  train=...  val=...
Epoch 80/80  train=...  val=...

如果 val loss 在 40～50 就不再下降
👉 80 有点多，可以提前停（early stopping）
如果 val loss 一直在慢慢降
👉 80 是值得的，甚至可以试 100

一句话总结

✅ 是的，Epoch 1/80 就是“总共训练 80 轮”
✅ 你现在这个设置 对 FECAM + TCN + Transformer 是合理的
✅ 比你之前的多模型统一 50 epoch 更科学

如果你愿意，把你跑出来的 **前 10 行训练日志（train/val loss）**贴出来，我可以直接告诉你：
👉 80 轮是不是最优，还是该停在 40/60

Answer 6

你这个现象大概率不是“模型训练得很好但预测很差”，而是——你看到的 train/val loss 是在“归一化后的标签”上算的 MSE，它看起来很小，但换算成“米”之后完全可能就是 5m 这个量级。

1）为什么 loss 很小但误差是 5m：因为标签用了 MinMaxScaler，loss 单位不是米

你旧版训练代码里对标签做了 MinMaxScaler：labels_normalized = label_scaler.fit_transform(labels)，训练的 MSELoss 直接用的是这个归一化后的 y（不是米）。(train_all_models.py) (train_all_models.py)

MinMaxScaler 的关系是：

$y_{norm} = \dfrac{y - y_{min}}{y_{max}-y_{min}}$
如果你验证集 MSE_norm = 0.000294，那
$RMSE_{norm}=\sqrt{0.000294}\approx 0.01715$
换算回米：
$RMSE_{m} \approx RMSE_{norm} \times (y_{max}-y_{min})$

你现在最终总误差 RMSE 约 5.12 m，反推标签范围大约是：

$(y_{max}-y_{min}) \approx 5.12 / 0.01715 \approx 299\ \text{m}$

也就是说：你的“0.000294”在 0~1 空间里很小，但对应真实位移范围 ~300m 时，等价 RMSE 就是 ~5m。这和你输出的 5.12m 是一致的。

2）你可以立刻验证：打印 label_scaler 的 range（1分钟定位）

在你训练完保存的 label_scaler.pkl（或你新脚本里的 fecam_label_scaler.pkl）旁边跑一下：

python
import joblib
import numpy as np

label_scaler = joblib.load(r"D:\...\label_scaler.pkl")  # 换成你的路径/文件名
print("min:", label_scaler.data_min_)
print("max:", label_scaler.data_max_)
print("range:", label_scaler.data_max_ - label_scaler.data_min_)

如果你看到 range 接近几百米，那你这个“loss小但误差5m”就是纯粹单位问题，不是离谱的训练失败。

3）为什么最终误差几乎是“稳定的 5m 左右”

你的误差计算方式（旧版）本质是在比较：
“序列末端真实坐标（初始纬度/经度）” vs “序列起点坐标 + 预测增量后的坐标（更新后纬度/经度）”。(predict_all_models.py)
误差用 Vincenty 算成北/东/总误差。(compare_errors.py)

如果模型对增量存在一个比较稳定的偏差（bias），就会出现你这种：误差曲线不怎么波动、但整体维持在某个值（比如 5m）。

4）建议你加一个“米单位的验证指标”，你就不会被 0.000xxx 迷惑

在训练的验证环节里，除了打印 val_loss（归一化空间），再打印一个 val_rmse_m（米空间）。思路就是把 pred 和 y 都 inverse_transform 回米再算 RMSE。

你原训练代码里 val loop 在这里：(train_all_models.py)
把它改成类似这样（只示意核心几行）：

python
# val loop里
pred = model(X_batch)
loss = criterion(pred, y_batch)

pred_m = label_scaler.inverse_transform(pred.detach().cpu().numpy())
true_m = label_scaler.inverse_transform(y_batch.detach().cpu().numpy())
rmse_m = np.sqrt(np.mean((pred_m - true_m)**2))

然后每 10 epoch 打印一次 rmse_m。你会发现它大概率就是几米，而不是“看起来小到离谱”。

5）额外提醒：你训练/测试不是同一段数据（这也会拉开差距）

旧流程里训练用 199900~200000，测试用 129171~129181，这本身就是跨航段/跨工况泛化问题。(train_all_models.py) (predict_all_models.py)
所以即使验证集 loss 很好（因为它是训练集切分出来的），对测试段出现 5m 级误差也正常。

如果你愿意，你把你训练时保存的 label_scaler 的 data_min_/data_max_ 打印结果贴我，我可以直接帮你算出：

归一化 loss 对应的“米 RMSE”到底是多少
以及你这个 5m 更像是“正常量级”还是“时间对齐/步长定义错了”的那种错误。

Answer 7

懂你意思：你原来的 Transformer（多模型那套）确实能跑得更好，而你这个 “FECAM+TCN+Transformer（3s窗口）” 训练/验证 loss 很小，但最终误差却稳定在 ~5m。

这里面最像“真 bug / 定义不一致”的点，不是模型结构本身，而是——你新脚本的“预测步长/取真值坐标的方式”跟你原来那套不一致，会造成一个几乎恒定的时间对齐误差，最后在高速运动时就会变成几米的恒定空间误差（你现在的误差范围 5.055~5.195m 特别像这种情况）。

先对齐一下：你原来的 Transformer 是怎么评估的（它为什么能更好）

你原来的预测脚本是按 固定 sample 数 切段（每段 20 点），并且：

base_coords 用段首坐标（seq_start_idx）
initial_coords 用段尾坐标（seq_end_idx）
预测出来的 delta 作用在 base_coords 上得到更新坐标
(predict_all_models.py) (predict_all_models.py)

误差脚本再用 Vincenty 计算 “初始(段尾) vs 更新后(段首+预测delta)” 的差：(compare_errors.py)

也就是说：整套评估严格绑定在“20 个 INS 点 = 一个输出”这个定义上。训练时标签也是按 i//sequence_length 去取第 i 段对应的 GNSS delta：(train_all_models.py)

你新脚本为什么会差：大概率是“步长定义/取真值方式”跟旧评估不一致

你新脚本（我给你的单文件）是按 time-based 的方式在 eval 里做：

用 step_seconds = 训练段 GNSS 的中位采样间隔
用 t_end = t0 + n*step_seconds
再用 “nearest_row_by_time” 去拿 t0 / t_end 的坐标当真值

这跟你原来那套“严格按 index 切 20 点”不一样。

如果 step_seconds 和 “测试段 20 点的真实时间跨度” 存在一个固定偏差（哪怕只有 0.05s），高速运动下就会出现几米级恒定误差（而且会非常稳定——你现在就是这种形态）。

你现在误差几乎不波动（std 0.0436m），特别像 “每一步都差一个固定时间偏移” 导致的。

最推荐的修复（最小改动）：把新脚本的 eval 改成和你旧脚本完全一致的“按 index 切段”

核心目标：你新模型输入仍是 3s 窗口，但输出的每一步、真值坐标对齐方式，必须跟旧 Transformer 那套一样，否则你拿来对比不公平，效果也会被“对齐误差”污染。

你只需要改 eval 的窗口生成逻辑（替换 build_eval_samples）

把你单文件里（新脚本）build_eval_samples(...) 整个函数替换成下面这个“index-based”的版本：

python
def build_eval_samples_index_based(
    ins_df: pd.DataFrame,
    window_len: int,
    step_samples: int,
    time_col: str,
    feature_cols: List[str],
    lat_col: str,
    lon_col: str,
):
    """
    和你原 predict_all_models.py 一致：
    - 每 step_samples 个点输出一次
    - base_coords = 段首坐标
    - true_coords = 段尾坐标
    - 输入 window 仍然是“段尾之前 window_len 点”（即 3s 历史）
    """
    ins_df = ins_df.sort_values(time_col).reset_index(drop=True)
    feats = ins_df[feature_cols].to_numpy(dtype=float)

    X_list, end_times, base_coords, true_coords = [], [], [], []

    n = len(ins_df)
    # 段尾 index 从 step_samples-1 开始，每次 +step_samples
    for end_idx in range(step_samples - 1, n, step_samples):
        start_idx = end_idx - step_samples + 1
        if start_idx < 0:
            continue

        # 3s窗口：以 end_idx 结尾的 window_len
        w_start = end_idx - window_len + 1
        if w_start < 0:
            continue

        window = feats[w_start:end_idx + 1]
        if window.shape[0] != window_len:
            continue

        base_row = ins_df.iloc[start_idx]
        true_row = ins_df.iloc[end_idx]

        base_coords.append((float(base_row[lat_col]), float(base_row[lon_col])))
        true_coords.append((float(true_row[lat_col]), float(true_row[lon_col])))
        end_times.append(float(true_row[time_col]))

        X_list.append(window.astype(np.float32))

    if len(X_list) < 3:
        raise RuntimeError("Too few eval windows built. Check step_samples/window_len/test range.")

    return np.stack(X_list, axis=0), end_times, base_coords, true_coords

然后在 eval_and_report 里，把原来调用 build_eval_samples 的地方改成调用这个函数

并且你需要一个 step_samples（每一步多少个 INS 点）。最稳的做法是：

在训练阶段，把 ins_dt 推出来
用训练得到的 gnss_step_seconds 算：step_samples = round(gnss_step_seconds / ins_dt)

你原训练脚本本来就假定 “INS 20 点对应一个 GNSS delta”：(train_all_models.py)
所以这里推出来的 step_samples 很可能就是 20（这时新旧对齐就彻底一致了）。

在训练 meta 里加一行保存：

python
step_samples = int(round(meta["gnss_step_seconds"] / meta["ins_dt"]))
meta["step_samples"] = step_samples

eval 里读出来：

python
step_samples = int(meta["step_samples"])
X, end_times, base_coords, true_coords = build_eval_samples_index_based(
    ins_df=test_df,
    window_len=window_len,
    step_samples=step_samples,
    time_col=INS_TIME_COL,
    feature_cols=FEATURE_COLS,
    lat_col=lat_col,
    lon_col=lon_col,
)

你改完后会出现什么现象（用来验证你改对了）

误差不再是“5m 附近几乎一条直线”
新模型的 RMSE 会明显变化（通常会下降），并且终于能和旧 Transformer 做公平对比（因为评估定义一致：固定 20 点一步）(predict_all_models.py)

额外一句：即便对齐后还是不如旧 Transformer，最常见原因是什么？

那就回到模型本身了：你现在前面加了 TCN+FECAM，相当于做了一个“特征变换器”，它可能在你这个任务上反而破坏了最直接的映射；而旧 Transformer 直接在原特征上建模，可能更适配你这个 delta 任务。

但在讨论模型强弱之前，先把“步长/真值定义”对齐，不然你现在的 5m 很可能就是定义偏差造成的假象。

如果你愿意，你把你新脚本生成的 fecam_meta.json 里这几个值贴我一下：ins_dt, gnss_step_seconds, window_len。我基本可以一句话判断：你现在的 5m 是不是 “step_seconds vs step_samples” 的对齐误差导致的。

Answer 8

你说的“旧版 Transformer 没法理解之前的运动趋势”，本质原因不是 Transformer 不行，而是你喂给它的输入太短、而且样本之间完全断开：

训练里 sequence_length = 20，并且步长也是 20（不重叠），所以模型每次只看到一段很短的 20 点历史，而且段与段之间完全没有连续性可学。(train_all_models.py)
预测时也是按 20 点切段来做，每段独立预测一次。(predict_all_models.py)

这确实会让“趋势（更长时间尺度的变化）”学不到。

下面给你几个更稳、更容易比赢旧 Transformer的思路（按我建议的优先级排序），都能实现“理解之前 3s 甚至更久的趋势”，但不会引入你之前那种 5m 级的对齐坑。

方案 A（最推荐）：保留你旧 Transformer，但把输入改成“3s历史窗口”，输出步长仍按原来的 20 点/一段

你要的趋势其实只要做到这一点就够了：

输入：以每个输出时刻（段尾）为锚点，取**段尾之前 3s 的全部 INS（12维）**作为 Transformer 的序列输入（长度大约 = 3s / dt）
输出/评价：仍然保持你原来定义的“一段 20 点对应一次位移增量”，这样跟旧版误差计算完全一致（base 用段首，true 用段尾）。(predict_all_models.py)

好处：

你想要的“趋势”由更长序列提供；
对齐方式不变，能公平对比旧 Transformer；
改动很小：只是 dataset 构造时每个样本的 X 改为 3s窗口。

你之前新模型容易出现“误差几乎常数”的现象，很像是输出步长/真值取法和旧版不一致导致的；这个方案天然规避。

方案 B：做“多尺度输入”（短窗 + 长窗），比单纯拉长序列更稳

趋势 ≠ 只有长窗。很多时候需要短窗捕捉快速变化 + 长窗捕捉趋势。你可以：

分两路：
- 路1：最近 20 点（短期动态）
- 路2：最近 3s（长期趋势）
两路各自编码（可以都用 TransformerEncoder，或短窗用轻量 MLP/Conv）
concat 后回归 delta

这样常常比“只把序列拉很长”更稳定（尤其你的标签是位移增量，会对微小偏差很敏感）。

方案 C：把任务改成“残差学习”，趋势会更好学、泛化更强

你现在是让网络直接回归 GNSS 增量（dn,de）。(train_all_models.py)
更强的一招是：

先用 INS 速度对 20 点时间段做一个粗积分得到 $\Delta^{INS}$ （物理先验）
网络只预测残差： $\Delta^{GNSS} - \Delta^{INS}$
最终输出 = $\Delta^{INS} + \Delta^{pred\_residual}$

优点：

网络学习的目标更“小”、更平滑（更像漂移/误差项），趋势信息更明显；
往往能显著降低你那种“稳定偏差导致的几米误差”。

方案 D：让模型“带记忆”，跨窗口学习趋势（比无限拉长窗口更有效）

你现在每个窗口都独立，模型天生不知道上一段发生了什么。(train_all_models.py)
可以引入“跨段记忆”：

用 GRU state / Transformer-XL 式 memory：
- 训练时按时间连续喂段，保留 hidden/memory
- 推理时同样连续滚动

这样模型不需要把窗口拉到很长，也能掌握更长时间趋势。

方案 E（和你论文路线一致，但要做全套才有意义）：先做分解/去噪，再做 TCN 的感受野

你选的那篇文章强调两点：

Dilated causal conv 扩大感受野来捕获长依赖；(Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf)
FECAM 结合 DCT + 通道注意力抑制高频噪声、增强特征。(Li 等 - 2025 - A hybrid algorithm of TCN-iTransformer for aircraft aerodynamic parameter estimation based on dual a.pdf)

但论文路线里通常还有“分解/去噪”（例如 VMD 这种思路）作为整体的一环；只上“FECAM+TCN”但输入仍是原始 noisy INS，收益经常不稳定。

如果你真要走这个路线，我建议你先做一个轻量版本：

对加表/陀螺做简单低通或 Savitzky–Golay 平滑
或把每通道的差分/二阶差分作为额外通道（趋势增强）

我建议你下一步怎么做（最省时间、最可能赢旧 Transformer）

先做方案 A：旧 Transformer + 3s窗口输入 + 保持旧版 step/真值对齐不变（这样你能确认“趋势窗口”本身是否带来收益）。(predict_all_models.py)
如果收益不够，再加方案 C（残差学习），通常提升非常明显。
最后才考虑复杂的 FECAM/TCN 组合（除非你把对齐和去噪也一起做完整）。

如果你告诉我你 INS 的采样频率（或 dt 大概多少，比如 0.05s/0.01s），我可以直接给你一个“旧 Transformer + 3s窗口 + 原评估方式不变”的最小改代码（改动点非常少，基本只动数据构造那一段）。

Answer 9

给你写好了方案A（保留旧版输出/对齐方式不变，但输入改成“每个输出时刻往前3秒的INS序列”）的单文件脚本：训练 + 预测 + 误差统计 + 画图一体。

100Hz ⇒ 3秒窗口 ≈ 300点（脚本会从 INS 时间列推断 dt 来算 window_len，更稳）
输出仍按旧版：每 20 点（0.2s）预测一次 GNSS 增量，并且误差计算方式完全复用旧版的“段首 base + 预测增量 → 更新坐标 vs 段尾真实坐标”对齐方式，保证和你原 Transformer 对比公平（你旧版 train/predict/compare 的对齐逻辑见你原脚本）。(train_all_models.py) (predict_all_models.py) (compare_errors.py)

下载文件：
[Download transformer_3s_trend_allinone.py]

怎么跑

bash
# 训练 + 预测 + 误差统计 + 画图
python transformer_3s_trend_allinone.py --mode all --save_plots

# 只训练
python transformer_3s_trend_allinone.py --mode train --save_plots

# 只评估（需要已有模型与scaler）
python transformer_3s_trend_allinone.py --mode eval --save_plots

如果你的 BASE_DIR 不同：

bash
python transformer_3s_trend_allinone.py --base_dir "你的目录" --mode all --save_plots

你会得到哪些输出（都在 BASE_DIR）

transformer_3s_model.pth
transformer_3s_feature_scaler.pkl
transformer_3s_label_scaler.pkl
transformer_3s_meta.json（包含 dt / window_len / step_samples）
predict_data_transformer_3s.csv
error_statistics_transformer_3s.csv
training_curve_transformer_3s.png
error_plots_transformer_3s.png

代码（完整）

python
# -*- coding: utf-8 -*-
"""
方案A：Transformer（时间步 token） + 3秒历史窗口（100Hz）—— 单文件：训练 + 预测 + 误差统计 + 画图

核心思想
- 输出定义完全沿用旧版：每 20 个 INS 采样点（100Hz => 0.2s）预测一次 GNSS 位置增量 (delta_north, delta_east)
- 但输入不再是“当前段的 20 点”，而是“该输出时刻（段尾）之前 3 秒内的所有 INS（12维）”
  这样 Transformer 就能看到更长的运动趋势；且输出对齐/误差计算方式仍与旧版一致，可公平对比。

文件依赖（与旧版一致）
- 训练：BASE_DIR/Input_GNSS.csv  + BASE_DIR/Input_INS.csv
- 测试：BASE_DIR/出城INS.csv

运行方式
- 训练 + 预测 + 误差 + 画图（推荐）：
    python transformer_3s_trend_allinone.py --mode all --save_plots
- 只训练：
    python transformer_3s_trend_allinone.py --mode train
- 只评估（需要已有模型与scaler）：
    python transformer_3s_trend_allinone.py --mode eval --save_plots

输出文件（都在 BASE_DIR）
- transformer_3s_model.pth
- transformer_3s_feature_scaler.pkl
- transformer_3s_label_scaler.pkl
- transformer_3s_meta.json
- predict_data_transformer_3s.csv
- error_statistics_transformer_3s.csv
- （可选）training_curve_transformer_3s.png / error_plots_transformer_3s.png
"""

import argparse
import json
import math
from pathlib import Path
from typing import List, Tuple, Dict

import joblib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.preprocessing import MinMaxScaler
from torch.utils.data import DataLoader, TensorDataset, random_split


# ========== 默认配置（按你的旧脚本） ==========
DEFAULT_BASE_DIR = r"D:\09-毕业论文\2025.07.08 小论文代码\神经网络缝模块\多模型一键运行"
TRAIN_GNSS_FILE = "Input_GNSS.csv"
TRAIN_INS_FILE = "Input_INS.csv"
TEST_INS_FILE = "出城INS.csv"

# 训练范围（沿用旧版）
DEFAULT_GNSS_START = 199900.0
DEFAULT_GNSS_END = 200000.0
DEFAULT_INS_START = 199900.008
DEFAULT_INS_END = 200000.008

# 测试范围（沿用旧版）
DEFAULT_TEST_START = 129171.003
DEFAULT_TEST_END = 129181.003

GNSS_TIME_COL = "GNSS周内秒(s)"
INS_TIME_COL = "GPS周内秒(s)"
GNSS_LAT_COL = "GNSS纬度(°)"
GNSS_LON_COL = "GNSS经度(°)"

FEATURE_COLS = [
    "北向速度(m/s)", "东向速度(m/s)", "地向速度(m/s)",
    "航向角(°)", "俯仰角(°)", "横滚角(°)",
    "加表x（g）", "加表y（g）", "加表z（g）",
    "陀螺x（°/s）", "陀螺y（°/s）", "陀螺z（°/s）",
]

# 地球半径（旧版用它从经纬度差近似换算位移）
EARTH_RADIUS = 6371000.0

# WGS84（Vincenty误差计算）
WGS84_A = 6378137.0
WGS84_F = 1 / 298.257223563
WGS84_B = WGS84_A * (1 - WGS84_F)


# =========================
# 小工具
# =========================
def set_seed(seed: int = 42) -> None:
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)


def infer_dt(times: np.ndarray) -> float:
    times = np.asarray(times, dtype=float)
    diffs = np.diff(times)
    diffs = diffs[np.isfinite(diffs)]
    diffs = diffs[diffs > 0]
    if len(diffs) == 0:
        raise ValueError("无法从时间列推断 dt（时间差为空或非正）")
    return float(np.median(diffs))


def calculate_position_deltas(gnss_df: pd.DataFrame) -> pd.DataFrame:
    """完全沿用旧版思路：按相邻 GNSS 点差分得到北/东向增量（米）。"""
    df = gnss_df.sort_values(GNSS_TIME_COL).copy()
    lat = df[GNSS_LAT_COL].to_numpy(dtype=float)
    lon = df[GNSS_LON_COL].to_numpy(dtype=float)

    dlat = np.diff(lat) * (np.pi / 180.0)
    dlon = np.diff(lon) * (np.pi / 180.0)
    lat_mid = (lat[1:]) * (np.pi / 180.0)

    dn = dlat * EARTH_RADIUS
    de = dlon * EARTH_RADIUS * np.cos(lat_mid)

    out = pd.DataFrame({
        "delta_north": dn,
        "delta_east": de,
    })
    return out


def deltas_to_coords(lat: float, lon: float, delta_north: float, delta_east: float) -> Tuple[float, float]:
    """旧版预测脚本同款：用近似公式把 (dn,de) 换算成 (lat,lon) 更新。"""
    delta_lat = delta_north / EARTH_RADIUS * (180.0 / np.pi)
    delta_lon = delta_east / (EARTH_RADIUS * np.cos(lat * np.pi / 180.0)) * (180.0 / np.pi)
    return lat + delta_lat, lon + delta_lon


def vincenty_offset_north_east(lat1_deg: float, lon1_deg: float, lat2_deg: float, lon2_deg: float) -> Tuple[float, float]:
    """Vincenty inverse：返回 (north_offset, east_offset)；用于误差计算（旧 compare_errors.py 同等精度）。"""
    a = WGS84_A
    f = WGS84_F
    b = WGS84_B

    phi1, lam1, phi2, lam2 = map(math.radians, [lat1_deg, lon1_deg, lat2_deg, lon2_deg])
    U1 = math.atan((1 - f) * math.tan(phi1))
    U2 = math.atan((1 - f) * math.tan(phi2))
    L = lam2 - lam1
    lam = L

    sinU1, cosU1 = math.sin(U1), math.cos(U1)
    sinU2, cosU2 = math.sin(U2), math.cos(U2)

    for _ in range(200):
        sin_lam = math.sin(lam)
        cos_lam = math.cos(lam)
        sin_sigma = math.sqrt((cosU2 * sin_lam) ** 2 + (cosU1 * sinU2 - sinU1 * cosU2 * cos_lam) ** 2)
        if sin_sigma == 0:
            return 0.0, 0.0
        cos_sigma = sinU1 * sinU2 + cosU1 * cosU2 * cos_lam
        sigma = math.atan2(sin_sigma, cos_sigma)
        sin_alpha = cosU1 * cosU2 * sin_lam / sin_sigma
        cos2_alpha = 1 - sin_alpha ** 2
        if cos2_alpha == 0:
            cos2_sigma_m = 0.0
        else:
            cos2_sigma_m = cos_sigma - 2 * sinU1 * sinU2 / cos2_alpha
        C = f / 16 * cos2_alpha * (4 + f * (4 - 3 * cos2_alpha))
        lam_new = L + (1 - C) * f * sin_alpha * (
            sigma + C * sin_sigma * (cos2_sigma_m + C * cos_sigma * (-1 + 2 * cos2_sigma_m ** 2))
        )
        if abs(lam_new - lam) < 1e-12:
            lam = lam_new
            break
        lam = lam_new

    azimuth = math.atan2(
        cosU2 * math.sin(lam),
        cosU1 * sinU2 - sinU1 * cosU2 * math.cos(lam),
    )
    distance = b * sigma
    north = distance * math.cos(azimuth)
    east = distance * math.sin(azimuth)
    return float(north), float(east)


def find_lat_lon_cols(df: pd.DataFrame) -> Tuple[str, str]:
    """测试文件里纬度/经度列名可能不同：优先沿用旧 predict_all_models.py 的 '纬度(°)','经度(°)'。"""
    candidates = [
        ("纬度(°)", "经度(°)"),
        ("GNSS纬度(°)", "GNSS经度(°)"),
        ("Latitude", "Longitude"),
        ("lat", "lon"),
    ]
    for la, lo in candidates:
        if la in df.columns and lo in df.columns:
            return la, lo
    raise KeyError(f"测试文件中找不到纬度/经度列；已尝试: {candidates}")


# =========================
# 模型：Transformer（时间步token）
# =========================
class PositionalEncoding(nn.Module):
    def __init__(self, d_model: int, max_len: int = 5000):
        super().__init__()
        pe = torch.zeros(max_len, d_model, dtype=torch.float32)
        position = torch.arange(0, max_len, dtype=torch.float32).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2, dtype=torch.float32) * (-math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        self.register_buffer("pe", pe.unsqueeze(0), persistent=False)  # (1,max_len,d_model)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        # x: (B,T,D)
        T = x.size(1)
        if T > self.pe.size(1):
            raise ValueError(f"序列长度 {T} 超过 max_len {self.pe.size(1)}")
        return x + self.pe[:, :T, :].to(x.dtype)


class TransformerTrendModel(nn.Module):
    """
    输入: (B, T, 12) 其中 T=3秒窗口长度（100Hz => 300）
    输出: (B, 2) 预测 (delta_north, delta_east)
    """
    def __init__(
        self,
        input_dim: int,
        seq_length: int,
        d_model: int = 128,
        nhead: int = 8,
        num_layers: int = 3,
        ff_dim: int = 512,
        dropout: float = 0.1,
    ):
        super().__init__()
        self.seq_length = seq_length
        self.in_proj = nn.Linear(input_dim, d_model)
        self.pos = PositionalEncoding(d_model=d_model, max_len=max(5000, seq_length + 10))

        enc_layer = nn.TransformerEncoderLayer(
            d_model=d_model,
            nhead=nhead,
            dim_feedforward=ff_dim,
            dropout=dropout,
            batch_first=True,
            activation="gelu",
            norm_first=True,
        )
        self.encoder = nn.TransformerEncoder(enc_layer, num_layers=num_layers)

        self.head = nn.Sequential(
            nn.LayerNorm(d_model),
            nn.Linear(d_model, 128),
            nn.GELU(),
            nn.Dropout(dropout),
            nn.Linear(128, 2),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        # x: (B,T,12)
        x = self.in_proj(x)
        x = self.pos(x)
        x = self.encoder(x)
        last = x[:, -1, :]
        return self.head(last)


# =========================
# 数据构造（方案A：保持旧输出定义，输入改为3s历史窗口）
# =========================
def build_train_samples_trend(
    gnss_filtered: pd.DataFrame,
    ins_filtered: pd.DataFrame,
    window_seconds: float,
    step_samples: int,
) -> Tuple[np.ndarray, np.ndarray, Dict]:
    """
    训练样本定义（对齐旧版）：
    - 第 k 个样本对应 INS 的第 k 段（段长=step_samples=20），标签取 position_deltas[k]
    - 输出时刻 = 段尾 index = (k+1)*step_samples - 1
    - 输入 = 该段尾时刻之前 window_seconds 内的 INS（固定长度 window_len）
    """
    gnss_filtered = gnss_filtered.sort_values(GNSS_TIME_COL).reset_index(drop=True)
    ins_filtered = ins_filtered.sort_values(INS_TIME_COL).reset_index(drop=True)

    # 由INS时间列推断 dt，以免不是严格100Hz时出错
    ins_dt = infer_dt(ins_filtered[INS_TIME_COL].to_numpy(dtype=float))
    window_len = int(round(window_seconds / ins_dt))  # 3s@100Hz => 300
    if window_len < 10:
        raise ValueError(f"window_len 太小({window_len})，检查 window_seconds 或 dt")

    ins_feat = ins_filtered[FEATURE_COLS].to_numpy(dtype=float)
    position_deltas = calculate_position_deltas(gnss_filtered)  # shape ~ (N_gnss-1, 2)

    num_segments = len(ins_feat) // step_samples
    max_k = min(num_segments, len(position_deltas))  # 旧版就是这样对齐的

    X_list, y_list = [], []

    for k in range(max_k):
        end_idx = (k + 1) * step_samples - 1  # 段尾
        w_start = end_idx - window_len + 1
        if w_start < 0:
            continue

        window = ins_feat[w_start:end_idx + 1]
        if window.shape[0] != window_len:
            continue

        X_list.append(window.astype(np.float32))
        y_list.append(position_deltas.iloc[k].to_numpy(dtype=np.float32))

    if len(X_list) < 10:
        raise RuntimeError(f"样本太少：{len(X_list)}（可能是 window_len 太长或数据太短）")

    meta = {
        "window_seconds": float(window_seconds),
        "ins_dt": float(ins_dt),
        "window_len": int(window_len),
        "step_samples": int(step_samples),
        "num_samples": int(len(X_list)),
        "features": FEATURE_COLS,
        "label_definition": "position_deltas[k] aligned to INS segment k (legacy alignment)",
    }
    return np.stack(X_list, axis=0), np.stack(y_list, axis=0), meta


def build_test_samples_trend(
    test_df: pd.DataFrame,
    window_len: int,
    step_samples: int,
    lat_col: str,
    lon_col: str,
) -> Tuple[np.ndarray, List[float], List[Tuple[float, float]], List[Tuple[float, float]]]:
    """
    测试样本定义（与旧 predict_all_models.py 的坐标对齐一致）：
    - 仍按 step_samples=20 分段
    - base_coords: 段首坐标
    - initial_coords(true): 段尾坐标（用于误差计算对比）
    - 输入窗口: 段尾之前 window_len 点（3秒历史）
    """
    test_df = test_df.sort_values(INS_TIME_COL).reset_index(drop=True)
    feats = test_df[FEATURE_COLS].to_numpy(dtype=float)

    num_segments = len(feats) // step_samples
    X_list, times, base_coords, true_coords = [], [], [], []

    for k in range(num_segments):
        seg_start = k * step_samples
        seg_end = (k + 1) * step_samples - 1
        if seg_end >= len(test_df):
            break

        w_start = seg_end - window_len + 1
        if w_start < 0:
            continue

        window = feats[w_start:seg_end + 1]
        if window.shape[0] != window_len:
            continue

        base_row = test_df.iloc[seg_start]
        true_row = test_df.iloc[seg_end]

        base_coords.append((float(base_row[lat_col]), float(base_row[lon_col])))
        true_coords.append((float(true_row[lat_col]), float(true_row[lon_col])))
        times.append(float(true_row[INS_TIME_COL]))
        X_list.append(window.astype(np.float32))

    if len(X_list) < 3:
        raise RuntimeError("测试样本太少：请检查 test_start/test_end 或 window_len/step_samples")

    return np.stack(X_list, axis=0), times, base_coords, true_coords


# =========================
# 训练 / 评估
# =========================
def train(
    base_dir: Path,
    window_seconds: float,
    step_samples: int,
    epochs: int,
    batch_size: int,
    lr: float,
    weight_decay: float,
    device: torch.device,
    save_plots: bool,
) -> Dict:
    gnss_path = base_dir / TRAIN_GNSS_FILE
    ins_path = base_dir / TRAIN_INS_FILE
    if not gnss_path.exists() or not ins_path.exists():
        raise FileNotFoundError(f"训练文件不存在：{gnss_path} / {ins_path}")

    gnss = pd.read_csv(gnss_path)
    ins = pd.read_csv(ins_path)

    # 与旧版一致的时间筛选
    gnss_f = gnss[(gnss[GNSS_TIME_COL] >= DEFAULT_GNSS_START) & (gnss[GNSS_TIME_COL] <= DEFAULT_GNSS_END)].copy()
    ins_f = ins[(ins[INS_TIME_COL] >= DEFAULT_INS_START) & (ins[INS_TIME_COL] <= DEFAULT_INS_END)].copy()

    X, y, meta = build_train_samples_trend(gnss_f, ins_f, window_seconds=window_seconds, step_samples=step_samples)
    seq_len = int(meta["window_len"])

    # 归一化（沿用旧版 MinMax 方式）
    feat_scaler = MinMaxScaler()
    Xn = feat_scaler.fit_transform(X.reshape(-1, X.shape[-1])).reshape(X.shape)

    label_scaler = MinMaxScaler()
    yn = label_scaler.fit_transform(y)

    joblib.dump(feat_scaler, base_dir / "transformer_3s_feature_scaler.pkl")
    joblib.dump(label_scaler, base_dir / "transformer_3s_label_scaler.pkl")

    with open(base_dir / "transformer_3s_meta.json", "w", encoding="utf-8") as f:
        json.dump(meta, f, ensure_ascii=False, indent=2)

    X_tensor = torch.tensor(Xn, dtype=torch.float32)
    y_tensor = torch.tensor(yn, dtype=torch.float32)

    dataset = TensorDataset(X_tensor, y_tensor)
    train_size = int(0.8 * len(dataset))
    val_size = len(dataset) - train_size
    train_ds, val_ds = random_split(dataset, [train_size, val_size], generator=torch.Generator().manual_seed(42))

    train_loader = DataLoader(train_ds, batch_size=batch_size, shuffle=True, drop_last=False)
    val_loader = DataLoader(val_ds, batch_size=batch_size, shuffle=False, drop_last=False)

    model = TransformerTrendModel(
        input_dim=len(FEATURE_COLS),
        seq_length=seq_len,
        d_model=128,
        nhead=8,
        num_layers=3,
        ff_dim=512,
        dropout=0.1,
    ).to(device)

    criterion = nn.MSELoss()
    optimizer = optim.AdamW(model.parameters(), lr=lr, weight_decay=weight_decay)

    train_losses, val_losses = [], []
    best_val = float("inf")
    best_path = base_dir / "transformer_3s_model.pth"

    for ep in range(1, epochs + 1):
        model.train()
        total = 0.0
        for xb, yb in train_loader:
            xb = xb.to(device)
            yb = yb.to(device)

            optimizer.zero_grad(set_to_none=True)
            pred = model(xb)
            loss = criterion(pred, yb)
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            optimizer.step()
            total += float(loss.item())

        train_loss = total / max(1, len(train_loader))
        train_losses.append(train_loss)

        model.eval()
        total = 0.0
        with torch.no_grad():
            for xb, yb in val_loader:
                xb = xb.to(device)
                yb = yb.to(device)
                pred = model(xb)
                loss = criterion(pred, yb)
                total += float(loss.item())
        val_loss = total / max(1, len(val_loader))
        val_losses.append(val_loss)

        if val_loss < best_val:
            best_val = val_loss
            torch.save(model.state_dict(), best_path)

        if ep % 10 == 0 or ep == 1 or ep == epochs:
            print(f"[Train] Epoch {ep}/{epochs}  train={train_loss:.6f}  val={val_loss:.6f}  best_val={best_val:.6f}")

    if save_plots:
        plt.figure(figsize=(8, 5))
        plt.plot(range(1, epochs + 1), train_losses, label="Train Loss")
        plt.plot(range(1, epochs + 1), val_losses, label="Val Loss", linestyle="--")
        plt.xlabel("Epoch")
        plt.ylabel("MSE (normalized)")
        plt.title("Transformer(3s趋势输入) 训练曲线")
        plt.grid(True, alpha=0.3)
        plt.legend()
        plt.tight_layout()
        plt.savefig(base_dir / "training_curve_transformer_3s.png", dpi=200)
        plt.close()

    return {"best_model_path": str(best_path), "meta": meta}


def eval_and_report(
    base_dir: Path,
    test_file: str,
    test_start: float,
    test_end: float,
    device: torch.device,
    save_plots: bool,
) -> Dict:
    meta_path = base_dir / "transformer_3s_meta.json"
    if not meta_path.exists():
        raise FileNotFoundError("缺少 transformer_3s_meta.json，请先训练。")
    meta = json.loads(meta_path.read_text(encoding="utf-8"))

    feat_scaler = joblib.load(base_dir / "transformer_3s_feature_scaler.pkl")
    label_scaler = joblib.load(base_dir / "transformer_3s_label_scaler.pkl")

    model_path = base_dir / "transformer_3s_model.pth"
    if not model_path.exists():
        raise FileNotFoundError("缺少 transformer_3s_model.pth，请先训练。")

    window_len = int(meta["window_len"])
    step_samples = int(meta["step_samples"])

    test_path = base_dir / test_file
    if not test_path.exists():
        raise FileNotFoundError(f"测试文件不存在：{test_path}")

    test_df = pd.read_csv(test_path)
    if INS_TIME_COL not in test_df.columns:
        raise KeyError(f"测试文件缺少时间列：{INS_TIME_COL}")

    test_df = test_df[(test_df[INS_TIME_COL] >= test_start) & (test_df[INS_TIME_COL] <= test_end)].copy()
    if len(test_df) < window_len + step_samples:
        raise RuntimeError(f"测试数据太短：{len(test_df)} 行（窗口 {window_len} + 步长 {step_samples}）")

    lat_col, lon_col = find_lat_lon_cols(test_df)

    X, times, base_coords, true_coords = build_test_samples_trend(
        test_df=test_df,
        window_len=window_len,
        step_samples=step_samples,
        lat_col=lat_col,
        lon_col=lon_col,
    )

    Xn = feat_scaler.transform(X.reshape(-1, X.shape[-1])).reshape(X.shape)
    X_tensor = torch.tensor(Xn, dtype=torch.float32).to(device)

    model = TransformerTrendModel(
        input_dim=len(FEATURE_COLS),
        seq_length=window_len,
        d_model=128,
        nhead=8,
        num_layers=3,
        ff_dim=512,
        dropout=0.1,
    ).to(device)
    model.load_state_dict(torch.load(model_path, map_location=device))
    model.eval()

    with torch.no_grad():
        pred_norm = model(X_tensor).cpu().numpy()
    pred = label_scaler.inverse_transform(pred_norm)  # (N,2) in meters

    # 由 base_coords + pred delta 得到“更新后坐标”
    updated_coords = [
        deltas_to_coords(lat, lon, float(dn), float(de))
        for (lat, lon), (dn, de) in zip(base_coords, pred)
    ]

    # 误差：与旧 compare_errors.py 一致：比较 “初始(段尾)” vs “更新后(段首+预测delta)”
    err_n, err_e, err_total = [], [], []
    for (lat_true, lon_true), (lat_upd, lon_upd) in zip(true_coords, updated_coords):
        n, e = vincenty_offset_north_east(lat_true, lon_true, lat_upd, lon_upd)
        err_n.append(n)
        err_e.append(e)
        err_total.append(math.sqrt(n * n + e * e))

    results = pd.DataFrame({
        "时间戳": times,
        "初始纬度": [c[0] for c in true_coords],   # 段尾真值坐标（旧版叫 initial_coords）
        "初始经度": [c[1] for c in true_coords],
        "基准纬度": [c[0] for c in base_coords],   # 段首基准坐标（旧版 base_coords）
        "基准经度": [c[1] for c in base_coords],
        "北向增量(m)": pred[:, 0],
        "东向增量(m)": pred[:, 1],
        "更新后纬度": [c[0] for c in updated_coords],
        "更新后经度": [c[1] for c in updated_coords],
        "北向误差(m)": err_n,
        "东向误差(m)": err_e,
        "总误差(m)": err_total,
    })

    pred_csv = base_dir / "predict_data_transformer_3s.csv"
    results.to_csv(pred_csv, index=False, encoding="utf-8-sig")

    min_err = float(np.min(err_total))
    max_err = float(np.max(err_total))
    mean_err = float(np.mean(err_total))
    std_err = float(np.std(err_total, ddof=1)) if len(err_total) > 1 else 0.0
    rmse = float(np.sqrt(np.mean(np.square(err_total))))

    stats = pd.DataFrame([{
        "模型": "Transformer_3sTrend",
        "最小误差(m)": min_err,
        "最大误差(m)": max_err,
        "平均误差(m)": mean_err,
        "标准差(m)": std_err,
        "RMSE(m)": rmse,
        "window_len": window_len,
        "step_samples": step_samples,
        "test_start": test_start,
        "test_end": test_end,
    }])
    stats_csv = base_dir / "error_statistics_transformer_3s.csv"
    stats.to_csv(stats_csv, index=False, encoding="utf-8-sig")

    print("=" * 60)
    print("Transformer(3s趋势输入) 误差统计")
    print("=" * 60)
    print(f"最小误差: {min_err:.4f} m")
    print(f"最大误差: {max_err:.4f} m")
    print(f"平均误差: {mean_err:.4f} m")
    print(f"标准差:   {std_err:.4f} m")
    print(f"RMSE:     {rmse:.4f} m")
    print(f"\n预测结果已保存: {pred_csv}")
    print(f"误差统计已保存: {stats_csv}")

    if save_plots:
        # 简单中文字体兜底
        plt.rcParams["font.sans-serif"] = ["SimHei", "Microsoft YaHei", "Arial Unicode MS"]
        plt.rcParams["axes.unicode_minus"] = False

        fig, axes = plt.subplots(2, 2, figsize=(14, 10))

        axes[0, 0].plot(results.index, results["总误差(m)"], linewidth=1.3)
        axes[0, 0].set_title("总误差曲线")
        axes[0, 0].set_xlabel("时间步")
        axes[0, 0].set_ylabel("总误差 (m)")
        axes[0, 0].grid(True, alpha=0.3)

        axes[0, 1].plot(results.index, results["北向误差(m)"], linewidth=1.3)
        axes[0, 1].set_title("北向误差曲线")
        axes[0, 1].set_xlabel("时间步")
        axes[0, 1].set_ylabel("北向误差 (m)")
        axes[0, 1].grid(True, alpha=0.3)

        axes[1, 0].plot(results.index, results["东向误差(m)"], linewidth=1.3)
        axes[1, 0].set_title("东向误差曲线")
        axes[1, 0].set_xlabel("时间步")
        axes[1, 0].set_ylabel("东向误差 (m)")
        axes[1, 0].grid(True, alpha=0.3)

        axes[1, 1].boxplot(results["总误差(m)"].to_numpy(), labels=["Transformer_3s"])
        axes[1, 1].set_title("总误差分布（箱线图）")
        axes[1, 1].set_ylabel("总误差 (m)")
        axes[1, 1].grid(True, alpha=0.3)

        plt.tight_layout()
        out_png = base_dir / "error_plots_transformer_3s.png"
        plt.savefig(out_png, dpi=250, bbox_inches="tight")
        plt.close()
        print(f"误差图已保存: {out_png}")

    return {"rmse": rmse, "predict_csv": str(pred_csv), "stats_csv": str(stats_csv)}


def main():
    parser = argparse.ArgumentParser()
    parser.add_argument("--base_dir", type=str, default=DEFAULT_BASE_DIR)
    parser.add_argument("--mode", type=str, default="all", choices=["train", "eval", "all"])
    parser.add_argument("--window_seconds", type=float, default=3.0, help="趋势窗口长度（秒），100Hz下默认=300点")
    parser.add_argument("--step_samples", type=int, default=20, help="输出步长（样本点数），旧版为20（100Hz=0.2s）")
    parser.add_argument("--epochs", type=int, default=80)
    parser.add_argument("--batch_size", type=int, default=64)
    parser.add_argument("--lr", type=float, default=1e-3)
    parser.add_argument("--weight_decay", type=float, default=1e-4)
    parser.add_argument("--test_file", type=str, default=TEST_INS_FILE)
    parser.add_argument("--test_start", type=float, default=DEFAULT_TEST_START)
    parser.add_argument("--test_end", type=float, default=DEFAULT_TEST_END)
    parser.add_argument("--save_plots", action="store_true")
    parser.add_argument("--seed", type=int, default=42)
    args = parser.parse_args()

    set_seed(args.seed)
    base_dir = Path(args.base_dir)
    base_dir.mkdir(parents=True, exist_ok=True)

    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"Using device: {device}")

    if args.mode in ("train", "all"):
        train(
            base_dir=base_dir,
            window_seconds=args.window_seconds,
            step_samples=args.step_samples,
            epochs=args.epochs,
            batch_size=args.batch_size,
            lr=args.lr,
            weight_decay=args.weight_decay,
            device=device,
            save_plots=args.save_plots,
        )

    if args.mode in ("eval", "all"):
        eval_and_report(
            base_dir=base_dir,
            test_file=args.test_file,
            test_start=args.test_start,
            test_end=args.test_end,
            device=device,
            save_plots=args.save_plots,
        )


if __name__ == "__main__":
    main()

你跑完如果发现结果还是不如旧 Transformer，我下一步会建议你在这个脚本上加残差学习（用速度积分当先验，网络学残差），通常能明显提升“趋势有效但不引入偏置”。

質問

思考

回答

按论文把 “FECAM-based TCN + iTransformer” 加进来

你要加的文件（新增）

你现有 3 个脚本需要改哪里（改动很少）

1）train_all_models.py

2）predict_all_models.py

3）compare_errors.py

質問

思考

Analyzing new model performance vs transformer

Exploring potential model mismatch and dataset challenges

Clarifying citation format for explanation

Clarifying citation guidelines

Analyzing performance issues of the new model

Explaining model performance and next steps

Improving model and analysis steps

回答

1) 你现在的任务/数据形态，和论文的优势场景不一致

2) 你没把论文里“关键加成”那块喂给新模型：VMD补充输入

3) 训练超参数对新模型不友好：你所有模型一套 lr/epoch，hybrid 往往不收敛或过拟合

4) 还有一个“经常被忽略但杀伤力很大”的点：标签对齐/采样率可能不匹配

你可以怎么验证“到底是哪一类问题”（不改太多就能定位）

最小改动的“优先级建议”（我按性价比排了序）

A. 先只对新模型单独调参（改动最小、收益最大）

B. 把窗口从 20 拉长（更贴近论文的用法）

C. 检查/修正 GNSS-INS 对齐（这可能是决定性因素）

D. 真要复现论文优势：补上 VMD（或先用简单替代去噪）

質問

質問

思考

Inspecting existing data formats for model output

Figuring out fixed-length sequences and error comparison

Aligning GNSS with INS data for training

Handling time alignment and padding for INS data

Aligning output times and error measurement for prediction

Aligning output times with GNSS and calculating prediction deltas

Aligning GNSS data with INS inputs for prediction

Deriving output times and base coords for test stage

Aligning GNSS and INS times and model output

Model implementation plan

Implementing model blocks and pipeline

Processing GNSS data and building training pipeline

Implementing FECAM-TCN model and file generation

Python

回答

你怎么用（本地运行）

你需要改的唯一地方

运行后会生成哪些输出

質問

質問

質問

思考

Implementing DCT-based attention and TCN layers

Implementing Transformer for GNSS prediction

Aligning GNSS and INS data with new method

Aligning GNSS and INS data with offset

Generating fixed-length windows and computing errors

Evaluating and computing error during INS test

Designing and implementing function for coordinate-based model evaluation

Generating and saving predictions with error analysis

Designing channel attention and neural architecture

Managing step_seconds and data windows

Python

Python

回答

运行方式

代码（完整）

質問

回答

具体解释一下「Epoch 是什么」

结合你这份代码来看（非常关键）

再帮你对照一下论文（你现在其实是“对齐论文的”）

一个非常实用的判断标准（建议你现在就用）

一句话总结

質問

FECAM_TCN_Transformer 误差统计

思考

Explaining loss calculation and RMSE conversion