帮我找一些解决下面这样的问题的针对LLM的一些相关文献: 模型完整性验证(防欺诈/防降级) 场景: ...

बनाया गया: 9 फ़रवरी 2026

का उपयोग करके उत्तर दिया गया GPT-5.2 Thinking द्वारा Chat01

प्रश्न

帮我找一些解决下面这样的问题的针对LLM的一些相关文献:
模型完整性验证(防欺诈/防降级)
场景: 大模型**“防伪”**。用户调用 API,想确认对方是否真的用了宣称的高级模型。

विचार

Confirming literature and categories for model verification

I’ll provide citations for black-box fingerprinting and related papers like "Model Fingerprinting with Benign Inputs." I’ll mention the difficulty in verifying models purely from outputs, as providers can bypass detection. I’ll also explain categories and usefulness in Chinese, offering LLM-specific citations and ensuring clean formatting without raw URLs.

LLM model verification and fingerprinting

For LLM-specific verification, I’ll mention ESF, RESF, HuRef, and FDLLM. It’s also important to note that general DNN fingerprinting techniques can be adapted to LLM. I’ll also discuss cryptographic frameworks like ZKML and TEE systems, and explain that strong verification needs cooperation; otherwise, fingerprinting is the only option.

Final model verification structure

I’ll create a structured list for the user with clear categories, each including a title (with venue/year), key idea, and relevance. I’ll mention how fingerprinting can detect parameter changes like LoRA or model compression and also touch on tamper detection for detecting compressed models. This will cover black-box verification and cooperative methods with cryptographic proofs like ZK.

Thought for 1m 45s

उत्तर

下面按“你能否要求服务方配合”把“LLM 防伪 / 防降级(模型完整性验证)”相关文献分成几条主线整理。你这个场景本质是 black-box API 下验证:对方有没有用声明的那套模型/版本/权重;如果服务方不配合,通常只能做到“统计意义上的鉴别/指纹”;若服务方愿意配合,则可以做到“密码学/硬件级可验证”。


1) 不要求服务方配合:黑盒指纹 / 降级(篡改)检测(最贴近你场景)

这类工作把问题建模为:通过少量查询(prompts)观察输出分布/敏感 token 位,来判断“是否还是原模型”,可用于检测 压缩、LoRA 微调、后门注入、替换为小模型等。

  • ESF: Efficient Sensitive Fingerprinting for Black-Box Tamper Detection of LLMs(ACL Findings 2025)
    重点:专门针对 LLM 输出随机性(temperature / sampling)设计“敏感指纹样本”和一致性检查,用很少 fingerprint prompts 就能高概率检出篡改/压缩/微调等。 (ACL Anthology)

  • RESF: Regularized-Entropy-Sensitive Fingerprinting for Black-Box Tamper Detection of LLMs(EMNLP 2025)
    重点:把黑盒篡改检测写成假设检验,用与 KL 相关的 surrogate(entropy-gradient norm)挑选“对参数扰动最敏感”的 prompts,并控制误报。 (ACL Anthology)

  • HuRef: HUman-REadable Fingerprint for Large Language Models(NeurIPS 2024)
    重点:提出可发布的“人类可读指纹”(把指纹映射成图像),并引入 ZKP 来保证“指纹生成过程诚实”。适合做 模型身份/版本的公开指纹思路参考。 (NeurIPS Proceedings)

  • FDLLM: A Dedicated Detector for Black-Box LLMs Fingerprinting(arXiv 2025)
    重点:从“输出风格/统计特征”做 LLM 来源模型识别,并给了专门的 benchmark(FD-Dataset),还讨论对抗改写/翻译等鲁棒性。 (arXiv)

相关但更通用(非特指 LLM)的黑盒模型指纹:

  • FBI: Fingerprinting Models with Benign Inputs(arXiv 2022):讨论黑盒指纹在模型被轻微修改(量化/再训练)后的鲁棒性问题,很多思想可迁移到 LLM 的“防降级”。 (arXiv)
  • Model Fingerprinting with Benign Inputs(ICASSP 2023):从“只需正常输入即可提取模型签名”的角度做综述/方法。 (Erwan Le Merrer - Inria)

2) 服务方配合:零知识证明 / 可验证推理(Verifiable Inference / zkML)

这条线目标是让服务方在不泄露权重的前提下,给出“这次输出确实由某个固定权重的模型在某输入上计算得到”的证明。对“防欺诈/防降级”是最强的形式化保证,但目前对大规模 LLM 仍很重(工程/性能挑战大)。

  • ZKML: An Optimizing System for ML Inference in Zero-Knowledge Proofs(EuroSys 2024)
    重点:做 zkSNARK 电路/编译优化,把更多真实模型算子(含 softmax 等)纳入可证明推理,面向“证明某组权重被用于推理”。 (Daniel Kang)

  • (ICLR 2024 under review)ImageNet-scale 的 ZK-SNARK 可验证推理方法(OpenReview PDF)
    重点:强调“MLaaS 场景下验证服务商是否诚实推理”,并展示对较大规模模型的非交互验证可行性。 (OpenReview)

  • Zero-Knowledge Proof Based Verifiable Inference of Models(arXiv 2025)
    重点:明确提出“可验证深度学习推理”框架,并把一个大模型翻成可 SNARK 验证版本(文中示例为 ZK-DeepSeek)。 (arXiv)

  • A Survey of Zero-Knowledge Proof Based Verifiable Machine Learning(arXiv 2025)
    重点:从 2017–2024 系统梳理 verifiable training/inference/testing,适合快速补齐 zkML 版图与关键词。 (arXiv)


3) 服务方配合:TEE/远程证明(Remote Attestation)+ 可信执行推理

思路:把模型推理放到 SGX/SEV/TrustZone 等 TEE 内运行,客户端通过 远程证明校验 enclave 里运行的代码与模型哈希,从而证明“跑的是你认可的那份模型”。优点是语义直接,缺点是 TEE 性能/侧信道等工程与安全细节复杂。

  • DeepAttest: An End-to-End Attestation Framework for Deep Neural Networks(Microsoft, 2019)
    重点:端到端 attestation 框架,讨论与 Slalom 等方案的关系与威胁模型。 (microsoft.com)

  • Slalom: Fast, Verifiable and Private Execution of Neural Networks in Trusted Hardware(ICLR 2019)
    重点:TEE + 外包线性层计算,用 Freivalds 等方式做完整性校验,解决“TEE 太慢”的矛盾。 (arXiv)

  • InferONNX: Practical and Privacy-Preserving ML Inference in Intel SGX(DIMVA 2025)
    重点:把 ONNX 运行时塞进 SGX,做更“实用化”的 enclave 推理服务。 (csd.uoc.gr)

  • Attestation Mechanisms for Trusted Execution Environments Demystified(arXiv 2022)
    重点:远程证明机制综述,帮助你把“客户怎么验证 enclave 身份/度量值”的链路讲清楚。 (arXiv)


4) 水印 / 后门触发器式“验真”(更多用于 IP/所有权,但可改造成“版本验证”)

如果你能让“真模型”预埋可验证行为(trigger/水印),那么调用方通过特定挑战集可验证“这就是那份模型”。但注意:这通常要求模型方提前嵌入水印(也属于“服务方配合”),且有被规避/迁移/蒸馏等对抗风险。

  • Multi-bit Black-box Watermarking of DNNs …(CVPRW 2024):黑盒可验证水印/触发器方向的一类代表。 (CVF Open Access)
  • Black-box Dataset Ownership Verification via Backdoor Watermarking(arXiv 2022):从后门/触发器的验证框架理解“如何黑盒验证某个隐含属性”。 (arXiv)

给你选型的“读文献路线图”(对应你说的“防伪/防降级”)

  • 如果你是 API 使用方、对方不愿改协议:优先看 ESF / RESF / FDLLM / HuRef(黑盒指纹/归因/篡改检测)——这是最贴近“我只拿到输出,怎么判断是不是宣称模型”。 (ACL Anthology)
  • 如果你能要求服务方提供“可验证凭证”:走 zkML(ZK proof)TEE+远程证明,能把“防伪”从统计鉴别提升到密码学/硬件证明。 (Daniel Kang)

如果你愿意,我也可以基于这些方向再给你补一份更“可检索”的清单(每条含 BibTeX 级别信息 + 关键词组合),方便你直接在 Google Scholar / Semantic Scholar 里扩展。

इस प्रश्नोत्तर को साझा करें