帮我找一些解决下面这样的问题的针对LLM的一些相关文献：模型完整性验证（防欺诈/防降级）场景： ...

下面按“你能否要求服务方配合”把“LLM 防伪 / 防降级（模型完整性验证）”相关文献分成几条主线整理。你这个场景本质是 black-box API 下验证：对方有没有用声明的那套模型/版本/权重；如果服务方不配合，通常只能做到“统计意义上的鉴别/指纹”；若服务方愿意配合，则可以做到“密码学/硬件级可验证”。

1) 不要求服务方配合：黑盒指纹 / 降级（篡改）检测（最贴近你场景）

这类工作把问题建模为：通过少量查询（prompts）观察输出分布/敏感 token 位，来判断“是否还是原模型”，可用于检测 压缩、LoRA 微调、后门注入、替换为小模型等。

ESF: Efficient Sensitive Fingerprinting for Black-Box Tamper Detection of LLMs（ACL Findings 2025）
重点：专门针对 LLM 输出随机性（temperature / sampling）设计“敏感指纹样本”和一致性检查，用很少 fingerprint prompts 就能高概率检出篡改/压缩/微调等。 (ACL Anthology)
RESF: Regularized-Entropy-Sensitive Fingerprinting for Black-Box Tamper Detection of LLMs（EMNLP 2025）
重点：把黑盒篡改检测写成假设检验，用与 KL 相关的 surrogate（entropy-gradient norm）挑选“对参数扰动最敏感”的 prompts，并控制误报。 (ACL Anthology)
HuRef: HUman-REadable Fingerprint for Large Language Models（NeurIPS 2024）
重点：提出可发布的“人类可读指纹”（把指纹映射成图像），并引入 ZKP 来保证“指纹生成过程诚实”。适合做 模型身份/版本的公开指纹思路参考。 (NeurIPS Proceedings)
FDLLM: A Dedicated Detector for Black-Box LLMs Fingerprinting（arXiv 2025）
重点：从“输出风格/统计特征”做 LLM 来源模型识别，并给了专门的 benchmark（FD-Dataset），还讨论对抗改写/翻译等鲁棒性。 (arXiv)

相关但更通用（非特指 LLM）的黑盒模型指纹：

FBI: Fingerprinting Models with Benign Inputs（arXiv 2022）：讨论黑盒指纹在模型被轻微修改（量化/再训练）后的鲁棒性问题，很多思想可迁移到 LLM 的“防降级”。 (arXiv)
Model Fingerprinting with Benign Inputs（ICASSP 2023）：从“只需正常输入即可提取模型签名”的角度做综述/方法。 (Erwan Le Merrer - Inria)

2) 服务方配合：零知识证明 / 可验证推理（Verifiable Inference / zkML）

这条线目标是让服务方在不泄露权重的前提下，给出“这次输出确实由某个固定权重的模型在某输入上计算得到”的证明。对“防欺诈/防降级”是最强的形式化保证，但目前对大规模 LLM 仍很重（工程/性能挑战大）。

ZKML: An Optimizing System for ML Inference in Zero-Knowledge Proofs（EuroSys 2024）
重点：做 zkSNARK 电路/编译优化，把更多真实模型算子（含 softmax 等）纳入可证明推理，面向“证明某组权重被用于推理”。 (Daniel Kang)
（ICLR 2024 under review）ImageNet-scale 的 ZK-SNARK 可验证推理方法（OpenReview PDF）
重点：强调“MLaaS 场景下验证服务商是否诚实推理”，并展示对较大规模模型的非交互验证可行性。 (OpenReview)
Zero-Knowledge Proof Based Verifiable Inference of Models（arXiv 2025）
重点：明确提出“可验证深度学习推理”框架，并把一个大模型翻成可 SNARK 验证版本（文中示例为 ZK-DeepSeek）。 (arXiv)
A Survey of Zero-Knowledge Proof Based Verifiable Machine Learning（arXiv 2025）
重点：从 2017–2024 系统梳理 verifiable training/inference/testing，适合快速补齐 zkML 版图与关键词。 (arXiv)

3) 服务方配合：TEE/远程证明（Remote Attestation）+ 可信执行推理

思路：把模型推理放到 SGX/SEV/TrustZone 等 TEE 内运行，客户端通过 远程证明校验 enclave 里运行的代码与模型哈希，从而证明“跑的是你认可的那份模型”。优点是语义直接，缺点是 TEE 性能/侧信道等工程与安全细节复杂。

DeepAttest: An End-to-End Attestation Framework for Deep Neural Networks（Microsoft, 2019）
重点：端到端 attestation 框架，讨论与 Slalom 等方案的关系与威胁模型。 (microsoft.com)
Slalom: Fast, Verifiable and Private Execution of Neural Networks in Trusted Hardware（ICLR 2019）
重点：TEE + 外包线性层计算，用 Freivalds 等方式做完整性校验，解决“TEE 太慢”的矛盾。 (arXiv)
InferONNX: Practical and Privacy-Preserving ML Inference in Intel SGX（DIMVA 2025）
重点：把 ONNX 运行时塞进 SGX，做更“实用化”的 enclave 推理服务。 (csd.uoc.gr)
Attestation Mechanisms for Trusted Execution Environments Demystified（arXiv 2022）
重点：远程证明机制综述，帮助你把“客户怎么验证 enclave 身份/度量值”的链路讲清楚。 (arXiv)

4) 水印 / 后门触发器式“验真”（更多用于 IP/所有权，但可改造成“版本验证”）

如果你能让“真模型”预埋可验证行为（trigger/水印），那么调用方通过特定挑战集可验证“这就是那份模型”。但注意：这通常要求模型方提前嵌入水印（也属于“服务方配合”），且有被规避/迁移/蒸馏等对抗风险。

Multi-bit Black-box Watermarking of DNNs …（CVPRW 2024）：黑盒可验证水印/触发器方向的一类代表。 (CVF Open Access)
Black-box Dataset Ownership Verification via Backdoor Watermarking（arXiv 2022）：从后门/触发器的验证框架理解“如何黑盒验证某个隐含属性”。 (arXiv)

给你选型的“读文献路线图”（对应你说的“防伪/防降级”）

如果你是 API 使用方、对方不愿改协议：优先看 ESF / RESF / FDLLM / HuRef（黑盒指纹/归因/篡改检测）——这是最贴近“我只拿到输出，怎么判断是不是宣称模型”。 (ACL Anthology)
如果你能要求服务方提供“可验证凭证”：走 zkML（ZK proof） 或 TEE+远程证明，能把“防伪”从统计鉴别提升到密码学/硬件证明。 (Daniel Kang)

如果你愿意，我也可以基于这些方向再给你补一份更“可检索”的清单（每条含 BibTeX 级别信息 + 关键词组合），方便你直接在 Google Scholar / Semantic Scholar 里扩展。

帮我找一些解决下面这样的问题的针对LLM的一些相关文献：模型完整性验证（防欺诈/防降级）场景： ...

प्रश्न

विचार

Confirming literature and categories for model verification

LLM model verification and fingerprinting

Final model verification structure

उत्तर

1) 不要求服务方配合：黑盒指纹 / 降级（篡改）检测（最贴近你场景）

2) 服务方配合：零知识证明 / 可验证推理（Verifiable Inference / zkML）

3) 服务方配合：TEE/远程证明（Remote Attestation）+ 可信执行推理

4) 水印 / 后门触发器式“验真”（更多用于 IP/所有权，但可改造成“版本验证”）

给你选型的“读文献路线图”（对应你说的“防伪/防降级”）

इस प्रश्नोत्तर को साझा करें