帮我找一些解决下面这样的问题的针对LLM的一些相关文献: 模型完整性验证(防欺诈/防降级) 场景: ...
Criado em: 9 de fevereiro de 2026
Respondido usando GPT-5.2 Thinking por Chat01
Criado em: 9 de fevereiro de 2026
Respondido usando GPT-5.2 Thinking por Chat01
帮我找一些解决下面这样的问题的针对LLM的一些相关文献:
模型完整性验证(防欺诈/防降级)
场景: 大模型**“防伪”**。用户调用 API,想确认对方是否真的用了宣称的高级模型。
下面按“你能否要求服务方配合”把“LLM 防伪 / 防降级(模型完整性验证)”相关文献分成几条主线整理。你这个场景本质是 black-box API 下验证:对方有没有用声明的那套模型/版本/权重;如果服务方不配合,通常只能做到“统计意义上的鉴别/指纹”;若服务方愿意配合,则可以做到“密码学/硬件级可验证”。
这类工作把问题建模为:通过少量查询(prompts)观察输出分布/敏感 token 位,来判断“是否还是原模型”,可用于检测 压缩、LoRA 微调、后门注入、替换为小模型等。
ESF: Efficient Sensitive Fingerprinting for Black-Box Tamper Detection of LLMs(ACL Findings 2025)
重点:专门针对 LLM 输出随机性(temperature / sampling)设计“敏感指纹样本”和一致性检查,用很少 fingerprint prompts 就能高概率检出篡改/压缩/微调等。 (ACL Anthology)
RESF: Regularized-Entropy-Sensitive Fingerprinting for Black-Box Tamper Detection of LLMs(EMNLP 2025)
重点:把黑盒篡改检测写成假设检验,用与 KL 相关的 surrogate(entropy-gradient norm)挑选“对参数扰动最敏感”的 prompts,并控制误报。 (ACL Anthology)
HuRef: HUman-REadable Fingerprint for Large Language Models(NeurIPS 2024)
重点:提出可发布的“人类可读指纹”(把指纹映射成图像),并引入 ZKP 来保证“指纹生成过程诚实”。适合做 模型身份/版本的公开指纹思路参考。 (NeurIPS Proceedings)
FDLLM: A Dedicated Detector for Black-Box LLMs Fingerprinting(arXiv 2025)
重点:从“输出风格/统计特征”做 LLM 来源模型识别,并给了专门的 benchmark(FD-Dataset),还讨论对抗改写/翻译等鲁棒性。 (arXiv)
相关但更通用(非特指 LLM)的黑盒模型指纹:
这条线目标是让服务方在不泄露权重的前提下,给出“这次输出确实由某个固定权重的模型在某输入上计算得到”的证明。对“防欺诈/防降级”是最强的形式化保证,但目前对大规模 LLM 仍很重(工程/性能挑战大)。
ZKML: An Optimizing System for ML Inference in Zero-Knowledge Proofs(EuroSys 2024)
重点:做 zkSNARK 电路/编译优化,把更多真实模型算子(含 softmax 等)纳入可证明推理,面向“证明某组权重被用于推理”。 (Daniel Kang)
(ICLR 2024 under review)ImageNet-scale 的 ZK-SNARK 可验证推理方法(OpenReview PDF)
重点:强调“MLaaS 场景下验证服务商是否诚实推理”,并展示对较大规模模型的非交互验证可行性。 (OpenReview)
Zero-Knowledge Proof Based Verifiable Inference of Models(arXiv 2025)
重点:明确提出“可验证深度学习推理”框架,并把一个大模型翻成可 SNARK 验证版本(文中示例为 ZK-DeepSeek)。 (arXiv)
A Survey of Zero-Knowledge Proof Based Verifiable Machine Learning(arXiv 2025)
重点:从 2017–2024 系统梳理 verifiable training/inference/testing,适合快速补齐 zkML 版图与关键词。 (arXiv)
思路:把模型推理放到 SGX/SEV/TrustZone 等 TEE 内运行,客户端通过 远程证明校验 enclave 里运行的代码与模型哈希,从而证明“跑的是你认可的那份模型”。优点是语义直接,缺点是 TEE 性能/侧信道等工程与安全细节复杂。
DeepAttest: An End-to-End Attestation Framework for Deep Neural Networks(Microsoft, 2019)
重点:端到端 attestation 框架,讨论与 Slalom 等方案的关系与威胁模型。 (microsoft.com)
Slalom: Fast, Verifiable and Private Execution of Neural Networks in Trusted Hardware(ICLR 2019)
重点:TEE + 外包线性层计算,用 Freivalds 等方式做完整性校验,解决“TEE 太慢”的矛盾。 (arXiv)
InferONNX: Practical and Privacy-Preserving ML Inference in Intel SGX(DIMVA 2025)
重点:把 ONNX 运行时塞进 SGX,做更“实用化”的 enclave 推理服务。 (csd.uoc.gr)
Attestation Mechanisms for Trusted Execution Environments Demystified(arXiv 2022)
重点:远程证明机制综述,帮助你把“客户怎么验证 enclave 身份/度量值”的链路讲清楚。 (arXiv)
如果你能让“真模型”预埋可验证行为(trigger/水印),那么调用方通过特定挑战集可验证“这就是那份模型”。但注意:这通常要求模型方提前嵌入水印(也属于“服务方配合”),且有被规避/迁移/蒸馏等对抗风险。
如果你愿意,我也可以基于这些方向再给你补一份更“可检索”的清单(每条含 BibTeX 级别信息 + 关键词组合),方便你直接在 Google Scholar / Semantic Scholar 里扩展。