[CL]《GenerationSpaceSize:Understandin

爱生活爱珂珂 2025-10-16 09:11:04

[CL]《Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations》S Yu, A Jabbar, R Hawkins, D Jurafsky... [Stanford University] (2025)

Generation space size: 理解与校准大型语言模型生成的开放性

🔍 论文核心:针对大型语言模型(LLMs)输出的多样性与准确性问题,提出“生成空间大小”(Generation Space Size, GSS)这一统一框架,量化模型在给定提示下“考虑”的语义多样输出集合的规模。

1️⃣ 背景与动机

- 创意任务需丰富多样输出,模型却往往生成过于单一的文本。

- 事实类任务需精准答案,模型却容易产生多样但错误的“幻觉”。

- 两种失败均源于模型生成空间大小与真实需求不匹配,即GSS误校准。

2️⃣ GSSBench评测框架

- 构建6类合成数据集(补集、事实QA、随机选择、子集、并集、交集)设计提示对,明确定义提示间真实生成空间大小关系。

- 通过模型内部和输出相关指标,评估哪些指标最能代理GSS,哪些模型生成空间校准最好。

3️⃣ 关键发现

- EigenScore(特别是其两变体E_output与E_average)表现最佳,优于传统困惑度、熵等不确定性与多样性指标。

- Llama-8B与Qwen-0.6B模型在GSS校准准确度最高,且模型规模增大并不保证校准改进。

- 生成空间大小与提示长度无显著相关,排除长度偏差影响。

4️⃣ GSS的多场景应用

- 通过GSS衡量提示歧义性,预测模型何时应提出澄清问题,提升对话“落地”能力。

- 揭示推理模型“过度思考”与“欠思考”现象,GSS与解决路径数量及推理长度正相关。

- 利用“留一EigenScore”(Leave-One-Out EigenScore, LOOE)作为多样性指标,指导模型扩展生成空间,显著提升创作任务输出的多样性与质量。

5️⃣ 未来展望

- 促进模型根据任务需求动态调整生成空间大小,实现“有界”与“开放”生成的平衡。

- 结合内容敏感分析,进一步统一GSS与生成内容的准确性评价。

- 推动GSS-aware的训练与微调策略,减少幻觉、提升多样性,增强模型交互自然度。

📚 论文链接:arxiv.org/abs/2510.12699

本研究为理解与改进大型语言模型生成的多样性与准确性提供了理论基础和实用工具,助力打造更加可靠与灵活的智能文本生成系统。NLP 大语言模型 生成空间大小 模型校准 EigenScore AI研究

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注