【学术月刊】龚为纲、黄思源：整体事实还是有偏样本 —— 基于大语言模型生成数据的测量

作者：文章来源：点击次数：更新时间：2025-09-19 08:52

我院龚为纲教授及博士生黄思源在《学术月刊》2025年第6期发表题为《整体事实还是有偏样本 —— 基于大语言模型生成数据的测量》的论文。

内容摘要：大语言模型（LLM）在社会科学中的应用日益广泛，其生成数据是否能反映真实社会图景仍存争议。以中国综合社会调查（CGSS2021）为基准，构建多模型对比实验框架，系统评估不同LLM生成“硅基样本”的拟合度与偏差特征，可发现，主流模型可较好复现宏观变量间的统计关系，但存在表征偏差，易强化主流话语、忽略边缘声音。通过引入思维链（Chain-of-Thought）分析，发现模型在生成评分理由时呈现出标准化的因果推理结构，反映其潜在的社会观念建构路径。此外，提示策略与微调机制可能无形中影响模型对公共议题的认知方式。LLM在社会测量中既存在潜能也有局限，建议未来应提升数据多样性、模型可解释性，并推动社会科学领域的专用大模型发展。