【学术月刊】龚为纲、黄思源:整体事实还是有偏样本 —— 基于大语言模型生成数据的测量

作者: 文章来源: 点击次数:更新时间:2025-09-19 08:52
A A A

我院龚为纲教授及博士生黄思源在《学术月刊》2025年第6期发表题为《整体事实还是有偏样本 —— 基于大语言模型生成数据的测量》的论文。

内容摘要:大语言模型(LLM)在社会科学中的应用日益广泛,其生成数据是否能反映真实社会图景仍存争议。以中国综合社会调查(CGSS2021)为基准,构建多模型对比实验框架,系统评估不同LLM生成“硅基样本”的拟合度与偏差特征,可发现,主流模型可较好复现宏观变量间的统计关系,但存在表征偏差,易强化主流话语、忽略边缘声音。通过引入思维链(Chain-of-Thought)分析,发现模型在生成评分理由时呈现出标准化的因果推理结构,反映其潜在的社会观念建构路径。此外,提示策略与微调机制可能无形中影响模型对公共议题的认知方式。LLM在社会测量中既存在潜能也有局限,建议未来应提升数据多样性、模型可解释性,并推动社会科学领域的专用大模型发展。

全文链接:《学术月刊》

https://mp.weixin.qq.com/s/UNvuivo9Ykopk_53NNDgzA