人工智能在某些任务上可能表现出色,比如编码或生成播客,但它很难通过高级历史考试,一项新的研究发现。一组研究人员创建了一个新的基准来测试三个顶级大型语言模型——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini——在历史问题上的表现。
这个名为 Hist-LLM 的基准根据 Seshat 全球历史数据库来测试答案的正确性,Seshat 全球历史数据库是以古埃及智慧女神的名字命名的庞大历史知识数据库。据奥地利的研究机构复杂性科学中心(CSH)的研究人员称,上个月在备受瞩目的人工智能会议 NeurIPS 上展示的结果令人失望。表现最好的 LLM 是 GPT-4 Turbo,但它的准确率仅约为 46%——并不比随机猜测高多少。
“这项研究的主要结论是,虽然大型语言模型令人印象深刻,但它们仍然缺乏高级历史所需的深度理解。它们对于基本事实很在行,但当涉及到更微妙的博士水平的历史探究时,它们还不能胜任这项任务,”该论文的合著者之一、伦敦大学学院计算机科学副教授玛丽亚·德尔·里奥-查诺纳说道。
研究人员分享了大型语言模型答错的历史问题样本。例如,GPT-4 Turbo 被问到在古埃及的特定时期是否存在鳞甲。该语言模型回答是,但这项技术在 1500 年后才在埃及出现。为什么大型语言模型在回答技术性历史问题时表现不佳,而在回答像编码这样非常复杂的问题时却能表现得如此出色呢?
这可能是因为大型语言模型倾向于从非常突出的历史数据中进行推断,很难检索到更晦涩的历史知识。例如,研究人员问 GPT-4 在特定历史时期古埃及是否有职业常备军。虽然正确答案是否定的,但该语言模型错误地回答有。这可能是因为有很多关于其他古代帝国如波斯有常备军的公开信息。
“如果你被告知 A 和 B100 次,被告知 C1 次,然后被问到一个关于 C 的问题,你可能只会记得 A 和 B,并试图从那进行推断,”德尔·里奥·查诺纳说道。研究人员还发现了其他趋势,包括 OpenAI 和 Llama 模型在某些地区(如撒哈拉以南非洲地区)表现较差,这表明它们的训练数据中可能存在潜在偏差。
领导这项研究且是圣塔菲研究所(CSH)成员的彼得·图尔钦表示,结果表明,在某些领域,大型语言模型仍然无法替代人类。
但研究人员仍然希望大型语言模型在未来能够帮助历史学家。他们正在努力改进他们的基准,包括纳入来自代表性不足地区的更多数据,并添加更复杂的问题。“总的来说,虽然我们的结果突出了大型语言模型需要改进的地方,但它们也强调了这些模型在历史研究中提供帮助的潜力,”论文中写道。
觉得不错就点个赞,好内容一起分享。
关注我,获取更多AIGC 前沿资讯

 往期文章回顾 

新一轮融资落地,发力生成式3D内容交互,挑战AI应用前沿

高榕、商汤等投资力挺AI内容平台,AI内容平台加速崛起

Synthesia领跑AI视频赛道,完成1.8亿美元D轮融资,估值21亿美元

【AIGC行业资讯群】

扫码添加“小鲸鱼”助手

提供名片后,邀请进群

加入中鲸社星球,享千份AIGC资料、行业交流及资源共享。

点击扫码分享至微信