首页 > 原创知识 > 原创知识 > BBC等机构研究评估AI工具新闻总结水平,谷歌Gemini错误比例最高

BBC等机构研究评估AI工具新闻总结水平,谷歌Gemini错误比例最高

发布时间:2025-10-24 18:36:29 来源: 18638159832

10 月 24 日消息,生成式 AI 的确在信息整理方面大有用处,生成的内容也常令人惊叹,但只要仔细一看,就能发现这项技术仍存在不少缺陷。

据外媒 Android Authority 今日报道,欧洲广播联盟(EBU)与 BBC 近日联合评估了 ChatGPT、Gemini 及 Perplexity 等多款 AI 系统在新闻摘要方面的表现。研究动因在于,现有约 15% 的 25 岁以下年轻人主要通过 AI 获取新闻

BBC 最初通过大规模问卷调查及六场焦点小组访谈收集公众对 AI 新闻工具的使用体验与看法,随后 EBU 将这项研究扩展至国际范围。

研究显示,约 42% 的英国成年人表示信任 AI 内容的准确性,年轻群体的信任度更高。不过,84% 的受访者认为,一旦出现事实性错误,将严重削弱自己对 AI 的信任。问题在于,这些系统的“不准确度”究竟为何,以及用户是否真的察觉到了这些错误。

结果显示,大多数 AI 生成的内容都存在问题。各模型整体表现差距不大,但 Gemini 成为明显“异类”,不仅错误数量最多,严重错误的比例也远高于其他系统

研究指出,Gemini 的问题主要包括:缺乏清晰的资料来源链接、未能区分可靠信息与讽刺内容、过度依赖维基百科、缺乏足够语境,以及错误引用原文

在六个月的研究周期中,各大 AI 系统的表现都有改进,新闻摘要的准确率普遍提升,Gemini 的进步尤为明显。但即使如此,Gemini 的表现仍明显落后于其他系统。

原创知识更多>>

卡文乐途轻卡入列 福田卡文汽车助力冷链行业标杆企业成功转型 纯电SUV又火了?1-3月销量榜出炉 16款累计销量过万 蔚来ES8第四 只造了一辆的未来:雪佛兰Astro实验概念车系列回望 对话现代高管:现代在中国的逆袭之战已经打响 东风奕派M8预告图再曝光,5月发布搭载华为乾崑智驾 澳洲4月皮卡销量:头部燃油疲软,国产混动排名亮眼 新势力车企4月销量洗牌:零跑7万登顶,小米首破3万 长城汽车以改装文化破局,赋能中国汽车强国软实力建设 零碳护航亚沙会!苏州金龙超百台纯电新V系客车驰骋三亚 2026北京车展:弯道之王加冕!领克10+与领克10预售开启 4月销量盘点:奇瑞、吉利风头正劲,零跑逼近长城! 试驾智己LS8,大车难开难停痛点,都被它颠覆了 诠释契约的力量,长城汽车全明星阵容登陆北京车展丨SDTV汽车生活 广汽三款全球车亮相北京车展:出海进入“硬碰硬”时代 最性能、最智能 的越野车!猛士M817 Ultimate于北京车展 正式亮相 14.98万元起,长城炮Hi4-T预售:买新能源皮卡,终于不用再“将就”了 奥迪的\"中国分身术\":当德国豪华基因遇上上海智能代码 百公里2.22L油耗打破世界纪录,第5代帝豪混动版到底强在哪? 丰田RAV4 GR Sport:GR运动套件加持!家用SUV更有乐趣 东风汽车急转弯:从“央企老大哥”到“听劝的年轻人” 2026北京车展捷途重磅上新 双品类发力全球化实力再进阶 5月底解锁新体验,国民神车再添新成员!上汽大众ePro双车首秀 城的更城,野的更野! BJ40增程长续航版预售价21.48万元 ! 极狐全新阿尔法S5和小鹏MONA M03怎么选?看这五个维度就够了 捷达全面焕新进军智能电动!新LOGO+概念车Jetta X亮相 “开不坏”的一汽丰田:在速朽的时代,做时间的朋友! 中国首款战术方盒子开启预售!北京81引领全场景出行新变革 Ved:疗愈所Steam试玩上线:roguelite美少女动作游戏,支持中文 增程/纯电双选择,零跑D19:无里程焦虑,家庭出行一步到位! 说到做到践行契约,魏建军如此逛北京车展堪称清流