首页 > 新房问答 > 新房问答 > BBC等机构研究评估AI工具新闻总结水平,谷歌Gemini错误比例最高

BBC等机构研究评估AI工具新闻总结水平,谷歌Gemini错误比例最高

发布时间:2025-10-24 18:36:29

10 月 24 日消息,生成式 AI 的确在信息整理方面大有用处,生成的内容也常令人惊叹,但只要仔细一看,就能发现这项技术仍存在不少缺陷。

据外媒 Android Authority 今日报道,欧洲广播联盟(EBU)与 BBC 近日联合评估了 ChatGPT、Gemini 及 Perplexity 等多款 AI 系统在新闻摘要方面的表现。研究动因在于,现有约 15% 的 25 岁以下年轻人主要通过 AI 获取新闻

BBC 最初通过大规模问卷调查及六场焦点小组访谈收集公众对 AI 新闻工具的使用体验与看法,随后 EBU 将这项研究扩展至国际范围。

研究显示,约 42% 的英国成年人表示信任 AI 内容的准确性,年轻群体的信任度更高。不过,84% 的受访者认为,一旦出现事实性错误,将严重削弱自己对 AI 的信任。问题在于,这些系统的“不准确度”究竟为何,以及用户是否真的察觉到了这些错误。

结果显示,大多数 AI 生成的内容都存在问题。各模型整体表现差距不大,但 Gemini 成为明显“异类”,不仅错误数量最多,严重错误的比例也远高于其他系统

研究指出,Gemini 的问题主要包括:缺乏清晰的资料来源链接、未能区分可靠信息与讽刺内容、过度依赖维基百科、缺乏足够语境,以及错误引用原文

在六个月的研究周期中,各大 AI 系统的表现都有改进,新闻摘要的准确率普遍提升,Gemini 的进步尤为明显。但即使如此,Gemini 的表现仍明显落后于其他系统。

新房问答更多>>

早下车的后悔,没上车的焦虑:金价狂飙下的“围城” 五问机动车新国标:为何要求百公里加速不小于5秒,影响哪些车? 10月全媒介之星中国AI应用榜发布:前二十强中“大厂”占八成 沃尔沃汽车10月中国大陆市场销量环比增长14% 京东“国民好车”埃安UT super首车下线 宝马集团携旗下三大品牌亮相进博会 英伟达与现代汽车等韩国企业达成人工智能合作协议 威马复活能活多久?接盘公司参保人数为0,市场已被吉利零跑瓜分干净 湖北公积金:购买保障性住房,最低首付比例调整为15% 深圳:将闲置和低效利用的非居住存量房屋改建为保障性租赁住房 前10月“抱团”拿地频现,中海、招商领跑新增货值榜 “马拉松”式开发近13年 台州“第一高楼”天盛中心将被拍卖 建发·海晏10月热销登顶:北京豪宅市场的“断层式领跑者” 实探北京十一假期楼市:开发商花式促销送家电、推工抵房、减免物业费;有楼盘单天接待80组、卖六套房 国庆楼市分化:30城新房日均成交671套,京沪深逆势增长、北京成交增52% 黄力平出任万科董事长,多方支持推进改革化险 房地产未来五年定了!建“好房子”、保障房供给、城市更新成为重头戏 三星Galaxy XR头显首批App详解:Unity 6助力一周内完成移植 OpenAI视频生成应用Sora更新在即:编辑器、安卓版App、社交功能 Rivian CEO斯卡林奇拆解小米SU7:做得确实不错,但没什么新发现 穿在脚上的“电动自行车”:耐克推出全球首款动力鞋系统 BBC等机构研究评估AI工具新闻总结水平,谷歌Gemini错误比例最高 分掉2.9亿后,“户外羽绒之王”向港股圈钱 泡泡玛特王宁,失守河南首富“宝座” 阿里憋半天的大招 就是夸克一个新按钮 轨道微中心高效赋能,谁执京西迭新密钥? 北京两家国企拟退出北科建集团:剥离非核心股权,聚力主业深耕 广州黄埔昔日“网红盘”二手房成交价跌到“3字头”,有业主写3页长信“护盘保价” 专项债扩容发力 城市更新资金保障更有力 国庆中秋长假后,深圳二手房市场活跃度快速回升