10 月 24 日消息,生成式 AI 的確在信息整理方面大有用處,生成的內(nèi)容也常令人驚嘆,但只要仔細一看,就能發(fā)現(xiàn)這項技術(shù)仍存在不少缺陷。
據(jù)外媒 Android Authority 今日報道,歐洲廣播聯(lián)盟(EBU)與 BBC 近日聯(lián)合評估了 ChatGPT、Gemini 及 Perplexity 等多款 AI 系統(tǒng)在新聞?wù)矫娴谋憩F(xiàn)。研究動因在于,現(xiàn)有約 15% 的 25 歲以下年輕人主要通過 AI 獲取新聞。
BBC 最初通過大規(guī)模問卷調(diào)查及六場焦點小組訪談收集公眾對 AI 新聞工具的使用體驗與看法,隨后 EBU 將這項研究擴展至國際范圍。
研究顯示,約 42% 的英國成年人表示信任 AI 內(nèi)容的準(zhǔn)確性,年輕群體的信任度更高。不過,84% 的受訪者認為,一旦出現(xiàn)事實性錯誤,將嚴(yán)重削弱自己對 AI 的信任。問題在于,這些系統(tǒng)的“不準(zhǔn)確度”究竟為何,以及用戶是否真的察覺到了這些錯誤。
結(jié)果顯示,大多數(shù) AI 生成的內(nèi)容都存在問題。各模型整體表現(xiàn)差距不大,但 Gemini 成為明顯“異類”,不僅錯誤數(shù)量最多,嚴(yán)重錯誤的比例也遠高于其他系統(tǒng)。


研究指出,Gemini 的問題主要包括:缺乏清晰的資料來源鏈接、未能區(qū)分可靠信息與諷刺內(nèi)容、過度依賴維基百科、缺乏足夠語境,以及錯誤引用原文。
在六個月的研究周期中,各大 AI 系統(tǒng)的表現(xiàn)都有改進,新聞?wù)臏?zhǔn)確率普遍提升,Gemini 的進步尤為明顯。但即使如此,Gemini 的表現(xiàn)仍明顯落后于其他系統(tǒng)。