選單 首頁 搜尋
東森財經新聞台 Apps
Play 商店 免費下載
下載
首頁財經新聞 > 焦點 > AI搜尋真的可靠? 研究實測8工具「6成都答錯」 這款最糟錯9成

AI搜尋真的可靠? 研究實測8工具「6成都答錯」 這款最糟錯9成

2025/03/19 09:57 東森財經新聞
AI搜尋真的可靠? 研究實測8工具「6成都答錯」 這款最糟錯9成

由哥倫比亞大學新聞學研究所成立的陶氏數位新聞研究中心,日前發表研究顯示,人工智慧搜尋引擎大多數時候都是錯誤的,當被問及新聞文章的正確引用時,它們會向用戶提供錯誤的資訊和答案,就連目前最受歡迎的生成式AI搜尋工具包含ChatGPT、DeepSeek等同樣表現不好,整體而言超過6成的問題答案完全錯誤。

陶氏數位新聞研究中心從20家新聞機構隨機選取200篇文章(每家10篇),確保每篇文章摘錄的內容在傳統Google搜尋中,都能在前三個結果中找到原始來源,研究人員向每個AI搜尋工具提供這些摘錄,要求識別對應文章的標題、原始發布來源、發布日期和網址,並且對準確性進行評分,結果表現並不理想。

★【理財達人秀】央行砍GDP 列骯髒15國? 鎖投信認養 避險防空洞?

研究顯示,目前最受歡迎的生成式AI搜尋工具普遍表現不佳,整體而言超過6成的問題答案都錯誤,受測工具共有8款,包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search和Copilot。

根據研究顯示,在所有測試工具當中以Perplexity表現最佳,但回答錯誤率仍有37%,表現最差的則是Grok 3,回答錯誤率高達94%。研究團隊強調,「總體來說,聊天機器人通常無法檢索到正確的文章,在不同的平台上,錯誤程度也不同。」

值得一提的是,AI工具在提供錯誤答案時,很少使用「可能」、「似乎」等詞彙,總是以斬釘截鐵的說法來提供內容,也很少坦承訊息量不足,因此可能存在誤導用戶的風險,例如ChatGPT在200個回應中,僅15次表示缺乏信心,但從未拒絕提供搜尋答案。

研究團隊還發現,某些AI搜尋工具的「付費服務」,錯誤率比免費版更高,例如付費版本Perplexity Pro(每月大約新台幣639元)或是Grok 3(每月大約新台幣1278元)雖然比免費版答對更多問題,但整體錯誤率反而更高,主因在於傾向提供明確但錯誤的答案,而非拒絕回答,因此認為付費AI模型能享受更卓越的運算能力以及精確性,這種觀念可能是錯誤的。

研究也顯示,AI搜尋工具提供的網址準確度也不佳,例如超過一半來自Gemini和Grok 3的回應引用虛構或損壞的網址,導致錯誤頁面,即使在正確識別文章時,也經常連結到虛構的網址。

根據該研究團隊說法,曾經針對報告內容聯繫過這些AI工具的開發企業,只有 OpenAI和微軟做出回應,但都沒有回應有關報告發現的問題。

(封面示意圖/Pexels)

 

【往下看更多】
遺傳老爸? 黃仁勳女兒黃敏珊GTC演講「揪團逛夜市」
堵新青安亂象! 台銀、土銀揪出逾3千違規戶
最新「老黃概念股」出爐! 黃仁勳狂讚矽光子:瘋狂的科技

 

【熱門排行榜】
美點名「骯髒15國」台灣恐入列? 陸行之:1行業影響最大
台大仁醫曝產房驚魂! 多名孕婦產後出現「1狀況」:真的不平靜
LaLaport吸5萬人潮 他不解「跟其他百貨差在哪」? 網揭最大優勢
Live 直播Live 直播
FB分享
字體變大
字體變小
加入Facebook粉絲團
訂閱Youtube頻道
收合
三月
一月
二月
三月
四月
五月
六月
七月
八月
九月
十月
十一月
十二月
2025
2015
2016
2017
2018
2019
2020
2021
2022
2023
2024
2025
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
00:00
01:00
02:00
03:00
04:00
05:00
06:00
07:00
08:00
09:00
10:00
11:00
12:00
13:00
14:00
15:00
16:00
17:00
18:00
19:00
20:00
21:00
22:00
23:00