首頁> 財經新聞 > 焦點 > AI搜尋真的可靠？研究實測8工具「6成都答錯」這款最糟錯9成

AI搜尋真的可靠？研究實測8工具「6成都答錯」這款最糟錯9成

2025/03/19 09:57 東森財經新聞

由哥倫比亞大學新聞學研究所成立的陶氏數位新聞研究中心，日前發表研究顯示，人工智慧搜尋引擎大多數時候都是錯誤的，當被問及新聞文章的正確引用時，它們會向用戶提供錯誤的資訊和答案，就連目前最受歡迎的生成式AI搜尋工具包含ChatGPT、DeepSeek等同樣表現不好，整體而言超過6成的問題答案完全錯誤。

陶氏數位新聞研究中心從20家新聞機構隨機選取200篇文章（每家10篇），確保每篇文章摘錄的內容在傳統Google搜尋中，都能在前三個結果中找到原始來源，研究人員向每個AI搜尋工具提供這些摘錄，要求識別對應文章的標題、原始發布來源、發布日期和網址，並且對準確性進行評分，結果表現並不理想。

★【理財達人秀】美炸伊朗利空出盡? 科技展菜賺低接黑馬 ★

研究顯示，目前最受歡迎的生成式AI搜尋工具普遍表現不佳，整體而言超過6成的問題答案都錯誤，受測工具共有8款，包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search和Copilot。

根據研究顯示，在所有測試工具當中以Perplexity表現最佳，但回答錯誤率仍有37%，表現最差的則是Grok 3，回答錯誤率高達94%。研究團隊強調，「總體來說，聊天機器人通常無法檢索到正確的文章，在不同的平台上，錯誤程度也不同。」

值得一提的是，AI工具在提供錯誤答案時，很少使用「可能」、「似乎」等詞彙，總是以斬釘截鐵的說法來提供內容，也很少坦承訊息量不足，因此可能存在誤導用戶的風險，例如ChatGPT在200個回應中，僅15次表示缺乏信心，但從未拒絕提供搜尋答案。

研究團隊還發現，某些AI搜尋工具的「付費服務」，錯誤率比免費版更高，例如付費版本Perplexity Pro（每月大約新台幣639元）或是Grok 3（每月大約新台幣1278元）雖然比免費版答對更多問題，但整體錯誤率反而更高，主因在於傾向提供明確但錯誤的答案，而非拒絕回答，因此認為付費AI模型能享受更卓越的運算能力以及精確性，這種觀念可能是錯誤的。

研究也顯示，AI搜尋工具提供的網址準確度也不佳，例如超過一半來自Gemini和Grok 3的回應引用虛構或損壞的網址，導致錯誤頁面，即使在正確識別文章時，也經常連結到虛構的網址。

根據該研究團隊說法，曾經針對報告內容聯繫過這些AI工具的開發企業，只有 OpenAI和微軟做出回應，但都沒有回應有關報告發現的問題。

（封面示意圖／Pexels）

【往下看更多】
►遺傳老爸？黃仁勳女兒黃敏珊GTC演講「揪團逛夜市」
►堵新青安亂象！台銀、土銀揪出逾3千違規戶
►最新「老黃概念股」出爐！黃仁勳狂讚矽光子：瘋狂的科技

【熱門排行榜】
►快訊／上任不到1天！伊朗代理最高精神領袖「阿拉菲」傳被炸死
►北市府要徵才！共163個職缺月薪上看5萬5
►2026第一個天赦日！補財迎好運好時機求財必知一次看

關鍵字：陶氏數位新聞研究中心、人工智慧、 AI搜尋工具、錯誤答案

AI搜尋真的可靠？ 研究實測8工具「6成都答錯」 這款最糟錯9成

AI搜尋真的可靠？研究實測8工具「6成都答錯」這款最糟錯9成