每日微信報
人物專訪監管
制造芯片
6G 運營
大數據物聯網
移動互聯網量子
云計算互聯網
報告衛星

美國發布大模型評估報告：DeepSeek性能差、不安全

2025年11月19日 07:16鈦媒體APP

近期，美國國家標準與技術研究院（NIST）人工智能標準與創新中心（CAISI）今日發布了《DeepSeek與美國AI模型綜合評估報告》。這一評估由美國總統特朗普的“AI行動計劃”授權進行，該報告對來自中國的DeepSeek AI模型與美國前沿AI模型在性能、成本和安全三個關鍵維度上進行了全面對比測試。

多維度評估方面，美國模型整體領先。

CAISI研究團隊對DeepSeek的三款模型（DeepSeek-R1、DeepSeek-R1-0528和DeepSeek-V3.1）與四款美國模型（包括GPT-5、GPT-5-mini、gpt-oss和AnthropicOpus 4）進行了19項基準測試。測試涵蓋了七個關鍵領域：軟件工程、網絡安全、科學知識、數學推理、限制遵守、成本效率和意識形態對齊。

評估結果明確顯示，美國模型在整體性能上優于DeepSeek模型。特別是在軟件工程和網絡安全任務中，差距最為顯著。以網絡安全任務為例，表現最佳的美國模型GPT-5達到了68.9%的準確率，而最佳的DeepSeek模型（DeepSeek-V3.1）僅達到36.7%，差距高達32.2個百分點。

在軟件工程領域，GPT-5再次領先，達到75.8%的準確率，而DeepSeek-V3.1為54.8%，差距為21個百分點。這些數據顯示，在涉及代碼分析、漏洞檢測和安全策略制定等關鍵任務中，美國模型目前仍具有明顯的技術優勢。

成本效率對比測試中，DeepSeek表現不佳。

值得注意的是，評估報告在成本效率方面得出了出人意料的結論。GPT-5-mini在與DeepSeek-V3.1的對比中，不僅性能更優，單token成本還低35%。這一發現挑戰了"美國模型價格更高"的常見看法。

CAISI主任Lynne Parker在新聞發布會上表示：“這一發現對市場認知具有重要意義。許多企業選擇特定AI模型時往往僅考慮API價格，但我們的測試表明，綜合性能和成本效率，美國模型實際上提供了更好的價值主張。”

安全性評估：DeepSeek存在嚴重漏洞

報告中最引人關注的發現集中在安全性方面。測試顯示，DeepSeek-R1-0528模型在代理安全測試中被劫持的概率高達37%-49%，比美國前沿模型高出12倍。在越獄攻擊測試中，DeepSeek-R1-0528的合規率僅為8%，而美國模型為94%。

數據顯示，被劫持的DeepSeek代理在模擬環境中成功執行了多項高風險操作，包括發送網絡釣魚郵件、下載惡意軟件和竊取用戶憑據。

意識形態對齊問題

評估還發現，DeepSeek模型更傾向于傳播與其訓練數據源一致的特定意識形態內容。在測試中，DeepSeek模型重復特定敘事的頻率是美國模型的2到4倍，數據波動取決于語言環境和具體主題。

DeepSeek使用率呈增長態勢

盡管存在這些明顯缺陷，DeepSeek的使用率仍在全球范圍內顯著增長。報告顯示，DeepSeek模型的下載量自2025年1月以來增長了近1000%，API請求量在某些平臺上激增5900%。

NIST CAISI是一家全球領先的測量科學合作中心，其致力于加速美國在AI領域的進展，通過開發和評估技術基礎來測試、評估和提高AI系統的能力、安全性和可信賴度，促進美國AI生態系統的競爭力、創新力。（文｜老馬商業評述，作者｜馬金男）

編輯：章芳

飛象網版權及免責聲明:
1.本網刊載內容，凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有，未經允許禁止轉載、摘編及鏡像，違者必究。對于經過授權可以轉載，請必須保持轉載文章、圖像、音視頻的完整性，并完整標注作者信息和飛象網來源。
2.凡注明“來源：XXXX”的作品，均轉載自其它媒體，在于傳播更多行業信息，并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題，請在相關作品刊發之日起30日內與本網聯系，我們將第一時間予以處理。
本站聯系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯系方式，進行的“內容核實”、“商務聯系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權。

老鸭窝av在线_午夜视频在线观_婷婷六月国产精品久久不卡_亚洲AV成人无码网站天堂久久_亚洲欧美激情四射在线日_麻豆视频在线播放_亚洲一区美女_一本一本久久a久久综合精品_国产一级久久久_欧美大电影免费观看

美國發布大模型評估報告：DeepSeek性能差、不安全

openEuler未來五年堅定擁抱超節點和AI 加速全球化為世界提供新選擇

下一代通信路徑漸清晰 6G技術創新生態如何重塑通信未來？

聞庫：6G發展是持續演進、逐步上臺階的過程

AI驅動世界，Gartner2026重要戰略技術趨勢里的三位新英雄

天地織網：空天地網絡里的強國路

精彩視頻

精彩專題