華為與浙大合推安全DeepSeek模型防禦成功率近100%-數智商業局

> 數科 > 正文

華為與浙大合推安全DeepSeek模型防禦成功率近100%

數科 2025-09-20 ·

香港文匯報訊（記者黃安琪）華為與浙江大學聯合發布內地首個基於昇騰千卡算力平台的DeepSeek-R1-Safe基礎大模型，聲稱針對有毒有害言論、政治敏感內容、違法行為教唆等14個維度的普通有害問題，整體防禦成功率近100%。

另外，針對情境假設、角色扮演、加密編碼等多個越獄模式整體防禦成功率超過40%，其綜合安全防御能力達83%。對於情境假設、角色扮演、加密編碼等多個越獄模式整體防禦成功率則超過40%，DeepSeek-R1-Safe綜合安全防御能力達83%。

在MMLU、GSM8K、CEVAL等通用能力基準測試中，DeepSeek-R1-Safe相比於DeepSeek-R1的性能損耗在1%以內。DeepSeek-R1-Safe不僅顯著提升了安全防護能力，也保障了模型的可用性，達成安全能力與通用性能之間的有效平衡。

中國工程院院士陳純表示，DeepSeek-R1-Safe的發布旨在打造安全可信的示範應用，推動大模型安全能力與產業生態協同發展。