華為與浙大合推安全DeepSeek模型 防禦成功率近100%
數科
2025-09-20 ·
香港文匯報訊(記者 黃安琪) 華為與浙江大學聯合發布內地首個基於昇騰千卡算力平台的DeepSeek-R1-Safe基礎大模型,聲稱針對有毒有害言論、政治敏感內容、違法行為教唆等14個維度的普通有害問題,整體防禦成功率近100%。
另外,針對情境假設、角色扮演、加密編碼等多個越獄模式整體防禦成功率超過40%,其綜合安全防御能力達83%。對於情境假設、角色扮演、加密編碼等多個越獄模式整體防禦成功率則超過40%,DeepSeek-R1-Safe綜合安全防御能力達83%。
在MMLU、GSM8K、CEVAL等通用能力基準測試中,DeepSeek-R1-Safe相比於DeepSeek-R1的性能損耗在1%以內。DeepSeek-R1-Safe不僅顯著提升了安全防護能力,也保障了模型的可用性,達成安全能力與通用性能之間的有效平衡。
中國工程院院士陳純表示,DeepSeek-R1-Safe的發布旨在打造安全可信的示範應用,推動大模型安全能力與產業生態協同發展。
- 「極目一號」浮空艇實現立體監測技術跨越
- 京東:截至中午內地已有逾3萬人成功簽收iPhone 17
- Hub71啟動初創體驗計劃 加強跨境初創發展
- 聚焦「AI+」共建新高地 2025互聯網嶽麓大會長沙開幕
- 超百萬立方米 我國頁岩氣試產最高紀錄刷新
- 豆包、文心一言等大模型誕生地海淀建立全國首個大模型生態服務站
- 騰訊面向全球推出場景化AI能力 加速提升產業效能
- 碳市場2.0,中國這樣布局
- 華為與浙大合推安全DeepSeek模型 防禦成功率近100%




