全球首個百億級人類基因組基礎模型Genos發布
(香港文匯網記者 郭若溪)10月23日,在第二十屆國際基因組學大會(ICG-20)上,華大生命科學研究院與之江實驗室聯合發布全球首個百億參數人類基因組通用基礎模型Genos。該模型針對人類基因組優化,支持百萬鹼基對超長上下文分析,能實現單鹼基分辨率精準識別,相關成果已發表於《GigaScience》。
Genos標誌着基因組研究從「讀出」鹼基序列轉向「讀懂」生命底層邏輯,有望推動臨床疾病診斷、個人基因組解讀及科研突破。
現有基因組學模型多基於1-2個參考基因組訓練,難捕捉人類遺傳多樣性。Genos整合人類泛基因組參考聯盟(HPRC)、人類基因組結構變異圖譜計劃(HGSVC)等資源,以全球636個「端粒到端粒」(T2T)級高質量人類基因組為訓練數據,覆蓋不同人群,減少數據偏見。
基因組語言複雜,單鹼基突變影響或由百萬鹼基外調控元件決定,需模型兼具單鹼基精度與百萬級上下文理解能力。Genos藉助混合專家(MoE)架構,像調度專業團隊般「按需激活」專家處理任務,在擁有百億級參數的同時,降低推理成本與資源消耗。
測試顯示,Genos在基因組元件識別、遠程調控預測等超半數任務中表現優於現有模型,長序列任務中優勢更顯著;臨床致病性突變解讀準確率達92%,結合021科學基礎模型後升至98.3%,全面超越現有最佳水平(SOTA)。
共有、共為、共享,讓前沿科技觸手可及
當前全球基因組學領域缺乏可直接部署的百億級人類基因組基礎大模型,Genos填補此空白,為下游應用創新奠基。
今年是人類基因組草圖繪製完成25周年,Genos傳承「共有、共為、共享」理念,全面開源12億和100億參數兩個版本,模型權重、架構細節等已在GitHub、HuggingFace等平台依MIT協議發布,也登陸之江實驗室Zero2X平台。
考慮到算力限制,Genos整合進DCS Cloud雲平台,用戶無需複雜配置即可一鍵調用,平台還提供10萬次免費推理服務,降低使用門檻。
科研中,Genos結合DCS Cloud可「秒級」預測RNA表達譜,提速生物信息分析;還整合進CNGBdb數據庫,助力細胞表達量預測與關鍵候選基因篩選。臨床領域,其與GeneT模型結合,可為遺傳疾病診斷提供多模態解讀;個人健康領域,已整合進BGE平台,賦能個人基因組報告解讀。
Genos源自華大生命科學研究院與之江實驗室「大模型種子班」,該團隊融合生物信息與計算科學人才,以問題導向實訓、任務驅動創新,推動生命科學研究向「智能湧現」邁進。
Genos發布開啟基因組智能分析新時代。華大生命科學研究院近期聯合多方發起「十萬長讀長大人群聯盟(Long100K Genomes Consortium)」與「百億細胞計劃(10BC)」,前者將用Cyclone長讀長測序技術完成10萬人T2T級基因組測序,後者依託Stereo-Cell技術完成百億細胞測序,為生命科學基礎模型開發提供數據支撐。
- 諾貝爾獎 | 三實驗物理學家摘諾獎 為量子技術打開大門
- 我國生成式人工智能用戶規模超5億
- 我國離實現「人造太陽」還有多遠?答案就在這個「最強實驗室」裏
- 榮耀發布8大AI場景解決方案 打造千億級終端集群
- 60秒!諾貝爾獎評委讓你聽懂:今年的物理學獎有多牛
- (有片)彈鋼琴機器人、水上直升機……專利交易會上「能者」多多
- AR-E800電動垂直起降飛行器 為低空經濟注入新動能
- 百億級人類基因組基礎模型發布
- 2025世界頂尖科學家論壇將於10月24日至26日在上海舉辦
- 雷軍:自研手機SoC至少投入五百億人民幣
推薦
-
騰訊面向全球推出場景化AI能力 加速提升產業效能
騰訊(0700)在2025全球數字生態大會上宣布面向
數科
-
超百萬立方米 我國頁岩氣試產最高紀錄刷新
記者今天從中國石化獲悉,位於四川盆地的中國
數科
-
騰訊混元圖像3.0登全球盲測第一 已開放文生圖能力
●在混元圖像3.0輸入簡單指令,僅等候約一分
數科
-
芯片大模型應用端 中國科企AI布局全面發力
近兩天,中國幾家民營龍頭企業阿里巴巴、京東
數科
-
聚焦「AI+」共建新高地 2025互聯網嶽麓大會長沙開幕
9月15日,2025互聯網嶽麓大會在長沙開幕。本
數科
-
月背的月幔有點「冷」!中國人研究月球土特產又有新成果
10月6日,在中華民族傳統佳節中秋節之際,國家
數科

