3月29日,2024北京AI原生產業創新大會暨北京數據基礎制度先行區成果發布會在京舉行。會上,北京國際大數據交易所(下稱“北數所”)牽頭,正式發布了首批100個人工智能大模型高質量訓練數據集。
本批數據集首次匯聚了來自中科院大氣物理所、北京市科學技術研究院、中國知網、中汽智聯、北方健康、中文在線、中國搜索、牡丹集團、瑞萊智慧等36家機構及企業提供的非公開數據集作為大模型語料訓練數據。
數據集內容覆蓋科技創新、金融服務、醫療健康、醫藥研發、自動駕駛、氣象服務、商業航天、影視創作等20多個應用場景,共計100余個語料數據,數據總量逾150PB,涵蓋了專業知識問答、中外論文期刊、古今文化書籍、互聯網輿情資訊、知識產權多語種音視頻、教學資源題庫、科研數據、駕駛環境場景數據、高清圖片等多領域、多模態數據語料。
其中,涉及醫療健康、醫藥研發場景的約20個數據集,具體包括:
單細胞代謝、轉錄組數據
多肽藥物庫
二型糖尿病人群隊列基因位點
核酸適配數據庫
基于醫保數據構建藥物平價替代智能推薦算法模型
就近購藥、就診智能推薦模型
就診醫生、醫院信息智能推薦模型
臨床知識數據集
腦電預訓練數據
匿名化健康醫療大數據
騙保行為AI自動識別算法模型
生物醫藥研發質量控制與精準
小分子藥物庫
藥店評價智能推薦模型
藥物化合物結構式及ADMET數據
醫學大模型監督微調數據集
用于反向虛擬篩選的蛋白質數據庫
中醫藥消費趨勢判斷
中醫知識數據集
醫藥衛生科技(期刊、報紙、論文)
北數所表示,通過北數所進行人工智能數據集進場交易,將更好的為模型訓練提供更加合規可靠、便捷化、規模化的數據服務,進一步提高數據來源合規性,降低數據交易成本。北京金控集團董事長、北數所董事長范文仲表示,建議積極推動高價值數據訓練集和智能算力進場交易,不斷提高人工智能模型訓練的合規性,增加透明度,共同推動數據要素的開放利用,推動北京數字經濟高質量發展。
會上,北京亦莊發布了《北京經濟技術開發區關于加快打造AI原生產業創新高地的若干政策》,提出到2026年,培育性能達到國際先進水平的通用大模型,打造人工智能標桿應用場景10個,集聚人工智能產業鏈企業100家,實現園區營業收入1000億元,建成人工智能算力10000 PFlops。
文件明確了一系列補貼和獎勵政策,例如:
每年將發放1億元的算力券;
支持企業深耕垂直領域,重點圍繞AI+新藥研發等領域進行技術攻關,打造行業垂直領域大模型;
采取“揭榜掛帥”機制,鼓勵重點圍繞“大模型+”醫療等領域,打造一批可復制、可推廣的標桿型示范應用場景;
每年發放1億元模型券;
推動“大模型+醫藥研發”,加強數字生物學、計算機藥物發現、實驗室自動化、AI輔助臨床試驗等領域研發,鼓勵大模型在藥物發現、設計、合成和生產全過程應用。
與此同時,北京亦莊人工智能公共算力平臺3000PFlops規模的算力設備正式點亮并投入使用,這也是北京最大規模的高性能人工智能計算集群,可以幫助企業推動開展大模型訓練,推廣行業應用,進一步夯實了北京大模型研發創新與行業應用的算力底座。
注:文章來源于網絡,如有侵權,請聯系刪除