生命健康科学研究已进入数据密集型大模型时代,而生物数据库主要由美国国家生物技术信息中心(NCBI)和欧洲生物信息学研究所(EBI)两个中心领导,中国在这个方面缺乏国际影响力。EBI负责人Rolf Apweiler指出两个问题:中国缺少一个明确的代表性科学中心可以代表中国接轨国际;中国科学家使用了欧洲生物信息学研究所超过三分之一的资源,但在数据和数据库维护上缺乏贡献。党中央高度重视生物大数据资源发展,提出了国家生物数据中心“1+N”体系建设思路。国家发改委先期聚焦组学数据立项了“1”国家生物信息中心,“N”仅聚焦文献数据立项了国家生物医学文献信息中心,尚缺乏以疾病为核心的系统全面的数据资源。
粤港澳大湾区建设,是习近平总书记亲自谋划、亲自部署、亲自推动的重大国家战略,也是我国经济发展重要区域与对外经贸交流的南大门,GDP超全国总量12%,其中,大健康产业是粤港澳大湾区核心支柱产业之一。通过大数据的汇聚和关联分析能够更快、更直接地发现新知识、新机制、新规律,驱动新技术、新成果的快速诞生与产业应用。据文献报道,以“临床+多组学”为主的生物医学数据基础设施支持了2/3以上FDA获批的原研药研发工作,每年获得巨额产业回报。因此,建设支撑生命健康科学研究与生物医药产业创新发展的生物医学数据节点,既是粤港澳大湾区经济持续繁荣的必然要求,也是落实粤港澳大湾区国家战略的重要支撑。
近百年来,对人类生命健康产生深远影响的重大突发公共卫生事件无一不是由呼吸系统传染病导致的。粤港澳大湾区地处亚热带,气候温和适合病毒传播,同时还是我国对外经贸交流的南大门,入境人数占全国90%以上,常住人口超8000万人,是传染病“外防输入、内防传播”的重点区域。在粤港澳大湾区建立支撑呼吸系统传染病监测预警与快速主动应对的生物医学数据节点,是及时了解疫情动态、制定科学有效防控策略的必要手段。通过收集并加以整理分析区域内生物医学数据与境内外呼吸道传染病的病例数据、病毒基因序列、人体多组学数据、流行病学信息等重要数据,可及时了解全球范围内呼吸道传染病疫情的频发和传播速度、疫情动态与防控策略,发现疫情的时空分布规律、预测疫情的爆发趋势,为公共卫生防控决策提供决策支持和科学依据,最大程度地保护我国人民群众的健康安全。
因此,广州国家实验室作为国家战略科技力量,以解决新发突发病原重大疫情预测预警、呼吸系统疾病及其防控领域关键核心为己任,有意愿、有能力承建与长期运行国家生物数据中心体系粤港澳大湾区节点,助力我国生命健康科学研究与生物医药产业高质量发展。
在广东省广州市的支持下,广州国家实验室开展了前期工作,在软硬件、数据资源和管理模式上已形成完善的小试到中试的技术能力,获得了一系列初步成果,并具备清晰可落地的技术和市场转化服务路径。比如自主研发了支撑大规模算力资源管理、智能工具开发与集成、大模型驱动到跨平台资源共享的市场化工业软件系统—“生物医学大数据操作系统(Bio-OS)”;接入了50万余全球人类基因组数据集、10000余算子镜像;汇聚了15PB数据;建成了27亿参数垂直领域大模型;启动了百万呼吸健康人群队列研究,以及生物医学科研与数据治理大模型建设;与全国近1000家医院达成战略合作协议,与多所港澳科研机构建立战略合作关系;建设了5年可产出约400PB高质量多组学数据与基础实验数据的全链条科研平台。
建议充分发挥国家实验室“总平台总链长”作用,以及广州国家实验室在生物医药领域深厚积淀,建设面向呼吸系统疾病领域的“国家生物数据中心体系粤港澳大湾区节点”。