东阳光药推出全球首个药物制剂垂直领域自然语言大模型(HEC-PharmAI)
发布时间:2025-08-28
浏览数:31
相关新闻
2023年至今,以ChatGPT、LLaMA和DeepSeek为代表的通用大语言模型推动了人工智能技术革命的新高峰。
在生物医药领域,尽管专用AI模型取得了显著进展(如AlphaFold解析蛋白质结构、Chemprop预测分子性质),但其高度专业化的设计仅能覆盖单一学科场景,难以满足药物制剂研发的多维度需求。药物制剂设计涉及复杂的物质传递系统、释放动力学、辅料兼容性及体内外相关性。
传统制剂计算物理模型及最新AI模型均聚焦于细分领域,一方面其数据来源分散,数据高度异质化,数据预处理方法差异大;另一方面,其模型架构多采用数理统计模型,难以统一应用于制剂研发的多种关联任务,在跨尺度数据整合(分子-剂型-生理)和领域知识泛化上存在局限。
因此,构建药物制剂垂直大模型应用成为突破瓶颈的关键路径,有望实现辅料配伍的相容性预测、释放动力学的跨尺度模拟、生物等效性风险的早期预警和剂型设计空间的数据驱动探索,突破以往专用模型的性能局限并填补功能空白。
(图/东阳光药物制剂大模型RAG应用架构)
研发目的:首创“剂型-辅料-工艺-性能”制剂大模型多维应用
研发团队致力于构建覆盖“剂型设计-处方优化-工艺开发-质量预测”全流程的药物制剂垂直大模型应用,通过“多源异质数据标准化-处方工艺智能知识库-通用大模型监督微调-专家反馈强化学习”的创新研发体系,深度整合国内外药典、FDA/EMA审评报告、药剂学经典著作及数十万条制剂处方工艺数据,构建剂型-辅料-工艺-性能多维知识图谱。
模型基于DeepSeek、Qwen等通用基座大模型进行药剂领域微调生成,结合专用模型强化学习反馈循环持续优化决策逻辑,实现三大核心功能:
(1)智能处方设计:输入API特性(如化学结构、溶解性、稳定性),输出辅料配伍与工艺参数方案;
(2)工艺风险预警:基于处方与设备参数预判关键质量属性偏离风险;
(3)生物等效性预测:通过体外释放曲线量化体内吸收与BE失败概率。同步拓展分子设计辅助能力,为固态形式选择(盐型/共晶)及难溶API载药策略提供决策支持。
(图/模型性能基准测试)
研发成果:药剂学综合问答与处方工艺设计智能知识库
药物制剂智能知识库是东阳光药制剂大模型应用的最新研究成果。当前的药剂学综合知识库和制剂处方设计专用知识库在整合海量公开数据的基础上,融入了东阳光药积累的关键实验工艺数据,共涵盖21万余条制剂配方、1.2万余篇药剂学高质量期刊文献、2000余篇上市药物核心工艺专利和中美欧日药典。
知识库生成模型基于集团本地部署的DeepSeek-R1大语言模型,采用高级检索增强生成技术进行知识库构建:(1)对异质性数据使用BGE-M3、Qwen3 Embedding和SciBERT等嵌入大模型生成文本语义向量、使用Mol-BERT编码分子结构特征,进行多模态检索;(2)基于Agent技术智能补充改写增强用户查询;(3)使用处方工艺数据微调Qwen3 Embedding及Re-ranker模型,增加其制剂领域专用检索召回能力;(4)基于制剂知识元数据标签智能标注回答引用来源,并生成高置信度引用;(5)内置规则引擎实时校验生成内容是否符合药物研发指南及监管要求。
上述前沿技术显著减少大模型在制剂应用中的幻觉现象,在上下文召回率及回答正确性上均领先于Graph-RAG和基础RAG框架,打通了从处方设计到生产质控的全链条智能化,更在跨尺度处方组分与工艺参数协同设计等维度实现了技术空白突破,为制剂研发提供了可交互、可解释的下一代智能基础设施。
(图/制剂处方工艺问答举例)
东阳光药HEC-PharmAI:
技术创新与应用价值
东阳光药人工智能研发中心团队以药物制剂大模型项目为标杆,展示了如何深度利用基座大模型提升药物研发CMC环节的效率。
该大模型应用整合了制剂研发中海量的异质性数据,以东阳光智算平台为支撑,综合应用文本嵌入、监督微调和智能体调用等大模型前沿技术挖掘处方工艺数据内涵,体现了AI+药物研发中“数据-算法-算力”的深度融合。该垂类模型是“药研大模型”板块的核心模型,其研发体现了东阳光药对自然语言大模型赋能AI药物研发全流程的前沿探索。整合已经发布的“药物分子设计”和“药代动力学”两大板块,HEC药物智能发现平台现已囊括了先导化合物发现、结构优化、成药性优化和CMC赋能等诸多AI药物发现关键环节,将一站式助力药物研究者实现创新突破。
(图/HEC药物智能发现平台)
来源/图片:东阳光药人工智能研发中心