数据被誉为新时代的石油,但在精密且高风险的生命科学领域,原始数据更似未经提炼的原油:储量可观,却需复杂加工方能彰显价值。
数据显示,医药公司每推出一款突破性药物,需分析超1000万个患者数据点,而至今80%的医疗数据仍处于非结构化状态,难以有效访问利用。
随着全球数据生成量预计在2025年达到181ZB(1ZB约等于10亿块1TB硬盘容量),其中医疗健康可用数据将占10ZB,企业管理者的核心挑战已非“获取数据”,而是如何从海量、碎片化、高敏感的真实世界数据——常规患者护理中收集的电子病历、可穿戴设备数据、保险理赔记录等——快速提炼出指导决策的“真实世界证据”(RWE)。研究表明,临床试验中应用RWE可缩短高达40%的试验时间,并节省数百万美元成本。
数据悖论:指数级增长下的碎片化困局
但机遇背后,痛点同样突出。
一是数据碎片化,市场上40%的数据采购存在“不完整性”,企业斥巨资购入的数据常因缺失关键维度,无法转化为有效洞察;二是时间成本高昂,数据分散于不同提供商且格式各异,企业仅寻找、获取并关联所需第三方数据就需4~12周,后续清洗与标准化更会进一步拉长周期。
这就构成了一个典型的商业悖论:企业手握先进AI模型,但若作为“燃料”的数据传输速度跟不上模型处理速度,再复杂的AI也会沦为“无米之炊”。
礼来破局:Multi-Agent系统替代“人海战术”
作为一家拥有近150年历史的制药巨头,礼来公司(Eli Lilly)深刻感知到了这种压力。他们发现,仅靠扩招数据分析师和统计学家,已无法满足业务需求。
传统RWE生成模式呈线性:业务人员提出科学问题→分析师编写代码→提取数据→统计分析→生成报告,全程耗时数月甚至更久。
随着数据类型从电子病历、理赔数据等“基础数据”,向可穿戴设备传感器数据、基因组数据等“新兴数据”演进,数据复杂性呈几何级增长。例如偏头痛研究中,通过App收集患者实时发作频率与严重程度,能比传统临床试验更精准反映药物的真实世界表现。
但这类高价值洞察常被技术门槛阻隔。礼来发现,即便引入低代码工具,非技术背景科学家的学习曲线仍然陡峭。企业真正需要的不是更多程序员,而是数据普惠化——让不懂代码的科学家能用自然语言直接与数据对话,即时获取答案。
为解决这一问题,亚马逊云科技与礼来未选择简单的“文本转SQL”机器人,而是基于Amazon Bedrock AgentCore构建了包含7个专业Agents的协作系统。
生命科学领域的严谨性要求,使得复杂业务问题(如“过去12个月被诊断为高血压并使用X药物的患者年龄分布是什么?”)需多步骤推理、上下文理解及精准医学编码转换,简单生成式AI难以应对。而这套Multi-Agent系统的设计核心,是模拟人类专家团队工作流。
1.监督者:团队“大脑”,负责理解用户自然语言提问,即进行意图识别,拆解复杂业务问题为具体子任务流,并指挥其他6位“专才”协作。
2.研究规划师:团队“战略家”,针对队列研究等复杂科研问题制定逻辑严密的研究计划,明确分析优先级,确保路径符合科学逻辑。
3.医学编码专家:“翻译官”,将“高血压”“2型糖尿病”等临床术语,精准转化为数据库可识别的ICD-10、SNOMED等标准医学代码。
4.数据导航员:“资深图书管理员”,熟知企业内部数据库结构、元数据及表关系,定位目标数据所在的库、表及字段。
5.研究与试验专家:“学术顾问”,查阅外部文献、临床试验注册信息及出版物,确保内部数据分析结果与外部科学共识、过往研究相互印证。
6.SQL专家:“技术执行者”,依据规划与导航信息,编写优化的合规SQL查询代码并执行数据提取。
7.可视化创建者:“数据分析师”,将查询结果转化为患者年龄分布直方图、药物留存率曲线等直观图表,助力非技术背景管理者快速理解。
该架构的核心优势在于专业分工与迭代执行。Agent间并非线性接力,而是像人类团队般实现“循环推理”。例如SQL专家Agent生成的代码报错时,会依据错误信息自我修正,直至得出正确结果。Multi-Agent系统让数据分析不再是少数技术人员的特权,而是成为每位业务专家的案头工具。

商业启示:企业级Agent构建与数据治理协同
对于计划部署生成式AI的企业管理者,礼来与亚马逊云科技的实践提供了极具价值的“心智模型”。构建高效企业级AI Agent并非仅选择大模型,而是系统工程,需把握四大维度。
1.定义目标:不止于输出代码,更要提供“可行动的洞察”,确保系统输出经过验证的分析结果,而非半成品。
2.定义工具:让Agent像人类一样善用工具,包括访问数据字典、通过语义搜索查找“黄金查询”(历史验证的正确查询范例)、调用验证脚本等。
3.定义协议:为Agent设定严格的安全防护机制,针对生命科学领域的安全性问题,通过少样本提示(Few-shot Prompting)和思维链(Chain of Thought),引导其遵循严谨推理逻辑。
4.定义交接:Multi-Agent系统中,上下文传递至关重要。需摒弃“全量传递历史对话”的模式,仅传递下一个Agent完成任务所需的关键信息,复刻高效职场沟通逻辑。
除AI架构创新外,该方案在数据治理层面亦实现突破。通过与健康数据平台公司Datavant及Amazon Clean Rooms合作,构建“数据不动,算法动”的模式,破解隐私与效率的矛盾。传统数据整合需将各方数据物理汇聚至数据湖,不仅耗时,还面临巨大合规风险。新模式下,数据保留在医院、数据公司等提供商本地环境,个人敏感信息经“token化”处理,转化为不可逆加密字符。这使得礼来科学家可在不触碰隐私数据的前提下,开展跨机构数据关联与分析,将数据发现与评估周期从传统4个月缩短至4周内。

