AI如何在亚马逊创造价值奇迹

文 | Paul Roberts、Dave Treadwell、Jesse Levinson、Eric Orme、Shenghua Bao、Bole Chen、Sai Rupanagudi、Luu Tran  

2026年01月29日 10:58  

 

在拉斯维加斯举办的re:Invent大会上,亚马逊首次全面揭开内部AI创新的神秘面纱。

这些内部客户既是亚马逊云科技产品的早期采用者,更是高要求的价值共创伙伴,推动技术迭代并助力产品走向成熟。典型代表包括电商“超级碗”Prime Day、年节省超20亿美元成本的Amazon电子商务基金会(eCF,eCommerce Foundation)、自动驾驶品牌Zoox、全球运营规模的Prime Video、提升广告投放成效的Amazon Ads,以及拥有超6亿客户的Alexa+等。经它们验证的AI产品与创新(含基础设施、模型、开发工具等),在功能、性能与质量上均属上乘,可供亚马逊云科技其他客户放心采用。

 

Prime Day:购物狂欢背后的AI技术支持

被亚马逊内部称为“超级碗”的电商盛事——Prime Day,不仅是消费者的购物狂欢,更是全球最大规模的技术压力测试。为了确保系统能够承受极端压力,亚马逊团队需进行数月的准备工作,包括Game Days演练,Well-Architected审查、容量管理演练等。

Prime Day期间,亚马逊云科技展现出的计算能力令人赞叹:ElastiCache每日处理超过1.5千万亿次请求,在Amazon.com上每分钟处理的广告相关请求超过1.4万亿次;Amazon Elastic Block Storage(EBS)服务每天传输的数据量达1EB(2的60次方字节);像DynamoDB这样的NoSQL数据库服务,响应时间保持在10毫秒以内;Amazon CloudFront处理超3万亿次HTTP请求;管理Amazon运营中心的指挥控制系统及运行其中的机器人的Amazon Outposts,在单个大型履约中心每日向7000个机器人发送超5.24亿条指令……

Amazon Rufus的推出,标志着生成式AI在电商领域的突破性应用。这个AI购物助手,不仅在成本、延迟和准确性之间取得了最佳平衡,更为消费者提供私人导购般的购物体验。Prime Day期间,Rufus依托80000余个Amazon Trainium和Amazon Inferentia芯片运行,平均每分钟处理300万个token,响应延迟控制在1毫秒内;基于亚马逊云科技定制芯片,成本降低4.5倍,每瓦性能提升54%,使用该工具的客户购买转化率提升约60%。

这一成效得益于亚马逊云科技的流式推理架构(Streaming Inferencing Architecture):Rufus采用vLLM进行连续批处理(Continuous Batching),托管于Amazon ECS的Trainium实例,通过动态分组用户请求提升利用率并实时流式传输响应;Application Load Balancer与最少未处理请求算法实现请求高效分流,吞吐量提升约5倍。

Amazon电子商务基金会:人效与成本双突破

Amazon电子商务基金会(eCF)负责产品目录、订单流程、物流配送、搜索等核心业务,同时守护安全性、隐私、站点可用性等基础要素。2025年,借助AI及AI Agent,eCF为亚马逊节省超20亿美元成本。

面对Amazon.com每日数亿访问量、数亿行代码、数十万个协同运行的微服务及每秒数亿次请求交互的复杂场景,eCF于2025年初推出低代码Agentic AI平台Agent Z,支持团队以极少工程工作量创建AI Agent。2025年7~12月初,该平台已生成超21000个AI Agents,核心工具包括Amazon AgentCore、Kiro、Amazon Bedrock等。

为推动全微服务AI原生开发,eCF基于Kiro和规范驱动开发,打造了Spec Studio工具,可将现有代码库转换为规范并修改。该工具在内部快速普及,应用月环比增长超100%,已创建超15000个规范。2025年,Amazon Stores数十个团队试点AI原生开发,开发效能与客户交付部署量均平均提升4.5倍;2026年目标是推动75%的Amazon Stores及整个Amazon.com团队采用该技术。

 

Zoox:万亿次计算赋能自动驾驶实时决策

2025年12月,亚马逊旗下自动驾驶公司Zoox在拉斯维加斯发布了无人驾驶出租车(Robotaxi)。

自动驾驶需应对极端复杂的计算需求:单个左转动作就需整合周围车辆、行人、交通信号等数百至数千个数据点,分析数百万种场景并实时决策,单次动作背后的实时计算量高达数十亿次。

自动驾驶系统核心是先进的AI与机器学习模型,实现感知、预测、规划三大核心功能:感知通过多模态传感器套件融合数据构建动态环境图景;预测判断交通参与者行为意图;规划则以安全、舒适、高效为核心制定行驶策略。

为解决真实道路训练难以覆盖极端场景的问题,Zoox构建了以Amazon S3为核心的先进模拟系统,创建真实世界数字孪生。通过基于扩散模型的机器学习模型,在数千个GPU上自动生成并运行模拟场景,形成“道路数据-模拟训练-模型优化”的持续反馈循环。

在AI栈部署到实车之前,该系统已对其进行数千次甚至数百万次的验证。看似平滑的变道或在人行横道前的平稳停车,实际上代表了数万亿次的计算。只不过,这一切都在无缝、安全、无声地发生着。

 

Prime Video:AI重构沉浸式观赛体验

体育直播的核心挑战并非数据匮乏——单场比赛可产生数百万数据点,而是如何利用数据创造沉浸式观赛体验,从而更好地吸引粉丝。

Prime Video的应用科学家与直播解说、制作团队携手合作,在过去三个赛季的橄榄球比赛中,创造了五项广播领域的首创,统称为Prime Insights,精准预测比赛动态并为观众提供独特见解。它们分别是:防御警报(Defensive Alerts):发球前预测谁会突袭四分卫;压力警报 (Pressure Alerts):预测发球后谁会干扰四分卫;覆盖识别 (Coverage ID):预测防守方是人盯人,还是区域防守;口袋健康(Pocket Health):展示了四分卫面临的压力及其决策能力;终局套件 (End of Game Suite):让客户能够根据剩余时间和预测的回合数,了解他们喜欢的球队的获胜路径。

这些创新依托复杂技术架构:通过标记数千场历史比赛生成数百万数据点,实时接收传感器、解说数据并处理视频帧,借助亚马逊云科技的高可靠性、低延迟能力实现端到端高效运行。前NFL(美国国家橄榄球联盟)四分卫Andrew Luck在体验后感叹道:“我不愿意相信机器能比人类更好地预测突袭,但我必须承认并尊重AI的强大能力。”

依托亚马逊云科技,Prime Video构建了适用于全体育项目的“创新流水线”,为创意提供孵化沙盒。

例如,在美国规模最大的赛车运动组织NASCAR(National Association for Stock Car Auto Racing纳斯卡赛车),40辆赛车以时速200英里飞驰,彼此相距仅几英寸,都在追逐完美的路线。这是一片不断预测的海洋:赛车手试图弄清楚对手在做什么,粉丝们也想知道。此前,每个车队都在用纸笔和自己独有的公式计算燃油消耗,其他人无法获知。能不能让粉丝实时看到这些数据?基于此,Prime Video仅用三个月就开发出Burn Bar(“燃烧条”)功能,通过实时摄取车辆遥测、位置等数据并可视化,让粉丝与车队直观掌握燃油策略,解锁“赛中赛”视角。

 

Amazon Ads:LLM优化广告精准投放

如何更深入地理解消费者,为广告商带来更出色的投放成果?Amazon Ads此前采用的机器学习模型虽能高效处理数十亿次请求并预测转化率,但无法解释产品匹配逻辑。

这正是生成式AI可以大显身手的地方:既懂产品,又懂消费者,还能精准匹配,因为它既能理解机器学习逻辑,也能理解人类语言,还具备常识,能够辨析产品属性的细微差别,以及消费者不断变化的兴趣。

但是,适用于Amazon Ads的生成式AI模型的参数量可达数千亿,而且,许多用例要求在亚秒级(sub-second)时间内做出响应。更特殊的是,Amazon Ads还需应对不断变化的消费者兴趣和广告活动调整。所有这些都必须在每天数十亿次请求的规模下进行响应。随着LLM用例的增多,工作负载可能比普通的消费级LLM大10倍。

如何构建所需的LLM?Amazon Ads从这个认知出发——决定系统所需容量的,除了模型大小、Token长度,还有延迟SLA和流量规模;而且,延迟和吞吐量是相互权衡的。

依赖产品图片、标题和品牌嵌入(Embeddings)来弄清楚哪些消费者会喜欢某些商品,在识别细微的购物意图差异时,效果并不理想。而LLM通过消化完整的产品描述、评论(Token 数量可轻松达到10万个)开启更丰富的视角。这些信息相对静态,无需极低的延迟,关键在于高吞吐量。Amazon Ads用亚马逊云科技的Step Functions、EventBridge来编排这些大规模离线批处理任务。数据从Amazon S3流入一个经过吞吐优化的、支持高并发的LLM端点,再将数据同步到由ElastiCache和S3构成的存储层。

在理解消费者这一任务上,LLM根据消费者的近期活动,如几次点击,可推断其特征、实际需求。Amazon Ads通过收集点击、购买等原始信号来组建会话上下文,将其放入输入提示词(Prompt)中,可推理出消费者喜欢或不喜欢某个产品的原因。这种输入提示词的长度在几百到几千个Token之间。这也无需追求极致低延迟,在消费者下一次互动之前(通常几秒钟内)返回结果即可,可在成本和效率之间取得平衡。为此,Amazon Ads利用Amazon Managed Service for Apache Flink (Amazon MSF)来扩展流处理管线。在该管线内部,系统会向LLM端点发起异步调用。与离线批推理类似,LLM 的输出结果会被写入存储层。

消费者与产品的匹配,延迟是重中之重,需在几百毫秒内返回响应。Amazon Ads的广告服务器在其工作流中,向经过延迟优化的LLM端点发起直接同步调用。这要求系统支持多样化模型,在模型选择和工作负载等保持灵活性,尽可能实现高吞吐量,以提高成本效益,并确保LLM推理不会给现有的购物体验增加额外负担。为此,Amazon Ads采用软硬件结合的混合栈,开发了专用的LLM推理解决方案。该服务完全运行在Amazon EKS上,并混合使用不同的EC2实例以满足多样化需求。

 

Alexa+:生成式AI打造自然对话交互

自2014年发布以来,Alexa已拥有超过6亿客户,连接了超过10亿台设备,与世界各地的开发者合作。为消除它所谓的“Alexa 腔”,Alexa AI产品团队通过生成式AI将其提升为更具对话性、更聪明的Alexa+,核心目标包括理解真实意图、零幻觉、功能无缝对接及任务落地。

为实现核心目标,团队突破四大关键技术:

准确性(Accuracy),让LLM按照客户的意图行事。一件事往往存在多个环节。Alexa+集成了各种工具和软件(“专家”)或AI Agent。调用哪一个专家、哪个API、哪些参数和哪些值等,是一个推理周期。提高准确性的常见办法是提供示例。但是,由于Alexa的客户体量极大,这一办法会出现上下文过载(提示词过长)、遗忘、过度拟合,或局限于某个特定的用例等问题。团队最终用API重构(API Refactoring)实现了突破,不必向LLM提供示例,LLM自己就能理解。

降低用户感知到的延迟(Latency)。传统的延迟降低技术,如并行化(Parallelization)、流式传输(Streaming)和预取(Prefetching),起作用但不够好,其中一个难题是,生成输出Token的耗时比处理输入Token高出好几个数量级。缓存(Caching),如提示词缓存(Prompt Caching),对解决此问题富有成效。在改进和优化输入提示词方面,缩小化(Minification)和指令微调(Instruction Tuning)等技术可极大降低延迟。此外,与模型相关的技术,如推测性执行(Speculative Execution),也可降低延迟。

增强确定性(Determinism)。如何保证低延迟模型调用的API不会产生危害或其他意外的副作用,在发现API调用错误时可以安全地执行或撤销?影响最大的环节是,减少请求LLM执行推理周期的次数。API重构至关重要,可将一连串细粒度(Fine-grained)的API合并为一个或少数几个粗粒度(Coarse-grained)的API。指令微调(Fine Tuning)可将从供应商获取的基础模型进行微调,转化为更适合用例的专业模型。在利用相关数据对模型进行训练后,Alexa+在客户的海量访问流量时能更加高效。

模型灵活性(Model Flexibility),为特定任务选择最合适的模型。安全性绝无商量余地,护栏(Guardrails)是必不可少的。Alexa+采取“双重保险”做法:既提示模型安全地执行操作,又部署其他护栏来处理可能出现的问题。这就必须是Multi-Agent架构,而非去寻找一个通用的全能模型,使每一项任务、每一个用例都找到最合适的模型。Amazon Bedrock让Alexa+能够轻松地在运行时根据需要随时更换后端的基础模型。

 

亚马逊的AI创新虽处于起步阶段,但AI创造价值的现实已清晰可见。问题不在于AI是否会改变组织,而在于变革速度有多快。其经验表明,AI Agent落地不仅是工具引入,更需重塑工作方式、构建编排平台、重构业务流程,才能实现快速部署与规模化扩展,最终提升效率、加速创新。

不是要等待未来,而是现在就创造未来,并且是在亚马逊云科技上创造!

 

Paul Roberts是亚马逊云科技技术总监。

Dave Treadwell是Amazon电子商务基金会 (eCommerce Foundation) 高级副总裁。

Jesse Levinson是Zoox联合创始人兼首席技术官。

Eric Orme是Prime Video体育直播与工程副总裁。

Shenghua Bao是Amazon Ads广告总监。

Bole Chen是Amazon Ads广告高级经理。

Sai Rupanagudi是Alexa AI产品团队负责人。

Luu Tran是Alexa+工程师。

更多相关评论