AI如何在亚马逊创造价值奇迹

在拉斯维加斯举办的re:Invent大会上，亚马逊首次全面揭开内部AI创新的神秘面纱。

这些内部客户既是亚马逊云科技产品的早期采用者，更是高要求的价值共创伙伴，推动技术迭代并助力产品走向成熟。典型代表包括电商“超级碗”Prime Day、年节省超20亿美元成本的Amazon电子商务基金会（eCF，eCommerce Foundation）、自动驾驶品牌Zoox、全球运营规模的Prime Video、提升广告投放成效的Amazon Ads，以及拥有超6亿客户的Alexa+等。经它们验证的AI产品与创新（含基础设施、模型、开发工具等），在功能、性能与质量上均属上乘，可供亚马逊云科技其他客户放心采用。

Prime Day：购物狂欢背后的AI技术支持

被亚马逊内部称为“超级碗”的电商盛事——Prime Day，不仅是消费者的购物狂欢，更是全球最大规模的技术压力测试。为了确保系统能够承受极端压力，亚马逊团队需进行数月的准备工作，包括Game Days演练，Well-Architected审查、容量管理演练等。

Prime Day期间，亚马逊云科技展现出的计算能力令人赞叹：ElastiCache每日处理超过1.5千万亿次请求，在Amazon.com上每分钟处理的广告相关请求超过1.4万亿次；Amazon Elastic Block Storage（EBS）服务每天传输的数据量达1EB（2的60次方字节）；像DynamoDB这样的NoSQL数据库服务，响应时间保持在10毫秒以内；Amazon CloudFront处理超3万亿次HTTP请求；管理Amazon运营中心的指挥控制系统及运行其中的机器人的Amazon Outposts，在单个大型履约中心每日向7000个机器人发送超5.24亿条指令……

Amazon Rufus的推出，标志着生成式AI在电商领域的突破性应用。这个AI购物助手，不仅在成本、延迟和准确性之间取得了最佳平衡，更为消费者提供私人导购般的购物体验。Prime Day期间，Rufus依托80000余个Amazon Trainium和Amazon Inferentia芯片运行，平均每分钟处理300万个token，响应延迟控制在1毫秒内；基于亚马逊云科技定制芯片，成本降低4.5倍，每瓦性能提升54%，使用该工具的客户购买转化率提升约60%。

这一成效得益于亚马逊云科技的流式推理架构（Streaming Inferencing Architecture）：Rufus采用vLLM进行连续批处理（Continuous Batching），托管于Amazon ECS的Trainium实例，通过动态分组用户请求提升利用率并实时流式传输响应；Application Load Balancer与最少未处理请求算法实现请求高效分流，吞吐量提升约5倍。

Amazon电子商务基金会：人效与成本双突破

Amazon电子商务基金会（eCF）负责产品目录、订单流程、物流配送、搜索等核心业务，同时守护安全性、隐私、站点可用性等基础要素。2025年，借助AI及AI Agent，eCF为亚马逊节省超20亿美元成本。

面对Amazon.com每日数亿访问量、数亿行代码、数十万个协同运行的微服务及每秒数亿次请求交互的复杂场景，eCF于2025年初推出低代码Agentic AI平台Agent Z，支持团队以极少工程工作量创建AI Agent。2025年7～12月初，该平台已生成超21000个AI Agents，核心工具包括Amazon AgentCore、Kiro、Amazon Bedrock等。

为推动全微服务AI原生开发，eCF基于Kiro和规范驱动开发，打造了Spec Studio工具，可将现有代码库转换为规范并修改。该工具在内部快速普及，应用月环比增长超100%，已创建超15000个规范。2025年，Amazon Stores数十个团队试点AI原生开发，开发效能与客户交付部署量均平均提升4.5倍；2026年目标是推动75%的Amazon Stores及整个Amazon.com团队采用该技术。

Zoox：万亿次计算赋能自动驾驶实时决策

2025年12月，亚马逊旗下自动驾驶公司Zoox在拉斯维加斯发布了无人驾驶出租车（Robotaxi）。

自动驾驶需应对极端复杂的计算需求：单个左转动作就需整合周围车辆、行人、交通信号等数百至数千个数据点，分析数百万种场景并实时决策，单次动作背后的实时计算量高达数十亿次。

自动驾驶系统核心是先进的AI与机器学习模型，实现感知、预测、规划三大核心功能：感知通过多模态传感器套件融合数据构建动态环境图景；预测判断交通参与者行为意图；规划则以安全、舒适、高效为核心制定行驶策略。

为解决真实道路训练难以覆盖极端场景的问题，Zoox构建了以Amazon S3为核心的先进模拟系统，创建真实世界数字孪生。通过基于扩散模型的机器学习模型，在数千个GPU上自动生成并运行模拟场景，形成“道路数据-模拟训练-模型优化”的持续反馈循环。

在AI栈部署到实车之前，该系统已对其进行数千次甚至数百万次的验证。看似平滑的变道或在人行横道前的平稳停车，实际上代表了数万亿次的计算。只不过，这一切都在无缝、安全、无声地发生着。

Prime Video：AI重构沉浸式观赛体验

体育直播的核心挑战并非数据匮乏——单场比赛可产生数百万数据点，而是如何利用数据创造沉浸式观赛体验，从而更好地吸引粉丝。

Prime Video的应用科学家与直播解说、制作团队携手合作，在过去三个赛季的橄榄球比赛中，创造了五项广播领域的首创，统称为Prime Insights，精准预测比赛动态并为观众提供独特见解。它们分别是：防御警报（Defensive Alerts）：发球前预测谁会突袭四分卫；压力警报（Pressure Alerts）：预测发球后谁会干扰四分卫；覆盖识别（Coverage ID）：预测防守方是人盯人，还是区域防守；口袋健康（Pocket Health）：展示了四分卫面临的压力及其决策能力；终局套件（End of Game Suite）：让客户能够根据剩余时间和预测的回合数，了解他们喜欢的球队的获胜路径。

这些创新依托复杂技术架构：通过标记数千场历史比赛生成数百万数据点，实时接收传感器、解说数据并处理视频帧，借助亚马逊云科技的高可靠性、低延迟能力实现端到端高效运行。前NFL（美国国家橄榄球联盟）四分卫Andrew Luck在体验后感叹道：“我不愿意相信机器能比人类更好地预测突袭，但我必须承认并尊重AI的强大能力。”

依托亚马逊云科技，Prime Video构建了适用于全体育项目的“创新流水线”，为创意提供孵化沙盒。

例如，在美国规模最大的赛车运动组织NASCAR（National Association for Stock Car Auto Racing纳斯卡赛车），40辆赛车以时速200英里飞驰，彼此相距仅几英寸，都在追逐完美的路线。这是一片不断预测的海洋：赛车手试图弄清楚对手在做什么，粉丝们也想知道。此前，每个车队都在用纸笔和自己独有的公式计算燃油消耗，其他人无法获知。能不能让粉丝实时看到这些数据？基于此，Prime Video仅用三个月就开发出Burn Bar（“燃烧条”）功能，通过实时摄取车辆遥测、位置等数据并可视化，让粉丝与车队直观掌握燃油策略，解锁“赛中赛”视角。

Amazon Ads：LLM优化广告精准投放

如何更深入地理解消费者，为广告商带来更出色的投放成果？Amazon Ads此前采用的机器学习模型虽能高效处理数十亿次请求并预测转化率，但无法解释产品匹配逻辑。

这正是生成式AI可以大显身手的地方：既懂产品，又懂消费者，还能精准匹配，因为它既能理解机器学习逻辑，也能理解人类语言，还具备常识，能够辨析产品属性的细微差别，以及消费者不断变化的兴趣。

但是，适用于Amazon Ads的生成式AI模型的参数量可达数千亿，而且，许多用例要求在亚秒级（sub-second）时间内做出响应。更特殊的是，Amazon Ads还需应对不断变化的消费者兴趣和广告活动调整。所有这些都必须在每天数十亿次请求的规模下进行响应。随着LLM用例的增多，工作负载可能比普通的消费级LLM大10倍。

如何构建所需的LLM？Amazon Ads从这个认知出发——决定系统所需容量的，除了模型大小、Token长度，还有延迟SLA和流量规模；而且，延迟和吞吐量是相互权衡的。

依赖产品图片、标题和品牌嵌入（Embeddings）来弄清楚哪些消费者会喜欢某些商品，在识别细微的购物意图差异时，效果并不理想。而LLM通过消化完整的产品描述、评论（Token 数量可轻松达到10万个）开启更丰富的视角。这些信息相对静态，无需极低的延迟，关键在于高吞吐量。Amazon Ads用亚马逊云科技的Step Functions、EventBridge来编排这些大规模离线批处理任务。数据从Amazon S3流入一个经过吞吐优化的、支持高并发的LLM端点，再将数据同步到由ElastiCache和S3构成的存储层。

在理解消费者这一任务上，LLM根据消费者的近期活动，如几次点击，可推断其特征、实际需求。Amazon Ads通过收集点击、购买等原始信号来组建会话上下文，将其放入输入提示词（Prompt）中，可推理出消费者喜欢或不喜欢某个产品的原因。这种输入提示词的长度在几百到几千个Token之间。这也无需追求极致低延迟，在消费者下一次互动之前（通常几秒钟内）返回结果即可，可在成本和效率之间取得平衡。为此，Amazon Ads利用Amazon Managed Service for Apache Flink （Amazon MSF）来扩展流处理管线。在该管线内部，系统会向LLM端点发起异步调用。与离线批推理类似，LLM 的输出结果会被写入存储层。

消费者与产品的匹配，延迟是重中之重，需在几百毫秒内返回响应。Amazon Ads的广告服务器在其工作流中，向经过延迟优化的LLM端点发起直接同步调用。这要求系统支持多样化模型，在模型选择和工作负载等保持灵活性，尽可能实现高吞吐量，以提高成本效益，并确保LLM推理不会给现有的购物体验增加额外负担。为此，Amazon Ads采用软硬件结合的混合栈，开发了专用的LLM推理解决方案。该服务完全运行在Amazon EKS上，并混合使用不同的EC2实例以满足多样化需求。

Alexa+：生成式AI打造自然对话交互

自2014年发布以来，Alexa已拥有超过6亿客户，连接了超过10亿台设备，与世界各地的开发者合作。为消除它所谓的“Alexa 腔”，Alexa AI产品团队通过生成式AI将其提升为更具对话性、更聪明的Alexa+，核心目标包括理解真实意图、零幻觉、功能无缝对接及任务落地。

为实现核心目标，团队突破四大关键技术：

准确性（Accuracy），让LLM按照客户的意图行事。一件事往往存在多个环节。Alexa+集成了各种工具和软件（“专家”）或AI Agent。调用哪一个专家、哪个API、哪些参数和哪些值等，是一个推理周期。提高准确性的常见办法是提供示例。但是，由于Alexa的客户体量极大，这一办法会出现上下文过载（提示词过长）、遗忘、过度拟合，或局限于某个特定的用例等问题。团队最终用API重构（API Refactoring）实现了突破，不必向LLM提供示例，LLM自己就能理解。

降低用户感知到的延迟（Latency）。传统的延迟降低技术，如并行化（Parallelization）、流式传输（Streaming）和预取（Prefetching），起作用但不够好，其中一个难题是，生成输出Token的耗时比处理输入Token高出好几个数量级。缓存（Caching），如提示词缓存（Prompt Caching），对解决此问题富有成效。在改进和优化输入提示词方面，缩小化（Minification）和指令微调（Instruction Tuning）等技术可极大降低延迟。此外，与模型相关的技术，如推测性执行（Speculative Execution），也可降低延迟。

增强确定性（Determinism）。如何保证低延迟模型调用的API不会产生危害或其他意外的副作用，在发现API调用错误时可以安全地执行或撤销？影响最大的环节是，减少请求LLM执行推理周期的次数。API重构至关重要，可将一连串细粒度（Fine-grained）的API合并为一个或少数几个粗粒度（Coarse-grained）的API。指令微调（Fine Tuning）可将从供应商获取的基础模型进行微调，转化为更适合用例的专业模型。在利用相关数据对模型进行训练后，Alexa+在客户的海量访问流量时能更加高效。

模型灵活性（Model Flexibility），为特定任务选择最合适的模型。安全性绝无商量余地，护栏（Guardrails）是必不可少的。Alexa+采取“双重保险”做法：既提示模型安全地执行操作，又部署其他护栏来处理可能出现的问题。这就必须是Multi-Agent架构，而非去寻找一个通用的全能模型，使每一项任务、每一个用例都找到最合适的模型。Amazon Bedrock让Alexa+能够轻松地在运行时根据需要随时更换后端的基础模型。

亚马逊的AI创新虽处于起步阶段，但AI创造价值的现实已清晰可见。问题不在于AI是否会改变组织，而在于变革速度有多快。其经验表明，AI Agent落地不仅是工具引入，更需重塑工作方式、构建编排平台、重构业务流程，才能实现快速部署与规模化扩展，最终提升效率、加速创新。

不是要等待未来，而是现在就创造未来，并且是在亚马逊云科技上创造！

Paul Roberts是亚马逊云科技技术总监。

Dave Treadwell是Amazon电子商务基金会 (eCommerce Foundation) 高级副总裁。

Jesse Levinson是Zoox联合创始人兼首席技术官。

Eric Orme是Prime Video体育直播与工程副总裁。

Shenghua Bao是Amazon Ads广告总监。

Bole Chen是Amazon Ads广告高级经理。

Sai Rupanagudi是Alexa AI产品团队负责人。

Luu Tran是Alexa+工程师。