deep rl):通过“自我博弈(self-py)”不断优化策略。
零和博弈(zero-su ga):每一方的胜利意味着另一方的失败。
(2) 德州扑克 ai(librat、prib):不完全信息博弈
挑战:扑克游戏具有隐藏信息(对手的牌),与围棋等完全信息博弈不同。
技术:
博弈均衡计算(nash eilibriu approxiation):找到长期最优策略。
逆向归纳推理(unterfactual regret iization, cfr):动态调整策略,欺骗对手。
(3) 自动驾驶:多智能体博弈
挑战:无人车必须与其他车辆、行人、交通信号互动,决策必须权衡速度、安全性和效率。
技术:
合作博弈:多辆自动驾驶车共享信息,优化通行。
非合作博弈:ai 需要预测人类驾驶员行为,避免碰撞(如“礼让博弈”)。
(4) 金融市场 ai:博弈论优化交易策略
挑战:高频交易(hft)ai 需要在不确定市场中竞争,预测对手行为。
技术:
零和博弈:股票市场中的竞争交易。
强化学习 + 预测:ai 通过历史数据学习市场行为,并实时调整交易策略。
(5) 对抗性 ai:gans(生成对抗网络)
挑战:训练 ai 生成高质量的假数据(如逼真的人脸图像)。
技术:
博弈建模:
生成器(nerator) 试图创造逼真的图像。
判别器(discriator) 试图分辨真假。
零和博弈:双方不断进化,直到 ai 生成的图像足以骗过人类。
(6) 网络安全:攻击 vs 防御博弈
挑战:ai 需要应对黑客攻击,如自动检测恶意软件、网络入侵。
技术:
博弈建模:攻击者与防御者之间的动态对抗。
强化学习:ai 适应攻