成寡头竞争博弈。
(2) 合作 vs 竞争
合作博弈(operative ga):
ai 代理可以联合形成联盟,如无人机群体协调完成搜救任务。
非合作博弈(non-operative ga):
ai 代理之间可能是竞争关系,如自动交易算法在股票市场博弈,或ai 竞标广告投放。
2 强化学习(rercent learng, rl)与博弈
(1) 单智能体 rl vs 多智能体 rl(arl)
传统强化学习(如 alphago)通常只考虑一个智能体在固定环境中的学习问题。
多智能体强化学习(arl)引入博弈论思想,让多个 ai 代理在互动环境中优化策略,如 openai 的 dota 2 ai 或 deepd 的 alphastar(星际争霸 ai)。
(2) 典型博弈策略学习
零和博弈(zero-su ga):
例如棋类 ai(围棋、国际象棋、德州扑克 ai)使用对抗性强化学习(adversarial rl)优化策略,使自己获胜的概率最大。
非零和博弈(non-zero-su ga):
例如 ai 在共享经济(如 uber、滴滴司机动态定价)中学习如何平衡竞争和合作,优化收益。
(3) 进阶博弈 ai
alphago(围棋 ai):
结合蒙特卡洛树搜索(cts)与深度强化学习(drl),基于自我博弈(self-py)不断优化策略。
librat(德州扑克 ai):
采用不完全信息博弈(iperfect ration ga),预测对手隐藏信息,提高博弈胜率。
3 现实应用:互动博弈 + ai
(1) 自动驾驶决策
场景:多辆自动驾驶汽车在交叉路口需要决策是加速、减速还是让行。
博弈建模:
合作博弈:所有车辆共享信息,协作通行,减少交通堵塞(如