0
点赞
收藏
分享

微信扫一扫

Nash Convergence of Mean-Based Learning Algorithms in First Price Auctions(博弈论+机制设计) 论文阅读笔记

eelq 2022-02-26 阅读 27

Nash Convergence of Mean-Based Learning Algorithms in First Price Auctions 论文阅读笔记

一、基本信息

  • 题目:基于均值的学习算法在首价拍卖中的纳什均衡收敛性
  • 作者:Xiaotie Deng,Xinyan Hu,Tao Lin,Weiqiang Zheng

二、文章摘要

  • 以下内容取自原文摘要部分:
  • 理解重复拍卖中学习算法的收敛性质是一个对于拍卖学习领域来说迫切且重要的问题,该领域有着广泛的应用比如在线广告市场。该工作聚焦于重复一价拍卖,其中竞价者拥有固定估值并且学习去用基于均值的学习算法去竞价,该算法是一大类在线学习算法包括著名的no-regret algorithms比如Multiplicative Weights Update、Follow the Perturbed Leader。我们完全描绘了基于均值算法的学习动态性,以拍卖的纳什均衡的收敛性为表现,具体到以下两点:(1)时间平均:竞价者依据纳什均衡决策的轮次比例极限情况下接近于1。(2)最后迭代:竞价者的混合策略在极限情况下接近于1。具体来说,结果依赖于拥有最高估值的竞价者的数量。
  • 如果数量至少为3,竞价动态过程几乎一定收敛于拍卖的纳什均衡,在时间平均与最后迭代两个方面都成立;如果数量是2,竞价动态过程几乎一定收敛于拍卖的纳什均衡,但只在时间平均方面,并不一定成立于最后迭代方面;如果数量为1,竞价动态过程可能在时间平均与最后迭代方面都不会收敛于拍卖的纳什均衡。
  • 我们的研究在学习算法的动态收敛领域开启了新的可能。
  • 我的总结:目前在线广告竞拍中大多采用重复一价拍卖的形式。一价拍卖不可信,因此策略选择成为关键。重复博弈的特点使得学习算法可以成为策略选择的工具。本文研究一类学习算法,即基于均值的学习算法在重复一价拍卖中的收敛情况。本文模型简单,可直接计算证明出均衡,通过模拟实验的方法比对实验结果与均衡,从而印证结论。

三、背景介绍

  • 在线广告竞拍领域,一价拍卖已经渐渐取代了二价拍卖。一价拍卖是不可信的,竞价者需要推理其他竞价者的估值与策略来指定自己的竞价策略。(二价拍卖是可信的,竞价者只需要根据自己的估值竞价即可)因此一价拍卖中,如何寻找一个合适的竞价策略成为了难题。但是基于在线广告拍卖重复博弈的性质,以及算力的提升,如今竞价者们能够使用自动竞价算法去学习竞价。那么问题来了,所有竞价者都使用学习算法,竞赛会收敛到均衡吗?本文的研究目的:理解重复一价拍卖中无悔算法的收敛性。
  • 本文基于假设:所有参赛者对奖项的估值固定,即不随着轮次而改变。固定估值假设处理简单,并且应用广泛。贝叶斯估值(不同轮次独立同分布取样估值)目前无通用算法可解。固定估值下的收敛情况都一般,贝叶斯估值情况会更糟糕。
  • 前人研究有关于学习算法收敛到更弱的相关均衡,以及在部分特定竞赛中,无悔学习算法收敛到纳什均衡,以及一些竞赛设定中,无悔学习算法根本不会收敛到纳什均衡。因此本文针对于基于均值的学习算法研究其在一价拍卖中的纳什均衡收敛性质,同时提供了积极以及消极的结果。
  • 前人的研究更多关注于平均迭代收敛,而我们的研究将关注点放到更一般设定下末轮收敛的未来研究工作。
  • 前人要求工作更多关注于卖家角度,也就是考虑卖家如何调整拍卖机制最大获利;本文关注于买家角度,即买家如果做出最优化决策。现有针对于买家角度的研究也大多只关注单一竞价者,我们还考虑了多竞价者之间的影响。

四、本文模型

  • 一价重复拍卖:参赛者集合 N = { 1 , 2 , . . . , n } , n ≥ 2 N=\{1,2,...,n\},n\ge 2 N={1,2,...,n},n2。单一卖家拍卖单一物品无限轮次。每位竞价者都对物品有着固定的估值 v i v^i vi(不随轮次改变)。假设 v 1 ≥ v 2 ≥ . . . ≥ v N v^1\ge v^2\ge ... \ge v^N v1v2...vN。在每一轮 t ≥ 1 t\ge 1 t1中,每位竞价者产生竞价 b t i ∈ { 0 , 1 , . . . , V } b_t^i\in \{0,1,...,V\} bti{0,1,...,V}。竞价最高者得并且支付其竞价,其他人不用支付竞价,如果出现平局情况,则在候选人中随机产生一位胜者。每个人的出价范围是 B i = { 0 , 1 , . . . , v i − 1 } B^i=\{0,1,...,v^i-1\} Bi={0,1,...,vi1}。竞价者 i i i的期望效用函数为:( 1 [ b i = m a x j ∈ N b t j ] \bold{1}[b_i=max_{j\in N}b^j_t] 1[bi=maxjNbtj]是指当满足中括号内条件时值为1,否则为0;因为是期望收益,所以最后乘以分数表示平局情况
    u i ( b t i , b t − i ) = ( v i − b t i ) 1 [ b i = m a x j ∈ N b t j ] 1 ∣ a r g m a x j ∈ N b t j ∣ u^i(b_t^i,\bold{b^{-i}_t})=(v^i-b^i_t)\bold{1}[b_i=max_{j\in N}b^j_t]\frac{1}{|argmax_{j\in N}b_t^j|} ui(bti,bti)=(vibti)1[bi=maxjNbtj]argmaxjNbtj1
  • 在线学习:假设所有参赛者每轮都使用在线学习算法来产生竞价。每轮中算法在竞价选择范围中选择竞价,然后得到自己的或者所有人的收益作为反馈,进一步调整竞价。
  • 基于均值算法 α t i ( b ) = 1 b ∑ s = 1 t u i ( b , b s − i ) \alpha_t^i(b)=\frac{1}{b}\sum_{s=1}^t u^i(b,\bold{b_s^{-i}}) αti(b)=b1s=1tui(b,bsi)表示参赛者 i i i在前 t t t轮选择竞价 b b b 的平均收益。学习率为 γ t \gamma_t γt的基于均值算法为:对于任何 b ∈ B i b\in B_i bBi,如果存在 b ′ ∈ B i b'\in B^i bBi使得 α t − 1 i ( b ′ ) − α t − 1 i ( b ) > V γ t \alpha_{t-1}^i(b')-\alpha_{t-1}^i(b)>V\gamma_t αt1i(b)αt1i(b)>Vγt,那么算法在轮次 t t t中选择 b b b的概率至多为 γ t \gamma_t γt。如果随着轮次趋于无穷,学习率趋于0,那么算法称之为基于均值算法。常见的基于均值算法有如下几种:Follow the Leader、 ϵ t \epsilon_t ϵt-Greedy、Multiplicative Weights Update
  • 在该竞赛设定下的均衡与一般均衡含义相同。本文提出特殊情况下的均衡条件,依据最高估值人数来分类讨论。

五、核心结论

  • 本文关于重复一价拍卖中基于均值算法收敛性的主要结论依赖于拥有最高估值的竞价者数量,也就是 ∣ M 1 ∣ |M^1| M1
  • 。。。。。。

六、总结展望

  • 原文总结:在本文的内容中我们表明,在有固定估值的重复一价拍卖中,基于均值学习的竞价者在竞争面前收敛到拍卖的纳什均衡,只要满足至少有两个竞价者共享最高估值。不考虑竞争,我们提供了例子表明基于均值算法并不会收敛于纳什均衡。我们给出的例子算法并不一定是无悔的。在缺乏竞争的情况下理解无悔算法的收敛性质是未来合理且有趣的研究方向。事实上,Kolumbus and Nisan(2021)点明了非基于均值的无悔算法不会收敛。此工作开启了对于基于均值的无悔算法的收敛与否的证明。分析估值随时间变化的重复一价拍卖同样是一个合理的且充满挑战的未来研究方向。
  • 给我的启发:
    1.我所研究的全支付竞赛的均衡推理过程能否用重复博弈来模拟呢?
    2.复杂模型的均衡求解,除了重复博弈可以用学习算法去迭代,还有什么其他程序计算方法吗?
    3.本文是用模拟实验数据去验证是否收敛到已知均衡。那么我们用模拟实验的方法求出的收敛结果,是不是也可能不是均衡。不是均衡,但他毕竟也是收敛了,有什么作用呢?
    4.模拟实验均衡一定是收敛的结果,但收敛结果一定是均衡吗?不存在均衡的情况下,是不收敛还是收敛于非均衡呢?
举报

相关推荐

0 条评论