算法
UCBi(t−1,δ)={∞μ^i(t−1)+Ti(t−1)2log(1/δ) if Ti(t−1)=0 otherwise
At=argmaxiUCBi(t−1,δ)
当 μ^i(t−1)很大或 Ti(t−1)很小时,算法在直觉上都能满足
引理一
P(μ⩾μ^+n2log(1/δ))⩽δ for all δ∈(0,1)
对于 Xi−μ服从 σ−subgaussian分布
P(μ^⩾μ+ϵ)⩽e−2σ2nϵ2 and P(μ^⩽μ−ϵ)⩽e−2σ2nϵ2
(详见ETC算法的引理三证明)
对于上式,令 δ=e−2σ2nϵ2 则 ϵ=n2log(1/δ)
Regret分析
假设 μ1=μ∗
Rn=i=1∑kΔiE[Ti(n)]
设定 Gi为一个“好事件”
Gi={μ1<t∈[n]minUCB1(t,δ)}∩{μ^iui+ui2log(δ1)<μ1}
可以得到“好事件”发生的两个性质
Ti(n)⩽ui
假设在时刻 t,满足 Ti(t−1)=ui 和 At=i
UCBi(t−1,δ)=μ^i(t−1)+Ti(t−1)2log(1/δ)=μ^iui+ui2log(1/δ)<μ1<UCB1(t−1,δ)
故 At=argmaxjUCBj(t−1,δ)=i
以及
Gic 为小概率事件
Gic={μ1⩾t∈[n]minUCB1(t,δ)}∪{μ^iui+ui2log(δ1)⩾μ1}
对于左式
P(μ1⩾t∈[n]minUCB1(t,δ))⩽P⎝⎛s∈[n]⋃{μ1⩾μ^1s+s2log(1/δ)}⎠⎞⩽s=1∑nP(μ1⩾μ^1s+s2log(1/δ))⩽nδ
对于右式,μ1−μi=Δi
P(μ^iui+ui2log(1/δ)⩾μ1)=P⎝⎛μ^iui−μi⩾Δi−ui2log(1/δ)⎠⎞⩽P(μ^iui−μi⩾cΔi)⩽exp(−2uic2Δi2)
注意 0<c<1
对于最后一步,X∼σ-subgaussian
P(X⩾ε)⩽exp(−2σ2ε2)
结合起来可得
P(Gic)≤nδ+exp(−2uic2Δi2)
根据“好事情”的两个性质,我们可以得到
E[Ti(n)]⩽E[I{Gi}Ti(n)]+E[I{Gic}Ti(n)]⩽ui+n(nδ+exp(−2uic2Δi2))
不妨取 ui=⌈(1−c)2Δi22log(1/δ)⌉,δ=1/n2 以及 c=1/2
E[Ti(n)]⩽ui+n(nδ+exp(−2uic2Δi2))⩽ui+1+n1−2c2/(1−c)2=⌈(1−c)2Δi22log(n2)⌉+1+n1−2c2/(1−c)2⩽3+Δi216log(n)
Regret的上界为
Rn=i=1∑kΔiE[Ti(n)]=i:Δi<Δ∑ΔiE[Ti(n)]+i:Δi⩾Δ∑ΔiE[Ti(n)]⩽nΔ+i:Δi⩾Δ∑(3Δi+Δi16log(n))⩽nΔ+Δ16klog(n)+3i∑Δi⩽8nklog(n)+3i=1∑kΔi,
运行结果