Key points are not available for this paper at this time.
이 작업에서는 판매자가 각 광고 후보의 클릭률(CTR)을 학습하고 승자의 가격을 클릭당 지불 방식으로 청구해야 하는 광고 경매에서 수익 극대화의 온라인 학습 문제를 조사합니다. 우리는 광고주의 전략적 행동의 두 가지 모델에 초점을 맞춥니다. 첫째, 광고주가 완전히 근시안적이라고 가정합니다; 즉, 각 라운드에서 그들은 현재 라운드에 대해서만 유틸리티를 극대화하려고 합니다. 이 설정에서 우리는 최악의 경우 O(T) 후회를 달성하고, 모든 경매에서 값이 정적일 때와 가장 높은 기대 가치(즉, 가치가 클릭률에 곱해진 경우)와 두 번째로 높은 기대 가치 광고 간의 차이가 있을 때 음의 후회를 달성하는 상한 신뢰 구간에 기반한 온라인 메커니즘을 개발합니다. 다음으로, 광고주가 비근시안적이며 장기적 유틸리티에 관심이 있다고 가정합니다. 이 설정은 광고주가 초기 라운드에서 전략적으로 입찰함으로써 메커니즘에 영향을 미치도록 유도되기 때문에 훨씬 더 복잡합니다. 이 설정에서 우리는 정적 가치 평가 설정(긍정적인 차이가 있는 경우)에 대해 음의 후회를 달성하는 알고리즘을 제공합니다. 이는 적 대적이 가치 평가를 생성할 때 O(T^2/3) 후회를 보여주는 이전 작업과 극명한 대조를 이룹니다.
Feng et al. (목요일) 이 질문을 연구했습니다.