強化学習 - CyberAgent AI Lab

2024.11.25

Efficient Creative Selection in Online Advertising using Top-Two Thompson Sampling

2024.7.1

On Universally Optimal Algorithms for A/B Testing

2024.5.28

機械学習が紡ぐゲーム理論のフロンティア

2024.5.28

RLHFにおける分布シフトの評価

2024.5.23

Policy Gradient with Kernel Quadrature

2024.5.23

Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation

2024.5.23

Policy Gradient Algorithms with Monte-Carlo Tree Learning for Non-Markov Decision Processes

2024.5.23

On the True Distribution Approximation of Minimum Bayes-Risk Decoding

2024.5.23

Model-based minimum bayes risk decoding

2024.5.23

Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding

2024.5.23

Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding

2024.5.23

Adaptively Perturbed Mirror Descent for Learning in Games

2024.5.15

On Universally Optimal Algorithms for A/B Testing

2024.5.15

二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束

2024.3.15

研修医配属における地域間格差を調整する制約のモンテカルロ木探索

2024.3.15

二人零和マルコフゲームにおける状態抽象化法に関する研究

2024.3.13

Learning Fair Division from Bandit Feedback

2024.2.16

Optimal Clustering from Noisy Binary Feedback

2023.12.11

Memory Asymmetry Creates Heteroclinic Orbits to Nash Equilibrium in Learning in Zero-Sum Games

2023.11.2

On Uniformly Optimal Algorithms for Best Arm Identification in Two-Armed Bandits with Fixed Budget

2023.10.29

オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究