強化学習 - CyberAgent AI Lab

2025.5.7

Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model

2025.1.22

A Comment on “Adaptive Treatment Assignment in Experiments for Policy Choice” (2021)

2024.11.25

Efficient Creative Selection in Online Advertising using Top-Two Thompson Sampling

2024.7.1

On Universally Optimal Algorithms for A/B Testing

2024.5.23

Safe Collaborative Filtering

2024.5.23

Policy Gradient with Kernel Quadrature

2024.5.23

Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation

2024.5.23

Policy Gradient Algorithms with Monte-Carlo Tree Learning for Non-Markov Decision Processes

2024.5.23

On the True Distribution Approximation of Minimum Bayes-Risk Decoding

2024.5.23

Model-based minimum bayes risk decoding

2024.5.23

Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding

2024.5.23

Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding

2024.5.23

Adaptively Perturbed Mirror Descent for Learning in Games

2024.5.15

On Universally Optimal Algorithms for A/B Testing

2024.5.15

Matroid Semi-Bandits in Sublinear Time

2024.5.15

二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束

2024.3.13

Scalable and Provably Fair Exposure Control for Large-Scale Recommender Systems

2024.3.13

Learning Fair Division from Bandit Feedback

2024.2.16

Optimal Clustering from Noisy Binary Feedback

2023.12.11

Memory Asymmetry Creates Heteroclinic Orbits to Nash Equilibrium in Learning in Zero-Sum Games

2023.11.2

On Uniformly Optimal Algorithms for Best Arm Identification in Two-Armed Bandits with Fixed Budget