Research
Reinforcement Learning
研究テーマ
最適な意思決定戦略の学習
チームのミッション
Reinforcement Learningチームでは、実サービスにおける成果や利益を最大化するような意思決定戦略を構築・学習できるような技術の確立を目指しています。インターネット広告を始めとした多くの実サービスでは、大量の意思決定を行うために意思決定プロセスを自動化することが行われています。このとき、売上や利益を最大化させるためには、データやモデルをもとに最適な意思決定戦略を構築、および変化させていくことが重要となります。本チームでは、強化学習やバンディット問題に関する研究に取り組むことで、意思決定戦略を自動で最適化するアルゴリズムを開発することを目指しています。特に、インターネット広告配信時にユーザに合わせた広告クリエイティブを提示する技術や、自動で対話文・広告文を生成する技術の開発を行ってまいりました。
プロジェクト
文脈情報を用いたバンディットアルゴリズム
ウェブサービスにおいては、オンライン広告配信時等に、取得するデータを適応的に決めながら最適な意思決定を行う回数を最大化することを目指す、バンディットアルゴリズムが盛んに応用されています。バンディットアルゴリズムによる意思決定を行う際、時刻・ユーザーの年齢層・ユーザーが利用しているOSなどをはじめとする文脈情報が得られる場合があり、文脈情報を利用したバンディットアルゴリズムではより質の高い意思決定を行うことが可能です。このような背景をもとに、高次元の文脈情報を用いたバンディットアルゴリズムに関する研究を行ってきました。
関連リンク:
AI Lab、機械学習分野のトップカンファレンス「ICML2022」にて論文採択 ー高次元情報を用いた逐次的な意思決定手法を提案
言語モデルの強化学習
言語モデルによる言語生成は広告文作成や記事要約、対話応答など多くのサービスを自動化し、ビジネスを加速させています。言語モデルに強化学習を用いることで、教師データに対する尤度だけでなく、クリック率や広告効果などビジネスで関心のある指標を最大化でき、また教師データから外れた文章の生成にも頑健になります。現在、自然言語処理チームなどと連携して、非マルコフ性など言語生成と強化学習の設定の違いに注目し、アルゴリズムの研究を行っています。
関連リンク:
Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes
マルチエージェント環境における意思決定戦略の学習・評価
広告オークションをはじめとする多くの実環境では、自社サービスの意思決定者以外にも複数の意思決定者が存在します。このような状況は「マルチエージェント環境」と呼ばれ、他の意思決定者が用いる意思決定戦略に合わせて適応的に自社サービスの意思決定戦略を変化させていくことが必要となります。これまで本チームではマルチエージェント環境において他の意思決定者の戦略の変化に頑強な意思決定戦略の学習・評価方法の研究に取り組んできました。
関連リンク:
AI Lab、機械学習分野のトップカンファレンス「AISTATS 2023」にて2本の主著論文採択
AI Lab、人工知能分野のトップカンファレンス「IJCAI 2023」にて主著論文採択
AI Lab、機械学習分野のトップカンファレンス「UAI2022」にて主著論文採択ーマルチエージェント環境における学習を安定化させる手法を提案ー
AI Lab研究員 阿部拳之、電気通信大学との共著論文が「FIT2021」にてFIT2021船井ベストペーパー賞を受賞
AI Lab、マルチエージェント分野のトップカンファレンス「AAMAS 2021」にて論文採択 ー複数の意思決定者が存在する環境における意思決定モデルの事前評価手法を提案ー
研究領域
強化学習 / バンディット問題 / マルチエージェント学習 / オンライン学習 / ゲーム理論
所属メンバー
論文一覧
-
Efficient Creative Selection in Online Advertising using Top-Two Thompson Sampling
強化学習
WSDM 2025
-
On Universally Optimal Algorithms for A/B Testing
機械学習
Stochastic Networks conference 2024
-
Safe Collaborative Filtering
推薦システム
ICLR 2024
-
Policy Gradient with Kernel Quadrature
強化学習
Transactions on Machine Learning Research (TMLR)
-
Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation
強化学習
NAACL SRW 2024
-
Policy Gradient Algorithms with Monte-Carlo Tree Learning for Non-Markov Decision Processes
強化学習
Reinforcement Learning Conference (RLC) 2024
-
On the True Distribution Approximation of Minimum Bayes-Risk Decoding
自然言語処理
NAACL 2024
-
Model-based minimum bayes risk decoding
強化学習
ICML 2024
-
Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding
強化学習
Findings of ACL 2024
-
Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding
強化学習
Findings of ACL 2024
-
Adaptively Perturbed Mirror Descent for Learning in Games
強化学習
ICML 2024
-
On Universally Optimal Algorithms for A/B Testing
強化学習
ICML 2024
-
Matroid Semi-Bandits in Sublinear Time
Machine Learning
40th International Conference on Machine Learning (ICML 2024)
-
二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束
強化学習
情報処理学会論文誌
-
Scalable and Provably Fair Exposure Control for Large-Scale Recommender Systems
機械学習
WWW 2024
-
Learning Fair Division from Bandit Feedback
強化学習
AISTATS 2024
-
Optimal Clustering from Noisy Binary Feedback
強化学習
Machine Learning
-
Memory Asymmetry Creates Heteroclinic Orbits to Nash Equilibrium in Learning in Zero-Sum Games
強化学習
AAAI 2024
-
On Uniformly Optimal Algorithms for Best Arm Identification in Two-Armed Bandits with Fixed Budget
機械学習
Workshop on Bandits and Statistical Tests 2023
-
Exploration of Unranked Items in Safe Online Learning to Re-Rank
推薦
SIGIR2023
-
Rate-Optimal Bayesian Simple Regret in Best Arm Identification
機械学習
Mathematics of Operations Research
-
An Optimal Clustering Algorithm for the Labeled Stochastic Block Model
機械学習
ICML 2023 Workshop: Sampling and Optimization in Discrete Space
-
Learning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibrium
強化学習
IJCAI 2023
-
Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games
強化学習
AISTATS 2023
-
Fair Matrix Factorisation for Large-Scale Recommender Systems
推薦
RecSys 2022 FAccTRec Workshop
-
強化学習一般
強化学習
人工知能学会誌 Vol.37 No.4 (2022/7)、特集:「意思決定のための機械学習」
-
Mutation-Driven Follow the Regularized Leader for Last-Iterate Convergence in Zero-Sum Games
強化学習
UAI 2022
-
Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Search
強化学習
IJCAI 2022
-
Computing Strategies of American Football via Counterfactual Regret Minimization
強化学習
AAAI 2022 Workshop on Reinforcement Learning in Games
-
Thresholded Lasso Bandit
機械学習
ICML 2022
-
Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games
強化学習
AAMAS 2021
-
Mean Variance Efficient Reinforcement Learning
機械学習
NeurIPS workshop on Deep Reinforcement Learning
-
見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究
強化学習
FIT 2021
-
強化学習
強化学習
Summer School 数理物理 2021
-
Online Learning for Bidding Agent in First Price Auction
強化学習
AAAI 2020 Workshop on Reinforcement Learning in Games