EscortAI Dataset

EscortAI Dataset -接客インタラクションデータ基盤-

実世界の接客インタラクションを、学習可能なデータへ

EscortAI Datasetは、実世界の接客・案内シーンで発生する人と対話エージェント（ロボット/端末/アバター等）のインタラクションを、学習・評価に使える形で整備したデータセットです。
AI Labでは、顧客の事情を察して・聞いて・理解し、適切な手続きに乗せてエスコートする顧客対話AI「EscortAI」の研究開発に取り組んでいます。EscortAI Datasetは、EscortAIを含む接客AIを現場で頼れる品質に近づけるための学習・評価基盤として構築されています。

EscortAI Dataset で学習させた技術事例

EscortAI Datasetは、接客AIを構成する様々な要素技術のチューニング学習・推論に活用できます。

技術1：雑音環境下での音声認識

環境音・他者発話・残響・音声低減などが混在する状況でも、顧客発話を取りこぼさずに認識するための学習に活用できます。

モデル：Whisper small
入力：音声
出力：ユーザ発話内容テキスト

技術2：雑音環境下での発話者推定

複数人が存在する状況で、誰が話しているのかを推定し、話者に合わせた応答や記憶の紐づけに繋げます。

モデル：TalkNet (ACM MM2021)
入力：顔画像シーケンス、音声
出力：各顔画像の発話状態

技術3：インタラクションからの対話戦略獲得

会話の成功・失敗、顧客の反応、離脱などのイベントを踏まえ、より良い声かけや案内手順を学習する研究に活用できます。

モデル：gpt-4o
入力：映像、対話履歴
出力：対話戦略テキスト

技術4：発話者の感情認識

不安・焦り・困惑など、接客で重要となる心理状態の推定により、寄り添う応対や適切な支援へ繋げます。

学習モデル例：DQF (WACV2026)
入力：顔画像シーケンス、音声、音声認識テキスト
出力：感情ラベル

技術5：ユーザの非言語行動認識

しぐさ・視線・指差しなど、言語以外のシグナルを捉えることで、より素早く自然な接客インタラクションを目指します。

モデル：独自モデル
入力：画像シーケンス
出力：人物ごとの行動ラベル

技術6：人物の行動予測

身体の向き・姿勢の変化などを踏まえ、接近・離脱の兆候や次の行動の予測に繋げます。

モデル：SkeletonDiffusion (CVPR2025)
入力：時刻 T-N から T までの骨格シーケンス
出力：時刻 N+1 から N+M までの骨格シーケンス（未来情報）

世界にあふれているはずの「人と接するシーン」のデータが不足している

労働人口減少に伴う店舗運営の省人化・自動化が進むと、私たちの世界には人と関わるシステムが多くなっていくと予想されます。人々がサービスやシステムと接する場面には、セルフレジ・受付を伴う施設ロボットなど、さまざまな形の対話エージェントが出現しており、「システムが人と接するシーン」は大幅に増えています。

セルフレジ・受付端末を使う人
タッチサイネージで施設情報を探す人
配膳ロボットから商品を受け取る利用客
公道を移動する宅配ロボットが邪魔になっている通行人
車内エージェントとやりとりする運転ユーザなど

こうした接客・案内に限らず、人と接するインタラクション全般では、単にユーザーからの質問に答えるだけでは不十分で、人の動きや振る舞いから事情を察する力と、察した事情に適した正しい手続きへ導いてエスコートする力が必要です。ハイコンテキストなやりとりの中で先回りして行動判断する必要があります。さらに実空間では、雑音・複数話者・遮蔽・割り込み・離脱などの多大なノイズが常に重なります。それらが揃った「人と接するシーン」のデータセットが不足しています。

EscortAI Dataset の詳細

EscortAI Datasetは、現場で通用する自律接客AIを実現するために構築された、実世界における人（従業員）がロボットを遠隔操作して、人（利用客）と対話したシーンのインタラクションを中心に収録したデータセットです。実運用の現場で起きる、無視・離脱・割り込み・いたずら等を含むやりとりを捉えることで、「統制環境でのみ動く接客AI」から「現場で通用する接客AI」に近づけることを目指します。得られる知見はロボットに限らず、セルフレジ/受付端末/サイネージ/アバター／操作端末等の幅広いサービス接点に応用可能です。

本データは大阪大学・石黒研究室との共同研究の枠組みの中で、対話エージェントによる接客技術の確立と科学的知見の獲得を目的として収集されました。倫理・プライバシーへの配慮として、本取り組みは研究倫理審査を経た上で、適切な告知・同意を含む手続きのもとで実施しています。

Dataset stats（2026年4月時点）

項目	内容
総収録時間	約80時間
インタラクション発生時間	約12時間
収録シーン	3シーン（店舗入口でのウェルカミング接客 / 栄養カウンセリング / 店舗受付）
主なモダリティ	ユーザ側の映像・音声 / エージェント側の操作ログ（遠隔操作者の音声・視線・ジェスチャ等）
主な付与情報	書き起こし / 匿名化ID / 行動ログ / 感情・状態ラベル

EscortAI Datasetの設計思想（「事情」「手続き」「想定外」を学ぶために）

1. 「事情（人の内面）」に近づくための多面的な観測

接客で重要なのは、発話内容だけでなく、迷い・不安・困りごとといった状態変化です。EscortAI Datasetでは、言語情報に加えて、音声の揺らぎや非言語行動など、状態推定に資するシグナルを同一インタラクションとして扱えるように整理しています。これにより、感情・状態理解モデルの学習・評価に繋げます。

2. 「手続き（ドメイン知識）」を伴うやりとりを含む

受付やカウンセリングのように、「次に何を確認し、どの手続きへ誘導するか」が結果を左右するシーンを含みます。エージェント側の発話や動作ログを合わせて扱うことで、ドメインに沿った案内・誘導（対話戦略）の獲得を後押しします。

3. 「想定外（ノイズ・崩れ・外乱）」を含む実世界そのもの

ロボットが無視される、対話途中で離脱される、割り込みが入る、いたずらをされる──統制環境では起きにくい現象が含まれます。こうした想定外を前提にした学習・評価により、現場で破綻しにくい認識・対話制御の研究に活用できます。

一緒に世界を変える仲間を募集しています

私たちは、実世界の接客を変える対話AI・ロボット研究に本気で取り組んでいます。
採用はもちろん、共同研究・実証フィールド連携・社会実装にご関心のある方も歓迎します。

実環境で動く対話AI／マルチモーダル認識／音声・行動理解の研究開発に挑戦したい
産学連携で、研究成果を現場に届けたい
実証フィールド（店舗・施設・受付・案内端末など）を提供できる企業/団体
ドメイン知識を提供できる現場・専門家

採用情報共同研究・
実証フィールド連携
お問い合わせ