ESCORT DATA
EscortData -接客インタラクションデータ基盤-

実世界の接客インタラクションを、学習可能なデータへ
EscortDataは、実世界の接客・案内シーンで発生する人と対話エージェント(ロボット/端末/アバター等)のインタラクションを、学習・評価に使える形で整備したデータセットです。
AI Labでは、顧客の事情を察して・聞いて・理解し、適切な手続きに乗せてエスコートする顧客対話AI「Escort AI」の研究開発に取り組んでいます。EscortDataは、Escort AIを含む接客AIを現場で頼れる品質に近づけるための学習・評価基盤として構築しています。
世界にあふれる「接客シーン」のデータが不足している
労働人口減少に伴う店舗運営の省人化・自動化が進むと、私たちの世界には人と関わるシステムが多くなっていくと予想されます。人々がサービスと接する場面には、セルフレジ・受付端末や配膳ロボットなど、さまざまな形の対話エージェントが出現し、人々との関わりを持つ「接客シーン」が増えていきます。
- セルフレジ・受付端末を使う人
- タッチサイネージで施設情報を探す人
- 配膳ロボットから商品を受け取る利用客
- 移動型ロボットや車内エージェントとやりとりする利用ユーザ
こうした接客・案内では、単にユーザからの質問に答えるだけでは不十分で、人の動きや振る舞いから事情を察する力と、察した事情に適した正しい手続きへ導いてエスコートする力が必要です。ハイコンテキストなやりとりの中で先回りして行動判断する必要があります。さらに実空間では、雑音・複数話者・遮蔽・割り込み・離脱などの多大なノイズが常に重なります。それらが揃った「接客シーン」のデータセットが不足しています。

EscortDataとは
EscortDataは、遠隔操作型の対話ロボットを実世界の接客シーンに展開した際のインタラクションを中心に収録したデータセットです。実運用の現場で起きる、無視・離脱・割り込み・いたずら等を含むやりとりを捉えることで、理想環境では動くから現場で通用する接客AIへ近づけることを目指します。得られる知見はロボットに限らず、セルフレジ/受付端末/サイネージ/アバター等の幅広いサービス接点に応用可能です。
本データは大阪大学・石黒研究室との共同研究の枠組みの中で、対話エージェントによる接客技術の確立と科学的知見の獲得を目的として収集されました。倫理・プライバシーへの配慮として、本取り組みは研究倫理審査を経た上で、適切な告知・同意を含む手続きのもとで実施しています。
データサンプル

何が入っているデータセットか
収録シーン(例)
- 店舗入口でのウェルカミング接客
- 栄養カウンセリング
- 店舗受付の接客
モダリティ(例)
- ユーザ側:映像(画像/動画)・音声(雑音を含む実環境)
- エージェント側:ロボットの操作ログ(遠隔操作者の発話音声、視線、ジェスチャ行動)
付与情報(例)
- 対話内容の書き起こし
- ユーザのトラッキング番号
- ユーザの行動ログ(例:接近/離脱、非言語行動)
- ユーザの感情状態(例:幸福/中立/驚き)
Dataset stats(2026年2月時点)
| 項目 | 内容 |
|---|---|
| 総収録時間 | 約80時間 |
| インタラクション発生時間 | 約12時間 |
| 収録シーン | 店舗入口でのウェルカミング接客 / 栄養カウンセリング / 店舗受付 |
| 主なモダリティ | ユーザ側の映像・音声 / エージェント側の操作ログ(遠隔操作者の音声・視線・ジェスチャ等) |
| 主な付与情報 | 書き起こし / 匿名化ID / 行動ログ / 感情・状態ラベル |
EscortDataの設計思想(「事情」「手続き」「想定外」を学ぶために)
1. 「事情(人の内面)」に近づくための多面的な観測
接客で重要なのは、発話内容だけでなく、迷い・不安・困りごとといった状態変化です。EscortDataでは、言語情報に加えて、音声の揺らぎや非言語行動など、状態推定に資するシグナルを同一インタラクションとして扱えるように整理しています。これにより、感情・状態理解モデルの学習・評価に繋げます。
2. 「手続き(ドメイン知識)」を伴うやりとりを含む
受付やカウンセリングのように、「次に何を確認し、どの手続きへ誘導するか」が結果を左右するシーンを含みます。エージェント側の発話や動作ログを合わせて扱うことで、ドメインに沿った案内・誘導(対話戦略)の獲得を後押しします。
3. 「想定外(ノイズ・崩れ・外乱)」を含む実世界そのもの
ロボットが無視される、対話途中で離脱される、割り込みが入る、いたずらをされる──統制環境では起きにくい現象が含まれます。こうした想定外を前提にした学習・評価により、現場で破綻しにくい認識・対話制御の研究に活用できます。
EscortDataを学習させた技術事例
EscortDataは、接客AIを構成する様々な要素技術の学習・推論に活用できます。
技術1:雑音環境下での音声認識
環境音・他者発話・残響などが混在する状況でも、顧客発話を取りこぼさずに認識するための学習に活用できます。
- 学習モデル例:Whisper (ICML2023)
- 入力:音声 / 出力:発話書き起こし
技術2:雑音環境下での発話者推定
複数人が存在する状況で、誰が話しているのかを推定し、話者に合わせた応答や記憶の紐づけに繋げます。
- 学習モデル例:TalkNet (ACM MM2021)
- 入力:顔画像シーケンス、音声 / 出力:各顔画像の発話状態
技術3:インタラクションからの対話戦略の獲得
会話の成功・失敗、顧客の反応、離脱などのイベントを踏まえ、より良い声かけや案内手順を学習する研究に活用できます。
- 学習モデル例:GPT4o
- 入力:映像、対話履歴 / 出力:対話戦略テキスト
技術4:発話者の感情認識
不安・焦り・困惑など、接客で重要となる心理状態の推定により、寄り添う応対や適切な支援へ繋げます。
- 学習モデル例:DQF (WACV2026)
- 入力:顔画像シーケンス、音声、テキスト / 出力:感情ラベル
技術5:ユーザの非言語行動認識
しぐさ・視線・指差しなど、言語以外のシグナルを捉えることで、より素早く自然な接客インタラクションを目指します。
- 学習モデル例:独自モデル
- 入力:画像シーケンス / 出力:人物ごとの行動ラベル
技術6:人物の行動予測
身体の向き・姿勢の変化などを踏まえ、接近・離脱の兆候や次の行動の予測に繋げます。
- 学習モデル例:SkeletonDiffusion (CVPR2025)
- 入力:時刻T-N からTまでのスケルトンシーケンス / 出力:時刻N+1からN+Mまでのスケルトンシーケンス(未来情報)
一緒に世界を変える仲間を募集しています
私たちは、実世界の接客を変える対話AI・ロボット研究に本気で取り組んでいます。
採用はもちろん、共同研究・実証フィールド連携・社会実装にご関心のある方も歓迎します。
- 実環境で動く対話AI/マルチモーダル認識/音声・行動理解の研究開発に挑戦したい
- 産学連携で、研究成果を現場に届けたい
- 実証フィールド(店舗・施設・受付・案内端末など)を提供できる企業/団体
- ドメイン知識を提供できる現場・専門家