Research
Media fundamentals
研究テーマ
視覚・言語表現を統合的に理解する
チームミッション
Media fundamentalsチームは視覚・言語表現を統合的に理解する技術により、効果的な広告表現を分析し、広告制作を支援することを目指します。広告を目的とした画像や動画、ウェブサイトは、デザイナーがキャッチコピーや写真・イラストなどを編集し組み合わせることで作られています。これら多様なメディアによって構成される表現の認識技術は、これまで蓄積してきた広告データを活用し、広告業界の未来を切り開いていくための重要な技術的基盤です。本チームでは広く広告分析・制作を支える技術を確立するため、画像・映像・テキストなど多様なメディアを対象とした研究に取り組んでいます。具体的にはグラフィックデザインの傾向を分析し、高い効果が期待できる色や素材画像を推薦するデザイナー支援システムや、種類の異なるメディアを包括的に扱うための機械学習手法の研究に取り組んでいます。
プロジェクト
① グラフィックデザインの配色推薦システム
広告の配色はその商品の印象を大きく左右する重要な要素です。この研究プロジェクトではランディングページのデータベースから配色傾向を学習し、ユーザが指定した要素の色違いデザインを自動的に作成します。これまで配信されたランディングページの実績を合わせて学習することで、より高い効果が期待できる色を提案します。
② 認識アルゴリズムの評価
近年は深層学習の発展により、画像やテキストの高度な認識手法は目覚ましい成果をあげています。しかし、複雑な認識タスクの評価方法は未だ確立されていない領域が多く、評価方法が原因でアルゴリズムの正確な比較が阻害されたり、研究開発の方向性を誤らせることがあります。これまで本チームでは映像要約や動画の特定シーン検出、物体検出などの評価方法の研究に取り組んできました。評価方法を改善することで、関連領域の技術開発を加速することが期待できます。
研究領域
Computer Vision / Mutimedia / Reccomend /
所属メンバー
論文一覧
-
The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization
コンピュータビジョン
ECCV 2024
-
Robust Nearest Neighbors for Source-Free Domain Adaptation under Class Distribution Shift
Computer Vision
ECCV 2024
-
How to Defend Image-Text Matching against Adversarial Attacks
Computer Vision
MIRU 2024 (Oral)
-
Source-Free Domain Adaptation with Class Distribution Shift via Generic Features
Computer Vision
MIRU 2024
-
LayoutFlow: Flow Matching for Layout Generation
コンピュータビジョン
ECCV2024
-
Complementary-Contradictory Feature Regularization against Multimodal Overfitting
コンピュータビジョン
WACV 2024
-
Multimodal color recommendation in vector graphic documents
マルチメディア
ACM MM 2023
-
Dissecting multimodal learning via regularized masking of multimodal features
コンピュータビジョン
MIRU2023 (Long oral)
-
Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation
コンピュータビジョン
CVPR 2023
-
Color Recommendation for Vector Graphic Documents based on Multi-Palette Representation
コンピュータビジョン
WACV 2023
-
Contrastive Losses Are Natural Criteria for Unsupervised Video Summarization
コンピュータビジョン
WACV 2023
-
An Intelligent Color Recommendation Tool for Landing Page Design
コンピュータビジョン
IUI 2022 Companion
-
Optimal Correction Cost for Object Detection Evaluation
コンピュータビジョン
CVPR 2022
-
Does robustness on ImageNet transfer to downstream tasks?
コンピュータビジョン
CVPR 2022
-
Video Summarization Overview
コンピュータビジョン
Foundations and Trends® in Computer Graphics and Vision
-
Uncovering Hidden Challenges in Query-Based Video Moment Retrieval
コンピュータビジョン
British Machine Vision Conference (BMVC)
-
BERT representations for Video Question Answering
コンピュータビジョン
WACV 2020
-
Knowledge-Based Visual Question Answering in Videos
コンピュータビジョン
CVPRWorkshop WiCV
-
KnowIt VQA: Answering Knowledge-Based Questions about Videos
コンピュータビジョン
AAAI 2020
-
Visually Grounded Paraphrase Identification via Gating and Phrase Localization
コンピュータビジョン
Neurocomputing
-
コメディドラマにおける字幕と表情を用いた笑い予測
コンピュータビジョン
JSAI 2019
-
Adaptive Gating Mechanism for Identifying Visually Grounded Paraphrases
コンピュータビジョン
ICCV workshops, Multi-Discipline Approach for Learning Concepts - Zero-Shot, One-Shot, Few-Shot and Beyond, 2019
-
Rethinking the Evaluation of Video Summaries
コンピュータビジョン
MIRU 2019
-
Collecting Relation-Aware Video Captions
コンピュータビジョン
MIRU 2019
-
Learning to Identify Visually Grounded Paraphrase
コンピュータビジョン
MDALC workshop (ICCV'19)
-
An Empirical Study of Language Representations for Video Question Answering
コンピュータビジョン
MIRU2019
-
Linking Videos and Languages: Representations and Their Applications
コンピュータビジョン
IPSJ 研究会推薦博士論文速報
-
Unreasonable Effectiveness of OCR in Visual Advertisement Understanding
コンピュータビジョン
CVPR workshops, 2018
-
iParaphrasing: Extracting visually grounded paraphrases via an image
自然言語処理
COLING 2018
-
Visually grounded paraphrase extraction via phrase grounding
コンピュータビジョン
CVPR workshops, 2018