研究プロジェクト

視覚言語モデルとの非言語インタラクション

2025

現在の大規模言語モデルや視覚言語モデルは主に自然言語による指示に依存しており、人間のコミュニケーションの重要な要素である非言語情報を十分に活用できていないという課題があります。本研究では、視線、ジェスチャー、表情などの身体的表現を言語モデルへの入力モダリティとして統合し、より直感的で自然なHuman-AIインタラクションの実現を目指しています。身体動作そのものをAIに対する入力指示として扱える基盤技術の開発により、言語に頼らない多様なコミュニケーション様式を可能にし、AIシステムのアクセシビリティと包摂性の向上に取り組んでいます。

Large Language Models

Vision-Language Models

Human-Computer Interaction

義肢利用者のための包摂的3次元姿勢推定

2023

現在の姿勢推定技術は「標準的」な身体を前提としており、義肢利用者を含む多様な身体特性を持つ人々が技術から排除されているという根本的な課題があります。本研究では、走行用義肢利用者の3次元動作データを独自に収集・整備し、既存手法の限界を体系的に評価するベンチマークを構築しています。義肢特有の形状と身体関節の両方を同時に推定する新しいタスクを定義することで、インクルーシブなAI技術の実現に向けた研究基盤を築いています。

Computer Vision

xDiversity

身体的インタラクションを通じた言語モデルの体験設計

2023

大規模言語モデルの能力は急速に拡大していますが、その可能性を引き出すには適切なプロンプト設計が必要であり、非専門家ユーザにとって大きな障壁となっています。本研究では、テキスト入力に頼らない身体的・空間的インタラクションを通じて、一般ユーザが言語モデルの推論をより直感的に体験できる入口を設計しています。ユーザが音声と身体動作をセットでデバイスに教え込み、デバイスが新たな発話に対して自律的に動きで応答するという枠組みにより、言語モデルの振る舞いを身体で観察できる体験を実現します。博物館など公共空間での実験を通じて、その有効性を検証しています。

Large Language Models

Human-Computer Interaction

xDiversity

汎用視線推定のための大規模事前学習

2022

カメラ画像のみを入力とする視線推定が実現できても、特定の環境や人物向けに収集されたデータで学習したモデルは、未知の条件では精度が大きく落ちるという課題が残ります。本研究では、大規模な顔画像データを用いた自己教師あり事前学習と、複数カメラの幾何学的関係を活用したマルチビュー推定の両面から、この汎化の問題に取り組んでいます。視線推定がもつ幾何学的な回帰タスクとしての特性を踏まえた設計により、未知の頭部姿勢や撮影環境に対しても頑健な推定を実現しています。

Computer Vision

Machine Learning

ゲーミフィケーションを通した参加型データ収集

2020

機械学習モデルの開発には大規模で質の高いデータが不可欠ですが、従来のデータ収集・評価手法は単調な作業の繰り返しとなりがちで、幅広い参加者からデータを集めることが難しいという課題があります。本研究では、データ収集・評価プロセスをゲーム要素と組み合わせることで、参加者が楽しみながら貢献できる枠組みを構築しています。視線推定を対象とした2人協力型ゲームや、視覚言語モデルの限界を探索するゲームを通じて、多様なデータを収集するとともに、参加者のAI技術への理解と関心を深める参加型研究基盤の実現に取り組んでいます。

Machine Learning

Participatory Design

非専門家向けインタラクティブ機械学習

2019

画像認識や機械学習にもとづくシステムをデザインする上で、訓練済みモデルの応用を考えるだけでは不十分なケースは数多く存在し、ユーザ自信が自分なりの認識モデルを主体的に設計できる枠組みが重要になります。本研究室では、ツールとしての機械学習を一般ユーザに開かれたものにするために、インタラクティブな機械学習環境を実現するための可視化手法・インタフェース設計やワークショップを通した分析など、システムの開発とユーザ評価・検証実験を通してこの課題に挑戦しています。

Machine Learning

Human-Computer Interaction

xDiversity

アピアランスベース視線推定

2019

環境の中で人がどこを見ているかを認識することで、注意に関連する人間の内部状態推定や人の注意に応じた柔軟な情報提示などの様々な応用が実現できます。従来の視線推定は専用のハードウェアを必要とする手法が主流でその応用範囲が限られていましたが、私達は大規模な訓練データセットと機械学習によりカメラ画像のみを入力とした視線推定手法を開発しています。

Computer Vision

Machine Learning