Achievement_Chenlab

多次元多様体学習を用いたコア情報の抽出と階層的な大規模画像理解の研究開発

・研究目的：

本プロジェクトでは、大規模なデータセットにおける高速且つ高精度な一般画像情報認識技術の開発を目的とする。画像認識では、物体の変形やシーンの撮影条件などの変化にロバストな特徴抽出・表現が必要がある。また、大規模なデータセットに対して計算コストの短縮が必要がある。本研究では、画像や映像を高速かつ高精度で認識するため、外部環境からの影響が受けにくい局所的特徴は一つのテンソルとして取り扱い、統一的に効率よく記述する。また、多次元多様体学習を用いて認識に有用ななコア情報を選択する。更に、ボトムアップ処理とトップダウン処理を用いて下位のビジュアル特徴と上位セマンティック意味を融合させ、「階層的画像認識法」の開発しを目指す。

・研究の概念図：

我々はこれまで、統計分析を用いて画像処理・解析と画像検索や認識に関する研究を行なって来た。そして、近年では画像から抽出した大量な局所的特徴をBOF特徴ようの量子化では無く、一つのテンソルとして取り扱い、統一的に効率よく記述した。さらに、多次元多様体学習（Multilinear Supervised Neighborhood Embedding—MSNE）を開発して、より認識に有用なコア情報の抽出を行った。提案手法をシーン、物体及び顔画像の認識への応用において、認識精度の向上だけではなく、計算コストとメモリ使用量も大きく削減できた。シーン認識の結果例を図1に示す。計算コストやメモリ使用量を図2に示す。

図1 提案したMSNEとBOF法によるシーンの認識精度の比較

図2 BOFと提案したMSNE法用いて特徴抽出際の計算コストとメモリ使用量の比較

本プロジェクトでは、大規模画像のマネージメントや理解・認識システムを構築する。それを実現するために、以下の2点がキーポイントとなる。
(1). 大規模データセットは中小規模のものに比べ、画像サンプル数とコンセプト数が膨大になる。認識精度、計算コストとメモリ使用のトレードオフが大きな問題となる。
(2). コンセプト（オブジェクト）間の関係や画像全体のセマンティック意味とコンセプトの関係などが複雑になる。こちらの関係を分析し、画像理解を深める必要がある。
本プロジェクトでは、上記の2点を考慮し、多次元統計分析理論の枠組で先行研究開発しである多次元多様体学習法（MSNE）を用いて、局所特徴テンソルから認識に有用なコア情報を抽出し、画像を表現する。さらに画像中におけるコンセプト間の相関関係と各層間の相補関係を利用し、ボトムアップ処理とトップダウン処理を融合し、「階層的画像認識法」を開発する。その概念図は図3に示すている。

図3 研究の概念図

・研究の流れ：

本プロジェクトでは、画像・映像から抽出した様々な局所特徴が一つのテンソルとして取り扱い、統一的効率よく記述する。またテンソルベース多次元多様体学習アルゴリズムを開発し、局所特徴テンソルから認識に有用なコア情報をを選択する。更に、画像中のコンセプト（オブジェクト）間の相関関係や画像全体のセマンティック意味とオブジェクト間の相補関係を利用して画像理解精度の向上をさせ、大規模メディアコンテンツ認識システムを開発する。認識すべきコンテンツについて、ImageNetやLSCOM lexiconを参考にして画像および映像データベースを構築する。提案した手法を用いてコンテンツの認識・理解の実用システムを開発する。

1. 画像を表現するために有効なコア情報を抽出手法の開発：

画像から局所的な特徴を抽出し、一つのテンソルとして取り扱い、統一的に効率よく記述する。更にテンソルベース統計分析手法を開発し、認識に有用なコア情報を抽出する。その流れが図４に示す。

図4認識に有用なコア情報の抽出

2. 階層的画像認識法の開発：

階層的なボトムアップとトップダウン処理を融合する画像理解手法を開発し、画像理解精度の向上を目指す。この概念図を図5に示す。

図5　階層的画像認識法

・関連研究発表：