技術の内容
AIは画像中に映る物体の特徴を把握するデータ学習において、高精度なモデル開発には、大量のデータセットに対して人によるラベリング作業が必要であることが課題視されており、人が見ても判断が難しい「不確実性の高いデータ」(ノイズ、ボケ、光の反射などにより判断が困難なもの)がしばしば存在し、AIの学習を阻んでしまう。本手法は、従来難しかった画像の不確実性を考慮した学習を実現するため、「確率的生成モデル」と「自己教師あり学習」を初めて理論的に統合された。また、実験により、これまで「自己教師あり学習」で難しかった画像中の特徴の不確実性(AIにとって学習が難しい画像である度合い)を推定できることが実証された。
認識、検出、セグメンテーションなどを行う高精度な画像系AIモデルの開発には、大量のデータ収集とアノテーションによる学習データの準備に、多大な時間とコストを要することがAIの社会実装を進める上で課題となっている。そこで、事前に大量のラベルなしデータからAI自らに生成させた疑似的な正解ラベルを使って、画像の特徴を学習し、その後、タスク毎にわずかなデータで所望のタスクを高精度に実現させる「自己教師あり学習」が、アノテーションの負荷を大幅に下げる方法として、近年盛んに開発されている。
大量のラベルなしデータから画像に映し出された特徴を事前学習するにあたり、様々なタスクに応用できる汎用的な特徴表現を獲得するには、同じ物体に対して、一部のみ写っている場合・光の具合が異なる場合・画像が回転している場合など、様々な異なる見え方に対しても、同じ物体であるとAI自身が判定できるよう学習する必要がある。SimSiamなどの「自己教師あり学習」の手法では、それぞれの画像に対して回転・切り出し・色変換などの画像拡張を自動的に行い、AI目線での距離(特徴空間上での距離)が近くなるように学習することで、見え方が異なったとしても、同じ物体として認識できるよう事前に学習する。このAIをベースに用いることで、少量のラベル付けで様々なタスクを高精度に実現できることが知られている。
しかし、従来の「自己教師あり学習」は同じ画像の距離が近づくように学習する際に、各画像そのものの性質を余り考慮していない。何が写っているかわかりにくい画像(不確実性が高い)も、何が写っているか明確に分かりやすい画像(不確実性が低い)も同じように扱ってしまうため、不確実性の高い画像により、事前学習がうまく進まなかったり、モデルの精度を下げてしまう課題がある。
この課題に対し、パナソニックHDは、確率統計的なアプローチでの解決を試みた。不確実性の表現に優れたAI技術としてはVariational Auto Encoderなどに代表される確率的生成モデルが知られている。本研究では、この確率的生成モデルの数式から、従来の「自己教師あり学習」で用いられる数式を導出できることを証明し、二つの異なるAI技術の関係を理論的に明らかにされた(図1)。さらに、この知見を応用し、データセット中の画像の不確実性を推定できる手法が開発された。ImageNet100(ベンチマークデータセット)に対する評価実験で、画像の不確実性を本手法が推定できたことを定性的に実証するとともに(図2)、本手法で不確実性が高いと推定した画像を画像分類にかけた際、正答率が低くなる傾向がある、すなわち不確実性がAIの認識率に影響するという定量的な知見が得られた(図3)。
これまで、AIの学習データには質の高いデータが大量に必要であることが常識となっていたが、今回得られた知見により、学習データの質を不確実性として扱い、推定した不確実性をAIモデルの学習アルゴリズムに織り込むことで、データの質というハードルを乗り越えられるAIを実現できる可能性を示すことができた。