9月16日、Google AI Blogに、学習時間を短縮し、最先端の性能を実現した、画像認識用の2つのモデルを紹介した「Toward Fast and Accurate Neural Networks for Image Recognition」が公開された。
スクリーンショット: Toward Fast and Accurate Neural Networks for Image Recognition
この記事では、画像認識モデルの「EfficientNetV2」と「CoAtNet」を紹介している。
EfficientNetV2は、convolutional neural networksで構成されており、ImageNet1k(128万枚の画像)のような比較的小規模なデータセットに対して、高速な学習速度を目指している。
CoAtNetは、convolutionとself-attentionを組み合わせたハイブリッドモデルで、ImageNet21(1,300万枚の画像)やJFT(数十億枚の画像)のような大規模データセットでより高い精度を得ることを目的としている。
これまでの結果と比較して、4〜10倍高速であり、定評のあるImageNetデータセットでは、state-of-the-art 90.88%でtop-1 accuracyを達成した。
より詳細な内容については、ブログを参照。
EfficientNetV2モデルはオープンソースで、プレトレーニングされたモデルもTFhubで公開されている。
CoAtNetのモデルもオープンソース化される予定だという。
今後は、これらのモデルをさらに最適化し、ゼロショット学習や自己教師あり学習など、大容量で高速なモデルが必要な新しいタスクに適用することを計画している。
Toward Fast and Accurate Neural Networks for Image Recognition - Google AI Blog
Whether you're a newcomer to Sprunked or a seasoned player, there’s always something new to learn and experience.