Transformerを用いた代表的検出モデル「DETR」を中心に、ViT(Vision Transformer)による物体領域の検出、「CenterNet」による中心点予測型の検出、言語生成型アプローチである「Pix2Seq」、さらには「RetinaNet」などのCNN系アーキテクチャまで幅広くカバー、近年の物体検出分野の主要モデルを、比較・理解しながら習得できます。
全編にわたり、「Keras」(一部対応)と「PyTorch」の両ライブラリに対応しており、モデルの構築、推論、可視化、バックボーン(ResNet101/152)の変更や、COCOデータセットを用いた大規模推論処理の実装までを丁寧に解説しました。
画像分類のその先…「どこに、何があるのかを検出する」という実践的課題に挑むすべての人にお勧めの一冊です。
1章 開発環境について
2章 ViTモデルによる物体領域の検出(Keras)
3章 ViTモデルによる物体領域の検出(PyTorch)
4章 CenterNetによる物体領域の検出(PyTorch)
5章 DETRモデルによる物体検出(ResNet101)
6章 ResNet152をバックボーンとするDETRによる物体検出
7章 COCOトレーニングセットを使用下物体検出
8章 事前トレーニング済みDETRモデルによる物体検出
9章 Pix2Seqモデルを用いた物体検出(PyTorch)
10章 RetinaNetによる物体検出(Keras)