TY  - EJOU
AU  - Zhang, Xiaorui 
AU  - Wang, Yingying 
AU  - Sun, Wei 
AU  - Zhou, Shiyu 
AU  - Zhang, Haoming 
AU  - Wang, Pengpai 

TI  - A Fine-Grained Recognition Model based on Discriminative Region Localization and Efficient Second-Order Feature Encoding
T2  - Computers, Materials \& Continua

PY  - 2026
VL  - 87
IS  - 1
SN  - 1546-2226

AB  - Discriminative region localization and efficient feature encoding are crucial for fine-grained object recognition. However, existing data augmentation methods struggle to accurately locate discriminative regions in complex backgrounds, small target objects, and limited training data, leading to poor recognition. Fine-grained images exhibit “small inter-class differences,” and while second-order feature encoding enhances discrimination, it often requires dual Convolutional Neural Networks (CNN), increasing training time and complexity. This study proposes a model integrating discriminative region localization and efficient second-order feature encoding. By ranking feature map channels via a fully connected layer, it selects high-importance channels to generate an enhanced map, accurately locating discriminative regions. Cropping and erasing augmentations further refine recognition. To improve efficiency, a novel second-order feature encoding module generates an attention map from the fourth convolutional group of Residual Network 50 layers (ResNet-50) and multiplies it with features from the fifth group, producing second-order features while reducing dimensionality and training time. Experiments on Caltech-University of California, San Diego Birds-200-2011 (CUB-200-2011), Stanford Car, and Fine-Grained Visual Classification of Aircraft (FGVC Aircraft) datasets show state-of-the-art accuracy of 88.9%, 94.7%, and 93.3%, respectively.
KW  - Fine-grained recognition; feature encoding; data augmentation; second-order feature; discriminative regions

DO  - 10.32604/cmc.2025.072626