Abstract
The Deeplabv3+ network for semantic segmentation of remote sensing images has drawbacks like inaccurate edge segmentation and intra-class inconsistency in large-scale segmentation. The attention mechanism is a good solution to this problem. This paper integrates the dual attention mechanism module including spatial attention mechanism and channel attention mechanism (ISNet) into the network. Furthermore, the ISNet is added to both the encoder part and decoder part in the network. The newly proposed network is called DISNet. It can enhance target features and suppress background features, having the potential to improve semantic segmentation accuracy. The experimental results indicate that the Mean Intersection over Union (mIoU) of the Deepglobe dataset, GID dataset, and ISPRS test project (Vaihingen) dataset is respectively 64.22, 62.83, and 78.59%. Those results are 5.68, 4.80, and 6.20% higher than that of Deeplabv3+. The proposed network can effectively improve the accuracy of remote sensing land cover classification.
Résumé
Le réseau de segmentation sémantique des images de télédétection Deeplabv3+ comporte des inconvénients comme des erreurs de segmentation aux extrémités des images et de l’incohérence intra-classe dans les segmentations à grande échelle. Le mécanisme d’attention est une bonne solution à ce problème. Cet article présente un module de mécanisme d’attention double comprenant un mécanisme d’attention spatiale et un mécanisme d’attention de bande spectrale (ISNet) inclus dans le réseau. De plus, l’ISNet est ajouté à la partie encodeur et à la partie décodeur dans le réseau. Le réseau proposé s’appelle DISNet. Il peut améliorer les entités cibles et supprimer les entités d’arrière-plan, ce qui a le potentiel d’améliorer la précision de la segmentation. Les résultats expérimentaux indiquent que l’Intersection moyenne sur l’Union (mIoU) des ensembles de données Deepglobe, GID, et du projet test Vaihingen d’ISPRS est respectivement de 64.22%, 62.83%, et 78.59%. Ces résultats sont 5.68%, 4.80%, et 6.20% plus élevés que celui de Deeplabv3+. Le réseau proposé peut effectivement améliorer la précision de la classification de la couverture terrestre par télédétection.