Abstract
Abstract. Machine learning combines inductive and automated techniques for recognizing patterns. These techniques can be used with remote sensing datasets to map aboveground biomass (AGB) with an acceptable degree of accuracy for evaluation and management of forest ecosystems. Unfortunately, statistically rigorous comparisons of machine learning algorithms are scarce. The aim of this study was to compare the performance of the 3 most common nonparametric machine learning techniques reported in the literature, vis., Support Vector Machine (SVM), k-nearest neighbor (kNN) and Random Forest (RF), with that of the parametric multiple linear regression (MLR) for estimating AGB from Landsat-5 Thematic Mapper (TM) spectral reflectance data, texture features derived from the Normalized Difference Vegetation Index (NDVI), and topographical features derived from a digital elevation model (DEM). The results obtained for 99 permanent sites (for calibration/validation of the models) established during the winter of 2011 by systematic sampling in the state of Durango (Mexico), showed that SVM performed best once the parameterization had been optimized. Otherwise, SVM could be outperformed by RF. However, the kNN yielded the best overall results in relation to the goodness-of-fit measures. The findings confirm that nonparametric machine learning algorithms are powerful tools for estimating AGB with datasets derived from sensors with medium spatial resolution.
Résumé. L’apprentissage automatique combine des techniques inductives et automatisées pour la reconnaissance des formes. Ces techniques peuvent être utilisées avec des ensembles de données de télédétection pour cartographier la biomasse aérienne « aboveground biomass » (AGB) avec un degré de précision acceptable pour l’évaluation et la gestion des écosystèmes forestiers. Malheureusement, des comparaisons statistiquement rigoureuses des algorithmes d’apprentissage automatique sont rares. Le but de cette étude était de comparer les performances des 3 méthodes d’apprentissage automatique non paramétriques les plus fréquemment rapportées dans la littérature, vis., les machines à vecteurs de support « Support Vector Machine » (SVM), les k plus proches voisins « k-nearest neighbor » (kNN) et les forêts aléatoires « Random Forest » (RF), avec celle de la régression linéaire multiple paramétrique (MLR) pour l’estimation de l’AGB provenant des données de réflectance spectrale de Landsat-5 Thematic Mapper (TM), des caractéristiques de texture dérivées de l’indice de végétation par différence normalisée « Normalized Difference Vegetation Index » (NDVI) et des caractéristiques topographiques dérivées d’un modèle numérique de terrain « digital elevation model » (DEM).Les résultats obtenus pour 99 sites permanents (pour la calibration/validation des modèles) établis au cours de l’hiver 2011 par l’échantillonnage systématique dans l’État de Durango (Mexique), ont montré que les SVM montrent leurs meilleures performances une fois que le paramétrage a été optimisé. Par ailleurs, les SVM pourraient être surpassées par les RF. Cependant, les kNN ont donné les meilleurs résultats globaux par rapport aux mesures d’ajustement. Les résultats confirment que les algorithmes d’apprentissage automatique non paramétriques sont des outils puissants pour l’estimation de l’AGB avec des ensembles de données provenant de capteurs avec une résolution spatiale moyenne.
Notes
Available from the US Geological Service webpage, at http://glovis.usgs.gov/
PCI Geomatics Inc. 2013