What question did this study set out to answer?

The aim is to systematically compare the performance of Transformer and ConvNet architectures for root segmentation across diverse datasets.

April 22, 2026Open Access

A systematic comparison of transformers and ConvNets for root segmentation across nine datasets

Key Points

The aim is to systematically compare the performance of Transformer and ConvNet architectures for root segmentation across diverse datasets.
Evaluated 21 segmentation architectures across nine root image datasets
Trained 1511 models using various combinations of architectures, datasets, and pre-training strategies
Computed over 3 million segmentations for performance evaluation
Transformers achieved a higher mean Dice score (0.679) than ConvNets (0.659) with statistical significance (p = 3.0 x 10^-3)
Pre-training improved mean Dice scores significantly from 0.623 to 0.666, particularly benefiting Transformers
Dataset choice accounted for 70.9% of performance variance, indicating its critical importance in segmentation tasks

Abstract

Abstract Background Root segmentation is a fundamental yet challenging task in image-based plant phenotyping. Accurate segmentation is a prerequisite for extracting root traits relevant to plant physiology, breeding, and agronomy. While U-Net and other convolutional neural network (ConvNet) architectures have been applied to root segmentation, no systematic comparison of multiple Transformer and ConvNet architectures has been conducted across diverse root imaging conditions. Results We evaluated 21 segmentation architectures across nine diverse root image datasets, training 1511 models to assess all combinations of architecture, dataset, pre-training strategy, and learning rate, producing over 3 million segmentations for evaluation. Transformer-based models significantly outperformed ConvNets for Dice (mean Dice 0. 679 vs 0. 659; p = 3. 0 10^-3). Root-diameter and root-length correlation were also higher for Transformers, but the differences were not statistically significant (p = 0. 054 and p = 0. 198 respectively). Pre-training significantly improved mean Dice from 0. 623 to 0. 666 (p = 6. 6 10^-10), with Transformers benefiting more from pre-training than ConvNets (Dice improvement + 0. 072 vs + 0. 021; p = 3. 7 10^-4), supporting the hypothesis that fine-tuned Transformers transfer more effectively across large domain gaps. MobileSAM achieved the highest Dice score (0. 693) while maintaining computational efficiency. Both architecture families underestimated thin root length compared to manual annotations. Dataset choice explained 70. 9% of performance variance, far exceeding model architecture (6. 7%). Purpose Transformer architectures significantly outperform ConvNets for root segmentation accuracy, and pre-training significantly improves performance, particularly for Transformers. Pre-trained MobileSAM offers the best accuracy at competitive computational cost. Dataset choice dominates performance variance, suggesting practitioners should prioritize data curation over architecture selection.

Bookmark

View Full Paper

Bookmark

View Full Paper

A systematic comparison of transformers and ConvNets for root segmentation across nine datasets

Key Points

Abstract

Cite This Study