Multi-task approach based on combined CNN-transformer for efficient segmentation and classification of breast tumors in ultrasound images

Visual Computing for Industry, Biomedicine, and Art

Table 2 Our adapted Transformer parameters used in the encoder

ViT version	Image resolution	Projection dimension	Number of MSA heads	Number of transformers layers
ViT-base	224 × 224	768	12	12
Our adapted transformer	256 × 256	64	8	12