Pixel-BERT: Ausrichten von Bildpixeln mit Text durch tiefe multimodale Transformer | Synapse