Transformers

Across

3. Recurrent Neural Networks
5. Encoder output
9. Decoder mechanism
10. Processes input sequence

Down

1. Mechanism for long-range dependencies
2. Generates output sequence
4. Natural Language Processing
6. Attention-based model
7. Transformer excels at this
8. RNN weakness