De transformer-architectuur is ontworpen om een belangrijk probleem op te lossen in eerdere AI-modellen. Traditionele modellen, zoals Recurrent Neural Networks (RNN’s), hadden moeite om lange zinnen of complexe teksten te verwerken, omdat ze woord voor woord werkten. De transformer-architectuur doorbreekt deze beperking door naar de hele context van een zin te kijken in plaats van elk woord afzonderlijk te verwerken.
Stel je voor dat je een boek leest. Om het verhaal te begrijpen, moet je niet alleen de afzonderlijke woorden lezen, maar ook hoe ze samen zinnen en betekenis vormen. Dit is waar de kracht van de transformer-architectuur naar voren komt, met behulp van een mechanisme genaamd self-attention. Hierdoor kan het model niet alleen elk woord begrijpen, maar ook de relatie tussen alle woorden in een zin, waardoor het de volledige context in één keer kan analyseren.