В этой части рассматривается как GPT предсказывает следующий токен и зачем был введен Masked Attention