Ехал Грека через реку. — Кто ехал? — Димон
Это первая часть из задуманной серии статей про ИИ. Здесь мы на немного заступим в техническую часть памяти/контекста LLM моделей. Разберем, почему они частенько забывают или выдумывают факты и врут. Как attention ломается на длинном контексте Начнём с фундамента. Трансформер работает на self-attention — каждый токен смотрит на все остальные и решает, на что обратить […]

