Nördnytt loggaNördnytt! 🤓

Is One Layer Enough? A Single Transformer Layer Matches Full-Parameter RL Train

arxiv.org - 97 poäng - 22 kommentarer - 21654 sekunder sedan
Kommentarer (9)

Alla inlägg kommer från HackerNews.