Beyond attention [& transformers]

09.03.2023 22:15

Paper Blog

Hyena is a convolutional layer for LLMs that can shrink the gap with attention, while scaling *subquadratically* in seq len (eg train a lot faster @ 64k + train 100k+ tokens!) 2/

blogs: https://t.co/DIeS1kfyte, https://t.co/FE8BgZYzTX
code: https://t.co/ss9n5bxtDP pic.twitter.com/4yCzbJWlLJ
— Michael Poli (@MichaelPoli6) March 7, 2023

Abstract of the article linked above:

Recent advances in deep learning have relied heavily on the use of large Transformers due to their ability to learn at scale. However, the core building block of Transformers, the attention operator, exhibits quadratic cost in sequence length, limiting ...

Читайте на сайте

Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. Абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.

Новости от наших партнёров в Вашем городе

Ria.city

Музыкальные новости

Новости России

Экология в России и мире

Спорт в России и мире

Moscow.media

Топ новостей на этот час

Все города России

СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *

Beyond attention [& transformers]

Читайте на сайте

Sport 24/7

Настроение

Game24.pro

Объявления

Новости от наших партнёров в Вашем городе

Топ новостей на этот час