RITA: a Study on Scaling Up Generative Protein Sequence Models

Есть классическая задача моделирования протеина,

которую очень хорошо решают трансформеры тк речь идет о вполне NLPшной последовательности.

- 280m протеиновых последовательностей в претрейне из сетов UniRef-100, MGnify и

Metaclust

- Rotary Positional Embeddings просто потому что это улучшает качество модели

- Претрейн как GPT3 с аналогичными гипараметрами в

следующих размерах: 85, 300, 68m и 1.2b соотвественно с seqlen 1024

- По метрикам обгонят PROTOGPT2

доступно в huggingaface простым AutoModelForCausalLM.from_pretrained("lightonai/RITA_s", trust_remote_code=True)

датасет лежит тут

Уровни подписки