PaLM
PaLM (англ. Pathways Language Model) — это большая языковая модель на основе архитектуры трансформера с 540 миллиардов параметров, разработанная Google AI[1]. Исследователи также создали версии моделеи PaLM с 8 и 62 миллиардами параметров, чтобы проверить влияние масштаба[2].
PaLM способен выполнять широкий спектр задач, включая логические рассуждения, арифметические рассуждения, объяснение шуток, генерацию кода и перевод текстов[2][3][4][5]. В сочетании с подсказками по цепочке рассуждений PaLM достигла значительно более высокой производительности при работе с наборами данных, требующими логических выыодов в несколько этапов, таких как текстовые задачи и логические вопросы[1][2].
Впервые об этой модели было объявлено в апреле 2022 года, и она оставалась закрытой до марта 2023 года, когда Google запустил API для работы с PaLM и другими технологиями[6]. Сообщалось, что сначала API будет доступен для ограниченного числа разработчиков, которые присоединятся к списку ожидания, прежде чем он будет открыт для широкой публики[7].
Google и DeepMind разработали версию PaLM 540B под названием Med-PaLM, которая тонко настроена на медицинские данные и превосходит предыдущие модели в тестах где нужно отвечать на медицинские вопросы[8][9]. Med-PaLM была первой моделью, которая получила проходной балл по вопросам медицинского лицензирования в США, и в дополнение к точным ответам как на вопросы с множественным выбором, так и на открытые вопросы, она также предоставляет аргументы и может оценивать свои собственные ответы[10].
Google также расширил PaLM с помощью ViT, чтобы создать PaLM-E, современную языковую модель со зрением, которую можно использовать в робототехнике[11][12]. Модель может соревновательно выполнять задачи по робототехнике без необходимости переобучения или тонкой настройки[13].
ОбучениеПравить
PaLM предварительно обучена на высококачественном корпусе из 780 миллиардов токенов, которые включают в себя различные задачи на естественном языке и варианты использования. Этот набор данных включает отфильтрованные веб-страницы, книги, статьи в Википедии, новостные статьи, исходный код, полученный из репозиториев с открытым исходным кодом на GitHub, и разговоры в социальных сетях[1][2]. Она основана на наборе данных, используемом для обучения модели Google LaMDA[2]. Часть набора данных, посвященная разговорам в социальных сетях, составляет 50 % корпуса, что помогает модели в её диалоговых возможностях[2].
PaLM 540B была обучена на двух модулях TPU v4 с 3072 чипами TPU v4 в каждом модуле, подключенными к 768 хостам, подключённым с использованием комбинации модели и параллелизма данных, что является крупнейшей конфигурацией TPU, описанной на сегодняшний день[2][14]. Это позволило провести эффективное обучение в масштабе с использованием 6 144 чипов, что стало рекордом максимальной эффективности обучения, достигнутой для LLM в этом масштабе с использованием аппаратных FLOP на 57,8 %[3].
ПримечанияПравить
- ↑ 1 2 3 Narang; Chowdhery, Aakanksha Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance (англ.). ai.googleblog.com. Дата обращения: 17 марта 2023.
- ↑ 1 2 3 4 5 6 7 Chowdhery, Aakanksha (2022). “PaLM: Scaling Language Modeling with Pathways”. DOI:10.48550/arXiv.2204.02311.
- ↑ 1 2 Anadiotis. Google sets the bar for AI language models with PaLM (неопр.). VentureBeat (12 апреля 2022). Дата обращения: 17 марта 2023.
- ↑ Bastian. Google PaLM: Giant language AI can explain jokes (неопр.). THE DECODER (5 апреля 2022). Дата обращения: 17 марта 2023.
- ↑ Google: Why Is No One Talking About PaLM (NASDAQ:GOOG) | Seeking Alpha (англ.). seekingalpha.com (12 декабря 2022). Дата обращения: 17 марта 2023.
- ↑ Vincent. Google opens up its AI language model PaLM to challenge OpenAI and GPT-3 (неопр.). The Verge (14 марта 2023). Дата обращения: 17 марта 2023.
- ↑ Huffman; Woodward, Josh PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications (англ.). Дата обращения: 17 марта 2023.
- ↑ Singhal, Karan (2022). “Large Language Models Encode Clinical Knowledge”. DOI:10.48550/arXiv.2212.13138.
- ↑ MedPaLM: New Chatbots Will Soon Be Better Than Waiting For A Doctor (неопр.). The Medical Futurist (17 января 2023). Дата обращения: 17 марта 2023.
- ↑ Matias; Corrado, Greg Our latest health AI research updates (амер. англ.). Google (14 марта 2023). Дата обращения: 17 марта 2023.
- ↑ Driess, Danny (2023). “PaLM-E: An Embodied Multimodal Language Model”. DOI:10.48550/arXiv.2303.03378.
- ↑ Driess; Florence, Pete PaLM-E: An embodied multimodal language model (англ.). ai.googleblog.com. Дата обращения: 17 марта 2023.
- ↑ Edwards. Google’s PaLM-E is a generalist robot brain that takes commands (амер. англ.). Ars Technica (7 марта 2023). Дата обращения: 17 марта 2023.
- ↑ An empirical analysis of compute-optimal large language model training (англ.). www.deepmind.com. Дата обращения: 17 марта 2023.