Как запустить автономного чат-бота на своем ПК на примере LlaMa 3

Скорее всего, вы уже попробовали ChatGPT от Open AI, Copilot от Microsoft и Gemini от Google. Возможно, вам понравилось и вы стали использовать чат-ботов в своей работе или для решения личных нужд. Главная загвоздка любой из этих LLM — вся обработка ваших запросов происходит где-то в далеких от вас дата-центрах и отсутствие интернета у вас или сбой на стороне поставщика моментально превращает вашего любимого чат-бота в тыкву. Еще одна причина, по которой стоит обратить внимание на автономные языковые модели — ваша конфиденциальность, ведь все ваши переписки с ботами в дальнейшем используются для обучения LLM.
LlaMa 3 — пример локальной большой языковой модели, которая не потребует от вас высокопроизводительного оборудования и способна работать на любом современном ПК. Это проект с открытым исходным кодом, который распространяется бесплатно, не содержит рекламы или платных функций и доступен буквально любому пользователю. LLaMA 3 выходит в двух вариантах: версия 8B (8 млрд параметров) будет корректно работать на любом более-менее современном ПК или лэптопе, а вот 70B (70 млрд параметров) потребует как минимум 24 ГБ видеопамяти (VRAM).

Что умеет и для чего можно использовать LlaMa 3

Для начала, всех, кто не в ладах с иностранными языками ждет неприятный сюрприз: хотя модель прекрасно понимает запросы на русском, ответы она предпочитает давать на английском, правда, по запросу пользователя тут же без проблем переводит свои ответы. Всего в поддерживаемых языках указаны английский, русский, испанский, французский, немецкий, итальянский и португальский. Модель создает креативные тексты, понимает контекст запросов внутри одного диалога, обладает неплохой базой фактических данных, решает математические примеры и может писать код на Python. При этом это не мультимодальная система: она не умеет генерировать изображения или видео по пользовательскому запросу, а ваш промт должен содержать только текст.
Также стоит понимать, что это чат-бот, а не энциклопедия, так что в ряде случаев ответы LlaMa 3 могут содержать фактические ошибки. Так, в нашем примере Марианская впадина при переводе внезапно превратилась в “Марийскую”, хотя в ответе на английском ошибки нет. Кроме того, поскольку, мы говорим о локальной модели, у LlaMa 3 просто нет доступа к самым свежим новостям и событиям в мире, так что вы можете получить неточную или устаревшую информацию.

llama3-44.jpg

Как установить

Если возможности бота вас устраивают, а ограничения не пугают, дело за малым — установить LlaMa 3 на свой ПК. Кроме собственно языковой модели, вам потребуется интерфейс для запуска и работы с LLM. Самый простой и удобный вариант — GPT4All, исполняемый файл которого доступен на официальном сайте, есть версии для Windows, Mac и Linux. После установки приложения, загружаем на устройство LLaMA 3 Instruct и выбираем модель в выпадающем списке сверху. После такой несложной настройки можно сразу начинать диалог.
Скорость генерации ответов будет напрямую зависеть от мощности вашего ПК. В нашем тесте модель работала со скоростью до 3,7 токенов в секунду, а на устройствах с большим объемом видеопамяти и, в случае чипсетов Apple, унифицированной памяти, результат может быть гораздо больше.

llama3-1.jpg llama3-2.jpg llama3-3.jpg

Материал был полезен? Ждем ваших мнений о прочитанном в комментариях.

Как запустить автономного чат-бота на своем ПК на примере LlaMa 3

Что умеет и для чего можно использовать LlaMa 3

Как установить

Комментарии