Articles // AI-инфраструктура

Локальный инференс LLM на Intel Arc A770 без CUDA

Разбираю, как развернуть локальную LLM-генерацию на Intel Arc A770 16GB: какой стек брать вместо CUDA, какие модели влезают в 16 ГБ и какой квант не убивает скорость.

· 8 мин чтения ·

TL;DR

Intel Arc A770 16GB — рабочая карта для локального инференса LLM, если не пытаться повторять CUDA-пайплайн NVIDIA. Берём IPEX-LLM (Ollama Portable Zip) как основной путь и OpenVINO как высокопроизводительную альтернативу. Рабочая лошадка под текст — Qwen2.5-14B-Instruct в INT4. K-кванты (Q4_K_M) на SYCL-бэкенде медленнее симметричного INT4 — это главный нюанс.

Почему не CUDA

Intel Arc не поддерживает CUDA. Это не проблема: для инференса есть зрелый стек на базе oneAPI и SYCL. Попытка натянуть CUDA-ориентированные сборки на Arc приводит к падению производительности или работе на CPU. Правильный путь — инструменты, изначально собранные под Intel GPU.

Стек инференса

Три варианта, от простого к производительному:

  • IPEX-LLM (Ollama Portable Zip) — самый быстрый старт. OpenAI-совместимый API из коробки, прямая интеграция с n8n и любыми клиентами.
  • OpenVINO 2025.x — выше throughput на тех же весах, но требует конвертации модели в IR-формат.
  • llama.cpp с SYCL-бэкендом — запасной вариант, максимум контроля над квантами.
# IPEX-LLM Ollama Portable Zip (Linux/Windows)
# 1. Распаковать архив, активировать окружение Intel GPU
./start-ollama.sh
# 2. Поднять модель
ollama run qwen2.5:14b-instruct-q4_0

Важно про кванты

На SYCL-бэкенде K-кванты вроде Q4_K_M считаются медленнее, чем симметричный INT4 (q4_0) или INT4-формат OpenVINO. Если упёрлись в скорость — смените квант до смены модели.

Подбор моделей под 16 ГБ

Задача Модель Квант Заметка
Копирайтинг / SEO Qwen2.5-14B-Instruct INT4 Сильный технический RU/EN
Классификация / outline Qwen2.5-7B-Instruct INT4 Быстрее, для лёгких стадий
Альтернатива 7B Mistral-7B-Instruct-v0.3 INT4 ~50-70 tok/s на A770

Для разных стадий пайплайна имеет смысл держать разные модели: тяжёлую 14B на финальный драфт, быструю 7B на скоринг и черновые outline.

Куда это встраивается

Локальный инференс — фундамент для автоматизированной генерации контента: модель крутится локально, а оркестрация (расписание, сбор инфоповодов, модерация) живёт в n8n. Подробнее об архитектуре такого конвейера — в отдельной статье про контент-завод.

Выводы

  • Intel Arc A770 16GB закрывает локальный инференс 7B-14B без CUDA.
  • IPEX-LLM — быстрый старт, OpenVINO — для скорости, llama.cpp-SYCL — для контроля.
  • Главный нюанс производительности — выбор кванта (INT4 вместо K-квантов на SYCL).

FAQ

Нужна ли CUDA для Intel Arc?

Нет. Intel Arc работает через oneAPI/SYCL. Для LLM используется IPEX-LLM или OpenVINO, а не CUDA-стек NVIDIA.

Какая модель влезает в 16 ГБ?

В INT4 в 16 ГБ комфортно помещается модель уровня 14B (например Qwen2.5-14B-Instruct) с запасом под контекст.

Обсудить проект в Telegram