TL;DR
Intel Arc A770 16GB — рабочая карта для локального инференса LLM, если не пытаться повторять
CUDA-пайплайн NVIDIA. Берём IPEX-LLM (Ollama Portable Zip) как основной путь и OpenVINO
как высокопроизводительную альтернативу. Рабочая лошадка под текст — Qwen2.5-14B-Instruct в
INT4. K-кванты (Q4_K_M) на SYCL-бэкенде медленнее симметричного INT4 — это главный нюанс.
Почему не CUDA
Intel Arc не поддерживает CUDA. Это не проблема: для инференса есть зрелый стек на базе oneAPI и SYCL. Попытка натянуть CUDA-ориентированные сборки на Arc приводит к падению производительности или работе на CPU. Правильный путь — инструменты, изначально собранные под Intel GPU.
Стек инференса
Три варианта, от простого к производительному:
- IPEX-LLM (Ollama Portable Zip) — самый быстрый старт. OpenAI-совместимый API из коробки, прямая интеграция с n8n и любыми клиентами.
- OpenVINO 2025.x — выше throughput на тех же весах, но требует конвертации модели в IR-формат.
- llama.cpp с SYCL-бэкендом — запасной вариант, максимум контроля над квантами.
# IPEX-LLM Ollama Portable Zip (Linux/Windows)
# 1. Распаковать архив, активировать окружение Intel GPU
./start-ollama.sh
# 2. Поднять модель
ollama run qwen2.5:14b-instruct-q4_0
Важно про кванты
На SYCL-бэкенде K-кванты вроде Q4_K_M считаются медленнее, чем симметричный INT4 (q4_0) или
INT4-формат OpenVINO. Если упёрлись в скорость — смените квант до смены модели.
Подбор моделей под 16 ГБ
| Задача | Модель | Квант | Заметка |
|---|---|---|---|
| Копирайтинг / SEO | Qwen2.5-14B-Instruct | INT4 | Сильный технический RU/EN |
| Классификация / outline | Qwen2.5-7B-Instruct | INT4 | Быстрее, для лёгких стадий |
| Альтернатива 7B | Mistral-7B-Instruct-v0.3 | INT4 | ~50-70 tok/s на A770 |
Для разных стадий пайплайна имеет смысл держать разные модели: тяжёлую 14B на финальный драфт, быструю 7B на скоринг и черновые outline.
Куда это встраивается
Локальный инференс — фундамент для автоматизированной генерации контента: модель крутится локально, а оркестрация (расписание, сбор инфоповодов, модерация) живёт в n8n. Подробнее об архитектуре такого конвейера — в отдельной статье про контент-завод.
Выводы
- Intel Arc A770 16GB закрывает локальный инференс 7B-14B без CUDA.
- IPEX-LLM — быстрый старт, OpenVINO — для скорости, llama.cpp-SYCL — для контроля.
- Главный нюанс производительности — выбор кванта (INT4 вместо K-квантов на SYCL).