Мале — це нове велике: чому компактні моделі ШІ перевершують гігантів
У 2025 році індустрія ШІ переживає зміну парадигми: менші, ефективніші мовні моделі кидають виклик перевазі масивних нейронних мереж. Дізнайтеся, як компактні моделі ШІ забезпечують порівнянну продуктивність за частку вартості та енергоспоживання.

У 2025 році індустрія ШІ переживає зміну парадигми: менші, ефективніші мовні моделі кидають виклик перевазі масивних нейронних мереж. Дізнайтеся, як компактні моделі ШІ забезпечують порівнянну продуктивність за частку вартості та енергоспоживання.
Прорив: визнання MIT у 2025 році
Коли MIT Technology Review назвав малі мовні моделі (SLM) однією з 10 проривних технологій 2025 року1, це було не просто визнання — це було підтвердження фундаментального зрушення в нашому розумінні штучного інтелекту.
Роками індустрія ШІ працювала за простим припущенням: більше — краще. Перегони зі створення дедалі більших моделей призвели до появи систем із сотнями мільярдів — навіть трильйонами — параметрів. GPT-4 нібито містить 1,76 трильйона параметрів, тоді як Google Gemini Ultra працює в подібному масштабі.
Але у 2025 році сталося щось надзвичайне: менші моделі почали перевершувати своїх гігантських суперників у конкретних завданнях, споживаючи при цьому лише частку ресурсів.
Що таке малі мовні моделі?
Малі мовні моделі (SLM) — це системи ШІ, які зазвичай містять менше 5 мільярдів параметрів — далеко від 175+ мільярдів параметрів у GPT-3.5 або 1,76 трильйона в GPT-4. Однак ці компактні моделі досягають вражаючих результатів у завданнях обробки природної мови.
Провідні приклади у 2025 році включають:
- Microsoft Phi-3.5 Mini2 (3,8 млрд параметрів) — перевершує GPT-3.5 Turbo за ключовими бенчмарками3, попри те що в 46 разів менша
- Google Gemma 24 (2 млрд параметрів) — досягає найкращої у своєму класі продуктивності серед моделей до 10 млрд
- Meta Llama 3.25 (варіанти 1 та 3 млрд) — приносить мультимодальний ШІ на периферійні пристрої
- Qwen 2.56 від Alibaba Cloud (варіант 0,5 млрд) — підтримує 29 мов у лише 500 мільйонах параметрів
- SmolLM2-360M7 — оптимізована для пристроїв наднизького споживання та IoT-застосувань
- OpenAI GPT-4o mini8 — економічна альтернатива, що перевершує GPT-3.5
Порівняння розміру моделей (мільярди параметрів)
Економіка: чому менші моделі мають фінансовий сенс
Різниця у вартості між навчанням великих і малих моделей вражає. Згідно з дослідженням Epoch AI9, витрати на навчання передових моделей ШІ зростали на 2,4 рази щороку з 2016 року.
Розгляньте ці цифри: модель Transformer 2017 року коштувала лише $930 для навчання. GPT-3 (2020) потребував приблизно $2-4,6 мільйона. GPT-4 (2023) коштував понад $100 мільйонів для навчання. Google Gemini Ultra (2024), за повідомленнями, коштував $191 мільйон10.
За такою траєкторією найбільші тренувальні запуски перевищать $1 мільярд до 2027 року.
Тим часом малі мовні моделі можна навчати за частку цих витрат — часто менше $100 000 для високопродуктивних моделей. Це демократизує розробку ШІ, дозволяючи університетам, стартапам і регіональним дослідницьким установам конкурувати без бюджетів розміром із Кремнієву долину.
Витрати на навчання моделей ШІ (мільйони USD)
Бізнес-кейс: від інноваційного бюджету до операційної реальності
Звіт McKinsey про стан ШІ 2025 року11 виявляє показовий зсув: інноваційні бюджети на ШІ скоротилися з 25% до лише 7%. Це не ознака зменшення інтересу — зовсім навпаки. Це відображає перехід ШІ від експериментальних проєктів до необхідних бізнес-операцій.
Коли ШІ переходить від «інновацій» до «операцій», економічна ефективність стає першорядною. Підприємства не можуть виправдати витрати тисяч доларів на день на API-виклики до масивних моделей, коли добре налаштована мала модель забезпечує 95% продуктивності за 1/10 вартості.
Ось де SLM блищать: нижчі витрати на API (GPT-4o mini коштує менше 1/10 від GPT-4o за токен), швидший інференс (менші моделі відповідають за мілісекунди, а не секунди), простіше дотренування (навчання кастомних версій потребує менше даних і обчислень), і спрощений деплой (запуск локально без дорогої хмарної інфраструктури).
Енергоефективність: екологічний імператив
Екологічну ціну навчання масивних моделей ШІ стало неможливо ігнорувати12. GPT-3 спожив 1287 мегават-годин (МВт·год) під час навчання, тоді як GPT-4 потребував 50 гігават-годин — достатньо, щоб забезпечити Сан-Франциско електроенергією на три дні.
Але справа не лише в навчанні — а й у мільярдах запитів, які обробляються щодня13. Один запит GPT-4 споживає приблизно 0,5 ват-години. Малі моделі (до 1 млрд параметрів) використовують лише 0,05 ват-години на запит. Найбільш енергоємні моделі (o3, DeepSeek-R1) споживають понад 33 Вт·год на складний запит — у 660 разів більше, ніж ефективні малі моделі.
У масштабі 700 мільйонів щоденних запитів ChatGPT перехід з великих на малі моделі там, де це доречно, міг би зекономити еквівалент річного споживання електроенергії тисяч домогосподарств.
Це ідеально узгоджується з філософією постцифрової ери, яку ми досліджували в нашій статті «640K буде достатньо»: технологія повинна служити людству ефективно, а не вимагати постійно зростаючих ресурсів заради спадаючої віддачі.
Споживання енергії на запит (ват-години)
Продуктивність: менше не означає слабше
Найбільш дивовижне відкриття про малі мовні моделі полягає в тому, що вони часто перевершують більші моделі в конкретних завданнях. Як це можливо?
1. Спеціалізовані тренувальні дані
Замість навчання на всьому інтернеті SLM фокусуються на високоякісних, ретельно відібраних датасетах. Родина Phi-3 від Microsoft була навчена на 3,4 трильйона токенів «даних, багатих на логіку»2 — ретельно відібраному контенті, що наголошує на логіці, математиці та структурованому мисленні.
2. Передова архітектура
Новіші архітектури моделей витискають більше можливостей із меншої кількості параметрів завдяки дистиляції знань (передача знань від великих «моделей-вчителів» до малих «моделей-учнів»), Mixture of Experts (MoE), що активує лише релевантні частини мережі, та квантизації, що зменшує точність, зберігаючи продуктивність.
3. Оптимізація під конкретні завдання
Модель з 2 млрд параметрів, дотренована для обслуговування клієнтів, може перевершити GPT-4 для цього конкретного випадку використання.
DistilBERT на 40% менша за BERT, але зберігає 97% її точності на стандартних бенчмарках14. Так само Phi-3.5 Mini набирає 68,8 балів на MMLU3, перевершуючи модель Gemma з 7 млрд параметрів.
Продуктивність SLM vs GPT-3.5 (нормалізовані оцінки)
Революція Edge AI: обчислення там, де це важливо
Мабуть, найбільш трансформаційний аспект малих мовних моделей — це їхня здатність працювати на пристрої15 — безпосередньо на смартфонах, ноутбуках, IoT-сенсорах і периферійних серверах. Це не просто технічна цікавинка; це ринкова можливість вартістю $66,47 млрд до 2030 року.
Ринок ШІ на пристроях лише для IoT-застосувань, за прогнозами, досягне $30,6 млрд до 2029 року16, зростаючи на 25% CAGR.
Чому Edge AI важливий: приватність (чутливі дані ніколи не залишають пристрій), затримка (миттєві відповіді без мережевих обходів), надійність (працює офлайн), вартість (відсутність плати за кожен API-запит) і суверенітет (дані залишаються в межах національних кордонів, відповідаючи регуляціям на кшталт GDPR).
Це особливо актуально для Центральної та Східної Європи, де ми спостерігаємо зростаючі інвестиції в інфраструктуру ШІ. Як ми зазначили в нашій статті про вплив ШІ на ЦСЄ, регіон може використовувати ефективні малі моделі для глобальної конкуренції без потреби в масивних обчислювальних ресурсах.
Зростання ринку Edge AI 2024-2030 (мільярди USD)
Реальні застосування: де малі моделі перевершують
1. Охорона здоров'я: Медичні пристрої з малими моделями можуть виконувати попередню діагностику локально, захищаючи приватність пацієнтів і водночас забезпечуючи аналітику в реальному часі.
2. Виробництво: Сенсори на заводському цеху, оснащені SLM, можуть виявляти дефекти в реальному часі, коригувати параметри виробництва та прогнозувати потреби в обслуговуванні — все це без залежності від хмарного з'єднання.
3. Обслуговування клієнтів: Дотренована мала модель для обробки запитів клієнтів може забезпечити відповіді якості GPT-4 для конкретних доменів за 1/10 операційних витрат.
4. Мобільні застосунки: Смартфони з Llama 3.2 (1/3 млрд) або Phi-3.5 Mini можуть забезпечити переклад у реальному часі без інтернету, голосових асистентів, що працюють офлайн, розумні камери з миттєвим розпізнаванням об'єктів та нотатки з підсумовуванням ШІ із захистом приватності.
5. IoT та розумні міста: Дорожні сенсори, екологічні монітори та компоненти розумних електромереж можуть приймати інтелектуальні рішення локально, використовуючи моделі на кшталт SmolLM2-360M.
Європейська можливість: суверенітет ШІ через ефективність
Європа стоїть перед унікальним викликом у перегонах ШІ: як залишатися конкурентоспроможною, не відповідаючи масивним інвестиціям в обчислювальну інфраструктуру американських і китайських технологічних гігантів. Малі мовні моделі пропонують елегантне рішення.
Стратегія ШІ Європейської Комісії17 наголошує на надійному, сталому ШІ — пріоритетах, які ідеально узгоджуються з SLM: суверенітет даних (моделі на пристроях тримають європейські дані в Європі), енергоефективність (менший вуглецевий слід підтримує кліматичні цілі ЄС), доступність (університети та МСП можуть брати участь без мільярдних бюджетів) та багатомовна підтримка (моделі на кшталт Qwen 2.5 підтримують 29 мов, включаючи українську, польську, чеську та інші мови ЦСЄ).
Національна стратегія ШІ Польщі та ініціатива IDEAS NCBR18 конкретно підкреслюють важливість ресурсоефективної розробки ШІ — домену, де малі моделі перевершують.
Замість конкуренції в перегонах озброєнь «більша модель» європейські установи можуть зосередитися на створенні спеціалізованих, ефективних, доменно-специфічних моделей, які перевершують гігантів-універсалів у конкретних застосуваннях.
Переваги розгортання ШІ 2025 (%)
Виклики та обмеження: чого малі моделі (поки що) не можуть
Попри свої переваги, малі мовні моделі мають чіткі обмеження:
1. Широта знань: Модель з 3 млрд параметрів просто не може зберігати стільки фактичної інформації, як модель з 1,76 трильйона параметрів.
2. Складне міркування: Багатокрокові задачі на міркування, складна математика та заплутана логічна дедукція залишаються викликом для SLM.
3. Узагальнення: Великі моделі відзначаються у zero-shot навчанні — виконанні завдань, на яких їх ніколи явно не навчали. Малі моделі часто потребують дотренування для нових доменів.
4. Розуміння довгого контексту: Хоча моделі на кшталт Phi-3.5 підтримують контекст до 128K токенів, обробка надзвичайно довгих документів залишається надійнішою з більшими моделями.
Ключ — вибирати правильний інструмент для завдання. Не кожне завдання потребує GPT-4 — і використовувати його для простих запитів — все одно що наймати нейрохірурга, щоб накласти пластир.
Майбутнє: гібридна екосистема
Майбутнє ШІ — це не «малі моделі проти великих моделей», а малі моделі І великі моделі, кожна з яких служить різним цілям.
Малі моделі домінуватимуть у: периферійних пристроях і смартфонах, застосуваннях із чутливою приватністю (охорона здоров'я, юриспруденція, фінанси), високообсягових завданнях низької складності (обслуговування клієнтів, модерація контенту), офлайн-сценаріях та сценаріях із низькою затримкою, і деплоях з обмеженим бюджетом.
Великі моделі залишаться необхідними для: складних досліджень та аналізу, генерації креативного контенту, що потребує широких знань, багатодоменного розв'язання проблем, генерації тренувальних даних для менших моделей та передових досліджень ШІ.
Ми вже бачимо появу гібридних архітектур: застосунки, що використовують малі моделі для 95% запитів, ескалюючи до більших моделей лише за потреби. Цей підхід «маршрутизації моделей» поєднує ефективність SLM із можливостями великих моделей.
Імплікації для бачення Kor.Gy: інституційний інтелект, удосконалений
У нашій статті «Читати чи не читати: цифровий нав'язливий стан закінчився» ми представили концепцію інституційного інтелекту — систем ШІ, розроблених для перебирання повсякденних бізнес-операцій цілих компаній, а не лише допомоги окремим співробітникам.
Малі мовні моделі роблять це бачення драматично досяжнішим завдяки економічно ефективному деплою, покращеній приватності, швидшому часу відповіді та демократизованому ШІ.
Майбутнє, яке ми уявляли — де «машини працюють, а люди мріють і винаходять» — стає практичним, коли ШІ достатньо ефективний, щоб працювати всюди, а не лише в дорогих дата-центрах.
Висновок: малі моделі, великий вплив
Зростання малих мовних моделей представляє більше, ніж технічний прогрес — це демократизація ШІ. Коли університетський дослідник у Вроцлаві може навчити модель, що конкурує з GPT-3.5 від OpenAI для конкретного завдання, ми фундаментально змінили правила гри.
Ера «більше — завжди краще» закінчується. На її місці ми входимо в епоху оптимізованого інтелекту: моделі правильного розміру для конкретних завдань, розгорнуті там, де вони потрібні, і працюють на доступних ресурсах.
Цей зсув узгоджується з ширшими темами, які ми досліджували: постцифрова ера, де технологія служить нам ефективно, а не вимагає нескінченних ресурсів, зростання периферійних обчислень, що наближає інтелект до користувачів, європейська стратегія ШІ, що наголошує на сталості та суверенітеті, та інституційний інтелект — бачення ШІ, безшовно інтегрованого в бізнес-операції.
Малі мовні моделі не просто конкурують із гігантами — вони переосмислюють, чим може бути ШІ: доступним, ефективним, таким, що зберігає приватність, і сталим.
У 2025 році та далі питання не «наскільки великими ми можемо зробити моделі ШІ?», а швидше «наскільки ефективно ми можемо розв'язувати реальні проблеми?» Відповідь дедалі частіше приходить у малих пакунках.
Майбутнє ШІ вимірюється не трильйонами параметрів — воно вимірюється розв'язаними проблемами на ват спожитої електроенергії.
І за цим показником мале — це безсумнівно нове велике.
Джерела
- ↑ Small language models: 10 Breakthrough Technologies 2025
- ↑ Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
- ↑ Microsoft's new Phi 3.5 LLM models surpass Meta and Google
- ↑ Gemma 2: Improving Open Language Models at a Practical Size
- ↑ Llama 3.2: Revolutionizing edge AI and vision with open, customizable models
- ↑ Qwen2.5 Models by Alibaba Cloud
- ↑ SmolLM2 - Smol but Mighty
- ↑ GPT-4o mini: Advancing cost-efficient intelligence
- ↑ How much does it cost to train frontier AI models?
- ↑ Charted: The Surging Cost of Training AI Models
- ↑ McKinsey: Innovation budgets drop from 25% to 7% as AI becomes operational
- ↑ How much energy does ChatGPT use?
- ↑ How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference
- ↑ DistilBERT - 40% smaller, 97% accuracy retention
- ↑ Edge AI Hardware Market projected to reach $58.90 billion by 2030
- ↑ On-Device AI Market for IoT to reach $30.6 billion in 2029 at CAGR of 25%
- ↑ European Commission AI Strategy and Digital Sovereignty
- ↑ Poland's National AI Strategy and IDEAS NCBR Initiative