https://guru.nes.ru/
Научно-популярный портал Российской экономической школы
Научно-популярный портал
Российской экономической школы

От «железа» к «мозгам»: как ИИ научил роботов понимать наш мир

19.03.2026
От «железа» к «мозгам»: как ИИ научил роботов понимать наш мир

Искусственный интеллект распространяется быстрее, чем электричество и интернет, персональные компьютеры и смартфоны, подсчитали аналитики Microsoft. Менее чем за три года более 1 млрд человек уже использовали инструменты ИИ. Но роботы пока так и не стали частью нашей повседневной жизни. О том, что этому мешает, когда это может произойти и как «думают» нейросети, «Экономике на слух» рассказывал профессор Российской экономической школы Иван Стельмах. Мы собрали самое интересное из этого выпуска. 

 

Проблема «неуклюжего железа», или Зачем роботам складывать оригами

Представьте себе робота-манипулятора в лаборатории Google. Перед ним на столе кубики, ручки, пластиковые контейнеры и листы бумаги. И вдруг робот говорит инженеру: «Хочешь, чтобы я сложил оригами?» И стальные пальцы, которые еще вчера с трудом открывали дверь, начинают аккуратно сгибать тонкий лист. А вот другой эксперимент: робот должен положить банан в контейнер, и, когда человек его отодвигает, машина не зависает, а продолжает выполнять задание, плавно корректируя движение. Это не просто успех механики. Это фундаментальный сдвиг в том, как машины понимают реальность. Добро пожаловать в эру VLA (Vision-Language-Action / «Зрение – язык – действие») – эру моделей, где искусственный интеллект (ИИ) перестал быть просто «умным чат-ботом» и обрел тело.

Робототехника десятилетиями не могла ответить на два вызова: мелкая моторика и планирование. С моторикой все понятно: наши пальцы – гениальное изобретение эволюции. Роботу до сих пор трудно даже молнию на кофте застегнуть. Но вторая проблема – планирование – оказалась еще коварнее. Чтобы робот мог выполнить простую команду «сходи и закрой окно», он должен обладать колоссальным объемом знаний о мире: что такое «окно», где оно обычно находится, как выглядит «ручка» и в какую сторону ее повернуть. Раньше ученые пытались «прописать» подобные знания кодом. Разработчики буквально диктовали роботу-пылесосу: «Отсканируй комнату, найди препятствие, объедь его». Но мир слишком хаотичен и многогранен, чтобы описать его алгоритмами на все случаи жизни, где-то да произойдет разрыв сценария. Решение внезапно пришло из лингвистики. Оказалось, что модели, обученные понимать текст и контекст, способны улавливать и структуру мира. 

 

Матрешка технологий: в начале было слово…

Чтобы робот «ожил», а не просто штамповал типовые детали на конвейере, ему нужно пройти три ступени эволюции: LLM (Large Language Model / большая языковая модель), VLM (Visual Language Model / визуально-языковая модель) и VLA (Vision-Language-Action / модель «зрение – язык – действие»). 

LLM (Large Language Model / большая языковая модель) – это чистый интеллект, в основе которого загруженные в модель знания. По самому названию «языковая» может показаться, что в модель просто загрузили большие объемы текста, которые машина научилась быстро обрабатывать. 

На самом же деле компьютеры не понимают слов. Они работают только с числами. Подумайте, какой самый простой способ оцифровать словарь? Просто пронумеровать слова по алфавиту: арбуз – 1, брат – 2 и т. д.? Но для ИИ этот способ бесполезен. В обычных толковых словарях слова «брат» и «сестра» стоят далеко друг от друга, хотя по смыслу они довольно близки. Технологический прорыв случился, когда ученые научились превращать слова в векторы (наборы чисел) так, чтобы похожие по смыслу слова и родственные понятия «лежали» в математическом пространстве рядом. И тут открылась настоящая магия семантики. Процесс преобразования текста в такие векторы называется векторизацией, а сами векторы – эмбеддингом. Чтобы понять, как ИИ «думает», нужно разобраться именно в эмбеддинге.

Если вы возьмете вектор слова «Париж», вычтете из него вектор «Франция» и добавите вектор «Россия», математический результат будет максимально близок к слову «Москва». Благодаря эмбеддингу модель улавливает отношения между понятиями, скажем между страной и ее столицей, без явных правил, заданных человеком. Другие примеры таких словесно-векторных выражений: Пушкин – литература + музыка ≈ Чайковский; Пушкин – Россия + США ≈ Хемингуэй.

Почему современные нейросети (GPT / Generative Pre-trained Transformer / генеративный предобученный трансформер) такие умные? Ответ скрыт в букве «Т» – трансформер. Важно было не просто обучить ИИ-модели словам через векторы, а донести до ИИ понимание контекста, в который зашиты знания по истории, географии, культуре и т. д. Возьмем слово «замок». Без контекста мы не поймем, идет речь о средневековой крепости или об устройстве, запирающем дверь. Трансформер анализирует все предложение целиком. Во фразе «Собака была уставшая, поэтому она шла медленно» модель понимает, что «она» – это собака.

Именно эта «контекстная база знаний» стала фундаментом для нового поколения роботов. Понимание контекста позволило инженерам сделать следующий шаг – от слов перейти к картинкам и действиям.

 

Мир роботов-пылесосов или нечто большее?

VLM (Visual Language Model / визуально-языковая модель) – если совсем упростить, то это ИИ с глазами. Мы учим модель превращать в векторы не только слова, но и пиксели с камер робота. Теперь ИИ не только знает, что такое «бутылка», но и «видит» бутылку на столе, понимает команду «возьми ее», потому что и картинка, и текст находятся в одном смысловом поле.

VLA (Vision-Language-Action / зрение-язык-действие) – это ИИ, который может совершать действия, это венец системы на данный момент. Модель не просто отвечает текстом («Бутылка справа»), она сама создает команду для мотора: «Двигай манипулятор на 10 см вправо, увеличив скорость вращения привода на столько-то». Современным инженерам не нужно заранее предугадывать и «кодить» каждое движение. Они дают роботу базу знаний (GPT), подключают сенсоры (глаза) и получают машину, которая понимает мир на интуитивном уровне и за счет усовершенствованных механизмов (например, рук-манипуляторов) может выполнять нужные нам действия. 

Когда рассуждаешь об этом на теоретическом уровне, кажется, что скоро научная фантастика воплотится в реальности, но давайте добавим здоровую долю скептицизма и зададимся вопросом: когда робот догонит человека? Нескоро. 

Основная проблема современных роботов все еще в моторике. Да, манипулятор Google может закрыть ZIP-пакет, но человеческие сенсоры и мышцы пока остаются недосягаемым идеалом для инженерии. Кроме того, существует риск «презентационного лоска». Мы привыкли к видеороликам, где идеальные стальные руки переставляют стаканчики или складывают салфетки в стерильных лабораториях. Но стоит перенести этот сценарий в обычную квартиру и реальную жизнь, как задача усложняется. Что делать роботу-повару, если в рецепте пять яиц, а в холодильнике только два? Или если молоко, которое нужно влить в тесто, просрочено? Если задать любому чат-боту «неудобный» вопрос про нехватку яиц и испорченное молоко, скорее всего, он даст разумный совет, как выйти из положения. Это и есть главный прорыв последних лет: ограничение «узкого набора знаний» снято. Но если в тексте теория работает безупречно, то при воплощении в «железе» она все еще дает сбои. 

Поэтому у нас дома до сих пор нет ничего умнее говорящей колонки или «диска», ползающего по коврам? Несмотря на весь прогресс ИИ, создание дешевого и надежного гуманоида – это все еще не вопрос ближайшего будущего. Мы видим попытки гигантов Amazon, Tesla и Google создать массовый роботизированный продукт. Но пока результат часто напоминает «подстаканник за тысячу долларов» – забавно, но непрактично. Это сильно отличается от тех картинок и образов, которые создавали писатели и режиссеры-фантасты даже относительно недалекого прошлого. 

Профессор РЭШ Иван Стельмах считает, что пока мы находимся в фазе накопления критической массы знаний. Технологии VLA («зрение – язык – действие») появились совсем недавно, и инженерам нужно время, чтобы соединить «мозг» (алгоритмы) с «телом» (сенсорами, моторами и механикой), которое пока сильно проигрывает человеку в скорости и точности. Еще один барьер на пути масштабного проникновения роботов в нашу жизнь – безопасность. По мнению Стельмаха, нет смысла перестраивать инфраструктуру городов под беспилотный транспорт и роботов. Наоборот, технологии в идеале должны развиться до такой степени, чтобы они смогли встроиться в нашу жизнь без угрозы для жизни людей. Но это пока очень дорого. В докладе ОЭСР отмечается, что в среднем на базовые ИИ-решения для одного города сейчас нужно потратить от $200 млн до $300 млн, а если речь идет о мегаполисах и строгих протоколах безопасности, то стоимость превышает $1 млрд. 

 

Когда машины начнут думать самостоятельно

Ученые из Калифорнийского технологического института определили скорость человеческого мышления: она составляет всего 10 бит в секунду, на такой скорости ни одна полновесная картинка в интернете не загрузится. Да и в принципе браузер не откроется. Для сравнения: типичный WiFi-роутер обрабатывает около 50 млн бит информации в секунду. Но вот сенсорные системы человеческого организма собирают данные об окружающей среде со скоростью 1 млрд бит в секунду, что в 100 млн раз быстрее мыслительных процессов. Мы гениально умеем отсекать лишнее. Мы приоритизируем. Настоящее творчество невозможно оторвать от контекста – культурного, социального, эмоционального. «Черный квадрат» Малевича – это не просто краска на холсте, это манифест. И если робот – это математическая комбинация, то человек – это опыт, интуиция, творческий подход и право на ошибку. 

И все-таки начнут ли роботы думать самостоятельно, полностью независимо от своих человеческих создателей? И ждет ли нас восстание машин? Еще в 1950 г. Алан Тьюринг в знаменитой статье «Вычислительные машины и разум» (Computing Machinery and Intelligence) предложил простой критерий: машину можно считать «думающей», если она способна имитировать человека в общении так, что собеседник не отличит ее от реального человека. Сегодня мы вплотную подошли к этому, и тест Тьюринга кажется пройденным. Или нет?

Вы можете пройти тест Тьюринга онлайн. Платформу для такого эксперимента создали сотрудники Лаборатории языка и когнитивных исследований Калифорнийского университета в Сан-Диего. Рандомайзер соединит вас с другими участниками, при этом вам может достаться как роль «судьи», так и роль «испытуемого». Судья задает вопросы и определяет, кто с ним разговаривает – ИИ или живой человек. Испытуемый должен помочь судье своими ответами отгадать, что перед ним человек. 

В мире, где наушники уже научились переводить с иностранного языка, а нейросети пишут код за секунды, возникает резонный вопрос: чему учить детей? Стоит ли всем бросаться изучать Python и математику? Ответ лежит не в плоскости конкретных навыков, главное качество – любознательность. «Мир меняется очень быстро, но способность человека впитывать в себя новое и пользоваться этим будет оставаться востребованной. Поэтому не важно, что учить, главное – не терять любознательность», – уверен Стельмах. ИИ может стать нашим суфлером, помощником или даже «вторым пилотом», но он никогда не заменит того, кто задает направление полета. Поэтому, пока роботы учатся складывать оригами, нам стоит учиться задавать им правильные вопросы и сохранять любознательность.