Remote Labor Index: как ИИ справляется с реальной работой фрилансеров

9 месяцев назад

Команда исследователей из Center for AI Safety и Scale AI представила Remote Labor Index (RLI) — первый в мире бенчмарк, который оценивает, насколько искусственный интеллект способен выполнять настоящие проекты фрилансеров.
В исследовании использовано 240 реальных заданий с Upwork — от разработки игр до архитектурных чертежей.

Результаты оказались неожиданными: даже самые продвинутые ИИ-модели успешно справились лишь с 2,5% задач, показав уровень, приемлемый для реальных заказчиков. Это контрастирует с их высокими результатами в стандартных академических тестах.

Как устроен бенчмарк RLI

В отличие от классических бенчмарков, где искусственный интеллект решает абстрактные задачи, RLI тестирует модели на реальных коммерческих проектах с фриланс-площадок.
Исследователи выкупили у фрилансеров примеры ранее выполненных заказов стоимостью от $15 до $200. Каждый проект включал:

техническое задание от клиента;
исходные материалы;
готовый результат, который уже был оплачен заказчиком.

ИИ-модели получают то же самое ТЗ и материалы — и должны создать результат такого же качества. Работа реального фрилансера выступает эталоном, подтверждённым рынком.

Какие проекты вошли в тест

В RLI представлены 23 категории фриланс-работ — от программирования и дизайна до архитектуры и 3D-моделирования.
Наиболее популярные направления:

видео и анимация — 13%;
3D-моделирование — 12%;
графический дизайн — 11%;
разработка игр — 10%;
аудио-обработка — 10%;
архитектура — 7%;
промышленный дизайн — 6%.

Средняя стоимость проекта — $632, медианное время выполнения — 11,5 часов. Общий объём работ эквивалентен 6 000+ часов и $140 000 реальных заказов.

Что показали результаты ИИ

В тестировании участвовали шесть моделей: Manus, Grok 4, Claude Sonnet 4.5, GPT-5, ChatGPT agent и Gemini 2.5 Pro.
Лучше всех справился Manus — 2,5% успешных проектов. У Grok 4 и Sonnet 4.5 — около 2,1%.

Читать Озвучка текста онлайн реалистичными голосами: гид по озвучке на genius-bot.ru (2026–2027)

Даже лидер имеет Elo-рейтинг 509,9, что почти вдвое ниже «человеческого» уровня (1000). Это значит, что профессионал выигрывает у ИИ с вероятностью 10 к 1.

Типичные ошибки:

17,6% — повреждённые или пустые файлы;
35,7% — незавершённые проекты (например, видео длиной 8 секунд вместо 8 минут);
45,6% — низкое качество визуала или звука;
14,8% — несоответствие между частями проекта.

Где ИИ уже справляется хорошо

Искусственный интеллект показывает неплохие результаты в:

редактировании аудио и создании звуковых эффектов;
генерации изображений и логотипов;
написании текстов и отчётов;
создании интерактивных дашбордов и визуализаций.

Простые проекты с кодом, графикой или текстами — те сферы, где ИИ-агенты уже способны конкурировать с фрилансерами.

Почему RLI лучше других тестов

Remote Labor Index отличается от предыдущих бенчмарков по нескольким причинам:

Реалистичные задачи — проекты с Upwork требуют от 10 до 30 часов работы.
Широкое разнообразие форматов — 72 типа файлов: 3D-модели, CAD-чертежи, дизайнерские макеты, видео, игры.
Практическая польза — RLI показывает, какие типы задач ИИ может автоматизировать уже сегодня.

Экономический эффект: первые цифры автоматизации

Исследователи рассчитали метрику autoflation — насколько дешевле становится выполнение проектов при использовании ИИ.
К октябрю 2025 года снижение стоимости составило 4%. Если бы модели были фрилансерами, то Manus «заработал бы» $1 720 из возможных $143 991.

Средняя стоимость запуска одного проекта через API — всего $2,34, что значительно ниже человеческих расходов.

Ограничения исследования

RLI не включает проекты, где требуется живое общение с клиентом, командная работа или длительное ожидание результата (например, SEO-продвижение).
Также цены указаны без учёта инфляции, а значит, реальные расценки выше.

🔍 Главный вывод

Несмотря на впечатляющие успехи искусственного интеллекта в тестах на логику и знания, до уровня профессиональных фрилансеров ему ещё далеко.
Remote Labor Index показывает реальный прогресс ИИ-агентов и помогает компаниям оценить, какие профессии и задачи будут автоматизироваться первыми.

Читать Текст в речь через нейросеть: гид по озвучке на genius-bot.ru (2026–2027)