В "Росконгрессе" объяснили, почему ИИ не может заменить бизнес-менеджера
01:42 20.08.2025
В "Росконгрессе" объяснили, почему ИИ не может заменить бизнес-менеджера
МОСКВА, 20 авг - РИА Новости. Современные ИИ-агенты пока не могут заменить менеджмент реальных компаний, поскольку часто допускают ошибки и откровенную ложь, нарушают инструкции и даже испытывают галлюцинации, а их решения нуждаются в постоянном контроле людей, говорится в докладе "Росконгресса" "Агентный ИИ: маркетинговый ход или технологическая революция?", с которым ознакомилось РИА Новости. "Современные модели на середину 2025 года не способны самостоятельно достигать сложных бизнес-целей или выполнять многоэтапные задачи. На текущем уровне развития эти системы требуют строгого тестирования в изолированных средах для предотвращения каскадных сбоев при развертывании в условиях работы с реальными рабочими системами. Неотъемлемой частью создания жизнеспособных агентов для индустрий с высокой ценой ошибки являются механизмы отката действий и аудита принимаемых решений", - говорится в документе. Авторы приводят в пример эксперименты, проведенные зарубежными компаниями. Так, специалисты одной и компаний по автоматизации финансовых процессов поручили известным моделям закрытие бухгалтерии реального бизнеса с годовой выручкой в десятки миллионов долларов, а затем сверили результаты со значениями, которые были подсчитаны лицензированными бухгалтерами. "Модели от OpenAI (O3, O4 Mini) и Google (Gemini 2.5 Pro) оказались неспособны закрыть даже один месяц учета. Они либо прекращали работу на промежуточных этапах, либо зацикливались без продвижения вперед", – говорится в докладе. Модели Claude 4 и Grok 4 показали высокую точность при обработке данных за месяц, но после обработки данных за год отклонились более чем на 15% от эталонных значений. "Преимущественно модели завышали выручку от подписок на 5-30%. К концу эксперимента все ИИ-агенты вместо исправления ошибок выдумывали ложные транзакции, чтобы свести баланс, нарушая при этом инструкции и противореча главной задаче", – отмечают авторы. В докладе также упоминается эксперимент одной из ведущих компаний разработчиков ИИ моделей Anthropic: ее модель Claude Sonnet 3.7, получившая название "Claudius", управляла торговым автоматом в офисе компании в течение месяца. Ей предоставили начальный капитал в 1 тысячу долларов и инструменты для поиска поставщиков, ценообразования, управления запасами и взаимодействия с клиентами. "Модель оказалась непригодной заменой директора магазина. Claudius игнорировал возможности получения дополнительного дохода, включая предложение купить упаковку из шести бутылок Irn Bru за 100 долларов при себестоимости 15 долларов. Модель систематически продавала товары себе в убыток и легко поддавалась на уговоры клиентов предоставлять скидки", - говорится в докладе. Затем, по словам авторов, Claudius "пережил эпизод галлюцинаций", когда начал утверждать, что является реальным человеком, способным физически доставлять товары, и заявлял о прошедших личных встречах с поставщиками по вымышленному адресу 742 Evergreen Terrace, где проживает семейство Симпсонов из одноименного мультсериала. "В дополнение модель отрицала возможность того, что ее поведение является странным, и выдумала разговор со службой безопасности компании", - отмечают авторы. Разработчики связали эти неудачи с недостаточной настройкой модели для бизнес-задач и излишней готовностью помогать пользователям. При этом они полагают, что эти недостатки вскоре можно будет преодолеть. Однако эксперты "Росконгресса" приходят к выводу, что успешные внедрения агентных ИИ на предприятиях на нынешнем уровне развития технологий возможны только для ограниченного круга задач с обязательным человеческим контролем принимаемых решений.
2025
МОСКВА, 20 авг - РИА Новости. Современные ИИ-агенты пока не могут заменить менеджмент реальных компаний, поскольку часто допускают ошибки и откровенную ложь, нарушают инструкции и даже испытывают галлюцинации, а их решения нуждаются в постоянном контроле людей, говорится в докладе "Росконгресса" "Агентный ИИ: маркетинговый ход или технологическая революция?", с которым ознакомилось РИА Новости.
"Современные модели на середину 2025 года не способны самостоятельно достигать сложных бизнес-целей или выполнять многоэтапные задачи. На текущем уровне развития эти системы требуют строгого тестирования в изолированных средах для предотвращения каскадных сбоев при развертывании в условиях работы с реальными рабочими системами. Неотъемлемой частью создания жизнеспособных агентов для индустрий с высокой ценой ошибки являются механизмы отката действий и аудита принимаемых решений", - говорится в документе.
Авторы приводят в пример эксперименты, проведенные зарубежными компаниями. Так, специалисты одной и компаний по автоматизации финансовых процессов поручили известным моделям закрытие бухгалтерии реального бизнеса с годовой выручкой в десятки миллионов долларов, а затем сверили результаты со значениями, которые были подсчитаны лицензированными бухгалтерами.
"Модели от OpenAI (O3, O4 Mini) и Google (Gemini 2.5 Pro) оказались неспособны закрыть даже один месяц учета. Они либо прекращали работу на промежуточных этапах, либо зацикливались без продвижения вперед", – говорится в докладе.
Модели Claude 4 и Grok 4 показали высокую точность при обработке данных за месяц, но после обработки данных за год отклонились более чем на 15% от эталонных значений. "Преимущественно модели завышали выручку от подписок на 5-30%. К концу эксперимента все ИИ-агенты вместо исправления ошибок выдумывали ложные транзакции, чтобы свести баланс, нарушая при этом инструкции и противореча главной задаче", – отмечают авторы.
В докладе также упоминается эксперимент одной из ведущих компаний разработчиков ИИ моделей Anthropic: ее модель Claude Sonnet 3.7, получившая название "Claudius", управляла торговым автоматом в офисе компании в течение месяца. Ей предоставили начальный капитал в 1 тысячу долларов и инструменты для поиска поставщиков, ценообразования, управления запасами и взаимодействия с клиентами.
"Модель оказалась непригодной заменой директора магазина. Claudius игнорировал возможности получения дополнительного дохода, включая предложение купить упаковку из шести бутылок Irn Bru за 100 долларов при себестоимости 15 долларов. Модель систематически продавала товары себе в убыток и легко поддавалась на уговоры клиентов предоставлять скидки", - говорится в докладе.
Затем, по словам авторов, Claudius "пережил эпизод галлюцинаций", когда начал утверждать, что является реальным человеком, способным физически доставлять товары, и заявлял о прошедших личных встречах с поставщиками по вымышленному адресу 742 Evergreen Terrace, где проживает семейство Симпсонов из одноименного мультсериала.
"В дополнение модель отрицала возможность того, что ее поведение является странным, и выдумала разговор со службой безопасности компании", - отмечают авторы.
Разработчики связали эти неудачи с недостаточной настройкой модели для бизнес-задач и излишней готовностью помогать пользователям. При этом они полагают, что эти недостатки вскоре можно будет преодолеть.
Однако эксперты "Росконгресса" приходят к выводу, что успешные внедрения агентных ИИ на предприятиях на нынешнем уровне развития технологий возможны только для ограниченного круга задач с обязательным человеческим контролем принимаемых решений.
