Супертег Наука 2021январь - РИА Новости, 1920, 14.10.2019

08:00 22.05.2023 (обновлено: 14:36 22.05.2023)

https://ria.ru/20230522/chatbot-1872962483.html

Удар по американскому влиянию. В России создают национальный аналог ChatGPT

Удар по американскому влиянию. В России создают национальный аналог ChatGPT - РИА Новости, 22.05.2023

Удар по американскому влиянию. В России создают национальный аналог ChatGPT

Недавно сразу две российские компании объявили о запуске русскоязычных аналогов чат-бота ChatGPT. На подходе еще одно решение. О том, почему так важно, чтобы в... РИА Новости, 22.05.2023

2023-05-22T08:00:00+03:00

2023-05-22T14:36:00+03:00

наука

технологии

искусственный интеллект (ии)

компьютерные технологии

https://cdnn21.img.ria.ru/images/07e7/05/16/1873416254_0:320:3072:2048_1920x0_80_0_0_dffc136a5d2b6ed8df88f2fbc3c261fc.jpg

МОСКВА, 22 мая — РИА Новости, Владислав Стрекопытов. Недавно сразу две российские компании объявили о запуске русскоязычных аналогов чат-бота ChatGPT. На подходе еще одно решение. О том, почему так важно, чтобы в России были собственные разработанные с нуля генеративные нейросети, — в материале РИА Новости.Время умных чат-ботовСамообучающиеся нейросети — главный технологический тренд в мире. В конце 2022-го компания OpenAI, один из основателей которой — Илон Маск, запустила первый в мире чат-бот с генеративным искусственным интеллектом ChatGPT. Это универсальная языковая модель, способная вести диалог, анализируя ответы и настроение собеседника, создавать тексты на любые темы, в том числе научные или рекламные статьи, писать коды на нескольких языках программирования, сочинять стихи и выполнять множество других задач.Благодаря мультиязычному интерфейсу, модель сразу стала невероятно популярной. На ее основе уже разработаны многочисленные приложения — как узкоспециализированные, так и общего назначения. За полгода компания OpenAI опубликовала несколько обновлений. Среди языков, которые использует чат-бот, есть и русский, но из-за санкций доступ к ChatGPT в России и еще нескольких странах сейчас ограничен.В конце марта 2023-го отечественная компания Sistemma запустила функциональный аналог ChatGPT — SistemmaGPT — на русском и английском языках. Спустя месяц генеративную нейросеть GigaChat представил "Сбер". Над собственной версией языковой модели работает и "Яндекс". Проект получил название YaLM 2.0.Недавно в компании сообщили, что за счет подключения к виртуальному помощнику "Алиса" возможности нейросети существенно расширились. Теперь "Алиса" может написать сценарий для выпускного, составить деловое письмо, предложить план путешествия и варианты подарка на свадьбу.Ничего личногоПринципиальных различий между разработками зарубежных и отечественных производителей нет: алгоритмы, составляющие основу моделей, формируются по единому принципу."Сначала мы формируем ядро модели, обучаем ее оперировать словами, запоминать их последовательности, выстраивать логические цепочки, как ребенка учат говорить, — рассказывает основатель и генеральный директор компании Sistemma Сергей Зубарев. — Затем создаем надстройку, в которую уже закладываем определенные смыслы".Для начального обучения нейросетей используют так называемые дата-сеты. Как правило, это открытые базы текстовых и прочих данных, полученные при сканировании интернета. Информацию в них можно структурировать по языкам и категориям.Полный набор источников, который использовали для формирования ядра ChatGPT, не раскрывается, но известно, что в его основе — массив данных Common Crawl. Этот веб-архив обновляется ежемесячно и содержит контент на самых разных языках, в том числе на русском. Но больше всего в нем, конечно, англоязычных сайтов, зарегистрированных в США.Однако это не значит, что нейросеть в своих ответах будет ориентироваться на взгляды и менталитет американцев. Чтобы избежать обвинения в предвзятости, создатели ChatGPT старались собрать максимально нейтральные с политической, идеологической, религиозной и прочих точек зрения тексты, а систему контроля за этим заложили на самом раннем этапе обучения."Мы используем чат-бот ChatGPT уже несколько месяцев применимо к разным тематикам, — говорит Маргарита Баженова, руководитель отдела контентного развития SEO-компании "Скобеев и Партнеры". — И не заметили, чтобы генерируемый контент имел какую-либо идеологическую, этическую или политическую окраску. А вот с точки зрения фактов ответы не всегда корректны, ведь для обучения чата использовали информацию 2021-2022 годов. Для некоторых областей — например, юридической — это критично".Нейросеть с характеромНейросеть (западная или российская) — всего лишь программа. Ответы, которые она выдает, — своего рода среднестатистический результат, основанный на анализе массива текстов, предоставленных в обучающей выборке. А специфический "характер" чат-бота, эмоциональную окраску его ответов определяет команда, которая адаптирует модель под конкретные задачи и затем осуществляет поддержку."Предварительный этап обучения не так важен, как надстройка, которая формируется при дообучении, — отмечает глава компании Sistemma. — Она, как кора головного мозга, управляет потом всеми процессами".В этом заключается особенность ChatGPT и его аналогов. Базовая модель — универсальная, а дообучают ее под конкретную задачу на специально подобранном корпусе текстов. Например, если создают нейросеть для анализа экономической деятельности компаний, ответ она будет формировать в виде финансовых показателей. А если это медицинский чат-бот, то надстройка ориентирует модель прежде всего на поиск связи между симптомами и диагнозом."Можно в надстройке прописать, кем модель будет себя "ощущать", — уточняет Зубарев. — Если загрузить в нее школьную программу, поведет себя как учитель по отношению к ребенку. Если приспособить для работы с законодательными актами, она — уже как юрист — будет давать только конкретные ответы на конкретные вопросы, не позволяя никаких вольностей в плане интерпретации".В принципе, можно даже создать персональный чат-бот на основе ChatGPT — он будет "думать" и отвечать, как его владелец. "Каждая разработка уникальна, — отмечает Сергей Запечников, профессор Института интеллектуальных кибернетических систем НИЯУ МИФИ. — Одна модель имеет огромное число параметров, но при этом неспособна к дообучению, другая при меньшем количестве параметров регулярно обращается к актуальным интернет-источникам".При дообучении обычно используют метод подкрепления (RL — Reinforcement Learning), при котором нейросети задают наводящие вопросы, а в качестве примера приводят сотни тысяч вариантов ответов, ранжированных от "плохих" до "отличных". Так у программы складывается понимание, чего от нее ждут. И здесь вопрос в том, кто выступает в роли экспертов, задающих критерии отбора, какую цель они преследуют.В последних версиях ChatGPT разработчики использовали метод обучения с подкреплением на основе обратной связи с человеком (RLHF — Reinforcement Learning from Human Feedback). Он основан на том, что чат-бот сверяет ответы не только с набором проверенных экспертами вариантов, но и учитывает мнение аудитории, используя для этого в том числе диалоги чатов и соцсетей. В RLHF это называется средой.Другими словами, если спросить ChatGPT по-русски, то в ответе он будет ориентироваться прежде всего на русскоязычные источники и мнение русскоязычной аудитории. Если настроения в среде изменятся, изменится и характер ответов. В этом смысле нейросеть в какой-то степени наследует менталитет и взгляды аудитории, говорящей на том или ином языке. При этом важна именно языковая, а не национальная принадлежность пользователей.Особенности национального ИИТеоретически обучить модель можно на любом массиве информации — максимально широком или узко специализированном (если на ее основе создается, например, отраслевая база знаний). Можно установить стоп-фильтры или, наоборот, настроить на продвижение определенных взглядов. При этом тонкая настройка модели происходит постоянно, а не только на стадии тестирования и адаптации."Различия между моделями заключаются прежде всего в корпусе текстов, который используют разработчики, — объясняет профессор кафедры инженерной кибернетики НИТУ МИСиС Сергей Мишуров. — Например, "Сбер" для этого берет свою базу, ориентированную на русскоязычного пользователя".В нее входят художественные произведения, бизнес-литература, разговорный язык из соцсетей, в меньшей степени — научные тексты. В представлении авторов, это покрывает общий фон русской языковой культуры."После освоения корпуса текстов нейросеть некоторое время живет, нарабатывает подходы к улучшению алгоритмов, — продолжает Мишуров. — Потом запускают следующую волну обучения. Каждый такой этап измеряется месяцами работы компьютерных кластеров, состоящих из сотен компьютеров. Поиск оптимального результата происходит путем большого количества проб".Специалисты скептически относятся к введению в модели искусственных ограничений."Главное достоинство больших языковых моделей, таких как ChatGPT, — их универсальность, энциклопедичность, — рассказывает Запечников. — Чем больше и разнообразнее корпус текстов, послуживший обучающей выборкой, и чем больше языков, на которых они написаны, тем лучше. Любое искусственное сокращение выборки отрицательно скажется на результате. Опасность влияния нейросети на сознание возникает, только если пользователь неспособен к критическому мышлению и обращается к чат-боту как к единственному источнику информации. С тем же успехом можно верить слухам или читать один единственный телеграм-канал"."Все зависит от человека, — считает главный специалист отдела комплексных систем защиты информации компании "Газинформсервис" Дмитрий Овчинников. — В наше время, когда люди получают значительную часть сведений из интернета, определенным образом настроенный чат-бот, конечно, может стать инструментом влияния, но по силе он будет равноценен обыкновенному веб-сайту. Новый контент генерируют люди и СМИ, а чат-бот использует только то, что уже придумали и создали до него. Поэтому он всегда вторичен по отношению к реальной жизни".Вопрос кибернезависимостиБольшинство экспертов признают, что России нужен собственный продукт, но исходят прежде всего из соображений информационной безопасности. Запрос на это есть и со стороны власти, и со стороны бизнеса."Российский бизнес уже не доверяет иностранным разработкам, — подчеркивает Елена Корниенко из консалтинговой группы "Гебель и партнеры". — Они могут в любой момент схлопнуться, покинуть рынок, при этом оплаченные бизнес-аккаунты банально прогорят".Несмотря на то, что направление генеративных нейросетей активно развивается в России, есть несколько объективных сдерживающих факторов. Прежде всего — недостаточный объем качественной оцифрованной информации для первичного обучения моделей. Русскоязычная база источников, особенно по современным направлениям знания, значительно меньше англоязычной и плохо структурирована."Сейчас говорить об ИИ "с российским менталитетом" рановато, — считает Александр Жуков, директор по развитию компании по разработке ПО "Формат Кода". — Вряд ли в ближайшее время интеллектуальные чат-боты станут популярными в качестве собеседников на свободные темы. Сначала надо решить проблему их применения в реальных сервисах".Второе — финансовые сложности. Чтобы обучать, тренировать, поддерживать модель, нужен огромный штат специалистов. А чтобы в отрасль пошли инвестиции, необходимы крупные проекты, подрядчики."Теоретически создание национального чат-бота возможно, — считает Павел Лебедев, экс-директор по маркетингу SpyWords, автор книг по нейросетям. — Это предполагает обучение модели на данных, отражающих специфические особенности страны, включая культуру, традиции, историю и другие аспекты. Однако это потребует значительных усилий и ресурсов. И, скорее всего, произойдет в рамках не одного государства, а одного языка".И наконец — самое важное: вычислительные мощности."На сегодняшний день OpenAI для технологии ChatGPT задействовала практически все мощности компании Microsoft, — отмечает Руслан Ахтямов, сооснователь и директор по стратегии Napoleon IT. — При этом пока неизвестно, удастся ли коммерциализировать этот сервис так, чтобы отбить затраченные средства".У отечественных разработчиков компьютерных мощностей, может быть, не так много. Но главное, что все они в России и доступ к ним никто не заблокирует.

https://ria.ru/20221230/ai-1842298261.html

https://ria.ru/20230504/chatboty-1869425425.html

https://ria.ru/20230315/diffuziya-1857798685.html

РИА Новости

4.7

internet-group@rian.ru

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

353

2023

Владислав Стрекопытов

Новости

ru-RU

https://ria.ru/docs/about/copyright.html

https://xn--c1acbl2abdlkab1og.xn--p1ai/

РИА Новости

4.7

internet-group@rian.ru

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

353

1920

1080

true

1920

1440

true

https://cdnn21.img.ria.ru/images/07e7/05/16/1873416254_503:121:3072:2048_1920x0_80_0_0_372f77d37cf9e459a80b16aa86f5f185.jpg

1920

true

РИА Новости

4.7

internet-group@rian.ru

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

353

Владислав Стрекопытов

технологии, искусственный интеллект (ии), компьютерные технологии

Наука, Технологии, Искусственный интеллект (ИИ), компьютерные технологии

Удар по американскому влиянию. В России создают национальный аналог ChatGPT

Человек ведет диалог с чат-ботом - РИА Новости, 1920, 22.05.2023

Читать ria.ru в

Дзен

МОСКВА, 22 мая — РИА Новости, Владислав Стрекопытов. Недавно сразу две российские компании объявили о запуске русскоязычных аналогов чат-бота ChatGPT. На подходе еще одно решение. О том, почему так важно, чтобы в России были собственные разработанные с нуля генеративные нейросети, — в материале РИА Новости.

Время умных чат-ботов

Самообучающиеся нейросети — главный технологический тренд в мире. В конце 2022-го компания OpenAI, один из основателей которой — Илон Маск, запустила первый в мире чат-бот с генеративным искусственным интеллектом ChatGPT. Это универсальная языковая модель, способная вести диалог, анализируя ответы и настроение собеседника, создавать тексты на любые темы, в том числе научные или рекламные статьи, писать коды на нескольких языках программирования, сочинять стихи и выполнять множество других задач.

Благодаря мультиязычному интерфейсу, модель сразу стала невероятно популярной. На ее основе уже разработаны многочисленные приложения — как узкоспециализированные, так и общего назначения. За полгода компания OpenAI опубликовала несколько обновлений. Среди языков, которые использует чат-бот, есть и русский, но из-за санкций доступ к ChatGPT в России и еще нескольких странах сейчас ограничен.

В конце марта 2023-го отечественная компания Sistemma запустила функциональный аналог ChatGPT — SistemmaGPT — на русском и английском языках. Спустя месяц генеративную нейросеть GigaChat представил "Сбер". Над собственной версией языковой модели работает и "Яндекс". Проект получил название YaLM 2.0.

Недавно в компании сообщили, что за счет подключения к виртуальному помощнику "Алиса" возможности нейросети существенно расширились. Теперь "Алиса" может написать сценарий для выпускного, составить деловое письмо, предложить план путешествия и варианты подарка на свадьбу.

Ничего личного

Принципиальных различий между разработками зарубежных и отечественных производителей нет: алгоритмы, составляющие основу моделей, формируются по единому принципу.

"Сначала мы формируем ядро модели, обучаем ее оперировать словами, запоминать их последовательности, выстраивать логические цепочки, как ребенка учат говорить, — рассказывает основатель и генеральный директор компании Sistemma Сергей Зубарев. — Затем создаем надстройку, в которую уже закладываем определенные смыслы".

Для начального обучения нейросетей используют так называемые дата-сеты. Как правило, это открытые базы текстовых и прочих данных, полученные при сканировании интернета. Информацию в них можно структурировать по языкам и категориям.

Полный набор источников, который использовали для формирования ядра ChatGPT, не раскрывается, но известно, что в его основе — массив данных Common Crawl. Этот веб-архив обновляется ежемесячно и содержит контент на самых разных языках, в том числе на русском. Но больше всего в нем, конечно, англоязычных сайтов, зарегистрированных в США.

Однако это не значит, что нейросеть в своих ответах будет ориентироваться на взгляды и менталитет американцев. Чтобы избежать обвинения в предвзятости, создатели ChatGPT старались собрать максимально нейтральные с политической, идеологической, религиозной и прочих точек зрения тексты, а систему контроля за этим заложили на самом раннем этапе обучения.

"Мы используем чат-бот ChatGPT уже несколько месяцев применимо к разным тематикам, — говорит Маргарита Баженова, руководитель отдела контентного развития SEO-компании "Скобеев и Партнеры". — И не заметили, чтобы генерируемый контент имел какую-либо идеологическую, этическую или политическую окраску. А вот с точки зрения фактов ответы не всегда корректны, ведь для обучения чата использовали информацию 2021-2022 годов. Для некоторых областей — например, юридической — это критично".

Иллюстрация к заголовку этой статьи от нейросети Midjourney - РИА Новости, 1920, 30.12.2022

Оставит людей без работы. Искусственный интеллект вышел на новый уровень

30 декабря 2022, 08:00

Нейросеть с характером

Нейросеть (западная или российская) — всего лишь программа. Ответы, которые она выдает, — своего рода среднестатистический результат, основанный на анализе массива текстов, предоставленных в обучающей выборке. А специфический "характер" чат-бота, эмоциональную окраску его ответов определяет команда, которая адаптирует модель под конкретные задачи и затем осуществляет поддержку.

"Предварительный этап обучения не так важен, как надстройка, которая формируется при дообучении, — отмечает глава компании Sistemma. — Она, как кора головного мозга, управляет потом всеми процессами".

В этом заключается особенность ChatGPT и его аналогов. Базовая модель — универсальная, а дообучают ее под конкретную задачу на специально подобранном корпусе текстов. Например, если создают нейросеть для анализа экономической деятельности компаний, ответ она будет формировать в виде финансовых показателей. А если это медицинский чат-бот, то надстройка ориентирует модель прежде всего на поиск связи между симптомами и диагнозом.

"Можно в надстройке прописать, кем модель будет себя "ощущать", — уточняет Зубарев. — Если загрузить в нее школьную программу, поведет себя как учитель по отношению к ребенку. Если приспособить для работы с законодательными актами, она — уже как юрист — будет давать только конкретные ответы на конкретные вопросы, не позволяя никаких вольностей в плане интерпретации".

В принципе, можно даже создать персональный чат-бот на основе ChatGPT — он будет "думать" и отвечать, как его владелец.

"Каждая разработка уникальна, — отмечает Сергей Запечников, профессор Института интеллектуальных кибернетических систем НИЯУ МИФИ. — Одна модель имеет огромное число параметров, но при этом неспособна к дообучению, другая при меньшем количестве параметров регулярно обращается к актуальным интернет-источникам".

При дообучении обычно используют метод подкрепления (RL — Reinforcement Learning), при котором нейросети задают наводящие вопросы, а в качестве примера приводят сотни тысяч вариантов ответов, ранжированных от "плохих" до "отличных". Так у программы складывается понимание, чего от нее ждут. И здесь вопрос в том, кто выступает в роли экспертов, задающих критерии отбора, какую цель они преследуют.

В последних версиях ChatGPT разработчики использовали метод обучения с подкреплением на основе обратной связи с человеком (RLHF — Reinforcement Learning from Human Feedback). Он основан на том, что чат-бот сверяет ответы не только с набором проверенных экспертами вариантов, но и учитывает мнение аудитории, используя для этого в том числе диалоги чатов и соцсетей. В RLHF это называется средой.

Общая схема подхода, применявшегося при обучении ChatGPT

Другими словами, если спросить ChatGPT по-русски, то в ответе он будет ориентироваться прежде всего на русскоязычные источники и мнение русскоязычной аудитории. Если настроения в среде изменятся, изменится и характер ответов. В этом смысле нейросеть в какой-то степени наследует менталитет и взгляды аудитории, говорящей на том или ином языке. При этом важна именно языковая, а не национальная принадлежность пользователей.

Особенности национального ИИ

Теоретически обучить модель можно на любом массиве информации — максимально широком или узко специализированном (если на ее основе создается, например, отраслевая база знаний). Можно установить стоп-фильтры или, наоборот, настроить на продвижение определенных взглядов. При этом тонкая настройка модели происходит постоянно, а не только на стадии тестирования и адаптации.

"Различия между моделями заключаются прежде всего в корпусе текстов, который используют разработчики, — объясняет профессор кафедры инженерной кибернетики НИТУ МИСиС Сергей Мишуров. — Например, "Сбер" для этого берет свою базу, ориентированную на русскоязычного пользователя".

В нее входят художественные произведения, бизнес-литература, разговорный язык из соцсетей, в меньшей степени — научные тексты. В представлении авторов, это покрывает общий фон русской языковой культуры.

"После освоения корпуса текстов нейросеть некоторое время живет, нарабатывает подходы к улучшению алгоритмов, — продолжает Мишуров. — Потом запускают следующую волну обучения. Каждый такой этап измеряется месяцами работы компьютерных кластеров, состоящих из сотен компьютеров. Поиск оптимального результата происходит путем большого количества проб".

Пожилой мужчина консультируется с врачом онлайн - РИА Новости, 1920, 04.05.2023

"Мне только спросить". Ученые оценили рекомендации медицинских чат-ботов

4 мая 2023, 08:00

Специалисты скептически относятся к введению в модели искусственных ограничений.

"Главное достоинство больших языковых моделей, таких как ChatGPT, — их универсальность, энциклопедичность, — рассказывает Запечников. — Чем больше и разнообразнее корпус текстов, послуживший обучающей выборкой, и чем больше языков, на которых они написаны, тем лучше. Любое искусственное сокращение выборки отрицательно скажется на результате. Опасность влияния нейросети на сознание возникает, только если пользователь неспособен к критическому мышлению и обращается к чат-боту как к единственному источнику информации. С тем же успехом можно верить слухам или читать один единственный телеграм-канал".

"Все зависит от человека, — считает главный специалист отдела комплексных систем защиты информации компании "Газинформсервис" Дмитрий Овчинников. — В наше время, когда люди получают значительную часть сведений из интернета, определенным образом настроенный чат-бот, конечно, может стать инструментом влияния, но по силе он будет равноценен обыкновенному веб-сайту. Новый контент генерируют люди и СМИ, а чат-бот использует только то, что уже придумали и создали до него. Поэтому он всегда вторичен по отношению к реальной жизни".

Вопрос кибернезависимости

Большинство экспертов признают, что России нужен собственный продукт, но исходят прежде всего из соображений информационной безопасности. Запрос на это есть и со стороны власти, и со стороны бизнеса.

"Российский бизнес уже не доверяет иностранным разработкам, — подчеркивает Елена Корниенко из консалтинговой группы "Гебель и партнеры". — Они могут в любой момент схлопнуться, покинуть рынок, при этом оплаченные бизнес-аккаунты банально прогорят".

Несмотря на то, что направление генеративных нейросетей активно развивается в России, есть несколько объективных сдерживающих факторов. Прежде всего — недостаточный объем качественной оцифрованной информации для первичного обучения моделей. Русскоязычная база источников, особенно по современным направлениям знания, значительно меньше англоязычной и плохо структурирована.

"Сейчас говорить об ИИ "с российским менталитетом" рановато, — считает Александр Жуков, директор по развитию компании по разработке ПО "Формат Кода". — Вряд ли в ближайшее время интеллектуальные чат-боты станут популярными в качестве собеседников на свободные темы. Сначала надо решить проблему их применения в реальных сервисах".

Второе — финансовые сложности. Чтобы обучать, тренировать, поддерживать модель, нужен огромный штат специалистов. А чтобы в отрасль пошли инвестиции, необходимы крупные проекты, подрядчики.

"Теоретически создание национального чат-бота возможно, — считает Павел Лебедев, экс-директор по маркетингу SpyWords, автор книг по нейросетям. — Это предполагает обучение модели на данных, отражающих специфические особенности страны, включая культуру, традиции, историю и другие аспекты. Однако это потребует значительных усилий и ресурсов. И, скорее всего, произойдет в рамках не одного государства, а одного языка".

Неврологическая исследовательская лаборатория - РИА Новости, 1920, 15.03.2023

"С высокой точностью". Создана первая машина для чтения мыслей

15 марта 2023, 08:00

И наконец — самое важное: вычислительные мощности.

"На сегодняшний день OpenAI для технологии ChatGPT задействовала практически все мощности компании Microsoft, — отмечает Руслан Ахтямов, сооснователь и директор по стратегии Napoleon IT. — При этом пока неизвестно, удастся ли коммерциализировать этот сервис так, чтобы отбить затраченные средства".

У отечественных разработчиков компьютерных мощностей, может быть, не так много. Но главное, что все они в России и доступ к ним никто не заблокирует.

Наука Технологии Искусственный интеллект (ИИ)компьютерные технологии