Вопрос в редакцию: Как устроен искусственный интеллект?
На нашей импровизированной пекарне новый “вопрос месяца”:
“Не хочу показаться глупым, но я искренне не понимаю, что такое ИИ, и как он работает. Если о нем заходит речь, я просто киваю и говорю, мол, за ним будущее. Я пытался что-то читать, но для меня это все равно выглядит, как магия. Может быть, вы мне объясните?”
Читается за
Вы не можете показаться глупым, ведь вопросы – единственный способ узнать что-то новое. И нам искренне приятно, что вы выбрали нас, а не Google, хотя последний был бы быстрее.
Как работает искусственный интеллект?
Мы несколько раз косвенно касались этого вопроса в наших материалах про ИИ, но сейчас постараемся объяснить это максимально просто.
AI-модели – сложные и разнообразные штуки, но если выделять общую цель, то она звучит так: предсказание наиболее вероятного следующего шага в последовательности.
У моделей нет “знаний”, они просто отличные детективы, которые распознают и продолжают шаблоны.
Представьте себе попугая, сидящего в комнате, где двое людей общаются с помощью азбуки Морзе. Попугай не понимает концепции языка. Однако со временем он может разработать детализированную статистическую модель точек и тире, которую слышит.
Или представьте, что у вас есть собака, вы говорите “гулять”, она начинает бегать и вилять хвостом. Слово “гулять”, как таковое, ничего не значит для животного. Для него важна последовательность, то, что после “гулять” вы берете поводок и вместе идете на улицу. Если собака сама возьмет поводок в пасть – она предскажит ваше действие.
Но вернемся к попугаю. Он понятия не имеет, что определенные сигналы означают "Как дела?" и "Хорошо, спасибо". Он не понял бы эти слова, даже если бы попытался. Но он замечает, что один шаблон точек и тире всегда следует за другим и никогда не предшествует ему. После многолетнего прослушивания попугай изучает эти шаблоны настолько хорошо, что может имитировать сигналы и убедительно поддерживать разговор.
Данная метафора точно описывает системы ИИ, известные как большие языковые модели (LLM).
И это был вольный пересказ работы вычислительных лингвистов Эмили Бендер и Александра Коллера в 2020 году, которые сравнили ИИ со сверхинтеллектуальным глубоководным осьминогом. Об этой работе мы сами узнали лишь недавно из текста TechCrunch, но сравнение, действительно, все делает яснее. Мы лишь поменяли осьминога на попугая и добавили немного отсебятины. Если вы знаете английский, обязательно прочтите.
LLM, как и попугай, не понимают язык. Вместо этого они картируют язык, математически кодируя шаблоны, найденные в миллиардах написанных статей, книг и стенограмм. Этот процесс картирования, называемый обучением, строит сложную многомерную модель ассоциаций слов и фраз.
Вы пишите свой запрос, и ИИ ищет то, что более всего похоже на продолжение из своей огромной карты.
А как с картинками?
Мы описывали этот процесс в одном из наших текстов, где высказывали мнение о том, что ИИ-художников не существует:
Известные модели включают генеративно-состязательные сети (GAN), которые используют две нейронные сети — генератор и дискриминатор. Через игровой механизм по типу двух игроков, GAN улучшают возможности друг друга, генерируя реалистичные изображения, видео и речь.
Допустим, мы хотим создавать изображения кошек с помощью генеративно-состязательной сети. Генератор берет случайный входной вектор и использует его для создания нового изображения кошки. Вначале это может выглядеть как случайные пиксели, но по мере обучения он создает реалистичные изображения.
Дискриминатор затем рассматривает как настоящие изображения кошек из набора данных, так и поддельные, сгенерированные, и пытается классифицировать их как настоящие или поддельные. На основе этой классификации он учится лучше различать изображения на следующем этапе. С другой стороны, генератор учится тому, насколько успешно созданные им образцы обманули дискриминатор, и становится лучше в создании более реалистичных картинок. И так до бесконечности.
Модели диффузии, такие как Stable Diffusion или Imagen от Google, работают путем постепенного добавления и удаления шума из данных, восстанавливая исходные структуры. Основная идея работы диффузионных моделей заключается в том, что они уничтожают обучающие данные, добавляя шум на каждой итерации. Затем модель учится удалять шум, применяя процесс денойзинга, постепенно восстанавливая исходные данные.
После обучения модель может применять изученный процесс денойзинга к новым входным данным и создавать новые образцы. Работая с более шумными данными, со временем модель начинает лучше понимать закономерности и структуру данных, устраняя лишний шум.
DALL-E, созданный OpenAI, является примером диффузионных генеративных моделей, создающих детализированные изображения на основе текстовых описаний с помощью процесса диффузии.
Но можно попробовать это описать чуточку проще.
Платформы, такие как Midjourney и DALL-E, популяризировали генерацию изображений с помощью ИИ, что стало возможным, благодаря достижениям в области языковых моделей. Эти системы весьма искусны в построении цепочек и описаний, что позволяет им ассоциировать слова и фразы с изображениями.
Но, в любом случае, все снова упирается в карты, которые компьютер создает себе при обучении.
Например, когда модели дают фразу «красная птичка на море», она сначала обрабатывает фразу так, как если бы это был запрос для ChatGPT – написать рассказ. Затем полученный путь на языковой карте переводится через связывающий слой на карту изображений, где идентифицируется соответствующий визуальный образ.
Важно помнить, что ИИ все еще просто распознает, преобразует и комбинирует шаблоны в своих обширных статистических картах. Все модели, сколь мощными бы они ни были, не представляют из себя истинного интеллекта.
Чтобы проиллюстрировать это, подумайте о том, как работает предиктивный текст на вашем смартфоне. Когда вы набираете «я иду в», он может предложить “магазин” или “парк” на основе общих шаблонов. Аналогично, эти передовые модели ИИ предсказывают и создают изображения на основе выученных шаблонов, но не “понимают” мир так, как это делают люди.
Ведь, когда вы вбиваете “я тебя”, а телефон выдает “люблю”, вы не подозреваете, что у вашего гаджета есть чувства. Так же и здесь.
А что про это думает сам искусственный интеллект?
Мы же можем спросить у главного героя нашего текста!
Поэтому дали ChatGPT такой запрос:
Объясни, пожалуйста (да мы те, кто пишет пожалуйста ИИ, хотя у него нет чувств), механизм своей работы на примере из реального мира
Вот, что он ответил:
Конечно! Давай представим, что я - это очень умный библиотекарь, который живет в огромной библиотеке с миллионами книг.
1. Обучение
В реальном мире:
- Представь, что этот библиотекарь читал все книги в библиотеке и запомнил огромное количество информации из них. Он понимает, как слова и предложения связаны друг с другом, какие темы обычно обсуждаются вместе, и как задаются вопросы и даются ответы.
В моем случае:
- Я был обучен на огромном количестве текстовых данных из Интернета. Это включает в себя книги, статьи, веб-сайты, форумы и многое другое. Во время обучения я не просто запоминал конкретные факты, а учился распознавать закономерности и связи в тексте.
2. Запросы
В реальном мире:
- Когда кто-то приходит в библиотеку и задает вопрос, библиотекарь использует свои знания, чтобы найти наиболее подходящую книгу и ответить на вопрос.
В моем случае:
- Когда ты задаешь вопрос, я использую свои внутренние модели и алгоритмы, чтобы понять, что ты хочешь узнать, и предоставить наиболее релевантный и полезный ответ на основе моего обучения.
3. Формирование ответа
В реальном мире:
- Библиотекарь может ответить на вопрос, пересказывая информацию из нескольких книг или объясняя ее своими словами, чтобы это было понятно.
В моем случае:
- Я формирую ответы, комбинируя информацию из множества источников, на которых я был обучен. Я стараюсь делать это так, чтобы ответ был точным, понятным и полезным для тебя.
Пример
Реальный мир:
- Ты приходишь в библиотеку и спрашиваешь: "Как выращивать томаты?"
- Библиотекарь знает, что в книгах по садоводству есть информация об этом. Он вспоминает, что нужно подготовить почву, выбрать правильные семена, поливать растения и так далее. Он рассказывает тебе все это в доступной форме.
Моя работа:
- Ты спрашиваешь меня: "Как выращивать томаты?"
- Я использую знания, полученные во время обучения, и формирую ответ, который включает информацию о подготовке почвы, выборе семян, поливе и других аспектах выращивания томатов.
Надеюсь, это помогло тебе понять, как я работаю!
Видите! Пусть он и абсолютная милашка, но компьютер. И рассказывает те же вещи, что и мы вам.
Так стоп. Что будет, если ИИ не знает ответа?
Будет не ответ, а бессвязная ерунда. Представьте, что вы сказали вместо “гулять” своей собаке “эквилибристика”. Она будет радостно вилять хвостом и бежать к двери? Вряд ли. Она вас не поймет.
Что там наш сверхразумный попугай? Что произойдет, когда он услышит что-то, с чем ранее не сталкивался? Без существующего образца для подражания он будет делать догадки на основе ближайшего совпадения из своего репертуара. Это может привести к ответам, которые будут общими, странными или неуместными. AI-модели делают что-то подобное, придумывая людей, места или события, которые, по их мнению, подходят к контексту; это называется галлюцинациями.
Сюда же можно добавить тот факт, что данные на которых обучается модель, – чрезвычайно важный фактор. Причем этот фактор совсем недавно сыграл злую шутку, которые вы могли увидеть на наших онлайн-страницах.
Реальная история из Amazon. Компания создала ИИ-механизм, который помогал в найме сотрудников, но через год его закрыли. В чем было дело? Разработчики не учли тот факт, что модель обучена на существующих данных о найме, поэтому компьютер игнорировал женщин – 60% от всех предложений составили мужчины.
Было ли это сделано специально? Конечно, нет. В этом и трагичность ситуации. Люди могут сделать компьютер сексистом, даже не подозревая об этом.
Это из цитата из материала: Отсюда мораль: исследование этической стороны ИИ.
Если вы только начинаете изучать ИИ, то советуем прочесть от всего сердца.
Если вам интересно узнать что-то конкретное или у вас есть еще вопросы – пишите! Мы всегда на связи.
Рекомендуется к прочтению
What to read next
На этот раз материал о профессиях финтеха создан совместно с командой Kolesa Group и при использовании ее исследований. Также нам помогала Акерке Сатбаева ...
DigitalDonut представляет анализ динамики финансового сектора Кыргызстана: платежные системы страны в 2024 году продемонстрировали впечатляющий рост.
Что случилось на этой неделе? Нацбанк Казахстана пересмотрел прогноз базовой ставки из-за инфляционных рисков, а безналичные платежи в стране достигли 86,5%.