Благодарим за настройку Google I/O! Смотрите контент по запросу .

Эта страница переведена с помощью Cloud Translation API.

Прогностический ИИ: превращение данных в ценные выводы.

Прогностический (или аналитический) ИИ — это набор алгоритмов, которые помогают понять существующие данные и предсказать, что, вероятно, произойдет дальше. Основываясь на исторических закономерностях, модели прогностического ИИ обучаются различным аналитическим задачам, которые помогают пользователям осмыслить свои данные:

Классификация : Группировка товаров по предопределенным категориям на основе закономерностей в данных. Например, интернет-магазин может классифицировать посетителей по их намерениям (поиск информации, покупка, возврат), чтобы соответствующим образом адаптировать свои рекомендации.
Регрессионный анализ : прогнозирование числовых значений, таких как коэффициент вовлеченности, продолжительность сессии или вероятность конверсии.
Рекомендация : Предложите товары, наиболее подходящие для конкретного пользователя или контекста. Например, «пользователи, похожие на вас, также просматривали» или «рекомендованные обучающие материалы, основанные на вашем прогрессе».
Прогнозирование и обнаружение аномалий : модель предсказывает будущие события, такие как всплеск трафика, или выявляет необычное поведение, например, аномалии платежей или мошенничество.

Некоторые продукты полностью построены на основе предиктивного ИИ, например, инструменты для поиска музыки. В других случаях предиктивный ИИ улучшает предсказуемый пользовательский опыт, например, веб-сайт потокового вещания с персонализированными рекомендациями. Предиктивный ИИ также может стать мощным инструментом для внутренних нужд: его можно использовать для анализа данных о продукте и пользователях, чтобы выявлять закономерности и направлять дальнейшие действия на более эффективный путь.

Важно: В большинстве случаев задачи прогнозирования с помощью ИИ включают обучение собственной модели. Этот модуль поможет вам понять, почему стоит выбрать именно этот тип интеллекта и как он работает. Для успешной реализации функции прогнозирования с помощью ИИ вам потребуется сотрудничать со специалистами по анализу данных или самостоятельно приобрести более глубокие навыки машинного обучения. Если вы хотите узнать больше, Google Cloud предлагает экспресс-курс по машинному обучению .

Цикл прогнозирующего ИИ

Разработка системы прогнозного искусственного интеллекта следует итеративному циклу: определение перспектив, подготовка данных, обучение модели, оценка модели и развертывание модели.

Каждый шаг указывает на следующий шаг, образуя непрерывный круг. — Рисунок 1. Хотя начальный цикл начинается с определения варианта использования, каждый последующий шаг выполняется последовательно, а затем начинается заново после развертывания модели.

Представьте, что вы работаете над приложением для повышения продуктивности по подписке, Do All The Things . Вы уже собираете данные об использовании, такие как просмотры страниц, продолжительность сессий, использование функций и продление подписки. Теперь вы хотите извлечь из этих данных больше полезной информации. Вот как вы проходите цикл прогнозирующего искусственного интеллекта.

Определите сценарий использования.

Схема системы «Делай всё». — Рисунок 2. Схема вашей системы для приложения « *Делай все»* . Откройте схему в полном размере .

За последние три месяца уровень оттока клиентов вырос. Вместо того чтобы реагировать на отмену подписки пользователями, вам следует использовать предиктивный ИИ для выявления пользователей, которые, вероятно, откажутся от услуг, еще до того, как они это сделают. Цель состоит в том, чтобы предоставить вашей команде по работе с клиентами ранние сигналы, чтобы они могли предпринять целенаправленные, упреждающие действия для удержания пользователей, находящихся в группе риска.

При определении сценария использования прогнозного ИИ начните с проверки того, что на поставленный вопрос можно ответить с помощью данных. Это могут быть данные, которые вы уже собрали, или данные, которые вы могли бы реально собрать в будущем. Этот шаг часто требует сотрудничества с экспертами в данной области, такими как команды по работе с клиентами, развитию или маркетингу, чтобы гарантировать, что прогноз будет одновременно значимым и применимым на практике.

Четкое определение проблемы должно содержать следующие пункты:

Цель : На какой бизнес-результат вы пытаетесь повлиять? Например, вы хотите снизить отток клиентов, обеспечив проактивное взаимодействие с ними.
Входные данные : На основе каких исторических данных обучается модель? Например, вы предоставляете шаблоны использования, типы тарифных планов и взаимодействия со службой поддержки.
Результат : Что будет выдавать модель? Например, вы хотите, чтобы модель создала показатель вероятности оттока для каждого пользователя.
Пользователь : Кто использует прогноз или реагирует на него? Например, эти данные предназначены для менеджеров по работе с клиентами.
Критерии успеха : Как измерить результат? Например, измеряется коэффициент удержания клиентов, чтобы определить, удалось ли снизить отток.

Выявив эти детали на начальном этапе, вы сможете избежать распространенной ловушки: создания технически правильной модели, которая никогда не используется.

Подготовьте данные

Чтобы предоставить вашей модели полезные сигналы для обучения, вам необходимо пометить ваши исторические данные идеальными прогнозами. Пометьте пользователей Do All The Things как «отписавшихся» или «не отписавшихся».

Примечание: В нашем примере данные собираются автоматически. Это идеально подходит для обучения, поскольку обеспечивает согласованность и низкий уровень шума. В системах, которые полагаются на ручной ввод данных, таких как системы управления взаимоотношениями с клиентами (CRM), данные, вероятно, содержат пропущенные поля, несогласованные названия или опечатки. Перед началом обучения необходимо провести очистку и нормализацию данных.

Далее, совместно с вашей командой по работе с клиентами определите, какие поведенческие характеристики наиболее важны для прогнозирования оттока клиентов. Сузьте набор данных до этих ключевых характеристик и удалите ненужные поля, чтобы вашей модели не приходилось обрабатывать шум. Не забудьте учесть конфиденциальность данных. Удалите персональные данные, такие как имена или адреса электронной почты, и храните только агрегированные поведенческие данные.

В следующей таблице представлен фрагмент полученного вами набора данных:

Таблица 1: Фрагмент набора данных для прогнозирования оттока клиентов.
`user_id`	`plan_type`	`avg_session_time (min)`	`logins_last_30d`	`features_used`	`support_tickets`	`churned`
00123	премиум	12.4	22	5	0	0
00124	пробный	5.8	3	1	2	1
00125	бесплатно	18.1	30	7	0	0
00126	премиум	9.7	12	4	1	0
00127	пробный	4.2	2	1	3	1

Это позволит вашей модели получить четкие числовые и категориальные входные данные (например, plan_type или avg_session_time ) и понятную целевую метку ( churned ). Категории следует преобразовать в уникальные числовые идентификаторы.

Наконец, разделите ваш набор данных на три подмножества:

Обучающий набор данных (обычно около 70-80%) используется для обучения модели.
Набор данных для валидации (иногда также называемый набором данных для разработки) используется для настройки гиперпараметров и предотвращения переобучения.
Тестовый набор предназначен для оценки производительности модели на совершенно неизвестных данных.

Это помогает вашей модели обобщать решения, а не полагаться на заученные исторические примеры.

Обучите модель

В отличие от генеративного ИИ , который часто строится на основе больших, предварительно обученных моделей, большинство систем прогнозного ИИ полагаются на самообучающиеся модели. Это связано с тем, что задачи прогнозирования в значительной степени специфичны для вашего продукта и ваших пользователей. Такие инструменты, как scikit-learn (Python), AutoML (без кода или с минимальным кодом) или TensorFlow.js (JavaScript), упрощают обучение и оценку прогнозных моделей, не требуя знания лежащих в их основе математических вычислений.

В нашем примере с оттоком клиентов мы передаем очищенный обучающий набор данных в алгоритм классификации с учителем, такой как логистическая регрессия или нейронная сеть . Попробуйте несколько вариантов, чтобы определить, что лучше всего подходит для ваших данных.

Ваша модель изучает, какие модели поведения коррелируют с оттоком клиентов. В конце она может присвоить каждому пользователю вероятностный балл. Например, существует 72%-ный риск того, что пользователь X отменит подписку в следующем месяце.

После каждой итерации обучения оценивайте полученную модель, используя проверочный набор данных. Производительность модели можно улучшить, корректируя гиперпараметры , а также целенаправленно улучшая набор данных.

Оцените модель

Метки в вашем наборе данных представляют собой эталонные значения, с которыми вы можете сравнивать результаты работы модели. Ключевые показатели для отслеживания:

Точность : сколько пользователей, помеченных как «отказавшиеся», действительно ушли?
Напомним : из всех пользователей, которые ушли, сколько удалось перехватить модели?
F1-мера : единое число, уравновешивающее точность и полноту, полезное, когда вам нужна общая мера точности без чрезмерной оптимизации одного параметра за счет другого.

Слишком много ложных срабатываний приводит к неэффективным усилиям по удержанию клиентов, а слишком много ложных отрицаний — к их потере. Оптимальный компромисс зависит от приоритетов вашего бизнеса. Например, ваша компания может предпочесть иметь дело с парой ложных срабатываний, если это повысит вероятность обнаружения большего числа пользователей до того, как они покинут систему.

Развертывание и поддержка модели

После проверки вы можете развернуть модель с помощью API или в качестве легковесного клиентского сервиса, интегрированного в вашу аналитическую панель. Ежедневно она может оценивать пользователей и обновлять визуализацию риска оттока, позволяя вашей команде расставлять приоритеты в работе с ними. Для обеспечения точности и надежности используйте следующие уроки, полученные от команд по эксплуатации машинного обучения (MLOps):

Отслеживайте отклонения данных : выявляйте моменты, когда поведение пользователей меняется и ваши обучающие данные перестают отражать реальность.
- Например, после масштабного обновления пользовательского интерфейса пользователи начинают по-другому взаимодействовать с функциями, что приводит к снижению точности прогнозов оттока клиентов.
Учитесь на ошибках : выявляйте общие закономерности, лежащие в основе ошибочных прогнозов, и добавляйте целенаправленные примеры для улучшения следующего цикла обучения.
- Например, модель часто помечает опытных пользователей как потенциальных клиентов, склонных к оттоку, поскольку они открывают много заявок в службу поддержки. После анализа вы добавляете новые функции, которые отличают устранение неполадок от потери интереса.
Регулярно переобучайте модель : даже если производительность кажется стабильной, периодически обновляйте ее, чтобы учитывать сезонные колебания, обновления продукта или изменения цен.
- Например, после введения годовых планов вы можете переобучить модель, поскольку структура ценообразования меняет поведение пользователей перед продлением подписки.

Этот жизненный цикл является основой прогнозного ИИ. С помощью таких инструментов, как MLflow и Weights & Biases , вы можете запустить этот процесс без глубоких знаний в области машинного обучения.

Распространенные ошибки и способы их предотвращения

Хотя ошибки время от времени будут возникать, вы можете предотвратить распространенные причины, которые могут подорвать производительность и доверие пользователей:

Низкое качество данных : если ваши входные данные зашумлены или неполны, ваши прогнозы также будут такими. Чтобы смягчить эту проблему, визуализируйте и проверяйте данные перед обучением. Убедитесь, что у вас есть необходимые сигналы обучения и обрабатывайте пропущенные значения. Контролируйте качество данных в производственной среде.
Переобучение : Модель показывает очень хорошие результаты на обучающих данных, но дает сбой в новых случаях. Для решения этой проблемы используйте перекрестную проверку , регуляризацию и отложенные наборы данных . Это поможет вашей модели обобщать результаты за пределы обучающих примеров.
Примечание: Это сложные методы, требующие специальных знаний в области машинного обучения. Подробнее можно узнать в кратком курсе по машинному обучению .
Дрейф данных : поведение пользователей и окружающая среда меняются, но ваша модель остается неизменной. Для смягчения этой проблемы запланируйте переобучение и добавьте мониторинг для обнаружения снижения точности.
Неправильные метрики : Общая точность не всегда отражает приоритеты ваших пользователей. Например, иногда «стоимость» конкретной ошибки имеет большее значение. В сфере обнаружения мошенничества пропущенный случай мошенничества (ложноотрицательный результат) гораздо хуже, чем выявление безобидного случая (ложноположительный результат). Чтобы смягчить эту проблему, согласуйте метрики с реальными целями обнаружения мошенничества.

Большинство из этих проблем не являются критическими. Запускайте систему постепенно и устраняйте проблемы по мере их возникновения.

Ключ к такому бережливому и гибкому подходу — это наблюдаемость. Версионируйте свои модели, регистрируйте характеристики точности и инструменты, используемые для их построения, отслеживайте производительность с течением времени и поддерживайте активный мониторинг. Когда что-то начнет отклоняться от нормы или сломается, вы сможете обнаружить и исправить проблему до того, как ее заметят пользователи.

Ваши выводы

Прогностический ИИ превращает ваши существующие данные в предсказания, выявляя вероятные дальнейшие события и определяя направления действий. Это наиболее конкретная и измеримая форма ИИ. Сосредоточьтесь на четко определенных проблемах, которые можно выразить в данных, постоянно совершенствуйте продукт по мере его развития и отслеживайте его производительность с течением времени.

В следующем модуле вы узнаете о генеративном искусственном интеллекте , который помогает создавать что-то новое на основе имеющихся данных.

Ресурсы

Если вас интересует математическая основа прогнозного искусственного интеллекта, рекомендуем ознакомиться со следующими ресурсами:

Интенсивные курсы по машинному обучению: классификация , линейная регрессия и логистическая регрессия .
Автор вашего курса, Янна Липенкова, подробнее рассказала о теме прогнозного ИИ в главе 4 своей книги «Искусство разработки продуктов на основе ИИ: обеспечение бизнес-ценности» .
«Искусственный интеллект: современный подход» Стюарта Джонатана Рассела и Питера Норвига. Книга была впервые опубликована в 1995 году, а её последнее издание вышло в 2021 году. Она широко преподается в инженерных программах по искусственному интеллекту.
Книга Кристофера М. Бишопа «Распознавание образов и машинное обучение» представляет собой всесторонний и академический подход к прогнозирующему обучению в области искусственного интеллекта.

Проверьте свое понимание

Какова основная функция предиктивного искусственного интеллекта?

Для создания нового контента, такого как текст или изображения.

Прогностический ИИ не генерирует новый контент.

Чтобы понять имеющиеся данные и спрогнозировать, что, вероятно, произойдет дальше.

Отличная работа, всё верно!

Заменить все процессы принятия решений человеком автономными агентами.

Это неверно.

Создать диалоговый интерфейс для пользователей.

Это не совсем так.

Какая задача включает в себя группировку предметов в заранее определенные категории на основе заданных закономерностей?

Регрессия.

Это неверно. Регрессия — это моделирование, прогнозирующее числовые значения, такие как уровень вовлеченности.

Прогнозирование.

Это неверно. Прогнозирование — это когда модель предсказывает будущие события или выявляет необычное поведение.

Классификация.

Отличная работа, всё верно!

Рекомендация.

Это неверно.

В контексте "прогностического ИИ" почему следует разделять набор данных на обучающую, проверочную и тестовую выборки?

Искусственно увеличить размер набора данных.

Это неверно.

Это поможет модели обобщать решения, а не полагаться на заученные исторические примеры.

Отличная работа, всё верно!

Для обеспечения более быстрой работы модели в производственной среде.

Это неверно.

Для разделения данных по местоположению пользователя.

Это неверно.

Какой показатель уравновешивает точность и полноту, чтобы обеспечить общую меру достоверности?

Показатель точности

Это неверно.

Коэффициент оттока

Это неверно.

F1-балл

Отличная работа, всё верно!

Задержка

Это неверно.

Что такое дрейф данных и как его следует минимизировать?

Когда в модели закончится место для хранения данных, купите ещё.

Это неверно.

Если модель выдает ложные результаты, используйте оперативные инженерные решения для исправления выходных данных.

Это неверно.

Когда поведение пользователей меняется и обучающие данные перестают отражать реальность, следует переобучить модель.

Отличная работа, всё верно!

Если подключение к API не удается, используйте другого поставщика.

Это неверно.

Изучите варианты применения ИИ.

Генеративный ИИ

Прогностический ИИ: превращение данных в ценные выводы. Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Цикл прогнозирующего ИИ

Определите сценарий использования.

Подготовьте данные

Обучите модель

Оцените модель

Развертывание и поддержка модели

Распространенные ошибки и способы их предотвращения

Ваши выводы

Ресурсы

Проверьте свое понимание

Прогностический ИИ: превращение данных в ценные выводы.