Введение в машинное обучение и его применение в блокчейне
- DOT0%
- GPU0%
- AI0%
Машинное обучение по существу является отраслью науки о данных, которая использует данные для поиска моделей внутри них. Применяя математические и статистические знания, эти модели совершенствуются в процессе, называемом "обучением".
Хотя многие ассоциируют машинное обучение (ML) и искусственный интеллект (ИИ) со сложными и футуристическими технологиями — как в фильмах, где ИИ восстает против людей — сегодняшняя реальность гораздо менее продвинута. Большинство современных систем ИИ основаны на программировании по принципу "если-то", реагируя только на заранее определенные человеком инструкции. Однако машинное обучение идет дальше, позволяя моделям самокорректироваться и совершенствоваться.
Категории машинного обучения
Машинное обучение можно в целом разделить на следующие типы:
1. Обучение с учителем
• Опирается на маркированные наборы данных для обучения.
• Система учится сопоставлять входные данные с выходными на основе предоставленных примеров.
• Пример: Обучение машины идентифицировать бабочек среди насекомых путем предоставления маркированных данных с конкретными характеристиками, такими как количество ног, крылья, структура усиков и пропорции тела.
• После обучения машина может анализировать новые изображения насекомых и определять, являются ли они бабочками на основе изученной модели.
2. Обучение без учителя
• Работает без маркированных данных; машина самостоятельно определяет паттерны и группирует точки данных на основе их характеристик.
• Пример: При идентификации бабочек метки не предоставляются. Машина должна самостоятельно определить ключевые особенности, такие как крылья, ноги и структура тела, чтобы отличить бабочек от других насекомых.
• Популярные модели обучения без учителя включают генеративно-состязательные сети (GANs) и алгоритмы кластеризации.
• Ограничения: Модели без учителя часто считаются "черными ящиками", где внутренние процессы не полностью прозрачны для разработчиков.
Популярные алгоритмы машинного обучения
Существует множество алгоритмов машинного обучения, каждый из которых предназначен для конкретных приложений. Некоторые известные примеры включают:
• Нейронные сети
• Деревья решений
• Машины опорных векторов (SVM)
• Байесовские классификаторы
• Методы кластеризации
Одним из широко используемых и удобных для начинающих алгоритмов является K-средних кластеризация, которая группирует точки данных в кластеры на основе сходства.
1. Алгоритм K-средних: Простой метод кластеризации без учителя
K-средних — это простой и широко используемый алгоритм кластеризации без учителя. Основная идея кластеризации заключается в группировке образцов на основе их расстояния или сходства, объединяя похожие (или близкие) образцы вместе, при этом разделяя непохожие (или далекие) образцы на разные группы. Базовая концепция K-средних заключается в итеративном разделении набора данных на K кластеров таким образом, чтобы среднее значение каждого кластера минимизировало сумму квадратов ошибок (SSE) для всех точек внутри этого кластера.
На математическом языке, для набора образцов, K-средних минимизирует функцию ошибки кластеризации.
:quality(80)/2024-11-15/A03789A8F33A942FC831ABFB468002F8.jpg)
Визуализация выше эффективно иллюстрирует концепцию: дисперсия каждой синей или красной точки относительно центра своего кластера минимизирована. Для кластеров красного и синего цвета две центральные точки удовлетворяют условию минимальной SSE для этого разделения.
:quality(80)/2024-11-15/320FA705B0C704DE00D717973AD88FBB.png)
Пример: K = 2 (Разделение образцов на два кластера)
Визуально, если мы хотим разделить зеленые точки на рисунке A на два кластера, мы могли бы провести диагональную линию от верхнего левого угла к нижнему правому. Но как инструктировать машину выполнить это разделение точно? Шаги следующие:
:quality(80)/2024-11-15/6AB1C2E3DE17A11005A85F8187080396.png)
1. Случайная инициализация:
Выберите две случайные точки (например, красную и синюю) в системе координат как начальные центры кластеров. Для каждой точки в наборе данных вычислите ее расстояние до красной и синей точек.
• Назначьте точку ближайшему центру кластера: если она ближе к синей точке, окрасьте ее в синий; если ближе к красной точке, окрасьте ее в красный.
• Пройдите через все точки, пока каждой точке не будет присвоен цвет, как показано в Шаге 1.
2. Пересчет центров кластеров:
Пересчитайте центр каждого кластера (среднее всех точек внутри кластера). Скорректируйте центры кластеров для минимизации среднеквадратичной ошибки (MSE) всех точек внутри этого кластера, как показано в Шаге 2.
3. Повторение до сходимости:
Повторяйте шаги 1 и 2, пока центры кластеров не стабилизируются и процесс не сойдется. Этот итеративный процесс завершается, как показано в Шагах 3-6.
:quality(80)/2024-11-15/C609F44B266B80DEE128A70513F4F3D0.jpg)
Блокчейн и машинное обучение
Блокчейн обладает двумя ключевыми атрибутами, которые делают его отличным соответствием для развития машинного обучения и искусственного интеллекта:
1. Конфиденциальность: Блокчейн позволяет проводить обучение на конфиденциальных частных данных без их компрометации.
2. Механизм стимулирования: Уникальная система вознаграждений блокчейна позволяет пользователям получать награды за обмен данными или публикацию моделей в сети. Любой может продавать свои данные, сохраняя конфиденциальность, а разработчики могут публиковать и обучать свои модели в сети, получая взамен стимулы.
:quality(80)/2024-11-15/672EFDE49DB067C360B7E06628B3439D.png)
Приведенное изображение демонстрирует цикл стандартизации и коммодитизации в технологии. Эра монополизации данных близится к завершению. Доступность блокчейна открывает возможности для более широкого участия в следующей технологической эре.
Три критических фактора в машинном обучении — это алгоритмы, вычислительная мощность и данные. Технологические гиганты, такие как Amazon, Apple, Google и Facebook, доминируют в вычислительных ресурсах и данных, что позволяет им сохранять значительное преимущество. Блокчейн вводит возможность нарушить это доминирование путем децентрализации машинного обучения. Этот сдвиг может перенаправить создание ценности от подходов, основанных на данных, к инновациям, основанным на алгоритмах. Экономические стимулы блокчейна создают благоприятную среду для разработчиков для обучения и оптимизации моделей, способствуя росту разработчиков алгоритмов.
2.1 Обзор проектов
Интеграция машинного обучения и блокчейна — это зарождающаяся, но многообещающая область. Хотя многие компании разрабатывают инструменты в этой сфере, потенциал остается огромным. Ниже представлены три примечательных проекта:
2.1.1 DeepBrain Chain
DeepBrain Chain, основанный в ноябре 2017 года, стремится построить крупнейшую в мире распределенную сеть высокопроизводительных вычислений на основе блокчейна, служащую критической инфраструктурой для эры 5G+AI.
• Ключевые компоненты:
1. Сеть высокопроизводительных вычислений: Запущена в августе 2018 года.
2. Блокчейн-мейннет: Официально запущен 20.05.2021, основан на фреймворке Substrate от Polkadot.
DeepBrain Chain является одним из немногих блокчейн-проектов, достигших масштабного развертывания в высокопроизводительных вычислениях. Он достиг значительного прогресса в удобстве использования и коммерциализации, с приложениями в блокчейне, ИИ, облачных играх, визуальном рендеринге, биофармацевтике и полупроводниковых симуляциях.
Более 50 глобальных компаний развернули высокопроизводительные GPU облачные платформы в его сети, обслуживая сотни предприятий и десятки тысяч разработчиков ИИ.
2.1.2 Numerai
Numerai - это хедж-фонд, использующий глобальное сообщество анонимных специалистов по обработке данных для прогнозирования будущих цен. Объединяя распределенный интеллект, машинное обучение, блокчейн и токенизацию, Numerai создает новую модель управления фондом, основанную на коллективном интеллекте.
• Распространение данных:
Специалисты по обработке данных получают анонимизированные наборы данных в качестве входных данных для своих прогностических моделей. Эти наборы данных могут включать макроэкономические показатели, цены на сырьевые товары или обменные курсы - служебные данные, обычно недоступные посторонним. Удаление метаданных позволяет Numerai открыто делиться данными.
• Соревнования:
Данные формируют основу для соревнований по созданию наиболее эффективных прогностических моделей. Исторические данные с известными результатами помогают проверить модели, в то время как данные в реальном времени остаются неопределенными для критически важных прогнозов.
• Оценка и вознаграждения:
Прогнозы оцениваются после загрузки в "мета-модель" Numerai. Специалисты по обработке данных получают вознаграждение в зависимости от того, насколько их прогнозы улучшают мета-модель.
• Интеллектуальная собственность:
Участники сохраняют право собственности на свои модели и продолжают получать вознаграждения, если их модели улучшают мета-модель Numerai.
2.1.3 Протокол HUMAN
Протокол HUMAN - это децентрализованная структура, которая вознаграждает вклады на основе знаний и навыков, объединяя искусственный интеллект и машинное обучение через гибридные модели.
Построенный на блокчейне, протокол HUMAN оптимизирует процессы управления и расчетов для создания проверяемой инфраструктуры с открытым исходным кодом для децентрализованных рынков труда, соединяя искателей данных с рынками знаний.
• Применение в машинном обучении:
Протокол напрямую решает трудоемкие задачи в машинном обучении, такие как ручная аннотация и проверка качества выводов модели, чтобы сделать наборы данных более подходящими для обучения.
• Видение будущего:
3.Заключительные замечания
За пределами своих текущих приложений протокол HUMAN разработан для следующей эволюции машинного интеллекта, где машины напрямую запрашивают у людей данные для самосовершенствования.
Машинное обучение и блокчейн - это две самые захватывающие и передовые технологии сегодня. Машинное обучение служит основой для искусственного интеллекта и больших данных, в то время как блокчейн имеет потенциал для революционного изменения текущей финансовой архитектуры. Обе технологии основаны на данных, что естественным образом обеспечивает синергию в определенных направлениях исследований.
Блокчейн предлагает безопасный и эффективный обмен данными и их анализ, в то время как машинное обучение использует эти данные для развития технологий. Мы уже наблюдаем, как многие разработчики работают над реализуемыми проектами на этом пересечении, и все больше ресурсов и талантов направляется в эти области.
Общие и взаимодополняющие возможности этих технологий будут продолжать двигать друг друга вперед. Оседлав волну блокчейна и управляя кораблем машинного обучения, мы готовы исследовать бескрайний звездный океан будущих технологий!