업계 연구

블록체인에서의 머신러닝과 그 응용 소개

DOT0%
GPU0%
AI0%

게시일: 2022-08-31

머신러닝은 본질적으로 데이터를 활용하여 그 안의 모델을 찾는 데이터 과학의 한 분야입니다. 수학적, 통계적 지식을 적용하여 이러한 모델들은 "훈련"이라고 불리는 과정을 통해 정제됩니다.

많은 사람들이 머신러닝(ML)과 인공지능(AI)을 영화에서 보여지는 것처럼 AI가 인간에 대항하는 복잡하고 미래적인 기술과 연관 짓지만, 현재의 현실은 그보다 훨씬 덜 발전되어 있습니다. 현재 대부분의 AI 시스템은 "if-then" 프로그래밍에 의존하며, 미리 정의된 인간의 지시에만 반응합니다. 하지만 머신러닝은 한 걸음 더 나아가 모델이 스스로 수정하고 개선할 수 있게 합니다.

머신러닝의 카테고리

머신러닝은 크게 다음과 같은 유형으로 나눌 수 있습니다:

1. 지도 학습

• 레이블이 지정된 데이터셋으로 훈련합니다.

• 시스템은 제공된 예시를 기반으로 입력을 출력에 매핑하는 방법을 학습합니다.

• 예시: 다리 수, 날개, 더듬이 구조, 체형 비율과 같은 특정 특징이 레이블된 데이터를 제공하여 기계가 곤충들 중에서 나비를 식별하도록 가르칩니다.

• 훈련 후에는 기계가 새로운 곤충 이미지를 분석하여 학습된 모델을 기반으로 나비인지 아닌지 판단할 수 있습니다.

2. 비지도 학습

• 레이블이 없는 데이터로 작동하며, 기계가 특징을 기반으로 패턴을 식별하고 데이터 포인트를 군집화합니다.

• 예시: 나비를 식별할 때 레이블이 제공되지 않습니다. 기계는 날개, 다리, 체형 구조와 같은 주요 특징을 독립적으로 식별하여 나비를 다른 곤충들과 구별해야 합니다.

• 대중적인 비지도 학습 모델에는 생성적 적대 신경망(GANs)과 군집화 알고리즘이 포함됩니다.

• 한계: 비지도 모델은 종종 "블랙박스"로 간주되며, 내부 프로세스가 개발자들에게 완전히 투명하지 않습니다.

인기 있는 머신러닝 알고리즘

특정 응용 분야에 맞춰진 다양한 머신러닝 알고리즘이 있습니다. 잘 알려진 예시는 다음과 같습니다:

• 신경망

• 의사결정 트리

• 서포트 벡터 머신(SVMs)

• 베이지안 분류기

• 군집화 방법

K-평균 군집화는 유사성을 기반으로 데이터 포인트를 군집으로 그룹화하는 널리 사용되고 초보자 친화적인 알고리즘입니다.

1. K-평균 알고리즘: 간단한 비지도 군집화 방법

K-평균은 간단하고 널리 사용되는 비지도 군집화 알고리즘입니다. 군집화의 핵심 아이디어는 거리나 유사성을 기반으로 샘플을 그룹화하여, 유사한(또는 가까운) 샘플들을 함께 군집화하고 비슷하지 않은(또는 먼) 샘플들을 다른 그룹으로 분리하는 것입니다. K-평균의 기본 개념은 데이터셋을 K개의 군집으로 반복적으로 분할하여 각 군집의 평균이 해당 군집 내 모든 점들의 제곱 오차 합(SSE)을 최소화하는 것입니다.

수학적 언어로, 샘플 집합에 대해 K-평균은 군집화의 오차 함수를 최소화합니다.

위의 시각화는 개념을 효과적으로 보여줍니다: 각 파란색 또는 빨간색 점의 해당 군집 중심까지의 분산이 최소화됩니다. 빨간색과 파란색 군집에 대해, 두 중심점은 이 분할에 대한 최소 SSE 조건을 만족합니다.

예시: K = 2 (샘플을 두 개의 군집으로 나누기)

시각적으로, 그림 A의 녹색 점들을 두 개의 군집으로 나누고 싶다면, 왼쪽 위에서 오른쪽 아래로 대각선을 그을 수 있습니다. 하지만 기계가 이 분할을 정확하게 수행하도록 어떻게 지시할까요? 단계는 다음과 같습니다:

1. 무작위 초기화:

좌표계에서 두 개의 무작위 점(예: 빨간색과 파란색)을 초기 군집 중심으로 선택합니다. 데이터셋의 각 점에 대해 빨간색과 파란색 점까지의 거리를 계산합니다.

• 가장 가까운 군집 중심에 점을 할당합니다: 파란색 점에 더 가까우면 파란색으로, 빨간색 점에 더 가까우면 빨간색으로 색칠합니다.

• 단계 1에 표시된 것처럼 모든 점이 색상을 할당받을 때까지 모든 점을 반복합니다.

2. 군집 중심 재계산:

각 군집의 중심(군집 내 모든 점들의 평균)을 다시 계산합니다. 단계 2에 표시된 것처럼 해당 군집 내 모든 점들의 평균 제곱 오차(MSE)를 최소화하도록 군집 중심을 조정합니다.

3. 수렴할 때까지 반복:

군집 중심이 안정화되고 프로세스가 수렴할 때까지 단계 1과 2를 반복합니다. 이 반복 과정은 단계 3-6에 표시된 대로 완료됩니다.

블록체인과 머신러닝

블록체인은 머신러닝과 인공지능을 발전시키는 데 적합한 두 가지 주요 특성을 가지고 있습니다:

1. 프라이버시: 블록체인은 민감한 개인 데이터를 손상시키지 않고 훈련할 수 있게 합니다.

2. 인센티브 메커니즘: 블록체인의 독특한 보상 시스템을 통해 사용자들은 데이터를 공유하거나 체인상에 모델을 게시함으로써 보상을 얻을 수 있습니다. 누구나 프라이버시를 유지하면서 데이터를 판매할 수 있고, 개발자들은 체인상에서 모델을 게시하고 훈련시켜 그에 대한 인센티브를 받을 수 있습니다.

참조된 이미지는 기술의 표준화와 상품화 주기를 보여줍니다. 데이터 독점의 시대가 끝나가고 있습니다. 블록체인의 접근성은 다음 기술 시대에 더 넓은 참여 기회를 가져옵니다.

머신러닝의 세 가지 중요한 요소는 알고리즘, 컴퓨팅 파워, 그리고 데이터입니다. 아마존, 애플, 구글, 페이스북과 같은 기술 거대기업들은 컴퓨팅과 데이터 자원을 독점하여 상당한 우위를 유지하고 있습니다. 블록체인은 머신러닝을 분산화함으로써 이러한 지배를 무너뜨릴 기회를 제공합니다. 이러한 변화는 가치 창출의 초점을 데이터 중심 접근방식에서 알고리즘 중심 혁신으로 전환할 수 있습니다. 블록체인의 경제적 인센티브는 개발자들이 모델을 훈련하고 최적화할 수 있는 비옥한 환경을 제공하여 알고리즘 개발자들의 성장을 촉진합니다.

2.1 프로젝트 개요

머신러닝과 블록체인의 통합은 초기 단계이지만 유망한 분야입니다. 많은 기업들이 이 분야에서 도구를 개발하고 있지만, 잠재력은 여전히 방대합니다. 다음은 주목할 만한 세 가지 프로젝트입니다:

2.1.1 딥브레인 체인

2017년 11월에 설립된 딥브레인 체인은 블록체인으로 구동되는 세계 최대의 분산형 고성능 컴퓨팅 네트워크를 구축하여 5G+AI 시대를 위한 중요한 인프라를 제공하는 것을 목표로 합니다.

• 주요 구성 요소:

1. 고성능 컴퓨팅 네트워크: 2018년 8월에 출시되었습니다.

2. 블록체인 메인넷: 2021년 5월 20일에 폴카닷의 서브스트레이트 프레임워크를 기반으로 공식 출시되었습니다.

딥브레인 체인은 고성능 컴퓨팅에서 대규모 배포를 달성한 몇 안 되는 블록체인 프로젝트 중 하나입니다. 블록체인, AI, 클라우드 게이밍, 시각적 렌더링, 생물약학, 반도체 시뮬레이션 등 다양한 분야에서 사용성과 상업화에 상당한 진전을 이루었습니다.

전 세계 50개 이상의 기업이 그들의 네트워크에 고성능 GPU 클라우드 플랫폼을 배포했으며, 수백 개의 기업과 수만 명의 AI 개발자들에게 서비스를 제공하고 있습니다.

2.1.2 뉴머라이

Numerai는 익명의 전 세계 데이터 과학자 커뮤니티를 활용하여 미래 가격을 예측하는 헤지펀드입니다. 분산 지능, 머신러닝, 블록체인, 토큰화를 결합하여 Numerai는 집단 지성이 주도하는 새로운 펀드 운용 모델을 만듭니다.

• 데이터 배포:

데이터 과학자들은 예측 모델을 위한 입력값으로 익명화된 데이터셋을 받습니다. 이러한 데이터셋에는 거시경제 지표, 원자재 가격, 환율 등 일반적으로 외부인이 접근할 수 없는 독점 데이터가 포함될 수 있습니다. 메타데이터를 제거함으로써 Numerai는 데이터를 공개적으로 공유할 수 있습니다.

• 대회:

데이터는 가장 효과적인 예측 모델을 만들기 위한 대회의 기반이 됩니다. 결과가 알려진 과거 데이터는 모델을 검증하는 데 도움이 되며, 실시간 데이터는 중요한 예측을 위해 불확실성을 유지합니다.

• 점수 산정 및 보상:

예측은 Numerai의 "메타 모델"에 업로드된 후 점수가 매겨집니다. 데이터 과학자들은 그들의 예측이 메타 모델을 얼마나 개선하는지에 따라 보상을 받습니다.

• 지적 재산권:

참가자들은 자신의 모델에 대한 소유권을 유지하며, 그들의 모델이 Numerai의 메타 모델을 향상시키는 한 계속해서 보상을 받습니다.

2.1.3 HUMAN Protocol

HUMAN Protocol은 지식과 기술을 기반으로 기여도에 따라 보상하는 분산형 프레임워크로, AI와 머신러닝을 하이브리드 모델을 통해 연결합니다.

블록체인 기반으로 구축된 HUMAN Protocol은 관리 및 정산 프로세스를 간소화하여 데이터 수요자와 지식 마켓플레이스를 연결하는 감사 가능한 오픈소스 분산 노동 시장 인프라를 만듭니다.

• 머신러닝 응용:

이 프로토콜은 데이터셋을 훈련에 더 적합하게 만들기 위해 수동 주석 처리와 모델 추론 품질 검증과 같은 머신러닝의 노동 집약적 작업을 직접 다룹니다.

• 미래 비전:

3.마무리 발언

현재 응용을 넘어, HUMAN Protocol은 기계가 자체 개선을 위해 직접 인간에게 데이터를 요청하는 기계 지능의 다음 진화 단계를 위해 설계되었습니다.

머신러닝과 블록체인은 오늘날 가장 흥미롭고 첨단인 기술입니다. 머신러닝은 인공지능과 빅데이터의 기반이 되고, 블록체인은 현재의 금융 구조를 혁신할 잠재력을 가지고 있습니다. 두 기술 모두 데이터 중심적이어서 특정 연구 방향에서 자연스러운 시너지를 발휘할 수 있습니다.

블록체인은 안전하고 효율적인 데이터 공유와 분석을 제공하고, 머신러닝은 이 데이터를 활용하여 기술 발전을 이끕니다. 우리는 이미 많은 개발자들이 이러한 교차점에서 실현 가능한 프로젝트를 진행하는 것을 목격하고 있으며, 더 많은 자원과 인재가 이 분야로 유입되고 있습니다.

이러한 기술들의 공유되고 상호 보완적인 능력은 계속해서 서로를 발전시킬 것입니다. 블록체인의 물결을 타고 머신러닝이라는 배를 조종하며, 우리는 미래 기술이라는 광활하고 별이 빛나는 바다를 탐험하게 될 것입니다!

전체 내용 보기

Zcash 아이언우드 업그레이드: ZEC 시장 반등을 확인해야 할 것

CoinEx 연구소｜NFT에서 NFT-fi로: 실제 수요 또는 잘못된 명제?