機械学習プロジェクトの進め方:CRISP-DM

機械学習プロジェクトを進めているときの覚書。

ウォーターフォールやアジャイルなどのシステム開発モデルのようなものが、機械学習(人工知能)プロジェクトにあるか専門家に聞いたら「CRISP-DM」というのを教えてもらった。


CRISP-DMの概要

読み:クリスプディーエム。
Cross-industry standard process for data miningの略。

データ分析のための開発モデル。

各工程と具体的なタスクが論理的にまとまっている。

「data mining」はデータの中から有益な情報を取り出すという意味。

wikipediaが分かりやすい。


CRISP-DMの工程(プロセス)

IBMのドキュメントが分かりやすい。


工程一覧と概要

  1. ビジネスを理解する (Business Understanding)
    データ分析によるビジネス目標を明確にし文書化する
  2. データを理解する (Data Understanding)
    実際のデータにアクセスし、ビジネス目標を達成できそうか検討する
  3. データを準備する (Data Preparation)
    データを取捨選択し、計算できる数値に変換する(クリーニング)。
    この工程がプロジェクト全体の50%~70%の時間。
  4. モデリングを行う (Modeling)
    適切なモデリング手法を選択し実行する
  5. モデルを評価する (Evaluation)
    ビジネス目標を達成するための有益な情報を引き出せているか評価する
  6. モデルを組み込む (Deployment)
    製品やサービスにモデルを組み込む


データ分析では計画(PDCAのPlan)を重視しているのが特徴。

ビジネス目標を忘れ迷走する(無駄に時間だけ掛かる)プロジェクトが多いらしい。


【関連記事】