＜Pythonでデータ解析＞データ解析モデル作成の探索的データ分析(EDA)のクイックリファレンス

データ解析

2022.07.05

データ解析におけるモデル作成の流れについてメモ。pandas, matplotlib, seabornは機能が多彩で使いこなすのはなかなか難しいですが、いろいろ簡単にデータの外観をつかむのに有用なコマンドがあります。

Gerd AltmannによるPixabayからの画像（アイキャッチ画像の背景）

※本記事は2022年7月現在の情報に基づき作成しています。（情報としては古いですがアーカイブとして残しています。）

データの読み込み

import pandas as pd

# PATHに読み込むデータのパスを入れる
PATH = 'data.csv'
df = pd.read_csv(PATH)

# データ表示
df

# データの統計指標
df.describe()

必要なパッケージ：pandas-profiling, ipywidget

# インストールされていない場合はpipなどでインストール
! python -m pip install pandas-profiling

# インストールされていない場合はpipなどでインストール
! python -m pip install ipywidgets

from pandas_profiling import ProfileReport
profile = ProfileReport(df, title="Pandas Profiling Report")

profile

profile.to_file("report.html")

レポートの一部

　matplotlibはデータの可視化に超有用です。ということで、まとめようと思ったのですが、公式ページにすごいまとめのページがあったので、そもそもまとめる必要がありませんでした(;^_^A
　ご存じない方は、必見です。

seabornも複雑なグラフを簡単に書ける超有用なライブラリです。

python -m pip install seaborn

数値データの集まりであれば、とりあえずヒストグラムと相関プロットをみるだけでデータの外観がわかります。

import seaborn as sns
g = sns.PairGrid(df)
g.map_diag(sns.histplot)
g.map_offdiag(sns.scatterplot)