Pythonでのデータ前処理コード - たけちゃんのデータサインティストへの道

こんにちは！

ブロガーのたけしです。

今回はpyhonのデータ分析
を行う上でのデータ前処理
コードを紹介したいと思います。

1. 必要なライブラリのインポート

まず、データ分析に必要なライブラリ
をインポートします。

pandasとnumpyのインポート
import pandas as pd
import numpy as np

2. データの読み込み

データをCSVファイルから読み込む例
を示します。


df = pd.read_csv
('your_dataset.csv')

3. データの確認

データの基本情報を確認します。


♯データの先頭5行を表示
print(df.head())

# データの概要を表示
print(df.info())

# 統計情報の表示
print(df.describe())

4. 欠損値の処理

データには欠損値が含まれて
いることがあります。

これらを処理する方法を
いくつか紹介します。


# 欠損値の確認
print(df.isnull().sum())

# 欠損値を含む行を削除
df = df.dropna()

# 特定の列の欠損値
を平均値で埋める
df['column_name'] =
 df['column_name'].fillna
(df['column_name'].mean())

5. 不要な列の削除

分析に不要な列を削除します。


df = df.drop(columns=
['unnecessary_column'])

6. データの変換

カテゴリ変数を数値に
変換するなど、データを
分析に適した形式に変換します。


# カテゴリ変数をダミー変数に変換
df = pd.get_dummies(df, columns
=['category_column'])

# 特定の列の値をスケーリング
（標準化）する
from sklearn.preprocessing 
import StandardScaler
scaler = StandardScaler()
df['scaled_column'] = 
scaler.fit_transform
(df[['column_to_scale']])

7. データの分割

モデルを作成するために、データ
をトレーニングセットとテストセット
に分割します。


from sklearn.model_selection 
import train_test_split

X = df.drop(columns=['target_column'])
y = df['target_column']

X_train, X_test, y_train, y_test
 = train_test_split(X, y, test_size=0.2, 
random_state=42)

8. データの保存

前処理が完了したデータを保存します。


df.to_csv('processed_data.csv', 
index=False)

これで、基本的なデータ前処理
の一連の流れをカバーしました。
データの内容や分析の目的に応じて、
このフローを調整することが重要です。

何か特定のデータセットで試してみたい
場合は、是非教えてくださいね。

それではまた！！