Pythonでのデータ前処理コード

こんにちは!

ブロガーのたけしです。

今回はpyhonのデータ分析
を行う上でのデータ前処理
コードを紹介したいと思います。

1. 必要なライブラリのインポート

まず、データ分析に必要なライブラリ
をインポートします。

pandasとnumpyのインポート
import pandas as pd
import numpy as np

2. データの読み込み

データをCSVファイルから読み込む例
を示します。


df = pd.read_csv
('your_dataset.csv')

3. データの確認

データの基本情報を確認します。


データの先頭5行を表示
print(df.head())

# データの概要を表示
print(df.info())

# 統計情報の表示
print(df.describe())

4. 欠損値の処理

データには欠損値が含まれて
いることがあります。

これらを処理する方法を
いくつか紹介します。


# 欠損値の確認
print(df.isnull().sum())

# 欠損値を含む行を削除
df = df.dropna()

# 特定の列の欠損値

を平均値で埋める
df['column_name'] =

df['column_name'].fillna
(df['column_name'].mean())

5. 不要な列の削除

分析に不要な列を削除します。


df = df.drop(columns=
['unnecessary_column'])

6. データの変換

カテゴリ変数を数値に
変換するなど、データを
分析に適した形式に変換します。


# カテゴリ変数をダミー変数に変換
df = pd.get_dummies(df, columns

=['category_column'])

# 特定の列の値をスケーリング

(標準化)する
from sklearn.preprocessing

import StandardScaler
scaler = StandardScaler()
df['scaled_column'] =

scaler.fit_transform
(df[['column_to_scale']])

7. データの分割

モデルを作成するために、データ
をトレーニングセットとテストセット
に分割します。


from sklearn.model_selection
import train_test_split

X = df.drop(columns=['target_column'])
y = df['target_column']

X_train, X_test, y_train, y_test

= train_test_split(X, y, test_size=0.2,
random_state=42)

8. データの保存

前処理が完了したデータを保存します。


df.to_csv('processed_data.csv',
index=False)

これで、基本的なデータ前処理
の一連の流れをカバーしました。
データの内容や分析の目的に応じて、
このフローを調整することが重要です。

何か特定のデータセットで試してみたい
場合は、是非教えてくださいね。

それではまた!!

タイトルとURLをコピーしました