データ分析の基本操作：行・列の削除、ユニーク数、バリューカウント、欠損値の削除

こんにちは！

ブロガーのたけしです。

Pythonのデータ分析でよく使用される
Pandasライブラリを使って、データ
フレームの基本的な操作方法を紹介します。

この記事では、データフレームの
行や列の削除、ユニークな値の確認、
バリューカウントの使い方、欠損値の
削除方法について、具体的なコード例
と実行結果を交えながら解説します。

1. データフレームの行や列の削除

データ前処理では、不要な行や列を
削除することが頻繁に行われます。
Pandasのdropメソッドを使うことで
簡単に行や列を削除できます。

列を削除する方法

データフレームの特定の列を削除するには
dropメソッドに列名を指定し、axis=1を
設定します。

import pandas as pd

# サンプルデータフレームの作成
df = pd.DataFrame({
  '名前': ['田中', '佐藤', '鈴木'],
  '年齢': [25, 30, 22],
  '性別': ['男', '女', '男']
})

'年齢'列を削除
df_dropped_col = df.drop('年齢', axis=1)
print(df_dropped_col)

もしくは

df_dropped_col = df.drop(columns='年齢')
print(df_dropped_col)

実行結果:

　 名前  性別
0  田中   男
1  佐藤   女
2  鈴木   男

行を削除する方法

特定の行を削除するには、
削除したい行のインデックスを
指定します。
※インデックスは０から始まる
　ことに注意してください。

２番目の行を削除
df_dropped_row = df.drop(1, axis=0)
print(df_dropped_row)

実行結果:

　 名前  年齢  性別
0  田中   25   男
2  鈴木   22   男

2. ユニークな値の確認

特定の列に含まれるユニークな値を確認
したい場合は、uniqueメソッドを使います。
また、ユニークな値の数を表示するには
nuniqueを使用します。

# '性別'列のユニークな値
unique_values = df['性別'].unique()
print(unique_values)

# '性別'列のユニークな値の数
unique_count = df['性別'].nunique()
print(unique_count)

実行結果:

['男' '女']
2

3. バリューカウントの使い方

value_countsメソッドを使うと、各値が
列内でどれだけ出現しているかをカウント
することができます。

カテゴリーデータの分布を確認する際に
便利です。

# '性別'列の値のカウント
value_counts = df['性別'].value_counts()

print(value_counts)

実行結果:

男    2
女    1
Name: 性別, dtype: int64

4. 欠損値の削除

データには、欠損値が含まれること
があります。
dropnaメソッドを使って、欠損値を
含む行や列を削除できます。なお、
各列で欠損値がいくつ含まれるかは
df.isnull().sum()
で確認できます。

欠損値を含む行の削除

欠損値が含まれている行を削除するには、次のようにします。

# 欠損値を含むサンプルデータフレームの作成
df_with_nan = pd.DataFrame({
    '名前': ['田中', '佐藤', None],
    '年齢': [25, None, 22],
    '性別': ['男', '女', '男']
})

欠損値を含む行を削除
df_cleaned = df_with_nan.dropna()
print(df_cleaned)

実行結果:

　名前  年齢  性別
0  田中   25   男

欠損値を含む列の削除

欠損値が含まれている列を
削除する方法もあります。

# 欠損値を含む列を削除
df_cleaned_col = df_with_nan.dropna(axis=1)
print(df_cleaned_col)

実行結果:

   性別
0   男
1   女
2   男

まとめ

この記事では、Pandasを使った
データフレーム操作の基本について
解説しました。

データ前処理は、データ分析や
機械学習の結果に大きな影響を
与えるため、これらの操作を
しっかりとマスターしておくことが
重要です。今後も、データ前処理の
応用技術や分析手法について紹介
していきますので、ぜひご覧ください！

このブログ記事が、データサイエンス
の基礎を学ぶ際に役立つことを願って
います。次回も、ぜひお楽しみに！