こんにちは!
ブロガーのたけしです。
Pythonのデータ分析でよく使用される
Pandasライブラリを使って、データ
フレームの基本的な操作方法を紹介します。
この記事では、データフレームの
行や列の削除、ユニークな値の確認、
バリューカウントの使い方、欠損値の
削除方法について、具体的なコード例
と実行結果を交えながら解説します。

1. データフレームの行や列の削除
データ前処理では、不要な行や列を
削除することが頻繁に行われます。
Pandasのdrop
メソッドを使うことで
簡単に行や列を削除できます。
列を削除する方法
データフレームの特定の列を削除するにはdrop
メソッドに列名を指定し、axis=1
を
設定します。
import pandas as pd
# サンプルデータフレームの作成
df = pd.DataFrame({
'名前': ['田中', '佐藤', '鈴木'],
'年齢': [25, 30, 22],
'性別': ['男', '女', '男']
})
'年齢'列を削除
df_dropped_col = df.drop('年齢', axis=1)
print(df_dropped_col)
もしくは
df_dropped_col = df.drop(columns='年齢')
print(df_dropped_col)
実行結果:
名前 性別
0 田中 男
1 佐藤 女
2 鈴木 男
行を削除する方法
特定の行を削除するには、
削除したい行のインデックスを
指定します。
※インデックスは0から始まる
ことに注意してください。

2番目の行を削除
df_dropped_row = df.drop(1, axis=0)
print(df_dropped_row)
実行結果:
名前 年齢 性別
0 田中 25 男
2 鈴木 22 男
2. ユニークな値の確認
特定の列に含まれるユニークな値を確認
したい場合は、unique
メソッドを使います。
また、ユニークな値の数を表示するにはnunique
を使用します。

# '性別'列のユニークな値
unique_values = df['性別'].unique()
print(unique_values)
# '性別'列のユニークな値の数
unique_count = df['性別'].nunique()
print(unique_count)
実行結果:
['男' '女']
2
3. バリューカウントの使い方
value_counts
メソッドを使うと、各値が
列内でどれだけ出現しているかをカウント
することができます。
カテゴリーデータの分布を確認する際に
便利です。

# '性別'列の値のカウント
value_counts = df['性別'].value_counts()
print(value_counts)
実行結果:
男 2
女 1
Name: 性別, dtype: int64
4. 欠損値の削除
データには、欠損値が含まれること
があります。dropna
メソッドを使って、欠損値を
含む行や列を削除できます。なお、
各列で欠損値がいくつ含まれるかは
df.isnull().sum()
で確認できます。
欠損値を含む行の削除
欠損値が含まれている行を削除するには、次のようにします。
# 欠損値を含むサンプルデータフレームの作成
df_with_nan = pd.DataFrame({
'名前': ['田中', '佐藤', None],
'年齢': [25, None, 22],
'性別': ['男', '女', '男']
})
欠損値を含む行を削除
df_cleaned = df_with_nan.dropna()
print(df_cleaned)
実行結果:
名前 年齢 性別
0 田中 25 男
欠損値を含む列の削除
欠損値が含まれている列を
削除する方法もあります。
# 欠損値を含む列を削除
df_cleaned_col = df_with_nan.dropna(axis=1)
print(df_cleaned_col)
実行結果:
性別
0 男
1 女
2 男
まとめ
この記事では、Pandasを使った
データフレーム操作の基本について
解説しました。
データ前処理は、データ分析や
機械学習の結果に大きな影響を
与えるため、これらの操作を
しっかりとマスターしておくことが
重要です。今後も、データ前処理の
応用技術や分析手法について紹介
していきますので、ぜひご覧ください!
このブログ記事が、データサイエンス
の基礎を学ぶ際に役立つことを願って
います。次回も、ぜひお楽しみに!