こんにちは!
ブロガーのたけしです。
今回はデータの分析に入る前段階
のデータ前処理で躓いている私の
苦い経験をお話したいと思います。

私は現在、契約データ(約120000件)
と事故データ(約100000件)の
データを抽出し、契約データと事故
データを結合したデータを基に
どのような人が事故を起こしやすいか
を分析するモデルをつくろうと考えて
います。
契約データと事故データを結合する際に
契約データの証券番号と事故データの
証券番号をkeyにデータを結合しよう
と考えたのですが、そこに落とし穴
がありました。
契約データには証券番号単位に
明細番号というもがあり、
証券番号+明細番号が一意の値と
なっていたのです。
かつその証券番号だけの値も
存在し、それは各明細番号の
保険料の合計したものとなって
おりました。
また事故データにも証券番号単位
に人身傷害保険、車両保険など
お支払する保険内容毎に複数の
一つの証券番号が使われている
ことがわかりました。
これは、散々、分析の過程で
契約データと事故データを
結合したものが、事故データ
単体の事故回数と合致しない
という結果を繰り返し、生データ
をよくよく見てみて気づいた
ことです。
これに気が付くまでに約3日
かかりました。何度やっても
結果が合わないので、本当に
心が折れそうになりましたが、
その原因がわかり、少し晴れ晴れ
とした気分に変わりました。
この経験で学んだことは、
生データをみることの大切さ
です。
皆さんもきっとデータ分析の
前段階でさまざまな課題に
ぶつかると思います。
その時は、是非、生データに
立ち返ることも重要な事だと
頭の片隅に入れておいてください。
今日は大した記事ではなかったですが
大事なことをお話しました。
明日もよろしくお願いいたします!!
