【入門】pandasの基本

pandasの基本 Seriesとは

Seriesは一次元のデータ扱うためのに用いられます。
サンプルコードを見てみましょう。

左のABCがindex、右の値が要素(value)です。

DataFrameとは

行と列にラベルを持った二次元データです。
サンプルコードを見てみます。

データの中身をみる

以下のようなDataFrameを使って説明していきます。

head : データの上の行から参照

headメソッドを使うとデータの上の行からデータを表示します。
引数を与えれば、上から引数分参照し、
引数がなければ、上から5つ参照します。

tail : データの下の行から参照

headメソッドを使うとデータの下の行からデータを表示します。
引数を与えれば、下から引数分参照し、
引数がなければ、下から5つ参照します。

values : データの中身のみ参照

valuesはデータの中身だけ(index, columnなし)を参照します。

index : indexの参照

DataFrameのindexを参照します。

columns : columnの参照

DataFrameのcolumnを参照します。

describe : データの簡易的な統計データの表示

データの簡易的な統計データを出力します。

カラム毎の統計データが出力されていることがわかります。

ちなみに、引数include、excludeなどを指定すれば、
さらに細かく要素を指定して統計データを表示することができます。
include、excludeに関しては以下のdocumentを参照してください。
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html

データの抽出

whereメソッド

以下のDataFrameを使ってwhereメソッドを試します。

このDataFarmeから5より大きい要素だけwhereメソッドを使って取り出してみます。

次にC1列が5より大きい行を取り出します。

loc

DataFrameの行の抽出を行います。
(indexが整数以外の時も使える)

iloc

DataFrameの各行や要素を取り出す時に用います。
iはintengerのi、indexの行数を指定して取り出します。

サンプルコードを見ていきます。

dropna:欠損値(NaN)の除外

dropnaは欠損値がある行を除外します。

上記の例ではNaNがあるR1, R2が除外されていることがわかります。

転置 T

転置は単純にdf.Tといった形でできます。

サンプルコードをを以下に示します。

isnull: NaNかどうかの確認

NaN(欠損値)のときにはTrueを出力します。

mean:各列の平均を計算

各列の平均を計算する時はmeanメソッドを用います。

pct_change:変化率を計算する

時系列データに対して、1つ前のデータとの変化率を計算する時にはpct_changeメソッドを用います。

DataFrameでも同じように使うことができます。
デフォルトは列に対して変化率を求めます。

axis="columns"と設定することで行に対して
変化率を求めることができます。

参考文献

  1. PythonユーザのためのJupyter[実践]入門
タイトルとURLをコピーしました