titanite.preprocess
#
Module Contents#
Functions#
データの前処理 |
|
いくつかのカラムの値を置換する |
|
五大州/地域を分割して、新しいカラムとして追加する |
|
カテゴリー型に変換する |
|
感情分析 |
|
クラスター分割 |
|
ビン分割 |
|
データフレームを保存 |
API#
- titanite.preprocess.preprocess_data(data: pandas.DataFrame) pandas.DataFrame #
データの前処理
タイムスタンプをdatetimeオブジェクトに変換する
回答数の集計に使うカラムを追加する
各カラムを順番ありのカテゴリ変数に変換する
プロットを作成するときに、軸の値がアルファベット順で自動ソートされる
順番ありにすることで、任意の並びにできる
自由記述あり/なしのカラムを追加する
自由記述できるカラム名を指定し、入力がある/なしのフラグをたてる
自由記述を埋める=関心が高い、という傾向があると仮定し、その相関を調べたい
自由記述の内容を数値化したカラムを追加する
自由記述の内容から、プラス/マイナスの感情を判断する
これも2と同じような仮定をしている
プラス感情 = 関心が高い = 好意的
マイナス感情 = 関心が高い = 嫌悪的
Paramaters
data: pd.DataFrame)
未処理のデータフレームReturns
pd.DataFrame
前処理したデータフレーム
- titanite.preprocess.replace_data(data: pandas.DataFrame) pandas.DataFrame #
いくつかのカラムの値を置換する
アンケートの選択肢のままだと前処理が面倒な場合があります。 そのような選択肢はこの関数で整えてください。
Parameters
data : pd.DataFrame
入力データフレームReturns
pd.DataFrame
データフレーム
- titanite.preprocess.split_data(data: pandas.DataFrame) pandas.DataFrame #
五大州/地域を分割して、新しいカラムとして追加する
アンケートの勤務地/出身地の選択肢は”/”で区切って集計することも想定して作成しました。 それぞれの質問の回答に、五大州(regional)と地域(subregional)のカラムを追加しています。
Parameters
data : pd.DataFrame
データフレームReturns
pd.DataFrame
データフレーム
- titanite.preprocess.categorical_data(data: pandas.DataFrame, categories: dict) pandas.DataFrame #
カテゴリー型に変換する
Parameters
data : pd.DataFrame
データフレームcategories : dict
カテゴリー型Returns
pd.DataFrame
データフレーム
- titanite.preprocess.sentiment_data(data)#
感情分析
`TextBlob``パッケージを使って、自由記述の内容を感情分析する。
- titanite.preprocess.cluster_data(data: pandas.DataFrame) pandas.DataFrame #
クラスター分割
Parameters
data : pd.DataFrame
入力データReturns
pd.DataFrame
クラスター分類を追加したデータ
- titanite.preprocess.binned_data(data: pandas.DataFrame) pandas.DataFrame #
ビン分割
Parameters
data : pd.DataFrame
入力データReturns
pd.DataFrame
ビン分割したカラムを追加したデータ
- titanite.preprocess.save_data(data: pandas.DataFrame, write_dir: str) None #
データフレームを保存
{write_dir}
/categorical_data.csv
{write_dir}
/sentiment_data.csv
Parameters
data: pd.DataFrame
データフレームwrite_dir: str
ディレクトリ名Returns
None