titanite.preprocess#
Module Contents#
Functions#
データの前処理 |
|
いくつかのカラムの値を置換する |
|
五大州/地域を分割して、新しいカラムとして追加する |
|
カテゴリー型に変換する |
|
感情分析 |
|
クラスター分割 |
|
ビン分割 |
|
データフレームを保存 |
API#
- titanite.preprocess.preprocess_data(data: pandas.DataFrame) pandas.DataFrame#
データの前処理
タイムスタンプをdatetimeオブジェクトに変換する
回答数の集計に使うカラムを追加する
各カラムを順番ありのカテゴリ変数に変換する
プロットを作成するときに、軸の値がアルファベット順で自動ソートされる
順番ありにすることで、任意の並びにできる
自由記述あり/なしのカラムを追加する
自由記述できるカラム名を指定し、入力がある/なしのフラグをたてる
自由記述を埋める=関心が高い、という傾向があると仮定し、その相関を調べたい
自由記述の内容を数値化したカラムを追加する
自由記述の内容から、プラス/マイナスの感情を判断する
これも2と同じような仮定をしている
プラス感情 = 関心が高い = 好意的
マイナス感情 = 関心が高い = 嫌悪的
Paramaters
data: pd.DataFrame)未処理のデータフレームReturns
pd.DataFrame前処理したデータフレーム
- titanite.preprocess.replace_data(data: pandas.DataFrame) pandas.DataFrame#
いくつかのカラムの値を置換する
アンケートの選択肢のままだと前処理が面倒な場合があります。 そのような選択肢はこの関数で整えてください。
Parameters
data : pd.DataFrame入力データフレームReturns
pd.DataFrameデータフレーム
- titanite.preprocess.split_data(data: pandas.DataFrame) pandas.DataFrame#
五大州/地域を分割して、新しいカラムとして追加する
アンケートの勤務地/出身地の選択肢は”/”で区切って集計することも想定して作成しました。 それぞれの質問の回答に、五大州(regional)と地域(subregional)のカラムを追加しています。
Parameters
data : pd.DataFrameデータフレームReturns
pd.DataFrameデータフレーム
- titanite.preprocess.categorical_data(data: pandas.DataFrame, categories: dict) pandas.DataFrame#
カテゴリー型に変換する
Parameters
data : pd.DataFrameデータフレームcategories : dictカテゴリー型Returns
pd.DataFrameデータフレーム
- titanite.preprocess.sentiment_data(data)#
感情分析
`TextBlob``パッケージを使って、自由記述の内容を感情分析する。
- titanite.preprocess.cluster_data(data: pandas.DataFrame) pandas.DataFrame#
クラスター分割
Parameters
data : pd.DataFrame入力データReturns
pd.DataFrameクラスター分類を追加したデータ
- titanite.preprocess.binned_data(data: pandas.DataFrame) pandas.DataFrame#
ビン分割
Parameters
data : pd.DataFrame入力データReturns
pd.DataFrameビン分割したカラムを追加したデータ
- titanite.preprocess.save_data(data: pandas.DataFrame, write_dir: str) None#
データフレームを保存
{write_dir}/categorical_data.csv{write_dir}/sentiment_data.csv
Parameters
data: pd.DataFrameデータフレームwrite_dir: strディレクトリ名Returns
None