titanite.preprocess#
Module Contents#
Functions#
データの前処理 |
|
いくつかのカラムの値を置換する |
|
五大州/地域を分割して、新しいカラムとして追加する |
|
カテゴリー型に変換する |
|
感情分析 |
|
クラスター分割 |
|
ビン分割 |
|
データフレームを保存 |
API#
- titanite.preprocess.preprocess_data(data: pandas.DataFrame) pandas.DataFrame#
データの前処理
タイムスタンプをdatetimeオブジェクトに変換する
回答数の集計に使うカラムを追加する
その後、replace_data、split_data、cluster_data、binned_data の順に処理します。
Parameters
data : pd.DataFrame 未処理のデータフレーム
Returns
pd.DataFrame 前処理したデータフレーム
- titanite.preprocess.replace_data(data: pandas.DataFrame) pandas.DataFrame#
いくつかのカラムの値を置換する
アンケートの選択肢のままだと前処理が面倒な場合があります。 そのような選択肢はこの関数で整えてください。
Parameters
data : pd.DataFrame入力データフレームReturns
pd.DataFrameデータフレーム
- titanite.preprocess.split_data(data: pandas.DataFrame) pandas.DataFrame#
五大州/地域を分割して、新しいカラムとして追加する
アンケートの勤務地/出身地の選択肢は”/”で区切って集計することも想定して作成しました。 それぞれの質問の回答に、五大州(regional)と地域(subregional)のカラムを追加しています。
Parameters
data : pd.DataFrameデータフレームReturns
pd.DataFrameデータフレーム
- titanite.preprocess.categorical_data(data: pandas.DataFrame, categories: dict) pandas.DataFrame#
カテゴリー型に変換する
Parameters
data : pd.DataFrameデータフレームcategories : dictカテゴリー型Returns
pd.DataFrameデータフレーム
- titanite.preprocess.sentiment_data(data)#
感情分析
`TextBlob``パッケージを使って、自由記述の内容を感情分析する。
- titanite.preprocess.cluster_data(data: pandas.DataFrame) pandas.DataFrame#
クラスター分割
Adds four derived cluster columns to the DataFrame:
q01_clustered: age cluster — Cluster1 (under 40s) vs Cluster2 (40s and over)q13_clustered: female ratio cluster — Cluster1 (<=20%) vs Cluster2 (>=40%)q01q02_clustered: young female/male cluster — Cluster1 (under 40s, Female) vs Cluster2 (under 40s, Male)q13q14_clustered: ratio-satisfaction cluster — Cluster1 (ratio <25% and Very Poor/Poor) vs Cluster2 (ratio >25% and Very Good/Good)
Parameters
data : pd.DataFrame 入力データ
Returns
pd.DataFrame クラスター分類を追加したデータ
- titanite.preprocess.binned_data(data: pandas.DataFrame) pandas.DataFrame#
ビン分割
Adds two binned columns to the DataFrame:
q10_binned: number of invited speakers binned into “Prefer not to answer”, “0”–“9”, “10+” (boundaries: -1, 0, 1, …, 10, 25)q13_binned: female ratio (0–100%) binned in 5% increments from 0% to 100%, plus “Prefer not to answer” for values below 0 (boundaries: -1, 0, 10, 15, 20, …, 100, 105)
Parameters
data : pd.DataFrame 入力データ
Returns
pd.DataFrame ビン分割したカラムを追加したデータ
- titanite.preprocess.save_data(data: pandas.DataFrame, write_dir: str) None#
データフレームを保存
{write_dir}/categorical_data.csv{write_dir}/sentiment_data.csv
Parameters
data: pd.DataFrameデータフレームwrite_dir: strディレクトリ名Returns
None