`titanite.preprocess`#

Module Contents#

Functions#

`preprocess_data`	データの前処理
`replace_data`	いくつかのカラムの値を置換する
`split_data`	五大州／地域を分割して、新しいカラムとして追加する
`categorical_data`	カテゴリー型に変換する
`sentiment_data`	感情分析
`cluster_data`	クラスター分割
`binned_data`	ビン分割
`save_data`	データフレームを保存

API#

titanite.preprocess.preprocess_data(data: pandas.DataFrame) → pandas.DataFrame#

データの前処理

タイムスタンプをdatetimeオブジェクトに変換する
回答数の集計に使うカラムを追加する
各カラムを順番ありのカテゴリ変数に変換する
- プロットを作成するときに、軸の値がアルファベット順で自動ソートされる
- 順番ありにすることで、任意の並びにできる
自由記述あり／なしのカラムを追加する
- 自由記述できるカラム名を指定し、入力がある／なしのフラグをたてる
- 自由記述を埋める＝関心が高い、という傾向があると仮定し、その相関を調べたい
自由記述の内容を数値化したカラムを追加する
- 自由記述の内容から、プラス／マイナスの感情を判断する
- これも2と同じような仮定をしている
  - プラス感情 = 関心が高い = 好意的
  - マイナス感情 = 関心が高い = 嫌悪的

Paramaters

data: pd.DataFrame) 未処理のデータフレーム

Returns

pd.DataFrame 前処理したデータフレーム

titanite.preprocess.replace_data(data: pandas.DataFrame) → pandas.DataFrame#

いくつかのカラムの値を置換する

アンケートの選択肢のままだと前処理が面倒な場合があります。そのような選択肢はこの関数で整えてください。

Parameters

data : pd.DataFrame 入力データフレーム

Returns

pd.DataFrame データフレーム

titanite.preprocess.split_data(data: pandas.DataFrame) → pandas.DataFrame#

五大州／地域を分割して、新しいカラムとして追加する

アンケートの勤務地／出身地の選択肢は”/”で区切って集計することも想定して作成しました。それぞれの質問の回答に、五大州（regional）と地域（subregional）のカラムを追加しています。

Parameters

data : pd.DataFrame データフレーム

Returns

pd.DataFrame データフレーム

titanite.preprocess.categorical_data(data: pandas.DataFrame, categories: dict) → pandas.DataFrame#

カテゴリー型に変換する

Parameters

data : pd.DataFrame データフレーム categories : dict カテゴリー型

Returns

pd.DataFrame データフレーム

titanite.preprocess.sentiment_data(data)#

感情分析

`TextBlob``パッケージを使って、自由記述の内容を感情分析する。

titanite.preprocess.cluster_data(data: pandas.DataFrame) → pandas.DataFrame#

クラスター分割

Parameters

data : pd.DataFrame 入力データ

Returns

pd.DataFrame クラスター分類を追加したデータ

titanite.preprocess.binned_data(data: pandas.DataFrame) → pandas.DataFrame#

ビン分割

Parameters

data : pd.DataFrame 入力データ

Returns

pd.DataFrame ビン分割したカラムを追加したデータ

titanite.preprocess.save_data(data: pandas.DataFrame, write_dir: str) → None#

データフレームを保存

{write_dir} / categorical_data.csv
{write_dir} / sentiment_data.csv

Parameters

data: pd.DataFrame データフレーム write_dir: str ディレクトリ名

Returns

None

titanite.preprocess

Contents

titanite.preprocess#

Module Contents#

Functions#

API#

`titanite.preprocess`#