Open GENZITSU opened 2 months ago
解釈性の高い次元圧縮手法であるICAを元論文の単語ではなく文章に用いて文章のカテゴリングをしている記事
景気ウォッチャーの「街角の景況感を判断するためのアンケート調査」データを対象に実施
OpenAIの「text-embedding-3-small」を利用
FastICAを用いて成分を抽出
# パラメータは論文内で指定されているものを参考にICAが収束したものを選択 ica = FastICA(n_components=n_components, random_state=42, max_iter=10000, tol=1e-3) embeds_ica = ica.fit_transform(embeds) df_ica = pd.DataFrame(embeds_ica) skewness = skew(df_ica) # 今回は正方向の独立成分を扱うため、歪度の大きい向きを正方向にしたい # そこで、論文に従って歪度が負の軸を反転させている df_ica *= np.sign(skewness) df_ica.shape >> (14818, 30)
独立成分の値に閾値を設けてカテゴリラベルを付与
そこからgpt-3.5-turboを用いて各カテゴリのラベル名を推定させる
また付与したラベルを用いて対応分析などをすることで、どのカテゴリがどれに影響を与えいるかの分析が可能
トピック分析的なことに使えるようで面白かった
MSのGAMOさんのスライド
独立成分分析(ICA)を使ってText Embeddingを分析してみた
解釈性の高い次元圧縮手法であるICAを元論文の単語ではなく文章に用いて文章のカテゴリングをしている記事
概要
景気ウォッチャーの「街角の景況感を判断するためのアンケート調査」データを対象に実施
OpenAIの「text-embedding-3-small」を利用
FastICAを用いて成分を抽出
独立成分の値に閾値を設けてカテゴリラベルを付与
そこからgpt-3.5-turboを用いて各カテゴリのラベル名を推定させる
また付与したラベルを用いて対応分析などをすることで、どのカテゴリがどれに影響を与えいるかの分析が可能
コメント
トピック分析的なことに使えるようで面白かった
出典