shimejii / visualization_tools_meliad

0 stars 0 forks source link

入力トークンのnpyファイルかhtmlのテーブルへ変換する #11

Closed shimejii closed 7 months ago

shimejii commented 8 months ago

入力

  1. npyファイル 入力トークンの配列 shape (batch, seq_len) 配列はsentencepieceのトークンidを保持
  2. デコードの単位指定 tokenごと or batchごと
  3. sentencePieceのモデルファイルへのパス

機能

  1. tokenごとにデコード
  2. batchごとにまとめてデコード

出力

  1. token単位でデコードされた配列のhtmlのtable出力
    • shape (batch, seq_len, 1) <-- original
    • shape (batch * num_head, seq_len, 1) <-- head数分複製
  2. batch単位でデコードされた配列のhtmlのtalbe出力
    • shape (batch, 1)
    • shape (batch * num_head, 1)
  3. トークンidのまま、htmlのtable出力
    • shape (batch, seq_len, 1)
    • shape (batch * num_head, 1)
shimejii commented 8 months ago

実行コマンド

  1. token単位でデコードされた配列のhtmlのtable出力
    • shape (batch, seq_len, 1) <-- original

python main.py npy2tablehtml WORKDIR EXPERIMENT_MODE DATABASE_NAME STEP MEMORY_INDEX DEVICE_INDEX TABLE_LABEL --isInputToken --decodeUnit token --spFilePath "file/path/to/sentence/piece/model"

  1. batch単位でデコードされた配列のhtmlのtalbe出力
    • shape (batch, 1) python main.py npy2tablehtml WORKDIR EXPERIMENT_MODE DATABASE_NAME STEP MEMORY_INDEX DEVICE_INDEX TABLE_LABEL --isInputToken --decodeUnit batch --spFilePath "file/path/to/sentence/piece/model"
  1. トークンidのまま、htmlのtable出力
    • shape (batch, seq_len, 1) python main.py npy2tablehtml WORKDIR EXPERIMENT_MODE DATABASE_NAME STEP MEMORY_INDEX DEVICE_INDEX TABLE_LABEL --isInputToken --noDecode
shimejii commented 8 months ago

追加するオプショナル引数

--spFilePath str sentencepeiceのモデルファイルへのパス