almost weekly useful materials - 04/26 -

GENZITSU commented 1 year ago

WebブラウザでPythonが動作する！PyScriptの詳解

html中にpythonスクリプトを埋め込みブラウザ上でそれを動作させることができるライブラリPyScriptを紹介している記事

pandasやnumpyといった外部ライブラリをimportして利用することもできるようで、実行環境に縛られずにデモやダッシュボードなどを提供できそう。

以下は外部ライブラリを読み込みつつ利用しているサンプルコード

# from https://gihyo.jp/article/2023/04/monthly-python-2304

  <body>
    <py-config>
      packages = ["levenshtein-distance"]
    </py-config>
    <input class="py-input" type="text" id="text1" />
    <input class="py-input" type="text" id="text2" />
    <button class="py-button" type="submit" py-click="leven()">Go</button>
    <div id="output"></div>
    <py-script>
      from levenshtein_distance import Levenshtein

      def leven():
          text1 = Element("text1").value
          text2 = Element("text2").value
          lev = Levenshtein(text1, text2)
          display(f"レーベンシュタイン距離: {lev.distance()}", target="output", append=False)
    </py-script>
  </body>

出典

GENZITSU commented 1 year ago

表形式Diffusion Model(TabDDPM)で、生成したデータの品質の検証について

DiffusionModelによって生成した擬似テーブルデータの特徴量分布を検証している記事

CardioとAdultの二つのテーブルデータに対してデータ生成を試しており、元の特徴量分布には見られない外挿を行う傾向が確認されている。

スクリーンショット 2023-04-13 18 16 51

スクリーンショット 2023-04-13 18 17 04

スクリーンショット 2023-04-13 18 17 14

スクリーンショット 2023-04-13 18 17 20

出典

表形式Diffusion Model(TabDDPM)で、生成したデータの品質の検証について

GENZITSU commented 1 year ago

【ChatGPTハーレム】Slackに専門家美女AIを大量召喚したら全員反応してウザすぎたので調教する

ChatBotのロールとメッセージの関連性を判定させて敷居値以上のスコアが出た時だけ返信させる機構を実装したとのこと。

出典

【ChatGPTハーレム】Slackに専門家美女AIを大量召喚したら全員反応してウザすぎたので調教する

GENZITSU commented 1 year ago

Google Colab で PEFT による大規模言語モデルのファインチューニングを試す

大規模言語モデルを省パラメータファインチューニング用ライブラリを用いてLoRAチューニングを実施している記事

いろいろ事前準備は必要だが、基本的にはconfigを読み、trainerに渡すだけというシンプル設計なのが使いやすい。

# from https://note.com/npaka/n/n932b4c0a2230

from peft import LoraConfig, get_peft_model 

config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, config)

trainer = transformers.Trainer(
    model=model, 
    train_dataset=data['train'],
    args=transformers.TrainingArguments(
        per_device_train_batch_size=4, 
        gradient_accumulation_steps=4,
        warmup_steps=100, 
        max_steps=200, 
        learning_rate=2e-4, 
        fp16=True,
        logging_steps=1, 
        output_dir='outputs'
    ),
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False)
)
model.config.use_cache = False  # 警告を黙らせます。 推論のために再度有効にしてください。
trainer.train()

日本語の数Bくらいのモデルに対してLoRAで気軽にfinetuningできるようになるというのは嬉しいかも。
ただ、lineのブログも見るにLoRAによる制度の劣化はだいぶ大きいので、元のパラメータ数が大きい日本語モデルが出てこないまではあまり出番がないかもしれない。