mei28 / TSUNDOKU

読んだ論文をまとめていく

1 stars 0 forks source link

FontCLIP: A Semantic Typography Visual-Language Model for #104

Open mei28 opened 6 months ago

mei28 commented 6 months ago

id: fontclip-a-semantic-typography-visual-language-model-for aliases:

"FontCLIP: A Semantic Typography Visual-Language Model for" tags:
TSUNDOKU

FontCLIP: A Semantic Typography Visual-Language Model for

🔑この論文のキーメッセージ

Fontに特化したCLIPを学習。潜在変数を編集することで、ローマ字だけでなくCJKのようなフォントにも応用可能

🎓どういう問題に取り組んだのか

適切なフォントを獲得するために、言語情報と視覚情報を結びつけるモデルと潜在空間を作成

🎓その問題に取り組むことがなぜ重要なのか

これまでのフォントに対する研究はローマ字が多く、CJKなどローマ字以外では応用が効かない
絵のタッチなどと異なり、フォントのTypographyは、言語情報と視覚情報が効果的につながった表現にならない

💡問題解決に向けたキーアイデアは何か

CLIPの潜在空間を微調整することで、言語情報と視覚情報を繋げて、semantic understandingをよくする
- フォント属性を含めたプロンプトを作成
- プロンプトを元に、フォント画像を生成
- この二つをCLIPによって結びつける
CJKなどの応用は、SVG画像に変化した文字を編集する。

👀新たに分かったことは何か

CLIPにフォント特化のfine-tuningすることで定量的に求めているフォントが生成できた
- 人間の評価値とどれくらい一致するかで算出
検索する際は、潜在変数でのcosine類似度を使うことで検索が可能

コメント

次はなに読む？

[x] O’DONOVAN P., LUNDEFINEDBEKS J., AGARWALA A., HERTZMANN A.: Exploratory font selection using crowdsourced attributes. ACM Trans. Graph. 33, 4 (2014). doi:10.1145/2601097.
1. 1, 2, 3, 4, 5, 6, 10

論文リンク

https://yukistavailable.github.io/fontclip.github.io/

著者/所属機関

Tatsukawa, Yuki; Shen, I-Chao; Qi, Anran; Koyama, Yuki; Igarashi, Takeo; Shamir, Ariel

投稿日付(yyyy/MM/dd)

Eurographics 2024