transcript 搜索准确性优化

transcript 使用和图片一样的 embedding 模型效果不好，而且中英文支持也一般，优化的思路是先用字符串匹配，这样搜索什么语言就是什么语言，接下来再考虑下使用独立的 text embedding 模型替代 clip。

bmrlab / gendam