v3ucn / Modelscope_Faster_Whisper_Multi_Subtitle

基于Faster-whisper和modelscope一键生成双语字幕,双语字幕生成器,基于离线大模型,Generate bilingual subtitles with one click based on Faster-whisper and modelscope. Off-line large model
MIT License
288 stars 30 forks source link

关于models--larryvrh--mt5-translation-ja_zh #4

Open hyhuc0079 opened 9 months ago

hyhuc0079 commented 9 months ago

1.这个最好也放在项目目录比较好吧毕竟不一定所有人都是所有模型扔c 2.英文的因为报错了我没法试用,日文这个transformer模型是走cpu做推理的 3.这个模型我之前也用过,毕竟是haggingface上唯一一个jp2zh的,但这效果嘛。。。哎。。 你自己看吧。。。 测试用的faster whisper可能听写也有一些错误 我推荐那个什么什么sakura的模型 https://huggingface.co/sakuraumi/Sakura-13B-Galgame 不过实现起来代码量就大多了

原文 =========我是字幕==== 1 00:00:02,480 --> 00:00:08,580 地球連邦軍 並びにジオン公国の戦士につ 地球联邦军与吉恩公国的战士

2 00:00:08,580 --> 00:00:10,580 我々はデラーズフリート 我们是德勒斯弗里德

3 00:00:10,580 --> 00:00:12,929 デラーズフリート? 德勒斯弗里德?

4 00:00:12,929 --> 00:00:15,929 いわゆる一連戦争と呼ばれた 被称为“一连串战争”的

5 00:00:15,929 --> 00:00:18,929 ジオン独立戦争の終戦協定が 吉恩独立战争的终战协定

6 00:00:18,929 --> 00:00:20,929 偽りのものであることは 是假的,是假的

7 00:00:20,929 --> 00:00:22,929 誰の目にも明らかである 在每个人的眼中都是显而易见的

8 00:00:22,929 --> 00:00:24,929 なぜならば協定は 为什么要签订协议

9 00:00:24,929 --> 00:00:30,280 ジオン協和国の名を語る売国度によって結ばれたから 因为被讲述吉恩协和国名字的卖国度所结

10 00:00:30,280 --> 00:00:31,280 我々は 我们是

11 00:00:31,280 --> 00:00:34,280 いささかも戦いの目的を入手なってはいない 但他们没有达到战斗的目的

12 00:00:34,280 --> 00:00:38,280 それは間もなく実証されるであろう 这很快就会被证明

13 00:00:38,280 --> 00:00:39,280 館長 馆长

14 00:00:39,280 --> 00:00:42,280 ガンダムが出撃強化を求めています 钢弹要求强化出击

15 00:00:42,280 --> 00:00:45,280 ウラクショウインのデタになる俺の事務を支え 成为乌拉圭的巨头,支持我的事务

16 00:00:48,659 --> 00:00:51,659 ガンダムだって第2000ぐらい晴れるのに 钢弹就算是2000左右也能晴朗

17 00:00:52,659 --> 00:00:55,659 我々は疲弊を思い続けた 我们一直想着疲惫

18 00:00:55,659 --> 00:00:58,659 スペースの井戸の自治権確率を信じ 相信空间井的自治权概率

19 00:00:58,659 --> 00:01:01,659 戦いの豪華に焼かれていった者たちのことを 被战火烧死的那些人

20 00:01:01,659 --> 00:01:03,659 まとわりつくるか 能否停下

21 00:01:03,659 --> 00:01:05,659 逃がすかよ 放开你

22 00:01:05,659 --> 00:01:07,659 そして今また 现在又

23 00:01:07,659 --> 00:01:11,659 あえてその家中に飛び避らんとする若者のことを 一个年轻人,敢于躲避在家里

24 00:01:11,659 --> 00:01:14,659 なんだあれくらい突破できないのかい 怎么就无法突破了

25 00:01:14,659 --> 00:01:20,719 はがゆいね 好烂啊

26 00:01:20,719 --> 00:01:22,719 シーマ様のモビルスーツを 西玛的摩比西装

27 00:01:22,719 --> 00:01:25,519 ウラクショウイン 乌拉克肖因

28 00:01:25,519 --> 00:01:27,519 これバニング対応ですから 这是班宁的回应

29 00:01:27,519 --> 00:01:29,519 ペダル少し硬いですよ 皮皮有点硬

30 00:01:29,519 --> 00:01:31,519 プラス4ですね 加4吧

31 00:01:31,519 --> 00:01:40,170 ショウイン 肖恩

32 00:01:40,170 --> 00:01:41,170 えっ何 何 何

33 00:01:41,170 --> 00:01:47,959 邪魔しないでくれ 不要打扰我

34 00:01:47,959 --> 00:01:48,959 ガンダムでやるんだ 在钢弹上做

35 00:01:49,959 --> 00:01:51,500 これを 这个这个

36 00:01:52,500 --> 00:02:01,939 スペースの井戸の心から鳴る気中である 在空间的井的心中响起

37 00:02:01,939 --> 00:02:03,939 自治権要求に対し 对自治权的要求

38 00:02:03,939 --> 00:02:06,939 連邦がその強大な軍事力を行使して 联邦政府将利用其强大的军事力量

39 00:02:06,939 --> 00:02:09,939 ささやかなるその目を積み取ろうとしている意図を 试图抓住那小小的眼睛

40 00:02:09,939 --> 00:02:11,939 証明するにたる事実を 要证明的事实

41 00:02:11,939 --> 00:02:13,939 私は存じておう 我知道我知道

42 00:02:13,939 --> 00:02:15,939 息を打ってらっす 要呼吸了

43 00:02:15,939 --> 00:02:18,939 ギレンザビの暴れいが 吉伦扎比的暴戾

44 00:02:18,939 --> 00:02:19,939 見よ 看啊

45 00:02:19,939 --> 00:02:21,939 これが我々の戦果 这就是我们的战果

46 00:02:21,939 --> 00:02:23,939 このガンダムが 这个钢弹

47 00:02:23,939 --> 00:02:26,939 核攻撃を目的として開発されたものである 它是为了核打击而研制的

48 00:02:26,939 --> 00:02:28,939 南極条約違反のこの機体が 违反南极条约的飞机

49 00:02:28,939 --> 00:02:31,939 人間に開発された事実を持ってしても 即使人类已经开发了

50 00:02:31,939 --> 00:02:33,939 呪わしき連邦の悪意を 诅咒联邦的恶意

51 00:02:33,939 --> 00:02:35,939 否定できるものが多いか 有很多东西可以否定

52 00:02:36,939 --> 00:02:38,939 いいかに見を打ちやがる 好吧,我看你打

53 00:02:38,939 --> 00:02:39,939 ん? 啊?

54 00:02:39,939 --> 00:02:40,939 あの手が 那只手

55 00:02:47,530 --> 00:02:49,530 ウロタエダマなど 乌洛塔埃达马

56 00:02:53,530 --> 00:02:55,530 そっちにはキースっきりで 只有基斯在身边

57 00:02:56,530 --> 00:02:58,530 来るな!来るな! 不要来!不要来!

58 00:03:02,479 --> 00:03:03,479 右も? 右边也?

59 00:03:05,979 --> 00:03:08,979 敵モビルスーツ3つ抜けてきます! 敌人Macross3个!

60 00:03:08,979 --> 00:03:09,979 うらきはまだか! 还真羡慕啊!

61 00:03:09,979 --> 00:03:11,979 今では何? 现在是什么?

62 00:03:11,979 --> 00:03:13,979 うらき!何をしてる? 羡慕!你在做什么?

63 00:03:13,979 --> 00:03:15,979 行かせてください! 请让我走!

64 00:03:15,979 --> 00:03:16,979 止めても行きますよ! 就算停下来也去!

65 00:03:16,979 --> 00:03:23,750 うらき!止めば! 羡慕!停下来!

66 00:03:23,750 --> 00:03:25,750 ヨリドリーミードリー 尤里德利米德利

67 00:03:25,750 --> 00:03:49,259 キタパルトはダメだ! 不能使用Kato!

68 00:03:49,259 --> 00:03:51,259 バランサーが行かれてんのか? 巴兰特已经走了?

69 00:03:52,349 --> 00:03:54,349 赤もどうぜ? 红了怎么样?

70 00:03:54,349 --> 00:03:56,349 何や! 什么啊!

71 00:03:57,349 --> 00:04:01,009 当たった! 击中了!

72 00:04:01,009 --> 00:04:03,009 大切な機体を 重要的机体

73 00:04:03,009 --> 00:04:04,009 ゆだになどして 做一些事,如

74 00:04:15,219 --> 00:04:16,220 ファイリーミを 菲利米

75 00:04:16,220 --> 00:04:18,220 なぜジオン独立戦争が 为什么吉恩独立战争

76 00:04:18,220 --> 00:04:20,220 募発したのか? 你被招募了吗?

77 00:04:20,220 --> 00:04:22,220 なぜ我らがジオン津の大君と 为什么我们与吉翁津的大君

78 00:04:22,220 --> 00:04:24,220 共にあるのか? 有在一起吗?

79 00:04:25,220 --> 00:04:33,420 私さえ入れば! 只要我进去!

80 00:04:33,420 --> 00:04:37,180 なんてそうこうだ! 怎么这么啊!

81 00:04:40,579 --> 00:04:41,579 死むといねぇ! 不要死!

82 00:04:41,579 --> 00:04:43,579 島さん!そろそろ仕事いです! 岛上,我快要上班了!

83 00:04:43,579 --> 00:04:51,430 落ちないんだよ! 不会掉下来的!

84 00:04:51,430 --> 00:04:53,430 いけな!うがき象へ! 加油!加油!大象!

85 00:04:54,430 --> 00:05:02,100 やられた? 被打死的?

86 00:05:02,100 --> 00:05:03,100 シャクだね 是沙克吧

87 00:05:03,100 --> 00:05:05,100 けど、今日のところは見逃してあげるよ 但是,今天我却会错过你

88 00:05:11,069 --> 00:05:13,230 おぉ、いい引き方だ 好,不错的抓法

89 00:05:14,230 --> 00:05:16,899 サラミス二石号陣 萨拉米斯二石号阵

90 00:05:16,899 --> 00:05:18,899 ガンダム大破か 钢弹大破

91 00:05:18,899 --> 00:05:21,579 大丈夫かキーズ? 你还好吗,凯斯?

92 00:05:21,579 --> 00:05:23,579 はい 是的

93 00:05:23,579 --> 00:05:25,579 我々は3年間待った 我们等了三年

94 00:05:26,579 --> 00:05:29,500 敵モデルスーツ、対却を 敌人模特,反击

95 00:05:29,500 --> 00:05:31,500 各軍団に溜め来の途中な相撲は 在各军团中聚集的相扑

96 00:05:31,500 --> 00:05:33,500 勝負署、相撲か署を知らせよ 把胜负署、相扑署或署通知

97 00:05:33,500 --> 00:05:36,500 エギーユーデラーズ、真の目的は何だ? 艾吉·尤德勒斯,真正的目的是什么?

98 00:05:37,500 --> 00:05:40,500 今はコードのアツキ父を我が父として 现在我把代码的阿图西当作我的父亲

99 00:05:40,500 --> 00:05:42,500 ここに私は 这里我

100 00:05:42,500 --> 00:05:45,500 改めて地球連邦政府に対し 再次向联邦政府

101 00:05:45,500 --> 00:05:47,500 戦戦を不告するものである 是宣告战战的

102 00:05:48,920 --> 00:05:50,920 繰り返し心に聞こえてくる 反复地听到我的心

103 00:05:50,920 --> 00:05:52,920 祖国の名誉のために 为了祖国的荣誉

104 00:05:53,920 --> 00:05:55,920 ジークジオン 吉克吉翁

==============

hyhuc0079 commented 9 months ago

日文翻译这段我帮你改了 def make_tran_ja2zh():

# 创建 pipeline,指定使用 CUDA
device = 0  # 0 通常是默认的 GPU 设备
pipe = pipeline(model="larryvrh/mt5-translation-ja_zh", device=device)

with open("./video.srt", 'r', encoding="utf-8") as file:
    gweight_data = file.read()

result = gweight_data.split("\n\n")

if os.path.exists("./two.srt"):
    os.remove("./two.srt")

for res in result:
    line_srt = res.split("\n")

    try:
        translated_text = pipe(f'<-ja2zh-> {line_srt[2]}')[0]['translation_text']
        print(translated_text)

    except IndexError as e:
        # 处理下标越界异常
        print(f"翻译完毕")
        break
    except Exception as e:
        print(str(e))

    with open("./two.srt", "a", encoding="utf-8") as f:
        f.write(f"{line_srt[0]}\n{line_srt[1]}\n{line_srt[2]}\n{translated_text}\n\n")

return "翻译完毕"
hyhuc0079 commented 9 months ago

我看你几个翻译的好像都没加cuda定义,回头更新的时候记得自己加哈

v3ucn commented 9 months ago

牛逼,提个pr,帮你合了,你就有徽章了

v3ucn commented 9 months ago

主要是sakura的模型没法用,显存要求太高了

hyhuc0079 commented 9 months ago

我试了,参考我发的那个单独对比,Sakura本身对一些acg领域的专有名词识别率确实高一些,但是它翻译字幕准确的原理和chatgpt一样,它的那些应用主要是通过api来提交,可以利用模型本身的能力来结合上下文推理,如果只拿它当词条翻译器精准度上升有限,不过我一开始测试whisper机翻就是用日语,就是因为日语是最难翻译的本身现在机翻日文就没有什么效果特别好的方案尤其一个读音几十种意思,不结合上下文确实很难翻译准确 浦木宏少尉的名字分别被翻译成了 go! 里木 牛岛 钝角