tangshimin / typing-learner

使用电影、美剧、字幕或文档生成词库(单词本),让每个单词都有具体的语境。然后通过语境记忆单词。
GNU General Public License v3.0
895 stars 57 forks source link

希望支持有声读物和能配合SuperMemo间隔重复 #52

Open holduan opened 2 years ago

holduan commented 2 years ago

带文本的语音能锻炼到听力、语感、口语、语法、词汇,你做的typing-learner就是如此,但我建议可以考虑增加对有声读物的支持,因为,由书籍做成的有声读物具有良好的写作风格,可以训练我们理解和使用更复杂的语法,同一个作者在高级词汇上的使用也会较为稳定,可练习的句子会更多些。 只是这样做需要对小说和有声读物进行音文对齐,这好像是EPUB3格式,也有对应的阅读器,但没有想你那样的过滤功能。

小说和有声读物音文对齐工具: r4victor/syncabook: 📖🎧 A tool for creating ebooks with synchronized text and audio (EPUB3 with Media Overlays) (github.com)

这里提供部分资源网 有声读物:Audio Books Online Download, Free Unabridged Audiobook Torrent on AudioBook Bay (ABB) 还有些专注有声读物PT站,例如abtorrents(相对容易进去)和myanonamouse

小说:Z-Library

另外,对于记忆,SuperMemo的间隔重复算法有很大的优势——用有限的时间记忆更多的信息。希望可以考虑配合SuperMemo使用,较为全面的SuperMemo科普视频: 理解+笔记效益低,检索成本高。渐进学习/渐进阅读/间隔重复SuperMemo_哔哩哔哩_bilibili

tangshimin commented 2 years ago

现有的 EPUB Media Overlays 书籍多吗? 使用 syncabook 还要分别切割文本和音频。

要使用有声读物生成词库,使用某种工具把音频生成字幕,就可以使用从字幕+音频生成词库。 也可以用MKVToolNix 把字幕和音频合成一个 MKA 文件,然后使用从 MKV 视频生成词库(暂时还不支持 MKA 格式,下一个版本可以,不用改很多代码)。

SuperMemo 的间隔重复可以考虑

holduan commented 2 years ago

现有的 EPUB Media Overlays 书籍多吗? 使用 syncabook 还要分别切割文本和音频。

要使用有声读物生成词库,使用某种工具把音频生成字幕,就可以使用从字幕+音频生成词库。 也可以用MKVToolNix 把字幕和音频合成一个 MKA 文件,然后使用从 MKV 视频生成词库(暂时还不支持 MKA 格式,下一个版本可以,不用改很多代码)。

SuperMemo 的间隔重复可以考虑

其实我没用过syncabook,因为不会用,不知道具体要怎么操作,以为是直接用整个音频和书籍对齐。我用过aeneas做有声读物的音文对齐,做成srt或者lrc,也是要切分音频以及文本断句,挺麻烦的。

tangshimin commented 2 years ago

可以使用【剪映】的生成字幕功能,生成字幕,然后使用【第三方工具】把字幕单独导出来。

holduan commented 2 years ago

可以使用【剪映】的生成字幕功能,生成字幕,然后使用【第三方工具】把字幕单独导出来。

这样做不如手动用LosslessCut批量按章节切割有声读物,然后用正则对小说文本进行断句,txt和音频命名一致,再用aeneas批量音文对齐。这样效率、断句和正确率都比剪映高。

tangshimin commented 2 years ago

可以使用【剪映】的生成字幕功能,生成字幕,然后使用【第三方工具】把字幕单独导出来。

这样做不如手动用LosslessCut批量按章节切割有声读物,然后用正则对小说文本进行断句,txt和音频命名一致,再用aeneas批量音文对齐。这样效率、断句和正确率都比剪映高。

正则要用户写吗?

tangshimin commented 2 years ago

可以使用【剪映】的生成字幕功能,生成字幕,然后使用【第三方工具】把字幕单独导出来。

这样做不如手动用LosslessCut批量按章节切割有声读物,然后用正则对小说文本进行断句,txt和音频命名一致,再用aeneas批量音文对齐。这样效率、断句和正确率都比剪映高。

正则要用户写吗?

我看了文档,使用 aeneas 不需要正则。

holduan commented 2 years ago

可以使用【剪映】的生成字幕功能,生成字幕,然后使用【第三方工具】把字幕单独导出来。

这样做不如手动用LosslessCut批量按章节切割有声读物,然后用正则对小说文本进行断句,txt和音频命名一致,再用aeneas批量音文对齐。这样效率、断句和正确率都比剪映高。

正则要用户写吗?

我看了文档,使用 aeneas 不需要正则。

aeneas 会自动断句吗,那是我用错了,我是小白,用的是之前官方提供的web版,现在用的是第三方的gui。

tangshimin commented 2 years ago

可以使用【剪映】的生成字幕功能,生成字幕,然后使用【第三方工具】把字幕单独导出来。

这样做不如手动用LosslessCut批量按章节切割有声读物,然后用正则对小说文本进行断句,txt和音频命名一致,再用aeneas批量音文对齐。这样效率、断句和正确率都比剪映高。

正则要用户写吗?

我看了文档,使用 aeneas 不需要正则。

aeneas 会自动断句吗,那是我用错了,我是小白,用的是之前官方提供的web版,现在用的是第三方的gui。

还是要断句的,我只看了文档的第一页的例子,没有看 subtitles.txt 的具体内容。 aeneas

subtitles.txt 的部分文件格式如下: aeneas-2

holduan commented 2 years ago

嗯嗯,多谢提醒

holduan commented 2 years ago

syncabook

不知道syncabook是不是可以不用切割音频、断句就能对齐,大佬可以看一下吗,如果可以,那比其他音文对齐方法都便捷,也方便外语学习。

tangshimin commented 2 years ago

syncabook

不知道syncabook是不是可以不用切割音频、断句就能对齐,大佬可以看一下吗,如果可以,那比其他音文对齐方法都便捷,也方便外语学习。

Python 我不熟,所以没有运行成功。我看了一下文档,它是根据文档的空行进行分割文本的,所以不需要再分割文本了,音频好像也不要手动切割。

tangshimin commented 2 years ago

syncabook

不知道syncabook是不是可以不用切割音频、断句就能对齐,大佬可以看一下吗,如果可以,那比其他音文对齐方法都便捷,也方便外语学习。

Python 我不熟,所以没有运行成功。我看了一下文档,它是根据文档的空行进行分割文本的,所以不需要再分割文本了,音频好像也不要手动切割。

官方例子的有声读物是从librivox上下载的,这个网站的有声读物是分割好了章节的,不是一个 mp3。

holduan commented 2 years ago

Audio Books Online Download, Free Unabridged Audiobook Torrent on AudioBook Bay (ABB)

Audio Books Online Download, Free Unabridged Audiobook Torrent on AudioBook Bay (ABB) 上的m4a也是又章节的,即使是盗版,稍微正规一点的有声读物都自带章节。

holduan commented 2 years ago

Audio Books Online Download, Free Unabridged Audiobook Torrent on AudioBook Bay (ABB)

Audio Books Online Download, Free Unabridged Audiobook Torrent on AudioBook Bay (ABB) 上的m4a也是又章节的,即使是盗版,稍微正规一点的有声读物都自带章节。

刚看了之前下载的有声读物,不是m4a,是m4b,而且mp3也有章节。

ShareX_2022 07 15 54