希望支持有声读物和能配合SuperMemo间隔重复

holduan commented 2 years ago

带文本的语音能锻炼到听力、语感、口语、语法、词汇，你做的typing-learner就是如此，但我建议可以考虑增加对有声读物的支持，因为，由书籍做成的有声读物具有良好的写作风格，可以训练我们理解和使用更复杂的语法，同一个作者在高级词汇上的使用也会较为稳定，可练习的句子会更多些。只是这样做需要对小说和有声读物进行音文对齐，这好像是EPUB3格式，也有对应的阅读器，但没有想你那样的过滤功能。

小说和有声读物音文对齐工具： r4victor/syncabook: 📖🎧 A tool for creating ebooks with synchronized text and audio (EPUB3 with Media Overlays) (github.com)

这里提供部分资源网有声读物：Audio Books Online Download, Free Unabridged Audiobook Torrent on AudioBook Bay (ABB) 还有些专注有声读物PT站，例如abtorrents（相对容易进去）和myanonamouse

小说：Z-Library

另外，对于记忆，SuperMemo的间隔重复算法有很大的优势——用有限的时间记忆更多的信息。希望可以考虑配合SuperMemo使用，较为全面的SuperMemo科普视频：理解+笔记效益低，检索成本高。渐进学习/渐进阅读/间隔重复SuperMemo_哔哩哔哩_bilibili

tangshimin commented 2 years ago

现有的 EPUB Media Overlays 书籍多吗？使用 syncabook 还要分别切割文本和音频。

要使用有声读物生成词库，使用某种工具把音频生成字幕，就可以使用从字幕+音频生成词库。也可以用MKVToolNix 把字幕和音频合成一个 MKA 文件，然后使用从 MKV 视频生成词库(暂时还不支持 MKA 格式，下一个版本可以，不用改很多代码)。

SuperMemo 的间隔重复可以考虑

holduan commented 2 years ago

现有的 EPUB Media Overlays 书籍多吗？使用 syncabook 还要分别切割文本和音频。

要使用有声读物生成词库，使用某种工具把音频生成字幕，就可以使用从字幕+音频生成词库。也可以用MKVToolNix 把字幕和音频合成一个 MKA 文件，然后使用从 MKV 视频生成词库(暂时还不支持 MKA 格式，下一个版本可以，不用改很多代码)。

SuperMemo 的间隔重复可以考虑

其实我没用过syncabook，因为不会用，不知道具体要怎么操作，以为是直接用整个音频和书籍对齐。我用过aeneas做有声读物的音文对齐，做成srt或者lrc，也是要切分音频以及文本断句，挺麻烦的。

tangshimin commented 2 years ago

可以使用【剪映】的生成字幕功能，生成字幕，然后使用【第三方工具】把字幕单独导出来。

holduan commented 2 years ago

可以使用【剪映】的生成字幕功能，生成字幕，然后使用【第三方工具】把字幕单独导出来。

这样做不如手动用LosslessCut批量按章节切割有声读物，然后用正则对小说文本进行断句，txt和音频命名一致，再用aeneas批量音文对齐。这样效率、断句和正确率都比剪映高。

tangshimin commented 2 years ago

可以使用【剪映】的生成字幕功能，生成字幕，然后使用【第三方工具】把字幕单独导出来。

这样做不如手动用LosslessCut批量按章节切割有声读物，然后用正则对小说文本进行断句，txt和音频命名一致，再用aeneas批量音文对齐。这样效率、断句和正确率都比剪映高。

正则要用户写吗？

tangshimin commented 2 years ago

可以使用【剪映】的生成字幕功能，生成字幕，然后使用【第三方工具】把字幕单独导出来。

这样做不如手动用LosslessCut批量按章节切割有声读物，然后用正则对小说文本进行断句，txt和音频命名一致，再用aeneas批量音文对齐。这样效率、断句和正确率都比剪映高。

正则要用户写吗？

我看了文档，使用 aeneas 不需要正则。

holduan commented 2 years ago

可以使用【剪映】的生成字幕功能，生成字幕，然后使用【第三方工具】把字幕单独导出来。

这样做不如手动用LosslessCut批量按章节切割有声读物，然后用正则对小说文本进行断句，txt和音频命名一致，再用aeneas批量音文对齐。这样效率、断句和正确率都比剪映高。

正则要用户写吗？

我看了文档，使用 aeneas 不需要正则。

aeneas 会自动断句吗，那是我用错了，我是小白，用的是之前官方提供的web版，现在用的是第三方的gui。

tangshimin commented 2 years ago

可以使用【剪映】的生成字幕功能，生成字幕，然后使用【第三方工具】把字幕单独导出来。

这样做不如手动用LosslessCut批量按章节切割有声读物，然后用正则对小说文本进行断句，txt和音频命名一致，再用aeneas批量音文对齐。这样效率、断句和正确率都比剪映高。

正则要用户写吗？

我看了文档，使用 aeneas 不需要正则。

aeneas 会自动断句吗，那是我用错了，我是小白，用的是之前官方提供的web版，现在用的是第三方的gui。

还是要断句的，我只看了文档的第一页的例子，没有看 subtitles.txt 的具体内容。 aeneas

subtitles.txt 的部分文件格式如下： aeneas-2

holduan commented 2 years ago

嗯嗯，多谢提醒

holduan commented 2 years ago

syncabook

不知道syncabook是不是可以不用切割音频、断句就能对齐，大佬可以看一下吗，如果可以，那比其他音文对齐方法都便捷，也方便外语学习。

tangshimin commented 2 years ago

syncabook

不知道syncabook是不是可以不用切割音频、断句就能对齐，大佬可以看一下吗，如果可以，那比其他音文对齐方法都便捷，也方便外语学习。

Python 我不熟，所以没有运行成功。我看了一下文档，它是根据文档的空行进行分割文本的，所以不需要再分割文本了，音频好像也不要手动切割。

tangshimin commented 2 years ago

syncabook

不知道syncabook是不是可以不用切割音频、断句就能对齐，大佬可以看一下吗，如果可以，那比其他音文对齐方法都便捷，也方便外语学习。

Python 我不熟，所以没有运行成功。我看了一下文档，它是根据文档的空行进行分割文本的，所以不需要再分割文本了，音频好像也不要手动切割。

官方例子的有声读物是从librivox上下载的,这个网站的有声读物是分割好了章节的，不是一个 mp3。

holduan commented 2 years ago

Audio Books Online Download, Free Unabridged Audiobook Torrent on AudioBook Bay (ABB)

Audio Books Online Download, Free Unabridged Audiobook Torrent on AudioBook Bay (ABB) 上的m4a也是又章节的，即使是盗版，稍微正规一点的有声读物都自带章节。

holduan commented 2 years ago

Audio Books Online Download, Free Unabridged Audiobook Torrent on AudioBook Bay (ABB)

Audio Books Online Download, Free Unabridged Audiobook Torrent on AudioBook Bay (ABB) 上的m4a也是又章节的，即使是盗版，稍微正规一点的有声读物都自带章节。

刚看了之前下载的有声读物，不是m4a，是m4b，而且mp3也有章节。

ShareX_2022 07 15 54

tangshimin / typing-learner

希望支持有声读物和能配合SuperMemo间隔重复 #52