Open Oshibuki opened 10 months ago
大体而言,这些记录的最终目标都是anki自建卡牌。但是具体的挖掘路径又随着材料种类和技术进步的发展有所不同。现归纳如下:
yomichan
这类材料以能找到单独字幕文件(需要严格对轴视频材料)的动画、影视作品为主。 字幕与视频重新同步:https://animecards.site/subtitles/
字幕网站列表: 日文字幕: kitsunekko: https://kitsunekko.net/dirlist.php?dir=subtitles%2Fjapanese kitsunekko的备份:https://learnjapanese.moe/kitsubackup.html#/ja/ https://djtguide.github.io/library/sub.html 中文字幕: https://github.com/bipy/Anime-Subtitles 中日双语字幕 https://github.com/Nekomoekissaten-SUB/Nekomoekissaten-Storage
动漫网站: https://animelon.com/ 专为日语学习者设计,自带字幕 https://aniwatch.to/ 能找到比较久远的视频
日剧: 2022年下载日剧生肉和外挂字幕的方法
手动挖掘工具: 浏览器插件: asbplayer animebook asbplayer 可看作是 animebook 的升级版本,二者均需要手动配置输入Anki的目标字段
自动挖掘工具: subs2srs 用于批量从字幕和视频中生成Anki,缺点是后处理费时费力
当下这一领域流行的是Manga-OCR这一来自HuggingFace的AI模型,而不是比较老的Capture2Text。 Manga-OCR衍生了一系列工具,较为有名的有: Poricom -- 漫画阅读器,需要手动框选进行文字识别 kha-white/mokuro 及它的移动端适配分支 ZXY101/mokuro : 对漫画进行ocr并生成元数据和html文件,在浏览器打开html文件即可选中文本调用Yomichan查询并插入Anki 经过mokuro预处理的漫画资源可在https://mokuro.moe/manga/ 找到,比较推荐通过https://mokuro.moe/manga/_torrents/ 内的BT种子文件每次下载单部预处理作品,降低网站服务器压力 mokuro阅读器:https://reader.mokuro.app/ PC端设置阅读漫画:https://xelieu.github.io/jp-lazy-guide/setupMangaOnPC
jidoujisho: 一款功能齐全的沉浸式移动语言学习套件,内置Yomichan(需导入辞典),mokuro漫画阅读器、ttu阅读器(用于epub阅读),webview浏览器(特定程序注入网页便于翻译和查询),音视频播放器等
Shiki’s Lazy Sentence Mining Workflow Mining from Anime
浏览器内的https://reader.ttsu.app/ ,可安装为pwa应用,适合日文文本epub阅读,默认垂直排版,设置内可调整为水平排版
感谢提交,由于工作原因,我可能要下个月才会整理你分享的内容,你可以先不关闭这个 issue 算是提醒我不要跳票(笑
词汇挖矿是来自“mine from sentence”的直译,指选择难度略微超过舒适区,又存在少量生词的适当材料做笔记记录用于复习
大体而言,这些记录的最终目标都是anki自建卡牌。但是具体的挖掘路径又随着材料种类和技术进步的发展有所不同。现归纳如下:
必备基础
yomichan
视频
这类材料以能找到单独字幕文件(需要严格对轴视频材料)的动画、影视作品为主。 字幕与视频重新同步:https://animecards.site/subtitles/
字幕网站列表: 日文字幕: kitsunekko: https://kitsunekko.net/dirlist.php?dir=subtitles%2Fjapanese kitsunekko的备份:https://learnjapanese.moe/kitsubackup.html#/ja/ https://djtguide.github.io/library/sub.html 中文字幕: https://github.com/bipy/Anime-Subtitles 中日双语字幕 https://github.com/Nekomoekissaten-SUB/Nekomoekissaten-Storage
动漫网站: https://animelon.com/ 专为日语学习者设计,自带字幕 https://aniwatch.to/ 能找到比较久远的视频
日剧: 2022年下载日剧生肉和外挂字幕的方法
手动挖掘工具: 浏览器插件: asbplayer animebook asbplayer 可看作是 animebook 的升级版本,二者均需要手动配置输入Anki的目标字段
自动挖掘工具: subs2srs 用于批量从字幕和视频中生成Anki,缺点是后处理费时费力
漫画
当下这一领域流行的是Manga-OCR这一来自HuggingFace的AI模型,而不是比较老的Capture2Text。 Manga-OCR衍生了一系列工具,较为有名的有: Poricom -- 漫画阅读器,需要手动框选进行文字识别 kha-white/mokuro 及它的移动端适配分支 ZXY101/mokuro : 对漫画进行ocr并生成元数据和html文件,在浏览器打开html文件即可选中文本调用Yomichan查询并插入Anki 经过mokuro预处理的漫画资源可在https://mokuro.moe/manga/ 找到,比较推荐通过https://mokuro.moe/manga/_torrents/ 内的BT种子文件每次下载单部预处理作品,降低网站服务器压力 mokuro阅读器:https://reader.mokuro.app/ PC端设置阅读漫画:https://xelieu.github.io/jp-lazy-guide/setupMangaOnPC
jidoujisho: 一款功能齐全的沉浸式移动语言学习套件,内置Yomichan(需导入辞典),mokuro漫画阅读器、ttu阅读器(用于epub阅读),webview浏览器(特定程序注入网页便于翻译和查询),音视频播放器等
挖矿技巧总结
Shiki’s Lazy Sentence Mining Workflow Mining from Anime
epub阅读
浏览器内的https://reader.ttsu.app/ ,可安装为pwa应用,适合日文文本epub阅读,默认垂直排版,设置内可调整为水平排版