NoHeartPen / awesome_japanese_study_tools

这个项目收集各种日语学习、研究的网站和工具。
The Unlicense
188 stars 6 forks source link

影音漫画小说词汇挖矿指路 #6

Open Oshibuki opened 10 months ago

Oshibuki commented 10 months ago

词汇挖矿是来自“mine from sentence”的直译,指选择难度略微超过舒适区,又存在少量生词的适当材料做笔记记录用于复习

大体而言,这些记录的最终目标都是anki自建卡牌。但是具体的挖掘路径又随着材料种类和技术进步的发展有所不同。现归纳如下:

必备基础

yomichan

视频

这类材料以能找到单独字幕文件(需要严格对轴视频材料)的动画、影视作品为主。 字幕与视频重新同步:https://animecards.site/subtitles/

字幕网站列表: 日文字幕: kitsunekko: https://kitsunekko.net/dirlist.php?dir=subtitles%2Fjapanese kitsunekko的备份:https://learnjapanese.moe/kitsubackup.html#/ja/ https://djtguide.github.io/library/sub.html 中文字幕: https://github.com/bipy/Anime-Subtitles 中日双语字幕 https://github.com/Nekomoekissaten-SUB/Nekomoekissaten-Storage

动漫网站: https://animelon.com/ 专为日语学习者设计,自带字幕 https://aniwatch.to/ 能找到比较久远的视频

日剧: 2022年下载日剧生肉和外挂字幕的方法

手动挖掘工具: 浏览器插件: asbplayer animebook asbplayer 可看作是 animebook 的升级版本,二者均需要手动配置输入Anki的目标字段

自动挖掘工具: subs2srs 用于批量从字幕和视频中生成Anki,缺点是后处理费时费力

漫画

当下这一领域流行的是Manga-OCR这一来自HuggingFace的AI模型,而不是比较老的Capture2Text。 Manga-OCR衍生了一系列工具,较为有名的有: Poricom -- 漫画阅读器,需要手动框选进行文字识别 kha-white/mokuro 及它的移动端适配分支 ZXY101/mokuro : 对漫画进行ocr并生成元数据和html文件,在浏览器打开html文件即可选中文本调用Yomichan查询并插入Anki 经过mokuro预处理的漫画资源可在https://mokuro.moe/manga/ 找到,比较推荐通过https://mokuro.moe/manga/_torrents/ 内的BT种子文件每次下载单部预处理作品,降低网站服务器压力 mokuro阅读器:https://reader.mokuro.app/ PC端设置阅读漫画:https://xelieu.github.io/jp-lazy-guide/setupMangaOnPC

jidoujisho: 一款功能齐全的沉浸式移动语言学习套件,内置Yomichan(需导入辞典),mokuro漫画阅读器、ttu阅读器(用于epub阅读),webview浏览器(特定程序注入网页便于翻译和查询),音视频播放器等

挖矿技巧总结

Shiki’s Lazy Sentence Mining Workflow Mining from Anime

epub阅读

浏览器内的https://reader.ttsu.app/ ,可安装为pwa应用,适合日文文本epub阅读,默认垂直排版,设置内可调整为水平排版

NoHeartPen commented 10 months ago

感谢提交,由于工作原因,我可能要下个月才会整理你分享的内容,你可以先不关闭这个 issue 算是提醒我不要跳票(笑