Open BrambleXu opened 5 years ago
分词
英语分词
https://towardsdatascience.com/tokenization-for-natural-language-processing-a179a891bad4 这篇文章里的图将各种分词方法总结的不错
https://www.analyticsvidhya.com/blog/2020/05/what-is-tokenization-nlp/ 有具体例子,当做补充内容
https://www.kaggle.com/code/satishgunjal/tokenization-in-nlp kaggle的分词教程,可以用来写教程
日语分词
https://qiita.com/klis/items/bb9ffa4d9c886af0f531 文章介绍了konoha,文章里的link还有Mecab,Sentencepiece的用法,这些都是日语的分词工具
https://cardinal-moon.hatenablog.com/entry/tokenize_and_subword 主要介绍了BPE和Sentencepiece
https://www.nogawanogawa.com/entry/tokenizer 简单介绍了使用不同分词工具的分词结果
将text转换为特征向量
word embedding出现前,机器学习方式的特征转换
基于神经网络,出现了word embedding
基于Transformers的embedding技术
其他
关于NLP的模型
将特征转换为特征向量后,可以使用一些传统的机器学习模型,比如随机森林,SVM等等
神经网络出现后,基于CNN,RNN的模型效果非常突出,最典型的是Bi-LSTM CRF
基于Transformers的Language model出现后,性能非常强,最典型的是BERT
https://zenn.dev/yukiyada/articles/59f3b820c52571 有代码,可能比较难一些
https://note.com/npaka/n/n5bb043191cc9 基于Huggingface开发的Transformers工具,里面自带了很多有名的Transformers模型,用起来很方便
关于NLP的task
可视化
词云可视化:表达文章中单词的重要性
Embedding可视化:表达corpus中不同单词之间的联系
语法树可视化
这个issue打算放一些我个人觉得不错的工具和教程,做一个备份。
2024/09
2024/07
2024/06
2024/04
2024/03
2024/02
いまこそ学ぶLLMベースのAIエージェント入門―基本的なしくみ/開発ツール/有名なOSSや論文の紹介: 介绍了很多关于agent开发相关的工具和trend
labml.ai Deep Learning Paper Implementations: 有很多论文和代码实现
OpeanAI Cookbook
RAGの性能を改善するための8つの戦略: 总结的文章
RAG質問応答システムに使うRetrieverの精度比較
langchain-tutorials
Langchain-Full-Course:有一些高级使用方法的教程
LangChainを利用したハイブリッド検索の実装:实现了hybrid检索,写的不错
Let's build the GPT Tokenizer
2024/01
2023/11
2023/09
2023/07
2023/03
2023/02
tokenizer.add_tokens(list(new_tokens))
,解释了为什么需要添加新词。主要是因为subword在specific domain上效果不好,容易忽视该词在特定领域中的含义,所以最好还是添加一些domain词典比较好2023/01
%store value
, 读取:%store -r value
2022
2022/12
sampler.query = MagicMock(return_value=2
,会被pydantic报错,说sampler没有query这个属性值,但实际上query是函数。根据这次的经验,对pydantic的适用场景有了一些感想。主要适用于一些数据结构比较简单的,很少用到第三方依赖的项目。对于涉及到pytorch, tensorflow这种比较复杂的深度学习项目,还是直接用if进行判断做数据验证比较好2022/10
PyCon JP的一些资料:
How to Transform Research Oriented Code into Machine Learning APIs with Python:将代码分成 preparation, preprocessing, ml三部分
続・小さく始めて大きく育てるMLOps2020 / Start small and grow big MLOps2020:用于MLop的工具,控制变量,记录log,管理workflow
Python × AWS × Serverless 初学者が次の一歩を踏み出すためのテクニック/Python & AWS & Serverless - Step to the next stage from a beginner: 做个记录
最先端自然言語処理ライブラリの最適な選択と有用な利用方法 / pycon-jp-2020:比较了不同日语文本处理工具,还有之后用于模型训练的工具。处理日语文本的时候,可以参考这个文档
実践Streamlit & Flask - AIプロジェクトをいい感じにする技術 / Service development with Streamlit and Flask: 不论是enginner还是数据科学家,都希望能用可以展示的app进行演示。原型展示用streamlit,实际部署是将flask部署到GAE上
Pandas卒業?大規模データを様々なパッケージで高速処理してみる/pyconjp2022-hpc :介绍了包括pandas在内的分析处理数据的工具,pandas, dask, vaex, pyspark。有实际的代码和例子可以自己尝试。各个工具有各自的优点,根据数据量,选择合适的工具
Fast API と学ぶ WebRTC: 有实际的代码和演示,如果以后遇到WebRTC,可以回顾一下
SQLクエリ解析によるE2Eデータリネージの実現 / E2E-data-lineage: 主要介绍了用Stairlight给SQL得到的数据添加一些信息,方便之后使用的时候,知道信息的来源
Pythonで公的統計APIのオープンデータ活用(PyConJP2022): 介绍了很多获取政府公开数据的方法,还有一些比较便利的工具
Python ライブラリ開発における失敗談 〜開発者に選ばれるライブラリを作るために必要なこと〜 / pycon-jp-2022:里面涉及到的比较不同nlp工具解析时间的部分还挺有用,而且介绍了很多针对日语的工具
Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて #PyConJP 2022: 基于google的云服务,构建了一个分析棒球的服务。主要用到了PySpark。整个slide的制作和介绍非常值得参考
データに関する堅牢性と可読性を向上させるpydanticとpanderaの活用方法の提案.pdf: 主要介绍了pydantic和pandera的使用方法。pydantic针对所有的项目,pandera针对pandas里的dataframe。
pydantic: 用于验证python类型的工具
codespell:检查代码拼写错误的工具
日本的病例标注数据:70种NER标签,35种关系标签
基于日语的诊断文本学习的BERT:添加了很多病名的数据
抽取日语病名的工具
2022/09
2022/04
2022/03
2022/02
通过cProfile来调查代码耗时最大的地方(プロファイリング)
一些关于如何写好代码的建议
YAGNI(You ain't gonna need it): 不要写自己觉得可能会用到的代码
关于test的文章
介绍代码复杂度Cyclomatic Complexity
2021
2021/08
2021/05
2021/04
2021/01
2020
2020/12
cp932
起效果了<feature/bugfix/experimental>/<issue-number>-<dscription_for_branch>
2020/11
2020/10
2020/8
2020/7
2020/6
关于抗疫的视频,太感动了:
2020/5
关于投资
关于开发:
关于日语:
2020/4
2020/3
2020/2
2020/1
pip install torch==1.2.0 torchvision==0.4.0
2019
2019/12
https://translate.google.com/translate_tts?ie=UTF-8&client=tw-ob&tl=zh-CN&q=我想测试一下这个语音能不能支持日语(天気がいいから散歩しましょう。できないみたいだな)以及英语(Ramen is delicious)
_
)方法,还是能访问并修改的。而private(__
)则不能被外界访问。PyCon china 2018:
关于健身:
2019/11
Some information about fuzzy matching: 没有找到日语的相关工具
2019/10
twine upload --repository-url https://upload.pypi.org/legacy/ dist/*
2019/09
(图1)
(图2)
Linux basic
Deep Learning Tools
可视化
文章
关于RE的文章
关于Transformer的文章
关于BERT的文章