smart022 / articles

articles_backup
MIT License
2 stars 0 forks source link

All about NLP #21

Open smart022 opened 5 years ago

smart022 commented 5 years ago

General

从Word Embedding到Bert模型——自然语言处理预训练技术发展史 CS224n自然语言处理与深度学习笔记汇总 深度nlp科普专栏 good! 详解Transformer (Attention Is All You Need) good! 《Attention is All You Need》浅读(简介+代码) BERT代码阅读 nlp牛人博客

情感分析

分类最早入门代码 【译】word2vec&doc2vec做文本情感分析 git/sentiment-analysis

分类

CNN也能用于NLP任务,一文简述文本分类任务的7个模型 深度学习:TextCNN Good! 兜哥出品 <一本开源的NLP入门书籍>

比赛技巧 在文本分类任务中,有哪些论文中很少提及却对性能有重要影响的tricks?

文本匹配

如何匹配两段文本的语义? 如何判断两段文本说的是「同一件事情」? 短文本匹配模型-ESIM 文本匹配(语义相似度/行为相关性)技术综述 短文本相似度(关键词、词向量、句向量、编辑距离、余弦相似度、jaccard、matchzoo、bert)

相似度

ATEC2018 NLP赛题总结 蚂蚁金融NLP竞赛——文本语义相似度赛题总结 如何通过词向量技术来计算2个文档的相似度? 将句子表示为向量(上):无监督句子表示学习 四种计算文本相似度的方法对比 Quora Question Pairs 竞赛冠军经验分享:采用 4 层堆叠,经典模型比较给力 Kaggle Quora 第21名解决方案 Kaggle:Quora Question Pairs 解题思路 问题对语义相似度计算-参赛总结 pythonNLP-文本相似度计算实验汇总 中国健康信息处理会议(CHIP) 2018 比赛 第九名 方案分享 2018 未来数据研究所 问题相似度匹配竞赛技术总结 2018 智能客服问题相似度算法设计——第三届魔镜杯大赛 rank12 很仔细

Gensim官方教程翻译

gensim加载预训练 Gensim模块处理之dictionary和corpora ensim之Word2Vec使用手册

文本推断/蕴涵

自然语言推理-文本蕴含识别简介 Natural Language Inference 学习笔记

实体/意图

意图识别和槽填充 一文详解深度学习在命名实体识别(NER)中的应用

常用库

A Comprehensive Introduction to Torchtext (Practical Torchtext part 1) Use torchtext to Load NLP Datasets — Part I CountVector Facebook文本分类工具fastText介绍

参考代码

Github 上 Star 过千的 NLP 相关项目 pytorch-tutorial 综合的简单代码 style good! Deep Learning Models 综合的简单代码 style good! pytorch-transformers Transfomer 实现大全 nlp-tutorial 简单的nlp代码!

smart022 commented 5 years ago

文本检索/搜索排序

UIUC《文本检索与搜索引擎》课程学习笔记(一)—— 自然语言处理概述 从一万英尺的天空看搜索排序 搜索引擎的排序算法都有哪些是怎么实现的? 一个可供参考的搜索引擎排序架构实践案例

smart022 commented 5 years ago

预处理

python :中英文文本预处理(包含去标点分词词干提取) 关于Pytorch中的Embedding padding

大致思路 (中文)

  1. 分词,去停用词
  2. 词典,索引 (tokenizer) + 嵌入矩阵构造(embedding matrix)
  3. 截断,填充 (padding)
smart022 commented 5 years ago

Embedding 嵌入

NLP的游戏规则从此改写?从word2vec, ELMo到BERT