shibing624 / pke_zh

pke_zh, python keyphrase extraction for chinese(zh). 中文关键词或关键句提取工具,实现了KeyBert、PositionRank、TopicRank、TextRank等算法,开箱即用。
Apache License 2.0
190 stars 30 forks source link
keyword keyword-extraction pke term-weighting textrank-python word-ranking wordrank

🇨🇳中文 | 📖文档/Docs | 🤖模型/Models

Logo

pke_zh: Python Keyphrase Extraction for zh(chinese)

PyPI version Downloads GitHub contributors License Apache 2.0 python_vesion GitHub issues Wechat Group

PKE_zh, Python Keyphrase Extraction for zh(chinese).

pke_zh实现了多种中文关键词提取算法,包括有监督的WordRank,无监督的TextRank、TfIdf、KeyBert、PositionRank、TopicRank等,扩展性强,开箱即用。

Guide

Features

有监督方法

模型选型

Install

Usage

有监督关键词提取

pke_zh快速预测

example: examples/keyphrase_extraction_demo.py

from pke_zh import WordRank
m = WordRank()
print(m.extract("哪里下载电视剧周恩来?"))

output:

[('电视剧', 3), ('周恩来', 3), ('下载', 2), ('哪里', 1), ('?', 0)]

训练样本格式:

邪御天娇 免费 阅读,3 1 1

模型结构:

term-weighting

training example: examples/train_supervised_wordrank_demo.py

无监督关键词提取

支持TextRank、TfIdf、PositionRank、KeyBert等关键词提取算法。

example: examples/unsupervised_demo.py

from pke_zh import TextRank, TfIdf, SingleRank, PositionRank, TopicRank, MultipartiteRank, Yake, KeyBert
q = '哪里下载电视剧周恩来?'
TextRank_m = TextRank()
TfIdf_m = TfIdf()
PositionRank_m = PositionRank()
KeyBert_m = KeyBert()

r = TextRank_m.extract(q)
print('TextRank:', r)

r = TfIdf_m.extract(q)
print('TfIdf:', r)

r = PositionRank_m.extract(q)
print('PositionRank_m:', r)

r = KeyBert_m.extract(q)
print('KeyBert_m:', r)

output:

TextRank: [('电视剧', 1.00000002)]
TfIdf: [('哪里下载', 1.328307500322222), ('下载电视剧', 1.328307500322222), ('电视剧周恩来', 1.328307500322222)]
PositionRank_m: [('电视剧', 1.0)]
KeyBert_m: [('电视剧', 0.47165293)]

无监督关键句提取(自动摘要)

支持TextRank摘要提取算法。

example: examples/keysentences_extraction_demo.py

from pke_zh import TextRank
m = TextRank()
r = m.extract_sentences("较早进入中国市场的星巴克,是不少小资钟情的品牌。相比 在美国的平民形象,星巴克在中国就显得“高端”得多。用料并无差别的一杯中杯美式咖啡,在美国仅约合人民币12元,国内要卖21元,相当于贵了75%。  第一财经日报")
print(r)

output:

[('相比在美国的平民形象', 0.13208935993025409), ('在美国仅约合人民币12元', 0.1320761453200497), ('星巴克在中国就显得“高端”得多', 0.12497451534612379), ('国内要卖21元', 0.11929080110899569) ...]

Contact

Citation

如果你在研究中使用了pke_zh,请按如下格式引用: APA:

Xu, M. pke_zh: Python keyphrase extraction toolkit for chinese (Version 0.2.2) [Computer software]. https://github.com/shibing624/pke_zh

BibTeX:

@misc{pke_zh,
  author = {Xu, Ming},
  title = {pke_zh: Python keyphrase extraction toolkit for chinese},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/shibing624/pke_zh}},
}

License

授权协议为 The Apache License 2.0,可免费用做商业用途。请在产品说明中附加pke_zh的链接和授权协议。

Contribute

项目代码还很粗糙,如果大家对代码有所改进,欢迎提交回本项目,在提交之前,注意以下两点:

之后即可提交PR。

References