skywind3000 / lemma.en

English Lemma Database - Compiled by Referencing British National Corpus
MIT License
29 stars 3 forks source link

提点建议,不知写在这里合适不 #1

Open tfangz888 opened 6 years ago

tfangz888 commented 6 years ago

1.关于词的形态: 由文章返回单词的lemma,有的会返回多个形态。如果只返回一个,可能会丢掉真正的形态。

  1. 许多在线词典上列出了动词的变化形态,及名词的复数。这比有的程序直接用规律更准确。象抓取learnersdictionary.com的动词的变化形态及名字的复数,肯定很准确。
  2. 建议参考2+2+3cmn的库。 以下是我的总结: 2+2+3cmn 含有2万个单词,但词的变化形式不够. 如没有comforted. 含有comforter这个词。牛津的MINI小词典及其它许多小词典都查不到此词。 此词表是美语核心单词,适合于背诵。是2+2+3frq的1-17bands。 有的词尾含有符号 2+2+3frq 按词频排序,词量比2+2+3cmn大。词的形态不全。 很好的分级材料,基于COCA。前几个band最好去掉。 12级达4207个单词,13级达6164个单词,14级达8852, 15级达12262,16级达16283,17级达20492。目标是15(SAT)或16级(GRE)。 有词尾含有!, !, * 2+2+3lem 比较全,含有各种词的各种形态。含有符号!, 需要去掉。 共含有词汇34337个,其它变化形态52562个。 查词步骤: 把2+2+3lem中的!全去替去掉。用ultraedit转换为Unix格式。 Perl -0777 -pe 's/\n //g' 2+2+3lem.txt 把related word与headword搞成一行 先在2+2+3lem中找到词的书写形式(可能有多处,全部找出),然后找到它的根词。 由于存在交叉引用,可能会找出多个根词。-> 表示参考,[]表示别的headword 有的单词含有-,如 add-on 再在2+2+3frq中找到根词属于哪个band。 最后在2+2+3cmn中看能否找到根词,找不到就说明太偏。 mail mailed, mailing -> [mailing], mails mailing -> [mail]

slue -> [slough] slew -> [slay, slew, slough], slewed, slewing, slews -> [slew, slough], slued, slues -> [slough], sluing

4.有道同根词做的好, 希望借鉴

skywind3000 commented 6 years ago

https://github.com/skywind3000/ECDICT

参考我另外一个项目,里面有详细的词形变换,还会告诉你到底是过去式还是过去分词。

同样,该项目里还有一个同根词数据库。

tfangz888 commented 5 years ago

多谢作者的分享,我已把作者的词库用作goldendict了。

https://www.lextutor.ca/familizer/ 这个工具可以查询词干和衍生词。

Paul Nation提供了 The BNC/COCA headword lists 也不错,适合背诵。 https://www.victoria.ac.nz/lals/about/staff/paul-nation#vocab-lists