OIerDb-ng / OIer

A database for OIers
GNU General Public License v3.0
592 stars 61 forks source link

下面这人为什么合并出来是2个,感觉是一个人才对啊。要怎样才能修正? #90

Open samxiaocd opened 3 years ago

samxiaocd commented 3 years ago

下面这人为什么合并出来是2个,感觉是一个人才对啊。

图片

school_oped.txt

上海,宝山区,上海市杨泰实验学校

data.txt: CSP2019提高,二等奖,吴思成,小学/无,上海市杨泰实验学校,154,上海,男, CSP2019入门,二等奖,吴思成,小学/无,上海市杨泰实验学校,210,上海,男, APIO2020,铜牌,吴思成,五年级,上海市杨泰实验学校,44,上海,男, CSP2020提高,一等奖,吴思成,小学,上海外国语大学附属外国语学校,230,上海,男, CSP2020入门,二等奖,吴思成,小学,上海外国语大学附属外国语学校,155,上海,男,

============================ result.csv: 4104,吴思成,,,wsc,3,139,"[{'identity': 'CSP2020提高', 'ctype': 'CSP提高', 'award_type': '一等奖', 'grade': '小学', 'school': '上海外国语大学附属外国语学校', 'school_id': 117, 'score': '230', 'province': '上海', 'rank': 747}, {'identity': 'CSP2020入门', 'ctype': 'CSP入门', 'award_type': '二等奖', 'grade': '小学', 'school': '上海外国语大学附属外国语学校', 'school_id': 117, 'score': '155', 'province': '上海', 'rank': 4639}, {'identity': 'CSP2019提高', 'ctype': 'CSP提高', 'award_type': '二等奖', 'grade': '小学/无', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '154', 'province': '上海', 'rank': 4676}, {'identity': 'CSP2019入门', 'ctype': 'CSP入门', 'award_type': '二等奖', 'grade': '小学/无', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '210', 'province': '上海', 'rank': 2986}]",1,11.34,2020

15029,吴思成,,,wsc,3,139,"[{'identity': 'APIO2020', 'ctype': 'APIO', 'award_type': '铜牌', 'grade': '五年级', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '44', 'province': '上海', 'rank': 544}]",1,2.72,2020

识别一个人的标准是:省,学校,姓名三者相同吗? 要怎样才能修正?

samxiaocd commented 3 years ago

李元鹏, 方晓楠, 程楷轩, 王羿涵(高中降过级?还是同名?) 也是。

samxiaocd commented 3 years ago

仲 14:04:51 data.txt 5条记录改为如下: CSP2019提高,二等奖,吴思成,小学/无,上海市杨泰实验学校,154,上海,男,A CSP2019入门,二等奖,吴思成,小学/无,上海市杨泰实验学校,210,上海,男,A APIO2020,铜牌,吴思成,五年级,上海市杨泰实验学校,44,上海,男,A CSP2020提高,一等奖,吴思成,小学,上海外国语大学附属外国语学校,230,上海,男,A CSP2020入门,二等奖,吴思成,小学,上海外国语大学附属外国语学校,155,上海,男,A

python new_merger.py 执行后,生成的result.csv还是2条,

4104,吴思成,,,wsc,3,139,"[{'identity': 'CSP2020提高', 'ctype': 'CSP提高', 'award_type': '一等奖', 'grade': '小学', 'school': '上海外国语大学附属外国语学校', 'school_id': 117, 'score': '230', 'province': '上海', 'rank': 747}, {'identity': 'CSP2020入门', 'ctype': 'CSP入门', 'award_type': '二等奖', 'grade': '小学', 'school': '上海外国语大学附属外国语学校', 'school_id': 117, 'score': '155', 'province': '上海', 'rank': 4639}, {'identity': 'CSP2019提高', 'ctype': 'CSP提高', 'award_type': '二等奖', 'grade': '小学/无', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '154', 'province': '上海', 'rank': 4676}, {'identity': 'CSP2019入门', 'ctype': 'CSP入门', 'award_type': '二等奖', 'grade': '小学/无', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '210', 'province': '上海', 'rank': 2986}]",1,11.34,2020

15029,吴思成,,,wsc,3,139,"[{'identity': 'APIO2020', 'ctype': 'APIO', 'award_type': '铜牌', 'grade': '五年级', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '44', 'province': '上海', 'rank': 544}]",1,2.72,2020

这个方法似乎不行。

仲 14:05:20 是 new_merger.py 这里面合并逻辑的问题?

仲 14:06:04 识别为同一个人的规则是什么? 省,学校,姓名...相同?

图片 图片

samxiaocd commented 3 years ago

在我的新的PR中修正了此问题。看看能否合并。