meyakovenkoj / DataScience-2020-GodBlessDS

Amazing Data Science project for DS cource in MEPhI - 2020
0 stars 0 forks source link

В вынесенной информации есть дубликаты #9

Closed meyakovenkoj closed 3 years ago

meyakovenkoj commented 3 years ago

Вынесенная информация может выглядеть так: РОЖКОВ РАМИЛЬ ЭМИЛЬЕВИЧ;1980-02-02;0595 142701 РОЖКОВ РАМИЛЬ ЭМИЛЬЕВИЧ;;0595 142701 Это один человек, по отсутствию др эти строки различные, необходимо эти данные объединить по наибольшему

DyadyaRodya commented 3 years ago

done скрипт ищет ;; в читаемых строках если не нашел - в множество seenвносится строка с датой рождения и без нее и строка с датой пишется в файл если в строке есть ;; то эта строка добавляется в множество bad и пока не пишется в файл как все строки файла проверены - проверяется для всех строк в bad если она не лежит в seen, то ее надо записать, так как для такого человека так и не нашлось строчки с датой

DyadyaRodya commented 3 years ago

почекал инфу и снова нашел дубликаты

DyadyaRodya commented 3 years ago

fixed