biosciencedbc / rdf-medgen

0 stars 0 forks source link

コンバータのマッチングパターンに当てはまらないデータの対応 #3

Closed mitsuhashi closed 8 months ago

mitsuhashi commented 1 year ago

MGSAT_1.csvの以下の行の4列目の116806.0007のドットがパターンに含まれていなかった。

C1861811,A24598690,SDUI,116806.0007,AT205995104,MOVED_FROM,OMIM,"116806.0015",N

パーサーの以下の部分を微修正 (([\.\:\w]*)のドットを追加)して再実行して問題なくコンバートできたことを確認した。

rdf_portal@vs66:~/rdf_portal-rdf/work/rdf-medgen/rdf_converter_medgen$ git diff
diff --git a/rdf_converter_medgen.rb b/rdf_converter_medgen.rb
index 9d4cd89..9eabf69 100644
--- a/rdf_converter_medgen.rb
+++ b/rdf_converter_medgen.rb
@@ -313,7 +313,7 @@ module MedGen
     end

     def self.parse(line)
-      if /^(\w+),(\w+),(\w+),([\:\w]*),(\w+),([\w\-\_]+),(\w+),\"(.*)\",(\w)[\r\n]*?$/ =~ line
+      if /^(\w+),(\w+),(\w+),([\.\:\w]*),(\w+),([\w\-\_]+),(\w+),\"(.*)\",(\w)[\r\n]*?$/ =~ line
         [$1, $2, $3, $4, $5, $6, $7, $8, $9]
       else
         raise "Parse error on MGSAT.\n"
rdf_portal@vs66:~/rdf_portal-rdf/work/rdf-medgen/rdf_converter_medgen$

詳細は添付の日立さんのレポートを参照した。 errorlog_MedGen.pdf

mitsuhashi commented 8 months ago

多分解決しているのでクローズ