Open mitsuhashi opened 6 months ago
ローカルで以下のようにparserを変更して対応した。
rdf_portal@vs66:~/rdf_portal-rdf/work/rdf-medgen/rdf_converter_medgen$ git diff
diff --git a/rdf_converter_medgen.rb b/rdf_converter_medgen.rb
index 6c63eef..17ce85b 100644
--- a/rdf_converter_medgen.rb
+++ b/rdf_converter_medgen.rb
@@ -1,6 +1,7 @@
#!/usr/bin/env ruby
require 'optparse'
+require 'csv'
module MedGen
@@ -50,17 +51,10 @@ module MedGen
end
def self.parse(line)
- if /^(\S+),([^\".]+),(.+),(\w)[\r\n]*?$/ =~ line
- [$1, $2, $3, $4]
- elsif /^(\S+),\"(.+)\",(.+),(\w)[\r\n]*?$/ =~ line
- [$1, $2, $3, $4]
- elsif /^(\S+),\"(.+)[\r\n]*?$/ =~ line
- [$1, $2, "Unknown", "Unknown"]
- elsif /^(\S+),(.+)[\r\n]*?$/ =~ line
- [$1, $2, "Unknown", "Unknown"]
- else
- raise "Parse error on NAMES.\n"
- end
+ row = CSV.parse(line).first
+ row[2] = "Unknown" unless row[2]
+ row[3] = "Unknown" unless row[3]
+ row
end
def self.construct_turtle(cui, name, source, suppress)
rdf_portal@vs66:~/rdf_portal-rdf/work/rdf-medgen/rdf_converter_medgen$
mitsuhashi@db01:/mnt/nas05/togodx/medgen/20240312$ grep -A 6 C1515723 NAMES.ttl
medgen:C1515723
a mo:ConceptID ;
dct:identifier "C1515723" ;
rdfs:label "t(14;19)(q32;q13.1)" ;
mo:name [
rdfs:label "t(14;19)(q32;q13.1)" ;
dct:source mo:NCI ;
mo:suppress mo:N
] .
mitsuhashi@db01:/mnt/nas05/togodx/medgen/20240312$
NAMES.csvのパースに失敗していて主語にカンマが入ってしまっている場合がある。
全部列挙
NAMES.csv
修正前