Tokyo-Metro-Gov / covid19

東京都 新型コロナウイルス感染症対策サイト / Tokyo COVID-19 Task Force website
https://stopcovid19.metro.tokyo.lg.jp/
MIT License
6.26k stars 1.97k forks source link

翻訳(en)にいわゆるASCII以外が含まれている #5218

Closed ghost closed 2 years ago

ghost commented 4 years ago

改善詳細 / Details of Improvement

スクリーンショット / Screenshot

期待する見せ方・挙動 / Expected behavior

動作環境・ブラウザ / Environment

kaizumaki commented 4 years ago

@tokyo-citizen ご指摘ありがとうございます!

✔については現状のままとする

こちらについては #1398 で反映されたとおりとなります。

-についてはマスターデータを修正する(8月7日時点でHYPHEN-MINUS/HORIZONTAL BAR/FULLWIDTH HYPHEN-MINUSが混在)

こちらは #2984 でコメント https://github.com/tokyo-metropolitan-gov/covid19/issues/2984#issuecomment-618157721 しましたが、現状では修正は難しい状況です。

残りにつきましては、翻訳チームに検討してもらうようにしますね。

ghost commented 4 years ago

@kaizumaki

こちらについては #1398 で反映されたとおりとなります。

慣例的に使われる場合もありますし、そもそもエンコーディングがUTF-8なので現状の 翻訳(en)のままが素直と思います。

こちらは #2984 でコメント #2984 (comment) しましたが、現状では修正は難しい状況です。

一般的にマスターデータに手を入れるのは難しい場合がありますし、auto-i18n/i18n_generator.pyの ワークアラウンドで手を入れていることから空気は察しております!

ghost commented 4 years ago

ハイフン/ハイフンマイナス/ダッシュについて既にオフトピックのためあくまで参考情報です。 (生産的でないかもしれず申し訳ないです)

以下は7月30日夜のデータ投入時における差分抜粋です。

--- a/data/data.json
+++ b/data/data.json
@@ -25183,7 +25205,7 @@
             },
             {
                 "リリース日": "2020-04-16T08:00:00.000Z",
-                "居住地": null,
+                "居住地": "-",
                 "年代": "40代",
                 "性別": "女性",
                 "退院": "〇",
--- a/static/data/130001_tokyo_covid19_patients.csv
+++ b/static/data/130001_tokyo_covid19_patients.csv
@@ -2509,7 +2509,7 @@
 2335,130001,東京都,,2020-04-15,水,,―,20代,女性,,,,,,1
 2366,130001,東京都,,2020-04-15,水,,―,50代,女性,,,,,,1
 2368,130001,東京都,,2020-04-15,水,,―,80代,女性,,,,,,1
-100082,130001,東京都,,2020-04-16,木,,"",40代,女性,,,,,,1
+100082,130001,東京都,,2020-04-16,木,,-,40代,女性,,,,,,1
 2457,130001,東京都,,2020-04-16,木,,都外,20代,男性,,,,,,1
 2523,130001,東京都,,2020-04-16,木,,都外,40代,男性,,,,,,1
 100121,130001,東京都,,2020-04-16,木,,都外,40代,男性,,,,,,1
kaizumaki commented 4 years ago

データにグリフが似ている文字が追加された(複数の人員での手入力あるある?) FULLWIDTH HYPHEN-MINUS(U+FF0D)

なるほど。これはコンポーネントとスクリプト側でフォローせねばですね。

ghost commented 4 years ago

ちなみに、8月8日夜にマスターデータを変換して投入されたデータでは以下のようになっています。 (単純化するためCSVをネタにしています)

$ cut -d, -f8 static/data/130001_tokyo_covid19_patients.csv | sort | uniq

-
―
-
都内
都外
患者_居住地
調査中
湖北省武漢市
湖南省長沙市
$ cut -d, -f10 static/data/130001_tokyo_covid19_patients.csv | sort | uniq
-
―
不明
女性
男性
患者_性別
MaySoMusician commented 4 years ago

米印( )・全角スペース(和字間隔)・全角ナンバーサイン

ご指摘の通り修正するのが良いと思います。

LEFT DOUBLE QUOTATION MARK/RIGHT DOUBLE QUOTATION MARK

文字コード関連について自分の知識があやふやなのですが、これらはHTMLでは本来 “ ” とマークアップされるもので、直接指定だと文字化けの可能性がある、という感じでしょうか? 特に強いこだわりは無いですが、可能であれば英語の曲線型の方が良いのかなと思っております。

「#7119」

こちらについては、語句の説明の際にどう表現するのが良いのか、他の言語の表記も含めて翻訳チームで再検討しようと思います(カギカッコ無しで #7119 を太字にする、など)

ghost commented 4 years ago

@MaySoMusician ご検討いただきありがとうございます。また、細かい話ばかりで申し訳ないです。

まず前提として、翻訳チームの皆様の思いを尊重させていただきます。

ご質問いただいた括弧系については、翻訳(en)のカタログファイルに既に以下のバリエーションが あったので、":QUOTATION MARKに揃えるのはどうかなという主観的なものでした。

ghost commented 4 years ago

@MaySoMusician エスケープするのか悩まなくていい“”:LEFT DOUBLE QUOTATION MARK(U+201C)と RIGHT DOUBLE QUOTATION MARK)(U+201D)がいい気がしてきました!

MaySoMusician commented 4 years ago

「#7119」 の部分は、カギカッコをとって太字にすることで翻訳チームと合意が取れたので #5260 を出しました

kaizumaki commented 4 years ago

ハイフン問題 https://github.com/tokyo-metropolitan-gov/covid19/issues/5218#issuecomment-670844722 については、PR #5263 を出しました。

goki90210 commented 4 years ago

文字コード関連について自分の知識があやふやなのですが、これらはHTMLでは本来 “ ” とマークアップされるもので、

HTML 5/UTF-8で書かれていれば"&"(&amp;)、"<"(&lt;), ">"(&gt;)以外は縛りはないはずですよ。

kaizumaki commented 2 years ago

こちらのissueは解決済みと思われますので、クローズとします。