Closed Mike-ihr closed 1 month ago
为什么提供的中文数据集caption字段是乱码的: { "annotations": [ { "image_id": "162_1", "caption": "\u6839\u636eX\u5c04\u7ebf\u56fe\u50cf\uff0c\u5fc3\u810f\u5927\u5c0f\u6b63\u5e38\uff0c\u80ba\u90e8\u770b\u8d77\u6765\u5f88\u6e05\u6670\u3002\u5df2\u7ecf\u6392\u9664\u4e86\u80ba\u708e\u3001\u79ef\u6db2\u3001\u6c34\u80bf\u3001\u6c14\u80f8\u3001\u817a\u75c5\u3001\u7ed3\u8282\u6216\u80bf\u5757\u7684\u5b58\u5728\u3002\u8be5\u53d1\u73b0\u8868\u660e\u4e00\u5207\u6b63\u5e38\u3002\u6362\u53e5\u8bdd\u8bf4\uff0c\u603b\u4f53\u5370\u8c61\u662f\u80f8\u90e8\u6b63\u5e38\u3002\u4f60\u5bf9\u8fd9\u4e2aX\u5c04\u7ebf\u7ed3\u679c\u6709\u4ec0\u4e48\u95ee\u9898\u6216\u62c5\u5fe7\u5417\uff1f" }, { "image_id": "162_2", "caption": "\u6839\u636eX\u5c04\u7ebf\u56fe\u50cf\uff0c\u5fc3\u810f\u5927\u5c0f\u6b63\u5e38\uff0c\u80ba\u90e8\u770b\u8d77\u6765\u5f88\u6e05\u6670\u3002\u5df2\u7ecf\u6392\u9664\u4e86\u80ba\u708e\u3001\u79ef\u6db2\u3001\u6c34\u80bf\u3001\u6c14\u80f8\u3001\u817a\u75c5\u3001\u7ed3\u8282\u6216\u80bf\u5757\u7684\u5b58\u5728\u3002\u8be5\u53d1\u73b0\u8868\u660e\u4e00\u5207\u6b63\u5e38\u3002\u6362\u53e5\u8bdd\u8bf4\uff0c\u603b\u4f53\u5370\u8c61\u662f\u80f8\u90e8\u6b63\u5e38\u3002\u4f60\u5bf9\u8fd9\u4e2aX\u5c04\u7ebf\u7ed3\u679c\u6709\u4ec0\u4e48\u95ee\u9898\u6216\u62c5\u5fe7\u5417\uff1f" },
您好,解决了吗
这个我估计是导出这个json文件的时候强制转换成ASCII字符了,json.dump的时候设置ensure_ascii=False或许可以,没试过你可以试试
好嘞,感谢
蹲个结果
解决啦
为什么提供的中文数据集caption字段是乱码的: { "annotations": [ { "image_id": "162_1", "caption": "\u6839\u636eX\u5c04\u7ebf\u56fe\u50cf\uff0c\u5fc3\u810f\u5927\u5c0f\u6b63\u5e38\uff0c\u80ba\u90e8\u770b\u8d77\u6765\u5f88\u6e05\u6670\u3002\u5df2\u7ecf\u6392\u9664\u4e86\u80ba\u708e\u3001\u79ef\u6db2\u3001\u6c34\u80bf\u3001\u6c14\u80f8\u3001\u817a\u75c5\u3001\u7ed3\u8282\u6216\u80bf\u5757\u7684\u5b58\u5728\u3002\u8be5\u53d1\u73b0\u8868\u660e\u4e00\u5207\u6b63\u5e38\u3002\u6362\u53e5\u8bdd\u8bf4\uff0c\u603b\u4f53\u5370\u8c61\u662f\u80f8\u90e8\u6b63\u5e38\u3002\u4f60\u5bf9\u8fd9\u4e2aX\u5c04\u7ebf\u7ed3\u679c\u6709\u4ec0\u4e48\u95ee\u9898\u6216\u62c5\u5fe7\u5417\uff1f" }, { "image_id": "162_2", "caption": "\u6839\u636eX\u5c04\u7ebf\u56fe\u50cf\uff0c\u5fc3\u810f\u5927\u5c0f\u6b63\u5e38\uff0c\u80ba\u90e8\u770b\u8d77\u6765\u5f88\u6e05\u6670\u3002\u5df2\u7ecf\u6392\u9664\u4e86\u80ba\u708e\u3001\u79ef\u6db2\u3001\u6c34\u80bf\u3001\u6c14\u80f8\u3001\u817a\u75c5\u3001\u7ed3\u8282\u6216\u80bf\u5757\u7684\u5b58\u5728\u3002\u8be5\u53d1\u73b0\u8868\u660e\u4e00\u5207\u6b63\u5e38\u3002\u6362\u53e5\u8bdd\u8bf4\uff0c\u603b\u4f53\u5370\u8c61\u662f\u80f8\u90e8\u6b63\u5e38\u3002\u4f60\u5bf9\u8fd9\u4e2aX\u5c04\u7ebf\u7ed3\u679c\u6709\u4ec0\u4e48\u95ee\u9898\u6216\u62c5\u5fe7\u5417\uff1f" },