Closed MiloGame closed 10 months ago
我下载您的CSTNET-TLS1.3数据集,里面包含的是datagram和label的npy文件,这部分直接合并可以得到tsv文件内容吗?
我下载您的CSTNET-TLS1.3数据集,里面包含的是datagram和label的npy文件,这部分直接合并可以得到tsv文件内容吗?
可以的
作者大大您好,我还有一个小问题,就是直接下载您处理好的cstnet-tls1.3用于微调,我发现里面好像没有text_b,只有text_a,如下图所示。 而且您微调的命令 python3 fine-tuning/run_classifier.py --pretrained_model_path models/pre-trained_model.bin --vocab_path models/encryptd_vocab.txt --train_path datasets/cstnet-tls1.3/packet/train_dataset.tsv --dev_path datasets/cstnet-tls1.3/packet/valid_dataset.tsv --test_path datasets/cstnet-tls1.3/packet/test_dataset.tsv --epochs_num 10 --batch_size 32 --embedding word_pos_seg --encoder transformer --mask fully_visible --seq_length 128 --learning_rate 2e-5 这行命令中调用的脚本里读入微调数据的函数部分,如下图,里面好像并没有执行句子对的构成,也就和您论文里说进行第二种句子对的训练不吻合,读入的数据只有text_a的部分 此外vocab_path这个参数好像没有用到欸,没有在这个脚本里检索到 还请大佬能答疑解惑,祝您生活愉快,国庆快乐
你提及的部分是预训练的数据处理,在微调阶段并不需要特意构建text_a和text_b,而是考虑应用任务的需要去处理。
我想知道这样合并的tsv是流级别的还是包级别的
作者大大您好,我还有一个小问题,就是直接下载您处理好的cstnet-tls1.3用于微调,我发现里面好像没有text_b,只有text_a,如下图所示。 而且您微调的命令 python3 fine-tuning/run_classifier.py --pretrained_model_path models/pre-trained_model.bin \ --vocab_path models/encryptd_vocab.txt \ --train_path datasets/cstnet-tls1.3/packet/train_dataset.tsv \ --dev_path datasets/cstnet-tls1.3/packet/valid_dataset.tsv \ --test_path datasets/cstnet-tls1.3/packet/test_dataset.tsv \ --epochs_num 10 --batch_size 32 --embedding word_pos_seg \ --encoder transformer --mask fully_visible \ --seq_length 128 --learning_rate 2e-5 这行命令中调用的脚本里读入微调数据的函数部分,如下图,里面好像并没有执行句子对的构成,也就和您论文里说进行第二种句子对的训练不吻合,读入的数据只有text_a的部分
此外vocab_path这个参数好像没有用到欸,没有在这个脚本里检索到
还请大佬能答疑解惑,祝您生活愉快,国庆快乐