HelenGuohx / logbert

log anomaly detection via BERT
MIT License
240 stars 102 forks source link

关于log key中的<*>如何参与Bert的MLM训练 #28

Open zora-triumph opened 2 years ago

zora-triumph commented 2 years ago

您好,logbert这篇论文让我获益匪浅。与LAnoBERT进行了一些对比,关于log key中的<>参与预训练任务我有以下疑惑: 1)在数据预处理阶段,train数据只包含日志Sequence中的log key ID(对应代码中的EventID),请问bert预训练过程中如何从vocab中关联token呢? 2)您论文中的input应该是log key,请问log key中的<>是否参与训练呢?若参与训练,请问随机mask(如果mask到<*>)之后,如何做loss呢?若不参与训练,请问在mask阶段应该如何处理呢? 期待您的答疑解惑,如若上述理解有偏差,请您见谅。

LINBEIXL commented 8 months ago

我运行代码之后,看了vocab里的内容,全是EventId,相当于他随机mask的时候,也只是掩盖了一条日志模板。论文中的MLM相当于是把多条正常日志记录中的某几条掩盖掉,去预测掩盖的这几条日志,以此来学习正常日志记录之间的潜在关系。所以input是EventId,而不是token。换句话说,模型学习的粒度只到了日志这一级,没有深入到日志键这一级。

LINBEIXL commented 8 months ago

we first extract log keys (string templates) from log messages via a log parser 原论文如上,论文中的日志键不是一般意义下的日志键,而是实际意义下的日志模板。 @HelenGuohx 如若上述理解有偏差,请您纠正。