关于log key中的<*>如何参与Bert的MLM训练

zora-triumph commented 2 years ago

您好，logbert这篇论文让我获益匪浅。与LAnoBERT进行了一些对比，关于log key中的<>参与预训练任务我有以下疑惑： 1）在数据预处理阶段，train数据只包含日志Sequence中的log key ID（对应代码中的EventID），请问bert预训练过程中如何从vocab中关联token呢？ 2）您论文中的input应该是log key，请问log key中的<>是否参与训练呢？若参与训练，请问随机mask（如果mask到<*>）之后，如何做loss呢？若不参与训练，请问在mask阶段应该如何处理呢？期待您的答疑解惑，如若上述理解有偏差，请您见谅。

LINBEIXL commented 8 months ago

我运行代码之后，看了vocab里的内容，全是EventId，相当于他随机mask的时候，也只是掩盖了一条日志模板。论文中的MLM相当于是把多条正常日志记录中的某几条掩盖掉，去预测掩盖的这几条日志，以此来学习正常日志记录之间的潜在关系。所以input是EventId，而不是token。换句话说，模型学习的粒度只到了日志这一级，没有深入到日志键这一级。

LINBEIXL commented 8 months ago

we first extract log keys (string templates) from log messages via a log parser 原论文如上，论文中的日志键不是一般意义下的日志键，而是实际意义下的日志模板。 @HelenGuohx 如若上述理解有偏差，请您纠正。

HelenGuohx / logbert

关于log key中的<*>如何参与Bert的MLM训练 #28