thuiar / Self-MM

Codes for paper "Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis"
MIT License
176 stars 35 forks source link

TextPre.py #6

Closed cianzqa closed 3 years ago

cianzqa commented 3 years ago

您好,我在运行TextPre.py文件时遇到了KeyError: b'03bSnISJMiM_11'的错误,r_text.append(text_data[cur_id[0]])无法识别Raw/Transcript/Segmented下的文件,请问我应该怎么操作,谢谢您!

iyuge2 commented 3 years ago

这个问题建议你debug一下,可能需要微调一下代码~

cianzqa commented 3 years ago

这个问题建议你debug一下,可能需要微调一下代码〜

这个问题建议你debug一下,可能需要微调一下代码〜

您好大佬,我又遇见了新的问题,该文件42行tokens_a, inversions_a = tokenizer.tokenize(raw_text,invertable=True)中invertable=True显示为无法识别的参数,请问inversions_a是做何用,非常感谢!

iyuge2 commented 3 years ago

你好,这个可能是依赖库版本的问题。

代码中,inversions_a的作用是为了使得音视频特征与文本词特征保持对齐。考虑对齐场景时,因为bert在进行文本分词过程中,可能会将一个word切分成几个词,这种情况下相当于一个word重复出现几次,那么音视频特征也需要类似重复。inversions_a就是用于指代当前位置是原来的第几个词,所以此变量仅在对齐的场景下发挥作用。

cianzqa commented 3 years ago

你好,这个可能是依赖库版本的问题。

代码中,inversions_a的作用是为了使得音视频特征与文本词特征保持对齐。考虑对齐场景时,因为bert在进行文本分词过程中,可能会将一个word切分成几个词,这种情况下相当于一个word重复出现几次,那么音视频特征也需要类似重复。inversions_a就是用于指代当前位置是原来的第几个词,所以此变量仅在对齐的场景下发挥作用。

非常感谢您的解答