TextPre.py - Githubissues

thuiar / Self-MM

Codes for paper "Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis"

MIT License

176 stars 35 forks source link

TextPre.py #6

Closed cianzqa closed 3 years ago

cianzqa commented 3 years ago

您好，我在运行TextPre.py文件时遇到了KeyError: b'03bSnISJMiM_11'的错误，r_text.append(text_data[cur_id[0]])无法识别Raw/Transcript/Segmented下的文件，请问我应该怎么操作，谢谢您！

iyuge2 commented 3 years ago

这个问题建议你debug一下，可能需要微调一下代码～

cianzqa commented 3 years ago

这个问题建议你debug一下，可能需要微调一下代码〜

这个问题建议你debug一下，可能需要微调一下代码〜

您好大佬，我又遇见了新的问题，该文件42行tokens_a, inversions_a = tokenizer.tokenize(raw_text,invertable=True)中invertable=True显示为无法识别的参数，请问inversions_a是做何用，非常感谢！

iyuge2 commented 3 years ago

你好，这个可能是依赖库版本的问题。

代码中，inversions_a的作用是为了使得音视频特征与文本词特征保持对齐。考虑对齐场景时，因为bert在进行文本分词过程中，可能会将一个word切分成几个词，这种情况下相当于一个word重复出现几次，那么音视频特征也需要类似重复。inversions_a就是用于指代当前位置是原来的第几个词，所以此变量仅在对齐的场景下发挥作用。

cianzqa commented 3 years ago

你好，这个可能是依赖库版本的问题。

代码中，inversions_a的作用是为了使得音视频特征与文本词特征保持对齐。考虑对齐场景时，因为bert在进行文本分词过程中，可能会将一个word切分成几个词，这种情况下相当于一个word重复出现几次，那么音视频特征也需要类似重复。inversions_a就是用于指代当前位置是原来的第几个词，所以此变量仅在对齐的场景下发挥作用。

非常感谢您的解答