AkihikoWatanabe commented 11 months ago

URL

https://arxiv.org/abs/2311.18805
Affiliations
- Qi Cao, N/A
- Takeshi Kojima, N/A
- Yutaka Matsuo, N/A
- Yusuke Iwasawa, N/A
  Abstract
- While Large Language Models (LLMs) have achieved remarkable performance inmany tasks, much about their inner workings remains unclear. In this study, wepresent novel experimental insights into the resilience of LLMs, particularlyGPT-4, when subjected to extensive character-level permutations. To investigatethis, we first propose the Scrambled Bench, a suite designed to measure thecapacity of LLMs to handle scrambled input, in terms of both recoveringscrambled sentences and answering questions given scrambled context. Theexperimental results indicate that most powerful LLMs demonstrate thecapability akin to typoglycemia, a phenomenon where humans can understand themeaning of words even when the letters within those words are scrambled, aslong as the first and last letters remain in place. More surprisingly, we foundthat only GPT-4 nearly flawlessly processes inputs with unnatural errors, evenunder the extreme condition, a task that poses significant challenges for otherLLMs and often even for humans. Specifically, GPT-4 can almost perfectlyreconstruct the original sentences from scrambled ones, decreasing the editdistance by 95%, even when all letters within each word are entirely scrambled.It is counter-intuitive that LLMs can exhibit such resilience despite severedisruption to input tokenization caused by scrambled text.
  Translation (by gpt-3.5-turbo)
大規模言語モデル（LLMs）は多くのタスクで顕著なパフォーマンスを達成していますが、その内部動作についてはまだ不明な点が多いです。本研究では、特にGPT-4に焦点を当て、LLMsの耐久性に関する新しい実験的な洞察を提供します。具体的には、文字レベルの順列に対してLLMsの耐性を調査するために、まずScrambled Benchを提案します。Scrambled Benchは、スクランブルされた入力を回復する能力と、スクランブルされた文脈が与えられた場合に質問に答える能力を測定するために設計されたスイートです。実験結果は、最も強力なLLMsが、typoglycemiaという現象に似た能力を示すことを示しています。typoglycemiaとは、単語内の文字がスクランブルされていても、最初と最後の文字がそのままであれば、人間が単語の意味を理解できる現象です。さらに驚くべきことに、GPT-4だけが非常に自然でないエラーを含む入力をほぼ完璧に処理できることがわかりました。これは、他のLLMsや人間にとっても大きな課題となるタスクであり、極端な条件下でも成果を上げることができます。具体的には、GPT-4は、各単語内のすべての文字が完全にスクランブルされている場合でも、元の文をほぼ完璧に再構築することができ、編集距離を95％減らすことができます。スクランブルされたテキストによって入力のトークン化が深刻に乱れるにも関わらず、LLMsがこのような耐性を示すことは直感に反するものです。
Summary (by gpt-3.5-turbo)
本研究では、大規模言語モデル（LLMs）の内部動作についての新しい洞察を提供します。特に、GPT-4を調査し、LLMsの耐久性に関する実験結果を示します。実験では、文字レベルの順列に対するLLMsの耐性を調べるために、Scrambled Benchというスイートを使用しました。結果は、GPT-4がtypoglycemiaという現象に似た能力を持ち、非常に自然でないエラーを含む入力をほぼ完璧に処理できることを示しています。これは、LLMsの耐性が直感に反するものであり、他のLLMsや人間にとっても困難なタスクであることを示しています。

AkihikoWatanabe commented 11 months ago

OpenAIのモデルがブラックボックスである限り、コンタミネーションがあるのでは？という疑念は持ってしまう。

（部分的にしか読めていないが…） RealtimeQAと呼ばれるweeklyで直近のニュースに対するQuestionを発表することで構築されるデータセットのうち、2023.03.17--2023.08.04のデータを収集し、ScrambledSentenaeRecovery（ScrRec）とScrambleQuestionAnswering（ScrQA）の評価データを生成している。

完全にランダムに単語の文字をscramble（RS）すると、FalconとLlama2では元のテキストをゼロショットでは再構築できないことが分かる。FewShotではFalconであれば少し解けるようになる。一方、OpenAIのモデル、特にGPT4, GPT3.5-turboではゼロショットでもにり再構築ができている。

ScrQAについては、ランダムにscrambleした場合でもMultipleChoiceQuestionなので（RPGと呼ばれるAccの相対的なgainを評価するメトリックを提案している）正解はできている。

最初の文字だけを残す場合（KF）最初と最後の文字を残す場合（KFL」については、残す文字が増えるほどどちらのタスクも性能が上がり、最初の文字だけがあればOpenSourceLLMでも（ゼロショットでも）かなり元のテキストの再構築ができるようになっている。また、QAも性能が向上している。

AkihikoWatanabe commented 11 months ago

完全にランダムに文字を入れ替えたら完全に無理ゲーなのでは、、、、と思ってしまうのだが、FalconでFewshotの場合は一部解けているようだ…。果たしてどういうことなのか…（大文字小文字が保持されたままなのがヒントになっている…？）Appendixに考察がありそうだがまだ読めていない。

（追記）文全体でランダムに文字を入れ替えているのかと勘違いしていたが、実際には”ある単語の中だけでランダムに入れ替え”だった。これなら原理上はいけると思われる。

AkihikoWatanabe / paper_notes

Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text, Qi Cao+, N/A, arXiv'23 #1177

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)