arXiv-2023/10-Table-GPT: Table-tuned GPT for Diverse Table Tasks

Summary:

📄 概述
- GPT-3和ChatGPT等语言模型展示出色的能力来遵循多样的人类指令并执行各种任务。
- 今天的语言模型在表相关任务中仍然不够优秀，可能因为它们主要在一维自然语言文本上进行预训练，而关系表是二维对象。
- 提出一种新的“表调整”范例，继续训练/微调GPT-3.5和ChatGPT等语言模型，使用合成自真实表格的多样化表格任务作为训练数据，以增强语言模型理解表格和执行表格任务的能力。

Resource:

pdf
[code](
[paper-with-code](
🧪 方法
- 开展广泛实验，表明“表调整”是一种有前途的新方向。
- 表调整产生的Table-GPT模型具有强大的表格模型性能，在广泛的已知和未知表格任务上明显优于175B GPT-3.5和ChatGPT。
- 这些模型具有通用性，能够对新的表格任务做出良好响应，类似于GPT-3.5和ChatGPT对新的自然语言处理任务的响应。
🔍 今日语言模型的局限性
- 今天的语言模型在“可靠地阅读表格”方面尚存在问题。
- 自然语言文本和关系表有很大差异，导致现有的语言模型在“读取”二维表格时表现不佳，尤其是在垂直方向。
- 通过测试表明，现今的大型语言模型不能可靠地“读取”二维表格。
📊 任务划分和基准
- 介绍两种简单的测试以评估语言模型对表格的基本阅读和理解能力。
- 列出示例表格任务，强调语言模型在垂直方向理解表格的重要性。
💡 提案
- 指出在自然语言处理中改变语言模型行为的成功尝试，引入“指令调整”技术。
- 提出类似于“指令调整”的“表调整”方法，以提高语言模型理解表格和执行表格任务的能力。
⚙️ 先决条件
- 回顾语言模型的两种流行类型：编码器式和解码器式。
- 解释编码器式语言模型在特定任务上的微调限制，以及解码器式语言模型的通用性和适用性。- 📊 编码器风格的语言模型用于表格任务
🧪 长期而富有成果的研究（例如 TURL [16]，TaBERT [64]，Ditto [32] 和 Doduo [48]）
📚 表格模型基于 BERT 类模型，在各种表格任务上表现良好
🎯 表格模型应该“泛化”到新数据集和新任务
💡 文本到表格：通用表格模型应该像 ChatGPT 一样通用，能够按照指示执行新的看不见的表格任务
🔄 解码器风格的语言模型用于表格任务
🛠 与优化提示不同，我们提出的“表格调整”探索不同方向
💼 表格调整目的是在一次训练后，改进模型在一系列表格任务上的性能
⚖️ 表格调整是提示工程的补充，可以同时受益于仔细设计的指示和示例
⚙️ 对比指示调整，我们的表格调整改进了模型理解表格和执行表格任务的能力
📈 目标是在 Table-GPT 中实现“最佳效果”，具有泛化能力和良好的表格任务性能
❓ 语言模型能“读取”表格吗？
📝 一维（文本）与二维（表格）：语言模型主要基于自然语言文本和编程代码进行预训练，而表格是二维的，读取方式不同
🧩 让语言模型理解表格是具有挑战性的，特别是在列方向上
🧭 顺序敏感（文本）与排列不变（表格）：自然语言文本常常是顺序敏感的，而表格则常常是排列不变的
🌐 表格不同于文本，可能使语言模型在表格应用中表现不理想
🛠 为 Table-GPT 提出了表格调整方法
💡 总体方法：综合然后增强
🗂 提出了“表格任务”的定义，包括指令、表格和完成的多样组合
📄 汇总了 18 个与表格相关的任务，用于调整 GPT 为 Table-GPT- 💡 先前的研究显示，“（指令，完成）”配对的质量至关重要[40, 50]，以至于公司聘请大量人工标记员手动标记此类数据（例如指令：“写一个熊去海滩的寓言故事”，完成：“实际带有熊的故事”）[40]，以确保训练数据的质量和多样性。
💡 我们希望在表格领域复制指令调整的成功，但理想情况下不需要昂贵的人工标注。重用现有基准数据：多样性不足。
💡 一种生成表格任务的方法是使用数据库文献中发布的现有基准数据（自然语言处理文献中也进行了类似尝试[59]）。然而，我们发现现有基准数据存在以下问题：（1）任务多样性有限：因为文献往往侧重于少数几个难度较大的表格任务（例如实体匹配和数据转换）；（2）数据多样性有限：因为基准数据通常由研究人员手动标记，仅适用于少数特定数据集，这对于基准评估目的足够，但当我们想将它们用作语言模型的“训练数据”时则不足够。我们尝试仅使用现有基准数据进行表格调整会导致过拟合，因为缺乏任务和数据的多样性。
💡 Table-GPT: 用于多样化表格任务的表格调整GPT。会议’17，2017年7月，华盛顿特区，美国。算法1：为表格调整合成表格任务。输入：多样化实际表格语料库C，表格任务类型集合S。输出：多样化合成的表格任务A = {（Ins，T，C）}。
💡 我们的方法：先合成再增强。因此，我们提出了一种“先合成再增强”的方法，使用实际表格创建多样化的表格任务，可以用作调整语言模型的训练数据。我们在算法1中展示了我们的合成-增强方法的主要步骤。首先，我们从大型实际表格语料库C中对表格T和表格任务类型S进行采样。从（T，S）对中，我们合成表格任务的实例t =（Ins，T，C）（第3行），这是我们将在第4.2节中详细讨论的任务合成步骤。然后，我们从创建的多样化表格任务实例（Ins，T，C）中进行“增强”任务，包括指令/表格/完成级别（第6-8行），这是我们将在第4.3节中描述的步骤。生成的表格任务A = {（Ins'，T'，C'）}成为我们用于调整语言模型的训练数据。
💡 4.2 合成多样化的表格任务。我们现在描述如何合成多样化的表格任务实例t =（Ins，T，C）（算法1的第3行），以便锻炼语言模型理解二维表结构的能力。我们提出了两种互补的方法：（1）为任务多样性合成新的表格任务，（2）为数据多样性合成现有表格任务的新测试用例。我们将分别讨论每个方法。- ⚙️ 从 𝑡 ⊂ 𝑇 中生成多样化的表任务
⚙️ 通过𝑃(𝐶𝑖𝑛) = 𝐶𝑜𝑢𝑡确保在𝑇的所有行中保持
⚙️ 从𝑇中随机移除一个值𝑣 ∈ 𝐶𝑜𝑢𝑡，生成测试表𝑇−𝑣
⚙️ 综合任务 𝑅2𝑅(𝑇) 以推断变换并填补缺失的𝑣以生成𝑇
⚙️ 通过模式匹配(T-7)生成新的模式匹配测试用例
⚙️ 从𝑇采样𝑘行以生成𝑇1，采样𝑘+1到2𝑘行以生成𝑇2
⚙️ 对𝑇2中的列标题进行“释义”并重排列列以生成测试用例
⚙️ 对𝑇1和𝑇2的列进行洗牌，生成模式匹配测试用例
⚙️ 为数据插补生成测试表 𝑇−𝑣 并预测缺失的𝑣
⚙️ 生成含有可能的印刷错误的修改后𝑇的错误检测任务
⚙️ 从𝑇中提取列表数据而不含明确列分隔符的提取任务
⚙️ 在指令级别进行增强，使用生成模型对指令进行重述
⚙️ 在表级别进行增强，通过列/行重排列和采样增加表的多样性
⚙️ 在完成级别进行增强，为复杂表任务生成推理步骤
⚙️ 使用原始任务的完成和地面实况生成推理步骤
⚙️ 进行额外的增强，包括模板级增强和任务级增强
⚙️ 使用表任务进行模型调优，创建更好的“表基础模型”- 📊 评估了表格调整的效益
🏢 通过对比不同模型进行测试任务和数据
🔄 对4个未见过的任务进行了测试（T-1 到 T-4）
🌐 使用不同来源的数据进行了测试，确保分离性
📚 对5个已知任务进行了评估
💡 合成表格任务进行了测试
🧪 使用现有基准数据进行了评估
📈 比较了 GPT-3.5 和 Table-GPT-3.5 的整体质量改善
📈 比较了 ChatGPT 和 Table-ChatGPT 的整体质量改善
🏗️ 展示了表格调整模型在各种表格任务上的强大性能
💡 研究了在特定任务优化方面的效益- 📊 比较表现
📊 平均性能
📊 前5
📋 提示模板
🧪 GPT-3.5
🧪 Table-GPT-3.5
🔢 图表10：提示工程的质量比较，基于Efthymiou数据集的5个最佳提示模板
📈 敏感性分析
📈 任务数量变化对平均性能的影响
📈 训练数据规模的变化对平均性能的影响
📈 基模型规模的变化对平均性能的影响
📈 提示模板变化对平均性能的影响
📈 表格格式变化对性能的影响
📊 表格5：使用不同表格格式时Table-GPT-3.5的性能
📊 表格6：表格调整的割除研究
📈 数据大小对平均性能的影响
📈 模型大小对平均性能的影响
📈 提示模板对平均性能的影响
🚫 无完成级别增强（无思维链）
🛑 没有任务级别增强（未合成任务）
🛑 没有表级别增强（无列排列）
🛑 没有指令级别增强（无提示变体）
🛑 没有链式思维
✍ 结论与未来工作
📚 参考文献- 📊 数据转换脚本的可视化规范 [28]
🧪 大型语言模型是翻译质量的最先进评估器 [29]
🗃️ 使用 ChatGPT 进行列类型注释 [30]
💡 评估数据集发现的匹配技术 [31]
🔄 使用指令反向翻译实现自对齐 [32]
🧩 使用预训练语言模型进行深度实体匹配 [33]
🔍 自动构建 BI 模型的自动 BI [34]
🤝 使用 ChatGPT 进行实体匹配 [43]
🔍 为问题回答搜索表格单元 [49]
🖋️ 训练语言模型遵循指令 [50]
📊 支持数据集成中的匹配任务的统一多任务模型 [51]
🔍 通过检测行和类型模式整理混乱的 CSV 文件 [52]
🏋️‍♂️ 在文本和表格数据的联合理解上进行预训练 [64]
📝 复杂跨领域语义解析和文本到 SQL 任务的大规模人工标注数据集 [65]
🔄 使用预训练深度模型和迁移学习进行端到端模糊实体匹配 [66]
📈 更少即更多的对齐 [67]{"answer": "China"}Input:
Column Headers: AcademicJournal Airport Book Building City Film Mammal Newspaper Plant PoliticalParty Scientist SportsTeam

Table:

|Name| 
|---| 
|Wells Fargo Tower| 
|Regions-Harbert Plaza| 
|AT&T City Center| 
|Regions Center| 
|City Federal Building| 
|Alabama Power Headquarters Building| 
|Thomas Jefferson Tower| 
|John Hand Building| 
|Daniel Building|

Output:


{"chosen_column_headers": ["Building"]}
```Completion:  {"table": "|ProductID|Month|TargetSale|\n|---|---|---|\n|1|6|50|\n|1|7|60|\n|1|8|70|\n|2|9|80|\n"}
- [📊] 数据目标销售
  - 产品ID: 1, 月份: 6, 销售目标: 50
  - 产品ID: 1, 月份: 7, 销售目标: 60
  - 产品ID: 1, 月份: 8, 销售目标: 70
  - 产品ID: 2, 月份: 6, 销售目标: 40
  - 产品ID: 2, 月份: 7, 销售目标: 50
  - 产品ID: 2, 月份: 8, 销售目标: 60
  - 产品ID: 3, 月份: 6, 销售目标: 30
  - 产品ID: 3, 月份: 7, 销售目标: 40
  - 产品ID: 3, 月份: 8, 销售目标: 50
  - 产品ID: 4, 月份: 6, 销售目标: 30

- [🏈] 2015年FF得分排名
  - 排名1: Cam Newton, 得分: 389.1, 比赛场次: 16, 平均得分: 24.3
  - 排名2: Tom Brady, 得分: 343.7, 比赛场次: 16, 平均得分: 21.5
  - 排名3: Russell Wilson, 得分: 336.4, 比赛场次: 16, 平均得分: 21.0
  - 排名4: Blake Bortles, 得分: 316.1, 比赛场次: 16, 平均得分: 19.8
  - 排名5: Carson Palmer, 得分: 309.2, 比赛场次: 16, 平均得分: 19.3
  - 排名7: Aaron Rodgers, 得分: 301.3, 比赛场次: 16, 平均得分: 18.8
  - 排名8: Kirk Cousins, 得分: 293.5, 比赛场次: 16, 平均得分: 18.3
  - 排名9: Matthew Stafford, 得分: 289.7, 比赛场次: 16, 平均得分: 18.1
  - 排名10: Eli Manning, 得分: 287.6, 比赛场次: 16, 平均得分: 18.0

- [🔍] 实体匹配
  - 第一化妆品与第二化妆品不同实体，价格和颜色不同。

- [🛒] 实体匹配 (Few-Shot)
  - 化妆品I与化妆品II为不同实体，具有不同的价格、颜色和描述。

- [✍] 数据填充 (Zero-Shot)
  - "A.D.I.D.A.S."的选项内容为 "False"。

- [✍] 数据填充 (Few-Shot)
  - 选项内容为 "False"。

- [📈] 行/列排序 (Zero-Shot)
  - 根据 "Gauge" 列以字母升序排序。

- [📈] 行/列排序 (Few-Shot)
  - 根据列标题以字母降序排序。
Summarized by https://chrome.google.com/webstore/detail/cbgecfllfhmmnknmamkejadjmnmpfjmp

BrambleXu / knowledge-graph-learning

arXiv-2023/10-Table-GPT: Table-tuned GPT for Diverse Table Tasks #368