Open BrambleXu opened 9 months ago
Summary:
Resource:
pdf
[code](
[paper-with-code](
🧪 方法
🔍 今日语言模型的局限性
📊 任务划分和基准
💡 提案
⚙️ 先决条件
🧪 长期而富有成果的研究(例如 TURL [16],TaBERT [64],Ditto [32] 和 Doduo [48])
📚 表格模型基于 BERT 类模型,在各种表格任务上表现良好
🎯 表格模型应该“泛化”到新数据集和新任务
💡 文本到表格:通用表格模型应该像 ChatGPT 一样通用,能够按照指示执行新的看不见的表格任务
🔄 解码器风格的语言模型用于表格任务
🛠 与优化提示不同,我们提出的“表格调整”探索不同方向
💼 表格调整目的是在一次训练后,改进模型在一系列表格任务上的性能
⚖️ 表格调整是提示工程的补充,可以同时受益于仔细设计的指示和示例
⚙️ 对比指示调整,我们的表格调整改进了模型理解表格和执行表格任务的能力
📈 目标是在 Table-GPT 中实现“最佳效果”,具有泛化能力和良好的表格任务性能
❓ 语言模型能“读取”表格吗?
📝 一维(文本)与二维(表格):语言模型主要基于自然语言文本和编程代码进行预训练,而表格是二维的,读取方式不同
🧩 让语言模型理解表格是具有挑战性的,特别是在列方向上
🧭 顺序敏感(文本)与排列不变(表格):自然语言文本常常是顺序敏感的,而表格则常常是排列不变的
🌐 表格不同于文本,可能使语言模型在表格应用中表现不理想
🛠 为 Table-GPT 提出了表格调整方法
💡 总体方法:综合然后增强
🗂 提出了“表格任务”的定义,包括指令、表格和完成的多样组合
📄 汇总了 18 个与表格相关的任务,用于调整 GPT 为 Table-GPT- 💡 先前的研究显示,“(指令,完成)”配对的质量至关重要[40, 50],以至于公司聘请大量人工标记员手动标记此类数据(例如指令:“写一个熊去海滩的寓言故事”,完成:“实际带有熊的故事”)[40],以确保训练数据的质量和多样性。
💡 我们希望在表格领域复制指令调整的成功,但理想情况下不需要昂贵的人工标注。重用现有基准数据:多样性不足。
💡 一种生成表格任务的方法是使用数据库文献中发布的现有基准数据(自然语言处理文献中也进行了类似尝试[59])。然而,我们发现现有基准数据存在以下问题:(1)任务多样性有限:因为文献往往侧重于少数几个难度较大的表格任务(例如实体匹配和数据转换);(2)数据多样性有限:因为基准数据通常由研究人员手动标记,仅适用于少数特定数据集,这对于基准评估目的足够,但当我们想将它们用作语言模型的“训练数据”时则不足够。我们尝试仅使用现有基准数据进行表格调整会导致过拟合,因为缺乏任务和数据的多样性。
💡 Table-GPT: 用于多样化表格任务的表格调整GPT。会议’17,2017年7月,华盛顿特区,美国。算法1:为表格调整合成表格任务。输入:多样化实际表格语料库C,表格任务类型集合S。输出:多样化合成的表格任务A = {(Ins,T,C)}。
💡 我们的方法:先合成再增强。因此,我们提出了一种“先合成再增强”的方法,使用实际表格创建多样化的表格任务,可以用作调整语言模型的训练数据。我们在算法1中展示了我们的合成-增强方法的主要步骤。首先,我们从大型实际表格语料库C中对表格T和表格任务类型S进行采样。从(T,S)对中,我们合成表格任务的实例t =(Ins,T,C)(第3行),这是我们将在第4.2节中详细讨论的任务合成步骤。然后,我们从创建的多样化表格任务实例(Ins,T,C)中进行“增强”任务,包括指令/表格/完成级别(第6-8行),这是我们将在第4.3节中描述的步骤。生成的表格任务A = {(Ins',T',C')}成为我们用于调整语言模型的训练数据。
💡 4.2 合成多样化的表格任务。我们现在描述如何合成多样化的表格任务实例t =(Ins,T,C)(算法1的第3行),以便锻炼语言模型理解二维表结构的能力。我们提出了两种互补的方法:(1)为任务多样性合成新的表格任务,(2)为数据多样性合成现有表格任务的新测试用例。我们将分别讨论每个方法。- ⚙️ 从 𝑡 ⊂ 𝑇 中生成多样化的表任务
⚙️ 通过𝑃(𝐶𝑖𝑛) = 𝐶𝑜𝑢𝑡确保在𝑇的所有行中保持
⚙️ 从𝑇中随机移除一个值𝑣 ∈ 𝐶𝑜𝑢𝑡,生成测试表𝑇−𝑣
⚙️ 综合任务 𝑅2𝑅(𝑇) 以推断变换并填补缺失的𝑣以生成𝑇
⚙️ 通过模式匹配(T-7)生成新的模式匹配测试用例
⚙️ 从𝑇采样𝑘行以生成𝑇1,采样𝑘+1到2𝑘行以生成𝑇2
⚙️ 对𝑇2中的列标题进行“释义”并重排列列以生成测试用例
⚙️ 对𝑇1和𝑇2的列进行洗牌,生成模式匹配测试用例
⚙️ 为数据插补生成测试表 𝑇−𝑣 并预测缺失的𝑣
⚙️ 生成含有可能的印刷错误的修改后𝑇的错误检测任务
⚙️ 从𝑇中提取列表数据而不含明确列分隔符的提取任务
⚙️ 在指令级别进行增强,使用生成模型对指令进行重述
⚙️ 在表级别进行增强,通过列/行重排列和采样增加表的多样性
⚙️ 在完成级别进行增强,为复杂表任务生成推理步骤
⚙️ 使用原始任务的完成和地面实况生成推理步骤
⚙️ 进行额外的增强,包括模板级增强和任务级增强
⚙️ 使用表任务进行模型调优,创建更好的“表基础模型”- 📊 评估了表格调整的效益
🏢 通过对比不同模型进行测试任务和数据
🔄 对4个未见过的任务进行了测试(T-1 到 T-4)
🌐 使用不同来源的数据进行了测试,确保分离性
📚 对5个已知任务进行了评估
💡 合成表格任务进行了测试
🧪 使用现有基准数据进行了评估
📈 比较了 GPT-3.5 和 Table-GPT-3.5 的整体质量改善
📈 比较了 ChatGPT 和 Table-ChatGPT 的整体质量改善
🏗️ 展示了表格调整模型在各种表格任务上的强大性能
💡 研究了在特定任务优化方面的效益- 📊 比较表现
📊 平均性能
📊 前5
📋 提示模板
🧪 GPT-3.5
🧪 Table-GPT-3.5
🔢 图表10:提示工程的质量比较,基于Efthymiou数据集的5个最佳提示模板
📈 敏感性分析
📈 任务数量变化对平均性能的影响
📈 训练数据规模的变化对平均性能的影响
📈 基模型规模的变化对平均性能的影响
📈 提示模板变化对平均性能的影响
📈 表格格式变化对性能的影响
📊 表格5:使用不同表格格式时Table-GPT-3.5的性能
📊 表格6:表格调整的割除研究
📈 数据大小对平均性能的影响
📈 模型大小对平均性能的影响
📈 提示模板对平均性能的影响
🚫 无完成级别增强(无思维链)
🛑 没有任务级别增强(未合成任务)
🛑 没有表级别增强(无列排列)
🛑 没有指令级别增强(无提示变体)
🛑 没有链式思维
✍ 结论与未来工作
📚 参考文献- 📊 数据转换脚本的可视化规范 [28]
🧪 大型语言模型是翻译质量的最先进评估器 [29]
🗃️ 使用 ChatGPT 进行列类型注释 [30]
💡 评估数据集发现的匹配技术 [31]
🔄 使用指令反向翻译实现自对齐 [32]
🧩 使用预训练语言模型进行深度实体匹配 [33]
🔍 自动构建 BI 模型的自动 BI [34]
🤝 使用 ChatGPT 进行实体匹配 [43]
🔍 为问题回答搜索表格单元 [49]
🖋️ 训练语言模型遵循指令 [50]
📊 支持数据集成中的匹配任务的统一多任务模型 [51]
🔍 通过检测行和类型模式整理混乱的 CSV 文件 [52]
🏋️♂️ 在文本和表格数据的联合理解上进行预训练 [64]
📝 复杂跨领域语义解析和文本到 SQL 任务的大规模人工标注数据集 [65]
🔄 使用预训练深度模型和迁移学习进行端到端模糊实体匹配 [66]
📈 更少即更多的对齐 [67]{"answer": "China"}Input:
Column Headers: AcademicJournal Airport Book Building City Film Mammal Newspaper Plant PoliticalParty Scientist SportsTeam
Table:
|Name| |---| |Wells Fargo Tower| |Regions-Harbert Plaza| |AT&T City Center| |Regions Center| |City Federal Building| |Alabama Power Headquarters Building| |Thomas Jefferson Tower| |John Hand Building| |Daniel Building|
Output:
{"chosen_column_headers": ["Building"]} ```Completion: {"table": "|ProductID|Month|TargetSale|\n|---|---|---|\n|1|6|50|\n|1|7|60|\n|1|8|70|\n|2|9|80|\n"} - [📊] 数据目标销售 - 产品ID: 1, 月份: 6, 销售目标: 50 - 产品ID: 1, 月份: 7, 销售目标: 60 - 产品ID: 1, 月份: 8, 销售目标: 70 - 产品ID: 2, 月份: 6, 销售目标: 40 - 产品ID: 2, 月份: 7, 销售目标: 50 - 产品ID: 2, 月份: 8, 销售目标: 60 - 产品ID: 3, 月份: 6, 销售目标: 30 - 产品ID: 3, 月份: 7, 销售目标: 40 - 产品ID: 3, 月份: 8, 销售目标: 50 - 产品ID: 4, 月份: 6, 销售目标: 30 - [🏈] 2015年FF得分排名 - 排名1: Cam Newton, 得分: 389.1, 比赛场次: 16, 平均得分: 24.3 - 排名2: Tom Brady, 得分: 343.7, 比赛场次: 16, 平均得分: 21.5 - 排名3: Russell Wilson, 得分: 336.4, 比赛场次: 16, 平均得分: 21.0 - 排名4: Blake Bortles, 得分: 316.1, 比赛场次: 16, 平均得分: 19.8 - 排名5: Carson Palmer, 得分: 309.2, 比赛场次: 16, 平均得分: 19.3 - 排名7: Aaron Rodgers, 得分: 301.3, 比赛场次: 16, 平均得分: 18.8 - 排名8: Kirk Cousins, 得分: 293.5, 比赛场次: 16, 平均得分: 18.3 - 排名9: Matthew Stafford, 得分: 289.7, 比赛场次: 16, 平均得分: 18.1 - 排名10: Eli Manning, 得分: 287.6, 比赛场次: 16, 平均得分: 18.0 - [🔍] 实体匹配 - 第一化妆品与第二化妆品不同实体,价格和颜色不同。 - [🛒] 实体匹配 (Few-Shot) - 化妆品I与化妆品II为不同实体,具有不同的价格、颜色和描述。 - [✍] 数据填充 (Zero-Shot) - "A.D.I.D.A.S."的选项内容为 "False"。 - [✍] 数据填充 (Few-Shot) - 选项内容为 "False"。 - [📈] 行/列排序 (Zero-Shot) - 根据 "Gauge" 列以字母升序排序。 - [📈] 行/列排序 (Few-Shot) - 根据列标题以字母降序排序。 Summarized by https://chrome.google.com/webstore/detail/cbgecfllfhmmnknmamkejadjmnmpfjmp
Summary:
Resource:
pdf
[code](
[paper-with-code](
🧪 方法
🔍 今日语言模型的局限性
📊 任务划分和基准
💡 提案
⚙️ 先决条件
🧪 长期而富有成果的研究(例如 TURL [16],TaBERT [64],Ditto [32] 和 Doduo [48])
📚 表格模型基于 BERT 类模型,在各种表格任务上表现良好
🎯 表格模型应该“泛化”到新数据集和新任务
💡 文本到表格:通用表格模型应该像 ChatGPT 一样通用,能够按照指示执行新的看不见的表格任务
🔄 解码器风格的语言模型用于表格任务
🛠 与优化提示不同,我们提出的“表格调整”探索不同方向
💼 表格调整目的是在一次训练后,改进模型在一系列表格任务上的性能
⚖️ 表格调整是提示工程的补充,可以同时受益于仔细设计的指示和示例
⚙️ 对比指示调整,我们的表格调整改进了模型理解表格和执行表格任务的能力
📈 目标是在 Table-GPT 中实现“最佳效果”,具有泛化能力和良好的表格任务性能
❓ 语言模型能“读取”表格吗?
📝 一维(文本)与二维(表格):语言模型主要基于自然语言文本和编程代码进行预训练,而表格是二维的,读取方式不同
🧩 让语言模型理解表格是具有挑战性的,特别是在列方向上
🧭 顺序敏感(文本)与排列不变(表格):自然语言文本常常是顺序敏感的,而表格则常常是排列不变的
🌐 表格不同于文本,可能使语言模型在表格应用中表现不理想
🛠 为 Table-GPT 提出了表格调整方法
💡 总体方法:综合然后增强
🗂 提出了“表格任务”的定义,包括指令、表格和完成的多样组合
📄 汇总了 18 个与表格相关的任务,用于调整 GPT 为 Table-GPT- 💡 先前的研究显示,“(指令,完成)”配对的质量至关重要[40, 50],以至于公司聘请大量人工标记员手动标记此类数据(例如指令:“写一个熊去海滩的寓言故事”,完成:“实际带有熊的故事”)[40],以确保训练数据的质量和多样性。
💡 我们希望在表格领域复制指令调整的成功,但理想情况下不需要昂贵的人工标注。重用现有基准数据:多样性不足。
💡 一种生成表格任务的方法是使用数据库文献中发布的现有基准数据(自然语言处理文献中也进行了类似尝试[59])。然而,我们发现现有基准数据存在以下问题:(1)任务多样性有限:因为文献往往侧重于少数几个难度较大的表格任务(例如实体匹配和数据转换);(2)数据多样性有限:因为基准数据通常由研究人员手动标记,仅适用于少数特定数据集,这对于基准评估目的足够,但当我们想将它们用作语言模型的“训练数据”时则不足够。我们尝试仅使用现有基准数据进行表格调整会导致过拟合,因为缺乏任务和数据的多样性。
💡 Table-GPT: 用于多样化表格任务的表格调整GPT。会议’17,2017年7月,华盛顿特区,美国。算法1:为表格调整合成表格任务。输入:多样化实际表格语料库C,表格任务类型集合S。输出:多样化合成的表格任务A = {(Ins,T,C)}。
💡 我们的方法:先合成再增强。因此,我们提出了一种“先合成再增强”的方法,使用实际表格创建多样化的表格任务,可以用作调整语言模型的训练数据。我们在算法1中展示了我们的合成-增强方法的主要步骤。首先,我们从大型实际表格语料库C中对表格T和表格任务类型S进行采样。从(T,S)对中,我们合成表格任务的实例t =(Ins,T,C)(第3行),这是我们将在第4.2节中详细讨论的任务合成步骤。然后,我们从创建的多样化表格任务实例(Ins,T,C)中进行“增强”任务,包括指令/表格/完成级别(第6-8行),这是我们将在第4.3节中描述的步骤。生成的表格任务A = {(Ins',T',C')}成为我们用于调整语言模型的训练数据。
💡 4.2 合成多样化的表格任务。我们现在描述如何合成多样化的表格任务实例t =(Ins,T,C)(算法1的第3行),以便锻炼语言模型理解二维表结构的能力。我们提出了两种互补的方法:(1)为任务多样性合成新的表格任务,(2)为数据多样性合成现有表格任务的新测试用例。我们将分别讨论每个方法。- ⚙️ 从 𝑡 ⊂ 𝑇 中生成多样化的表任务
⚙️ 通过𝑃(𝐶𝑖𝑛) = 𝐶𝑜𝑢𝑡确保在𝑇的所有行中保持
⚙️ 从𝑇中随机移除一个值𝑣 ∈ 𝐶𝑜𝑢𝑡,生成测试表𝑇−𝑣
⚙️ 综合任务 𝑅2𝑅(𝑇) 以推断变换并填补缺失的𝑣以生成𝑇
⚙️ 通过模式匹配(T-7)生成新的模式匹配测试用例
⚙️ 从𝑇采样𝑘行以生成𝑇1,采样𝑘+1到2𝑘行以生成𝑇2
⚙️ 对𝑇2中的列标题进行“释义”并重排列列以生成测试用例
⚙️ 对𝑇1和𝑇2的列进行洗牌,生成模式匹配测试用例
⚙️ 为数据插补生成测试表 𝑇−𝑣 并预测缺失的𝑣
⚙️ 生成含有可能的印刷错误的修改后𝑇的错误检测任务
⚙️ 从𝑇中提取列表数据而不含明确列分隔符的提取任务
⚙️ 在指令级别进行增强,使用生成模型对指令进行重述
⚙️ 在表级别进行增强,通过列/行重排列和采样增加表的多样性
⚙️ 在完成级别进行增强,为复杂表任务生成推理步骤
⚙️ 使用原始任务的完成和地面实况生成推理步骤
⚙️ 进行额外的增强,包括模板级增强和任务级增强
⚙️ 使用表任务进行模型调优,创建更好的“表基础模型”- 📊 评估了表格调整的效益
🏢 通过对比不同模型进行测试任务和数据
🔄 对4个未见过的任务进行了测试(T-1 到 T-4)
🌐 使用不同来源的数据进行了测试,确保分离性
📚 对5个已知任务进行了评估
💡 合成表格任务进行了测试
🧪 使用现有基准数据进行了评估
📈 比较了 GPT-3.5 和 Table-GPT-3.5 的整体质量改善
📈 比较了 ChatGPT 和 Table-ChatGPT 的整体质量改善
🏗️ 展示了表格调整模型在各种表格任务上的强大性能
💡 研究了在特定任务优化方面的效益- 📊 比较表现
📊 平均性能
📊 前5
📋 提示模板
🧪 GPT-3.5
🧪 Table-GPT-3.5
🔢 图表10:提示工程的质量比较,基于Efthymiou数据集的5个最佳提示模板
📈 敏感性分析
📈 任务数量变化对平均性能的影响
📈 训练数据规模的变化对平均性能的影响
📈 基模型规模的变化对平均性能的影响
📈 提示模板变化对平均性能的影响
📈 表格格式变化对性能的影响
📊 表格5:使用不同表格格式时Table-GPT-3.5的性能
📊 表格6:表格调整的割除研究
📈 数据大小对平均性能的影响
📈 模型大小对平均性能的影响
📈 提示模板对平均性能的影响
🚫 无完成级别增强(无思维链)
🛑 没有任务级别增强(未合成任务)
🛑 没有表级别增强(无列排列)
🛑 没有指令级别增强(无提示变体)
🛑 没有链式思维
✍ 结论与未来工作
📚 参考文献- 📊 数据转换脚本的可视化规范 [28]
🧪 大型语言模型是翻译质量的最先进评估器 [29]
🗃️ 使用 ChatGPT 进行列类型注释 [30]
💡 评估数据集发现的匹配技术 [31]
🔄 使用指令反向翻译实现自对齐 [32]
🧩 使用预训练语言模型进行深度实体匹配 [33]
🔍 自动构建 BI 模型的自动 BI [34]
🤝 使用 ChatGPT 进行实体匹配 [43]
🔍 为问题回答搜索表格单元 [49]
🖋️ 训练语言模型遵循指令 [50]
📊 支持数据集成中的匹配任务的统一多任务模型 [51]
🔍 通过检测行和类型模式整理混乱的 CSV 文件 [52]
🏋️♂️ 在文本和表格数据的联合理解上进行预训练 [64]
📝 复杂跨领域语义解析和文本到 SQL 任务的大规模人工标注数据集 [65]
🔄 使用预训练深度模型和迁移学习进行端到端模糊实体匹配 [66]
📈 更少即更多的对齐 [67]{"answer": "China"}Input:
Column Headers: AcademicJournal Airport Book Building City Film Mammal Newspaper Plant PoliticalParty Scientist SportsTeam
Table:
Output: