决策缺乏科学性、连贯性和纠错机制对于审核任务来说，不同阶段的审核任务，对precision和recall有不同要求，比如在支小宝事前审核，更关注precision，因为不想打扰用户。而在事后的巡检阶段，更关注recall。越做护城河越深；

判断标志是什么？连续的问答

概念-周边-金字塔-砸烂

就业率能否复苏其实不看这些头部产业的。大部分人的受教育水平和劳动技能水平注定只能从事非高新技术行业的第三产业，而这些行业极大地依赖于相同阶层的居民的消费能力。现在的就业不景气无非就是曾经默默扛起消费市场的普通大众没钱了，就算中共搓出来1nm芯片，只要他们依旧不想放权（消费权也是权）给居民，通过松绑医疗住房养老来释放消费能力，那么未来的就业前景依然是不容乐观的。

面对一个复杂问题时，他的路径依赖是先集权，然后把复杂问题简单化，然后一刀切。这个就和建国初期动员群众除四害，把麻雀赶紧杀绝之后，粮食因为虫害而绝收一样，是愚蠢，是无知，是罪恶。只要还在台上，中国的官僚系统就很难摆脱这个路径。上面喜欢什么，下面必然投其所好。那就很难复杂问题抽丝剥茧，耐心，妥协，调研，权衡。这些都做不到。

中国自古以来的传统三位逻辑是：论亲疏不论道理论态度不论事实论动机不论是非

中国自古以来的传统三位真理是：权力即是真理金钱即是真理祖宗即是真理

2B小公司感受

组织：10人，3算法+3工程+产品商务业务：电销产品机器人，与人工比拼邀约客户到线下的成功率成本。（人80%，机器70%也能接受）。受限于客户池大小需求：语气符合真人；客户跟踪连贯性（微信/电话，表格图像多模态）；实效性(chatgpt 4~5s，要求1s以内)

明确身份，明确需求挖掘需求匹配需求来看房时间

场景

拒识，对于电话交流内容判断该电话是否失效。原因有几种：1 不是该公司；2 已离职；3 已转岗挑战：对话内容非常长，输入过长；对话内容会有反复；方案：输入使用锚点判断，左右扩展；内容判断先用特征和字典筛选出来训练模型，再根据找出来的看badcase修复

团队目标与定位

负责什么业务，own 哪些指标

take 的任务有哪些，

示例

主动own商品质量信息

内容/商品信息互通需求

关键信息属性覆盖全抽取准

影响前台分发效率性影响价格运营确定性影响同款匹配的准确性

==================================================================================================================================

smartUI

在解决什么问题？

通过在卡片上插入一些属性，把pdp部分内容前置到卡片，让用户更快速发起成交，提升ctr，信息前置，提升购买决策。

分什么步骤

离线数据加工
在线数据优选一个是为数据本身产生负责，生产的好坏评估一个是数据选择的策略，选哪写更好，而不是

业务关心什么

你对多少商品做了影响，影响的结果怎么样，是不是可比置信的

这个结果怎么做到的

容易犯的错误

事情混淆

概念：在卡片上插入一些属性，pdp前置到卡片，让用户更快速发起成交。提升ctr，信息靠前，购买决策。关注：有多少商品会有做信息增强，怎么来的（怎么评价，怎么选择），怎么展现的；

几个实验在做
线上影响了多少商品
结果怎么做的

出什么，怎么出。

外化现象：有多少高质量标签，有多少策略。

细致分离建模
模糊一些信息
问题排查的先后顺序
- troubleshooting 用一条case穿透来看
- 有假设需要先验证，而不是立刻修，不要轻易下结论

破局稳增长，调结构，建心智。客户是谁，客户价值是什么，三个挑战：业务增长乏力，团队缺乏互信，巨额亏损持续破局：定义第一客户是谁快速重启增长：找到最小突破口。营销活动是一个联动所有团队的节点，调动起来一起作战。

独立思考；从常识出发；定义赢：拍一个数字，这个数字什么意思？；顺应大势

PDCA + 5w2h 解问题要有分层能力，事情的突破都是在分层之后看到新问题和新现象第一个问题不是真问题找参考系内贸的思维解决协同问题：一个是协作部门瞎提需求/预算；一个是相互推诿

结构化思考分类，排序，归类用「世界」这个案例，来表达「结构」的作用结构思考力是一种透过结构看世界的生活态度，可以让思考清晰、表达有力、生活清爽、工作高效，解决问题，商业创新；

看清，看全基于知识解决问题的方式方法过程

结构化理解

结构思考力的三层次模型：理解-重构-呈现理解：隐形思维显性化 -> 思维向外传递、存储重构：显性思维结构化 -> 发现认知不清晰呈现：结构思维形象化 -> 看到问题

电梯30s法则金字塔结构，先总后分的立体化思维。横向把问题看清看全，纵向能挑重点分层次探讨麦肯锡：以事实为基础、以假设为导向、严格的结构话

一句话概括：识别：识这是观点还是事实；判断：判断观点对应支撑的事实概括：套用万能公式，一句话概括所有内容。万能公式：在XX基础上，从XX和XX等方面，说明了XXX。

结论是什么，理由是什么，事实是什么
理由是否支撑结论？
事实是否支持理由？

有中心思想的主题句 “所以呢？”引导结论-纵向结构-往上问，“然后呢”横向结构-往后问，“为什么”纵向结构-往下问-问细节

逻辑递进：时间顺序、结构性顺序、重要性顺序结构分工：将整体分为部分，概念领域，空间领域同一个层级、同一个分支用一种分类顺序（时间、结构、重要性取其一）结构能力强——跨界能力强——学习能力强——思维模型

LLM往往是在开放域数据环境下训练的，那么势必他所擅长的，就是常见的、开放的、普适的问题，然而到了我们实际的场景，我们面对的问题往往是细小的、精准的、专业的，定制的甚至即时的，但凡经过专业的评测就会发现，LLMs在这些问题下并没有想象的那么好，而这个最本质的原因，我想把他分成两点：

知识的覆盖率问题。专业领域或者是即时性要求比较高的领域，模型没见过的知识，很难会自己突然就知道，这跟文学专业同学不了解数学系知识，数学系同学不了解文学系知识是一样的。业务的定制性问题。在特定领域下，我们对答案的要求是定制的，和业务问题强相关的，例如transformer可以是变形金刚、变压器甚至是我们所熟知的模型，具体要翻译成哪个要看场景，再例如有些我们需要的特定格式的答案，需要告知模型。

大模型特点：抽取能力强；模仿能力强；

简单任务，大模型确实能得到更高的下限，但是后续要调优，肯定是分离出来用小模型专项优化，提升会更多。复杂任务，大模型需要复杂指令，同时也要fewshot起步，否则模型压根不知道怎么分，这也合理，毕竟边界模糊真的不好讲述，用样本来描述边界会更加明显，这个时候大模型就体现不出优势了。

幻觉原因(心法利器[88] | 有关大模型幻觉问题的思考)

模型没有足够的输入，导致模型只能结合自己的信息进行推理。未见过的知识，不认识的信息，只能靠猜和编。对话策略问题导致回复不符合预期。信息的描述和约束不足，导致回复并不能聚焦或者不符合我们的预期。模型接收误导信息或自己的错误推测导致出现问题。

形成比较完善的学习迭代的方法论，掌握新知识的能力还是比较强的，用一些朋友的说法，就是技术嗅觉还可以，同时感觉我在实践中“总能掏出新东西”，这个评价让我感觉还是挺意外而高兴的，感觉这是自己的一个特点吧，后续我会基础保持，同时也要让自己的深度再进一步提升，毕竟学新东西和精通还是有些差距。

规划和管理能力，个人感觉是有提升，但是还不太够。规划和管理能力自己把控起来已经形成自己的一套思路了，多线并行的能力提升，而且能比较好地进行规划，这点其实离不开自己对技术深度和广度理解的提升，包括整体的技术设计，如何让算法方案更加稳定，这点确实还挺重要的。大模型在系统中能产生发什么作用，能力边界如何，外部要如何和他协同等，这是一个架构师挺重要的能力。

跑的比对手快，负向收益变正向收益

如何实验命名？配上监控指标，运行地址

先固定一个baseline的设置作为实验base，exp1
项目名+编号+修改点 dc_cate-exp1-newdata dc_cate-exp1-newcate dc_cate-exp1-newdata_newcate

通用开源使用环境搭建 sy_utils

config
log
io:local/single/dist/table sy_modules sy_models sy_datasets sy_processors sy_bins sy_configs sy_scripts
base_train.py
base_eval.py
launch.sh # adapter dist env
demo.in
demo.out sy_runner_logs

对比学习

softmax/损失函数/对比损失函数info NCE softmax区别是什么
- softmax是为了归一化,损失是对比两个分布差异。NCE是把对比看作K+1分类问题
- softmax和cross-entropy是什么关系？ softmax loss详解，softmax与交叉熵的关系对比学习损失（InfoNCE loss）与交叉熵损失的联系，以及温度系数的作用 Noise Contrastive Estimation 前世今生——从 NCE 到 InfoNCE
对比学习在NLP领域内的最大难点是收敛过早。同个batch内的query作为负样本可以大大降低负样本的获取难度，但同时也会降低负样本的质量，让模型分辨正负样本的task难度过低从而过早收敛。
默认batchsize太大怎么解决/学习到简单的长度怎么解决
- 把分母一部分去掉
- ESimCSE
- (Decoupled Contrastive Learning)[https://zhuanlan.zhihu.com/p/549029399] (从正负样本解耦看对比学习为何需要large batch size训练)[]
难易样本比例
- 100:1；：1）在损失函数梯度回传时，通过卡阈值的方式只更新相似度较低的正样本和相似度较高的负样本。2）在SimCSE的实验中可以通过batchsize的大小来调节简单负样本和较难负样本的比例，在Rdrop这类有监督的任务中需要自己在预处理时构造。实践
数据收集：亿级通用正例（用户在搜索引擎输入，推荐相似问法）；千万领域正例（一条知识对应多种相似问法）；十万级监督数据
样本构建：CLINE中提出了一种负样本对的构建方法：通过在无监督的情况下生成语义相反样本来组成负样本对，进而提高模型在语义对抗攻击下的鲁棒性。
数据增广
分阶段训练（先海量正例再领域标注数据监督训练）
负样本设计提升学习难度减少过早收敛
蒸馏的方式将大模型蒸馏到4层hidden size为256的小模型，用 onnxruntime 加速
句子向量存在「Anisotropy」问题，表现是区分度不高，两个很不相似的句子向量可能很接近（embe相似度，但是用来后接分类矩阵没啥问题）。这个在检索和聚类时带来很多问题。BM25为代表的lexical retrieval和dense retrieval是可以互补。一种简单的方式通过对两种检索得分进行加权求和，得到合并后的结果；另一种是先各自检索，然后对结果进行合并。为了与线上场景一致，我们这里采用第二种方式进行验证。

多模态PolyModel

https://arxiv.org/pdf/2307.06018.pdf 课程学习缓解小规模数据质量不足问题：

640B第一阶段，100B第二阶段
考虑到英语语言数据规模大，质量高，知识丰富，我们在预训练初期英语数据规模达到近70%，这个比例随着训练调整，在最后阶段英语比例下降到40%，通过这种方式把常识知识向小语种转移。
训练中引入了近一亿条高质量多语言双语平行数据，方便训练过程中小语种向高资源语种对齐基建
在指令微调方面我们从175个英文种子数据出发，利用大模型的创造力和多样性自动生成了13万条多语言指令数据。
评测方面我们整理了一套多语言Benchmark，覆盖问答、翻译、理解、生成等10多个任务和15种语言。
我们的模型同时支持Magatron和DeepSpeedChat两个主流训练框架：1）Magatron框架支持继续训练（CT），推理，SFT等；2）DeepSpeedChat框架支持CT，推理，SFT，Lora等功能。我们还提供了两个框架模型的转换脚本，方便大家在两个框架间切换使用。

数据过滤：

语种识别
规则过滤：重复词/句；过长过短文档；符号单词比例异常；省略号，不可见字符，数字，日期占比高；大量URL；单个单词过长
机器学习：高质量数据集上n-gram训练K嗯LM和2-gram的fastText，打分。过滤掉28%的数据
重复数据过滤：基于MinH啊是LSH的模糊匹配策略，过滤诶到23%的英文，19的非英文
- 模型设置
词表：25W，BPE压缩过程中也对小语种进行了上采样防止切的太细
warm up中，lr上升则损失激增越明显，小语种多为低频，增加了训练的不稳定性，过大的lr会放大该问题梯度爆炸。方案：对于首次激增点，调低lr（靠测试调整到6e-5）
使用bf16，在softmax过程中，特别词表扩大到25w，下溢问题变得更加严重（1/250000这个数字非常小）方案：将所有softmax部分的精度设置为float32 多语言指令
从池中随机选取构造prompt
产生新的instruct-input-output
关键词&格式过滤 + rouge-L score去除高相似度样本(相似度低于池中所有的0.7)
放入池子
最终结果是每种1W左右，共13W 测试讨论
训练中发现800M的参数value为0，这部分参数主要是位置编码部分，说明参数浪费了，直接放弃这部分然后用少量数据矫正用ROPE

Mar 3.4-3.7 3.4

task，
流程图，前后戴帽，中间各个环节
属性维度，数据画像，标签体系，质量分，来源分
管理模块，版本管理，可视化，
评估模块，
扩增模块，选择模块 [X] 文档交接 [X] oneonemap 评测 [ ] scaling law文章 [ ] scaling law 意思是说模型性能和训练计算量，模型参数，数据规模呈幂律分布。参数量=parameters*datasize [ ] Chinchilla Scaling Law：给定预算下怎么分配三者？ [ ] 数据管理总结 ○ 先有映射关系再看数据，src tgt std 。保留原始数据，用时再生成对应 ○ 每份数据随机+固定各5条，看总数，看映射标注对不对。1 12 123 1234 12345 123456 1234567 ○ 生成数据 [ ] Multi round annotation [ ] id关联起来，多轮标注结果整合留存， [ ] 一条一条作为数据保存。版本管理 [ ] 使用时concat good 标签 [ ] 标签体系 [ ] 什么是一份好的训练数据。 task 需要一份 data，data对应后面的实体data [ ] 数据源分级 [ ] 数据画像（参考🐜） [ ] 数据生命周期，维护，可视化；资源分配，价值评估 [ ] 正确性，和高质量两个维度？？ [ ] data quality 高质量，多高的质量，质量分级。评估等级 [ ] 多样性。多么的多样性？（finetune的LIMA中1000条里包含5大领域各最多200条） [ ] 数据扩增标记，AI生成数据用来训练（一个很强的模型来增强垂直领域） [ ] prompt的选择也是data的工作，什么样的prompt最合适 [ ] 能带给模型重要Transferable Ability能力的数据 [ ] Continual pretraining的時候，一定要通过loss來观测Forgetting，再确定最好的配比 [ ] Data mixture [ ] 答辩学习 [ ] LLM经验学习

Hierarchy-aware Label Semantics Matching Network for Hierarchical Text Classification

结构：一个label的特征抽取，一个文本的特征抽取 loss：text和label做对比学习。text和label做 embed match。再来个class

去掉文本强pattern：比如做新闻主题分类，一些爬下来的数据中带有的XX报道、XX编辑高频字段就没有用，可以对语料的片段或词进行统计，把很高频的无用元素去掉。还有一些会明显影响模型的判断，比如之前我在判断句子是否为无意义的闲聊时，发现加个句号就会让样本由正转负，因为训练预料中的闲聊很少带句号（跟大家的打字习惯有关），于是去掉这个pattern就好了不少纠正标注错误：这个我真的屡试不爽，生生把自己从一个算法变成了标注人员。简单的说就是把训练集和评估集拼起来，用该数据集训练模型两三个epoch（防止过拟合），再去预测这个数据集，把模型判错的拿出来按 abs(label-prob) 排序，少的话就自己看，多的话就反馈给标注人员，把数据质量搞上去了提升好几个点都是可能的

信息整理

测试数据构建

平均看：打压头部数据，方便暴露问题带权看：更贴近用户真实体验，更加方便追溯问题（可以通过rn定位召回途径等）

PI评测

row的维度是query-item
流量分区选取query
query下cate的item作为pair
分段抽取出pair
PI score = 不相关的query-item数量 / 全部抽样query-item数量

做业务

客户是谁，客户在哪，如何深入沟通越做护城河越深；

飞轮驱动起来。你做的这个事是让什么变大，这个变大可以吸引其他什么变得更大？

特点是什么

做方案

假设是什么

真实的需求是什么样子的？

卖家衣服就几百件卖家图书有几万个，批量给他他怎么改，无法实际操作，属性还会跟着变动不合适，图书

定义每个步骤

每个步骤解决什么问题每个步骤具体执行细节，中间数据保证结果是对的。

链路太长，信息损失太长

高频问题要求精准中频问题要求清晰低频问题要求合理

难点

文本信息堆叠，混淆，未充分结合上下文语义，导致抽取非商品实际对应实体；
单词歧义，同一个单词，在不同属性下表达不同含义。
词性识别错误，包括：识别实体非该属性；不同属性间实体

文档

重视文档，大而全思考都放进去；历史分析业务价值；一些实例感性认识假设/指标/步骤/millstone 数据计算口径，分子分母怎么算

不要轻易下结论自驱，下一步？

审核业务

决策缺乏科学性、连贯性和纠错机制

对于审核任务来说，不同阶段的审核任务，对precision和recall有不同要求，比如在支小宝事前审核，更关注precision，因为不想打扰用户。而在事后的巡检阶段，更关注recall。

商品理解业务

任务有什么

pre-defined ，CPVB
开放式标签理解，打标

具体做什么

标签体系本身定义；产品/业务/算法；跟地区强相关
商品信息打标
大规模线上推理

图片/跨语言解决

现在有什么
我们能用什么

NER

NER 分词问题，切分不正确使用两阶段分词单独建模数字多语言数据扩增分词问题方案（SoftLexicon）https://zhuanlan.zhihu.com/p/208276870 每个词都BIO设置矩阵

如果你对某个想法反应迅速，除非你在某个主题积累了多年经验知识，否则你的反应极可能是非常肤浅的，也无法令人感兴趣的。

汇报

分子分母怎么算

数据使用具体实例发现直接把代码输入给模型，让模型根据代码产生测试用例比人工给出指令，再让模型产出测试数据，效果更好

scaling law

模型参数N，计算量C，数据量D，当其中两个固定，唯一一个增加，则其符合幂律分布。

能力量子的频率/困难服从“Zipf 定律（Zipf's law） (基于量子化假设推导模型的尺度定律（Scaling Law） )[https://www.sohu.com/a/677494954_121119001]

幂律定律：事件发生的概率与事件大小的某个负指数成比例。也就是事件越大，发生的可能性越小。再极端的数据都有出现的可能。(幂律分布 - 世界是不公平的)[[https://cloud.tencent.com/developer/article/2082050](幂律分布一强者恒强](https://cloud.tencent.com/developer/article/2082050](%E5%B9%82%E5%BE%8B%E5%88%86%E5%B8%83%E4%B8%80%E5%BC%BA%E8%80%85%E6%81%92%E5%BC%BA) 弱者愈弱)[https://wap.peopleapp.com/article/rmh21210876/rmh21210876] 自组织网络临界，沙堆模型/地震（在到达临界态后，沙崩规模的大小与其出现的频率呈幂函数关系。）

适用范围：有交互的体系形成原因：优先连接；时间累积效应

100W 7K

搜推工作

搜索业务指标

概念

Organic搜索是站内老用户(大部分是老用户)产生的在搜索场景中的搜索行为，Organic搜索是站内用户意图最准确的搜索行为，基本可以代表核心用户的搜索意图
用户心智包括两个点：1、具体可以描述清楚的人；2、这个人遇到了不能解决就会不开心的事。点击和排序问题（保持准度提高排序能力）
- CPP point+pair
- [Mix loss function](https://ata.atatech.org/articles/11000166481] (罗辑回归)[https://juejin.cn/post/6844904008293810183)

多目标

解决样本空间不一致

ESMM
PLE

SSB（Sample Selection Bias - 样本选择偏差问题）

后一阶段的模型基于上一阶段的采样后的样本子集进行训练，但是最终是在全样本空间进行推理，这带来了严重的模型的泛化性问题。
双塔模型一般用在推荐系统的粗排、召回环节，这两个环节也被大家成为称为负样本的艺术
双塔模型Batch内负采样如何解决热度降权和SSB的问题

数据稀疏性 (Data Sparsity, DS) 问题

后一阶段模型的训练样本规模通常远低于前一阶段任务，相邻两阶段的样本规模通常差多个量级，但是参数空间却是类似的。这同时加大了模型训练的难度，同样带来了泛化性问题。

降低模型学习难度

新品冷启动

核心思想是找到类似的老品
新品冷启动大厂落地经验与方案分享
VELF框架优化大方向：
体验优化
行业/用户增长
改善行业不均衡
提升每个环节/场景用户承接落地转化率

场景设计

主搜
图搜
- 图搜
- 找同款
底纹词+榜单热词（拉新/回访）
下拉
锦囊
push
价格力：在模型中引入商品的实时价格
主题卡片（探测用户需求，促进用户需求收敛）
风向标：用户从猜你喜欢点击商品进入PDP后，再回退到猜你喜欢。基于用户在PDP的停留时长和浏览、甚至加购等行为，判断出用户对于该类商品的喜好程度和成交潜力，实时性做出个性化推荐的响应。
smartUI
sap 榜单
动态插卡联合实验
用户触达
用户承接
权益：用户权益投放模型，用户选品，用户权益信号 LTR 模型
商品生命周期孵化（部分竞对商品销售情况良好，但是自己平台不行；融合站外特征）
大促GMV提升

图搜技术细节：yolox的品牌检测算法+基于resnet的品牌分类算法场景由粗往细做：

多目标建模，pointwise+pairwise融合，标签粒度
将模型从简单的场景标识符作为场景信息，升级到更合理的“多场景建模”。共享信息，独有信息，融合信息
大场景有用，小场景无法区分。层次化建模。上层再区分单独建模

冷启动

使用变分embedding学习框架VELF来缓解CTR预测中的冷启动问题，VELF通过以下两种方式缓解由数据稀疏性引起的过拟合来解决冷启动问题

今天第一次坐17:20这班✈️，好像很少有坐过傍晚的飞机。打开遮光板能看到缓落的夕阳，阳光一点点消散，心情很愉悦。这个时间点也不累精神状态也好。同时也是即将离职，开启新的在飞机上是一个断网的环境，有安静的时间去想事情，总结一段时间的生活，甚至是码码字也是好的。噢对了，下午的飞机还有个好处是柔和的太阳让写东西看屏幕也很舒服。

我今天上来先看了一个电影《怒潮》勉强给个6分吧，故事性偏弱，凑合爆米花能看，题材老旧叙事不完整，人物之间的关系最后勉强缝合在一起。

再有就是我想知道搜索，推荐。这些团队都在做什么事情，怎么拆分任务，困难点是哪些？说起来都是算法，但是具体怎么做，任务有哪些，怎么挖坑还是挺好奇的。

搜索流量入口划分场景主搜图搜智能UI 风向标特定属性建模

价格力建模：用户转化率对价格十分敏感
商品智能CPVB
素材生产（美图，换装，评论，精选卖点）
量价关系用户需求建模然后渗透到各个场景
同款，相似，比价，个性化经典问题
延迟转化场景工作思路
拉新/留存/转化/激活
横向扩展（召回链路增加，）
- swing i2i;q2i;q2q2i;q2i2i;搭配召回；同款价格力；同款强势品；
- i2q；swing q2q；多兴趣向量；
- 簇召回：基于行为的item emb/基于内容的item emb，对emb聚合生成cluster2item
模型基础能力定义并不断提升（多模态，多语种，跨场景，高可用自动化易维护，高性能，少样本高噪声）
加特征，加数据，加逻辑，badcase分析，清洗，多轮
做基建，自研替换API
新人场景
留存用户特定建模
通用经验：最容易的baseline，打标结合场景理解，优质数据：二跳成交 > 二跳加购 > 二跳点击 > 一跳点击二跳未点击 > 一跳未点击

搜索体验流量转化用户增长导购

recall & ranking

MoDS https://mp.weixin.qq.com/s/Y9YWov-DskFOVs5lECPJcA

LLM2LLM： LLM2LLM：迭代式数据增强策略提升大模型微调效果

DEITA https://mp.weixin.qq.com/s/IqwP6cfsmPNduq_5Il7pow https://zhuanlan.zhihu.com/p/690779419

如何从数据集中自动识别高质量的指令数据-IFD指标的使用

zero-shot，单条能提升的方案 CaR方案

快速评估模型好坏 PandaLM

如何提高LLMs的文本表征(Text Embedding)能力? open AI的deberta

必要性筛选，

得到：从policy中问chatgpt需要什么能力，并问从下游任务得到的数据是否符合哪个能力。
使用：让大模型生成/计算PPL 多样性筛选，clustering，多个方案质量筛选，IFD 复杂性筛选，instag 一致性筛选，

insight

LLM2LLM 自增强，训练框架 InsTag提供数据采样的insight，

模型评估

PandaLM

提高BPO标注质量

作为测试的角色，作为供应商角色

pigbreeder / CodeMemo

记录 #25

2B小公司感受

场景

团队目标与定位

负责什么业务，own 哪些指标

take 的任务有哪些，

示例

内容/商品信息互通需求

关键信息属性覆盖全抽取准

smartUI

在解决什么问题？

分什么步骤

业务关心什么

这个结果怎么做到的

容易犯的错误

独立思考；从常识出发；定义赢：拍一个数字，这个数字什么意思？；顺应大势

PDCA + 5w2h 解问题要有分层能力，事情的突破都是在分层之后看到新问题和新现象第一个问题不是真问题找参考系内贸的思维解决协同问题：一个是协作部门瞎提需求/预算；一个是相互推诿

对比学习

多模态PolyModel

测试数据构建

做业务

特点是什么

做方案

假设是什么

真实的需求是什么样子的？

定义每个步骤

难点

文档

审核业务

商品理解业务

NER

汇报

scaling law

搜推工作

insight

PandaLM

提高BPO标注质量

pigbreeder / CodeMemo

记录 #25

2B小公司感受

场景

团队目标与定位

负责什么业务，own 哪些指标

take 的任务有哪些，

示例

内容/商品信息互通需求

关键信息属性覆盖全抽取准

smartUI

在解决什么问题？

分什么步骤

业务关心什么

这个结果怎么做到的

容易犯的错误

独立思考；从常识出发；定义赢：拍一个数字，这个数字什么意思？；顺应大势

PDCA + 5w2h 解问题要有分层能力，事情的突破都是在分层之后看到新问题和新现象 第一个问题不是真问题 找参考系 内贸的思维解决协同问题：一个是协作部门瞎提需求/预算；一个是相互推诿

对比学习

多模态PolyModel

测试数据构建

做业务

特点是什么

做方案

假设是什么

真实的需求是什么样子的？

定义每个步骤

难点

文档

审核业务

商品理解业务

NER

汇报

scaling law

搜推工作

insight

PandaLM

提高BPO标注质量

PDCA + 5w2h 解问题要有分层能力，事情的突破都是在分层之后看到新问题和新现象第一个问题不是真问题找参考系内贸的思维解决协同问题：一个是协作部门瞎提需求/预算；一个是相互推诿