Open testpppppp opened 11 months ago
组织:10人,3算法+3工程+产品商务 业务:电销产品机器人,与人工比拼邀约客户到线下的成功率成本。(人80%,机器70%也能接受)。受限于客户池大小 需求:语气符合真人;客户跟踪连贯性(微信/电话,表格图像多模态);实效性(chatgpt 4~5s,要求1s以内)
明确身份, 明确需求 挖掘需求匹配需求 来看房时间
拒识,对于电话交流内容判断该电话是否失效。 原因有几种:1 不是该公司;2 已离职;3 已转岗 挑战:对话内容非常长,输入过长;对话内容会有反复; 方案:输入使用锚点判断,左右扩展;内容判断先用特征和字典筛选出来训练模型,再根据找出来的看badcase修复
主动own商品质量信息
影响前台分发效率性 影响价格运营确定性 影响同款匹配的准确性
==================================================================================================================================
通过在卡片上插入一些属性,把pdp部分内容前置到卡片,让用户更快速发起成交,提升ctr,信息前置,提升购买决策。
你对多少商品做了影响,影响的结果怎么样,是不是可比置信的
事情混淆
概念:在卡片上插入一些属性,pdp前置到卡片,让用户更快速发起成交。提升ctr,信息靠前,购买决策。 关注:有多少商品会有做信息增强,怎么来的(怎么评价,怎么选择),怎么展现的;
出什么,怎么出。
外化现象:有多少高质量标签,有多少策略。
破局 稳增长,调结构,建心智。 客户是谁,客户价值是什么, 三个挑战:业务增长乏力,团队缺乏互信,巨额亏损持续 破局:定义第一客户是谁 快速重启增长:找到最小突破口。营销活动是一个联动所有团队的节点,调动起来一起作战。
结构化思考 分类,排序,归类 用「世界」这个案例,来表达「结构」的作用 结构思考力是一种透过结构看世界的生活态度,可以让思考清晰、表达有力、生活清爽、工作高效,解决问题,商业创新;
看清,看全 基于知识解决问题的方式方法过程
结构化理解
结构思考力的三层次模型:理解-重构-呈现 理解:隐形思维显性化 -> 思维向外传递、存储 重构:显性思维结构化 -> 发现认知不清晰 呈现:结构思维形象化 -> 看到问题
电梯30s法则 金字塔结构,先总后分的立体化思维。 横向把问题看清看全,纵向能挑重点分层次探讨 麦肯锡:以事实为基础、以假设为导向、严格的结构话
一句话概括: 识别:识这是观点还是事实; 判断:判断观点对应支撑的事实 概括:套用万能公式,一句话概括所有内容。 万能公式: 在XX基础上,从XX和XX等方面,说明了XXX。
有中心思想的主题句 “所以呢?”引导结论-纵向结构-往上问,“然后呢”横向结构-往后问,“为什么”纵向结构-往下问-问细节
逻辑递进:时间顺序、结构性顺序、重要性顺序 结构分工:将整体分为部分,概念领域,空间领域 同一个层级、同一个分支用一种分类顺序(时间、结构、重要性取其一) 结构能力强——跨界能力强——学习能力强——思维模型
LLM往往是在开放域数据环境下训练的,那么势必他所擅长的,就是常见的、开放的、普适的问题,然而到了我们实际的场景,我们面对的问题往往是细小的、精准的、专业的,定制的甚至即时的,但凡经过专业的评测就会发现,LLMs在这些问题下并没有想象的那么好,而这个最本质的原因,我想把他分成两点:
知识的覆盖率问题。专业领域或者是即时性要求比较高的领域,模型没见过的知识,很难会自己突然就知道,这跟文学专业同学不了解数学系知识,数学系同学不了解文学系知识是一样的。 业务的定制性问题。在特定领域下,我们对答案的要求是定制的,和业务问题强相关的,例如transformer可以是变形金刚、变压器甚至是我们所熟知的模型,具体要翻译成哪个要看场景,再例如有些我们需要的特定格式的答案,需要告知模型。
大模型特点:抽取能力强;模仿能力强;
简单任务,大模型确实能得到更高的下限,但是后续要调优,肯定是分离出来用小模型专项优化,提升会更多。 复杂任务,大模型需要复杂指令,同时也要fewshot起步,否则模型压根不知道怎么分,这也合理,毕竟边界模糊真的不好讲述,用样本来描述边界会更加明显,这个时候大模型就体现不出优势了。
幻觉原因(心法利器[88] | 有关大模型幻觉问题的思考)
模型没有足够的输入,导致模型只能结合自己的信息进行推理。 未见过的知识,不认识的信息,只能靠猜和编。 对话策略问题导致回复不符合预期。 信息的描述和约束不足,导致回复并不能聚焦或者不符合我们的预期。 模型接收误导信息或自己的错误推测导致出现问题。
形成比较完善的学习迭代的方法论,掌握新知识的能力还是比较强的,用一些朋友的说法,就是技术嗅觉还可以,同时感觉我在实践中“总能掏出新东西”,这个评价让我感觉还是挺意外而高兴的,感觉这是自己的一个特点吧,后续我会基础保持,同时也要让自己的深度再进一步提升,毕竟学新东西和精通还是有些差距。
规划和管理能力,个人感觉是有提升,但是还不太够。规划和管理能力自己把控起来已经形成自己的一套思路了,多线并行的能力提升,而且能比较好地进行规划,这点其实离不开自己对技术深度和广度理解的提升,包括整体的技术设计,如何让算法方案更加稳定,这点确实还挺重要的。大模型在系统中能产生发什么作用,能力边界如何,外部要如何和他协同等,这是一个架构师挺重要的能力。
跑的比对手快,负向收益变正向收益
如何实验命名?配上监控指标,运行地址
通用开源使用环境搭建 sy_utils
https://arxiv.org/pdf/2307.06018.pdf 课程学习缓解小规模数据质量不足问题:
数据过滤:
Mar 3.4-3.7 3.4
Hierarchy-aware Label Semantics Matching Network for Hierarchical Text Classification
结构:一个label的特征抽取,一个文本的特征抽取 loss:text和label做对比学习。text和label做 embed match。再来个class
去掉文本强pattern:比如做新闻主题分类,一些爬下来的数据中带有的XX报道、XX编辑高频字段就没有用,可以对语料的片段或词进行统计,把很高频的无用元素去掉。还有一些会明显影响模型的判断,比如之前我在判断句子是否为无意义的闲聊时,发现加个句号就会让样本由正转负,因为训练预料中的闲聊很少带句号(跟大家的打字习惯有关),于是去掉这个pattern就好了不少 纠正标注错误:这个我真的屡试不爽,生生把自己从一个算法变成了标注人员。简单的说就是把训练集和评估集拼起来,用该数据集训练模型两三个epoch(防止过拟合),再去预测这个数据集,把模型判错的拿出来按 abs(label-prob) 排序,少的话就自己看,多的话就反馈给标注人员,把数据质量搞上去了提升好几个点都是可能的
信息整理
平均看:打压头部数据,方便暴露问题 带权看:更贴近用户真实体验,更加方便追溯问题(可以通过rn定位召回途径等)
PI评测
客户是谁,客户在哪,如何深入沟通 越做护城河越深;
飞轮驱动起来。你做的这个事是让什么变大,这个变大可以吸引其他什么变得更大?
卖家衣服就几百件 卖家图书有几万个,批量给他他怎么改,无法实际操作,属性还会跟着变动不合适,图书
每个步骤解决什么问题 每个步骤具体执行细节,中间数据保证结果是对的。
链路太长,信息损失太长
高频问题要求精准 中频问题要求清晰 低频问题要求合理
重视文档,大而全思考都放进去; 历史分析业务价值;一些实例感性认识 假设/指标/步骤/millstone 数据计算口径,分子分母怎么算
不要轻易下结论 自驱,下一步?
决策缺乏科学性、连贯性和纠错机制
对于审核任务来说,不同阶段的审核任务,对precision和recall有不同要求,比如在支小宝事前审核,更关注precision,因为不想打扰用户。而在事后的巡检阶段,更关注recall。
任务有什么
具体做什么
图片/跨语言解决
NER 分词问题,切分不正确 使用两阶段 分词单独建模数字 多语言数据扩增 分词问题方案(SoftLexicon)https://zhuanlan.zhihu.com/p/208276870 每个词都BIO设置矩阵
如果你对某个想法反应迅速,除非你在某个主题积累了多年经验知识,否则你的反应极可能是非常肤浅的,也无法令人感兴趣的。
分子分母怎么算
数据使用具体实例 发现 直接把代码输入给 模型,让模型根据代码产生测试用例 比 人工给出指令,再让模型产出测试数据,效果更好
模型参数N,计算量C,数据量D,当其中两个固定,唯一一个增加,则其符合幂律分布。
能力量子的频率/困难服从“Zipf 定律(Zipf's law) (基于量子化假设推导模型的尺度定律(Scaling Law) )[https://www.sohu.com/a/677494954_121119001]
幂律定律:事件发生的概率与事件大小的某个负指数成比例。也就是事件越大,发生的可能性越小。再极端的数据都有出现的可能。(幂律分布 - 世界是不公平的)[[https://cloud.tencent.com/developer/article/2082050](幂律分布一强者恒强](https://cloud.tencent.com/developer/article/2082050](%E5%B9%82%E5%BE%8B%E5%88%86%E5%B8%83%E4%B8%80%E5%BC%BA%E8%80%85%E6%81%92%E5%BC%BA) 弱者愈弱)[https://wap.peopleapp.com/article/rmh21210876/rmh21210876] 自组织网络临界,沙堆模型/地震(在到达临界态后,沙崩规模的大小与其出现的频率呈幂函数关系。)
适用范围:有交互的体系 形成原因: 优先连接;时间累积效应
100W 7K
概念
多目标
解决样本空间不一致
SSB(Sample Selection Bias - 样本选择偏差问题)
数据稀疏性 (Data Sparsity, DS) 问题
降低模型学习难度
新品冷启动
场景设计
图搜技术细节:yolox的品牌检测算法+基于resnet的品牌分类算法 场景由粗往细做:
冷启动
今天第一次坐17:20这班✈️,好像很少有坐过傍晚的飞机。打开遮光板能看到缓落的夕阳,阳光一点点消散,心情很愉悦。这个时间点也不累精神状态也好。同时也是即将离职,开启新的 在飞机上是一个断网的环境,有安静的时间去想事情,总结一段时间的生活,甚至是码码字也是好的。噢对了,下午的飞机还有个好处是柔和的太阳让写东西看屏幕也很舒服。
我今天上来先看了一个电影《怒潮》勉强给个6分吧,故事性偏弱,凑合爆米花能看,题材老旧叙事不完整,人物之间的关系最后勉强缝合在一起。
再有就是我想知道搜索,推荐。这些团队都在做什么事情,怎么拆分任务,困难点是哪些? 说起来都是算法,但是具体怎么做,任务有哪些,怎么挖坑还是挺好奇的。
搜索 流量入口划分场景 主搜 图搜 智能UI 风向标 特定属性建模
通用经验: 最容易的baseline,打标 结合场景理解,优质数据:二跳成交 > 二跳加购 > 二跳点击 > 一跳点击二跳未点击 > 一跳未点击
搜索体验 流量转化 用户增长 导购
recall & ranking
MoDS https://mp.weixin.qq.com/s/Y9YWov-DskFOVs5lECPJcA
LLM2LLM: LLM2LLM:迭代式数据增强策略提升大模型微调效果
DEITA https://mp.weixin.qq.com/s/IqwP6cfsmPNduq_5Il7pow https://zhuanlan.zhihu.com/p/690779419
如何从数据集中自动识别高质量的指令数据-IFD指标的使用
zero-shot,单条能提升的方案 CaR方案
快速评估模型好坏 PandaLM
如何提高LLMs的文本表征(Text Embedding)能力? open AI的deberta
必要性筛选,
LLM2LLM 自增强,训练框架 InsTag提供数据采样的insight,
模型评估
作为测试的角色,作为供应商角色
决策缺乏科学性、连贯性和纠错机制 对于审核任务来说,不同阶段的审核任务,对precision和recall有不同要求,比如在支小宝事前审核,更关注precision,因为不想打扰用户。而在事后的巡检阶段,更关注recall。 越做护城河越深;
判断标志是什么? 连续的问答
概念-周边-金字塔-砸烂
就业率能否复苏其实不看这些头部产业的。 大部分人的受教育水平和劳动技能水平注定只能从事非高新技术行业的第三产业,而这些行业极大地依赖于相同阶层的居民的消费能力。现在的就业不景气无非就是曾经默默扛起消费市场的普通大众没钱了,就算中共搓出来1nm芯片,只要他们依旧不想放权(消费权也是权)给居民,通过松绑医疗住房养老来释放消费能力,那么未来的就业前景依然是不容乐观的。
面对一个复杂问题时,他的路径依赖是先集权,然后把复杂问题简单化,然后一刀切。这个就和建国初期动员群众除四害,把麻雀赶紧杀绝之后,粮食因为虫害而绝收一样,是愚蠢,是无知,是罪恶。只要还在台上,中国的官僚系统就很难摆脱这个路径。上面喜欢什么,下面必然投其所好。那就很难复杂问题抽丝剥茧,耐心,妥协,调研,权衡。这些都做不到。
中国自古以来的传统三位逻辑是: 论亲疏 不论道理 论态度 不论事实 论动机 不论是非
中国自古以来的传统三位真理是: 权力即是真理 金钱即是真理 祖宗即是真理