爱可可微博热门分享(2.26) - Githubissues

fly51fly / aicoco

“爱可可-爱生活”微博内容精选

496 stars 62 forks source link

爱可可微博热门分享(2.26) #86

Open fly51fly opened 3 months ago

fly51fly commented 3 months ago

No 1. OpenAI 最新发布的嵌入模型 Embedding v3 与开源多语言嵌入模型在多语言文本检索任务上的性能比较 No 2. 用原生PyTorch加速生成式AI模型 No 3. OpenAI模型60%的回答包含剽窃内容 No 4. 'Windows in a Docker container.' GitHub: github.com/dockur/windows ...... No 5. SDXL Lightning：超快的SDXL文本到图像合成 No 6. IEPile: 大规模信息提取语料库，用于训练和评估信息提取模型 No 7. Spider：Rust写的超快爬虫，支持并发、流式、分布式、无头浏览器、HTTP代理、定期执行、订阅等 No 8. 晚安～ [月亮] No 9. TableQAKit: 用于表格问答的工具包，支持LLM模型，提供可扩展的设计、全面的数据集和强大的方法，支持LLM的提示和微调方法、统一的数据接口、可复现的SOTA方法以及高效的LLM评估 No 10. 今日推介(第1327期)：基于不可微规则引导扩散的符号音乐生成、高维正则化回归的Bootstrap和子采样分析、Softmax自注意力机制如何使Transformer模型在上下文学习任务中表现出色、马尔可夫博弈中贝叶斯规则归纳法的共享规范系统学习和维持、用DPO-Positive修复偏好优化的失败模式 ...... No 11. OpenAI Sora相关资源列表 No 12. [CL] Confidence Matters: Revisiting Intrinsic Self-Correction ...... No 13. [LG]《In-Context Learning with Transformers: Softmax Attention Adapts to Function Lipschitzness》 No 14. Gemini从历史图像中强行去除白人形象的做法，不是消除种族主义的好办法 No 15. 早！[太阳] No 16. MeloTTS：高质量多语言文本转语音库。支持多种语言，其中包括英语(美国、英国、印度、澳大利亚等)、西班牙语、法语、中文、日语和韩语等。其特色包括支持中英文混合朗读，CPU实时推理速度快等 No 17. 提出了DPO-Positive(DPOP)，一种新的损失函数和训练方法，解决了直接偏好优化(DPO)在微调大型语言模型时可能降低对优选样本可能性的问题，并通过在不同数据集上的实证测试，显示出DPOP在多种下游任务上相对于DPO的显著性能提升，创新性地推出了性能领先的Smaug系列模型。 No 18. '收集C/C++新手学习的入门项目，整理收纳开发者开源的小项目、工具、框架、游戏等，视频，书籍，面试题/算法题，技术文章。' ...... No 19. 提出一种在马尔可夫博弈中通过近似贝叶斯规则归纳学习和维持共享规范系统的方法，其创新之处在于结合了博弈论和人类学习的复杂性，使自主Agent能在无需中央控制的情况下快速协调行为，解决了规范的分散学习与共享遵循之间的矛盾，展现了一种与传统模型自由增强学习不同的结构化规范学习过程。//[LG]《Learning and Sustaining Shared Normative Systems via Bayesian Rule Induction in Markov Games》 No 20. 几篇论文实现代码 No 21. OasysDB：可嵌入、高效且易于使用的向量数据库，可作为库嵌入到AI应用中。采用Rust编写，使用Sled作为持久化存储引擎，将向量集合保存到磁盘 No 22. [CL] Data-driven Discovery with Large Generative Models 网页链接 ...... No 23. Mamba通俗解析 No 24. 用监督学习模型预测时间序列数据：将时间序列数据特征化为经典机器学习模型的标准表格数据，用AutoML提高精度 No 25. libLLM: 专为在普通个人电脑和移动设备上高效推理大型语言模型(LLM)而设计的开源项目 No 26. [CL]《Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive》 No 27. 出门问问序列猴子开源数据集：出门问问提供的超大规模语言模型，基于其通用的表示与推理能力，支持多轮交互，能够大幅度提高生产效率和数据处理能力，被广泛应用于问答系统、自然语言处理、机器翻译、文本摘要等领域 No 28. [LG] LiGNN: Graph Neural Networks at LinkedIn 介绍了LinkedIn部署的大规模图神经网络(GNN)框架LiGNN，分享了在LinkedIn大规模开发和部署GNN的经验。LiGNN通过算法改进提高了GNN表示学习的质量，解决了图的动态性、多样实体统一嵌入、以及用户活跃度不足导致的冷启动问题。 ...... No 29. 分析了transformer中softmax注意力如何通过调节其注意力窗口来适应预训练任务中共享的Lipschitz性质，通过理论与实验证实这种适应性是softmax激活特有的，这对于理解Transformer如何在没有额外训练的情况下适应新环境并实现上下文学习至关重要。 No 30. 2024年LLM研究趋势：模型合并，专家混合，更小的LLM No 31. Stable Video视频生成正式上线 No 32. DebateTree：用于可视化辩论的语言链应用，灵感源自思维树推理 No 33. Library of Phi：Phi图书馆，旨在使高质量教材普及化。利用人工智能方法，处理MIT开放式课程网站等公开课程大纲，并将检索增强生成技术(RAG)应用于WIKI，以尽可能让教材基于事实，所有教材均使用GPT-3.5和GPT-4生成 No 34. KITTI Motion Compensation Library：KITTI运动补偿库，解决了KITTI激光雷达滚动快门效应带来的畸变问题 No 35. globot：基于playwright和GPT-4V控制浏览器的agent No 36. [LG] Bayesian Reward Models for LLM Alignment 网页链接探讨了大型语言模型(LLM)在与人类偏好对齐时存在的问题及解决方法。传统上，我们通过人类偏好数据微调奖励模型，使用最佳n个样本(BoN)抽样或通过人工反馈强化学习(RLHF)来选择高奖励响应。然而，这个过程存在奖励过度优化或黑 ...... No 37. 从零开始构建扩散模型理论 No 38. [CL] ∞Bench: Extending Long Context Evaluation Beyond 100K ...... No 39. [CL] Cleaner Pretraining Corpus Curation with Neural Web Scraping ...... No 40. [LG] PRISE: Learning Temporal Action Abstractions as a Sequence ...... No 41. 中国科研常用LaTeX模板集：整理中国科研常用的LaTeX模板的资源集合，包括国家自然科学基金的正文模板、毕业论文等 No 42. [CL] A Survey on Knowledge Distillation of Large Language Models ...... No 43. AI透明背景贴纸生成，基于Stickers SDXL lora和BRIA’s remove background tool No 44. 分析在高维正则化回归中重采样方法(如子采样、bootstrap和jackknife)的性能，揭示了这些方法在高维情况下的问题，特别是在过参数化情况下即使进行了最优正则化也无法提供一致的预测，同时提供了在较大样本维度比率下的可靠误差估计方法及其收敛速率，为高维监督学习中的不确定性量化提供了新的视角。//[LG]《Analysis of Bootstrap and Subsampling in High-dimensional Regularized Regression》 No 45. [CL]《Chain-of-Thought Reasoning Without Prompting》 No 46. [LG]《Analysis of Bootstrap and Subsampling in High-dimensional Regularized Regression》 No 47. trzsz-ssh ( tssh )：SSH客户端的替代品，除了提供标准功能外，还增加了诸如登录提示、trzsz(trz / tsz)、批量登录、记住密码、zmodem(rz / sz)等实用功能 No 48. [LG]《How Transformers Learn Causal Structure with Gradient Descent》 No 49. Matryoshka嵌入模型介绍 No 50. pixel-profile：利用GitHub数据生成像素艺术头像。借助Github Readme Stats、Resvg Js和Satori等工具，该项目不仅可以生成GitHub统计卡片，还支持自定义样式