Open fly51fly opened 1 month ago
No 1. ProxyCat:一款代理池中间件,能将临时IP变成固定IP,适用于需要频繁更换IP的网络操作,如网络安全测试 No 2. 向量数据库列表:集合了多种向量数据库资源的列表,用于存储、管理和搜索高维数据,适用于机器学习和人工智能领域 No 3. Semantic Cache:基于语义相似性而非字面相等的模糊键值存储工具,适用于需要根据语义查询或检索信息的场景,如自然语言分类或缓存AI响应 No 4. Dataformer:旨在解决大型语言模型(LLMs)数据问题的开源项目,它提供了一个框架来创建高质量的合成数据集 No 5. Midi Music Generator:音乐创作助手,能够根据用户的指令生成MIDI格式的音乐,适合音乐爱好者和制作人使用,具有易于操作和快速生成音乐的特点 No 6. 探讨基于大型语言模型(LLM)的聊天机器人缺乏目的感的问题,并提出通过引入目的性对话系统来解决这一问题的方法 No 7. 悟空AI:一款基于强化学习的ARPG/魂类游戏AI演示,能自主学习游戏操作,提升玩家体验,可用于在黑神话悟空等 ARPG/Soul-like 游戏中自主学习战斗场景和跑图策略 No 8. JIT Implementation:一个Python库,能即时生成代码,让程序自己编写自己,特别适合不想写代码的懒人 No 9. Reverb开源语音识别:一款基于WeNet框架的语音识别工具,支持长文本语音转文字,具有高精度和快速处理的特点,适用于语音数据的分析和处理 No 10. 晚安~ [月亮] No 11. minGRU-pytorch:一种在Pytorch中实现的minGRU,用于提高深度学习模型的效率和稳定性,特别适合处理序列数据 No 12. Swiftide:用Rust编写的快速、流式索引和查询库,专为AI应用(特别是 RAG 应用)设计,能高效处理大量数据,支持快速查询,适用于构建智能应用 No 13. [CL]《Selective Attention Improves Transformer》 No 14. 早![太阳] No 15. CAX:高性能的元胞自动机库,基于JAX/Flax构建,适用于研究和探索自组织系统 No 16. [LG]《softmax is not enough (for sharp out-of-distribution)》 No 17. [LG]《Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models》 No 18. 语音助手:基于OpenAI实时API的智能语音Agent,能通过语音指令调用不同的工具,实现语音控制和交互 No 19. LiveKit + OpenAI Realtime Playground:允许用户在浏览器中体验 OpenAI 新的实时 API 的平台 No 20. 标准开放机械臂SO-ARM100:一款开源的机械臂项目,旨在提供标准化的四轴机械臂设计,方便爱好者和开发者进行远程操作和编程学习,项目代码、设计文件和使用手册均托管在 GitHub 上,方便用户下载和参与贡献 No 21. 旨在实现基于熵的采样和并行链式思维(CoT)解码,目前支持 llama3.1+ 模型,计划支持 DeepSeekV2+ 和 Mistral Large (123B) 模型 No 22. [LG]《GUD: Generation with Unified Diffusion》 No 23. 几篇论文实现代码 No 24. [LG]《A Watermark for Black-Box Language Models》 No 25. kew:Linux终端音乐播放器,在命令行界面享受音乐,支持多种音频格式,具有搜索音乐库、创建播放列表、控制播放等功能,界面简洁,操作方便 No 26. BlinkShot:实时AI图像生成器,能够快速生成高质量的图像,支持自定义分辨率和生成步骤,适合艺术创作和设计领域 No 27. GPU模式教程:为GPU编程爱好者提供的系列讲座资料,涵盖了从基础到高级的GPU编程技巧,特色在于实战案例和代码分享 No 28. Data Gemma:一个开源模型库,旨在通过谷歌数据共享平台的海量真实世界统计数据,帮助解决语言模型的幻觉问题,实现语言模型的现实世界数据锚定。主要采用检索交错生成(RIG)和检索增强生成(RAG)两种方法 No 29. 用 Groq API实现 Deeplearning.ai 定义的 4 种从头实现的 agentic 模式的项目,提升大型语言模型(LLM)的响应性能,支持自定义工具访问外部信息,规划复杂任务的执行步骤,以及多代理协作完成任务 No 30. DuckSearch:基于 DuckDB 的轻量级文档搜索库,它支持 BM25 算法,并且能够高效地更新索引和删除文档,同时还支持 HuggingFace 数据集的直接索引 No 31. 视频转文字助手:一键提取YouTube视频音频并转写成文字,适用于快速生成视频字幕或记录视频内容,特色是使用OpenAI的Whisper模型进行准确转写 No 32. 提出一种无需参数的选择性注意力机制,通过选择性地忽略不相关信息并进行上下文剪枝,在不增加计算复杂度的情况下显著提升了Transformer模型的语言建模性能和推理效率。//[CL]《Selective Attention Improves Transformer》 No 33. [LG]《Were RNNs All We Needed?》 No 34. MOSEL:公开的、包含超过 950,000 小时开源语音数据的 GitHub 仓库,旨在为欧盟语言的开源语音基础模型训练提供资源 No 35. Stricli:用于构建复杂命令行界面(CLI)的框架,它支持类型安全,并且不依赖其他库 No 36. 本文提出一种名为自适应投影引导(APG)的新方法,通过巧妙地分解和重组分类器无关引导(CFG)的更新规则,并结合重缩放和反向动量,有效解决了高引导尺度下CFG导致的图像过饱和和伪影问题,在多个指标上显著优于CFG,且计算开销极低。//[LG]《Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models》 No 37. AI实操Excel:通过Excel实现人工智能基础算法的练习工具,让你亲手体验和学习AI的核心操作,如Softmax、LeakyReLU等,适合初学者和爱好者 No 38. WebLLM Playground:开源的前端项目,旨在在浏览器中运行大型语言模型(LLM),通过 MLC-LLM 和 WebLLM Chat 实现,支持用户通过简单的界面与模型进行交互,无需复杂的配置或安装 No 39. [CL]《RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning》 No 40. Speakeasy CLI:企业级API开发体验,一键生成高质量SDK、Terraform提供者、文档等,简化API集成过程 No 41. nano-pgo:从头开始、单文件、纯Python实现的姿态图优化项目,旨在教育目的,最小化依赖,易于理解和使用 No 42. o1推理链:旨在用 Groq、OpenAI 或 Ollama 等技术创建类似 o1 的推理链,以提高大型语言模型(LLMs)的逻辑推理能力 No 43. [LG] A Survey on Diffusion Models for Inverse Problems 对利用预训练扩散模型解决逆问题的各种方法进行了全面综述,通过统一的数学框架揭示了不同方法的内在联系和近似策略,并指出了该领域未来研究的关键方向,特别是对近似误差分析和标准化基准测试的呼吁。 ...... No 44. 机器学习入门课:为大学生设计的机器学习基础课程,包含幻灯片、Jupyter笔记本和练习题,仍在更新中 No 45. PandaETL:一个无需编程的ETL(提取、转换、加载)工具,能从PDF、电子邮件、网站、音频文件等多种文档中提取和解析数据,提供直观的界面和强大的后端支持,让数据提取和转换变得简单易用 No 46. 本文提出的 RLEF 方法通过强化学习巧妙地利用代码执行反馈,在代码合成任务中实现了显著的性能提升和样本效率的极大提高,其发现——迭代式代码生成结合强化学习能够有效利用执行反馈——为 LLM 的自主运行能力带来了突破性进展。//[CL]《RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning》 No 47. 今日推介(第1548期):让RNN再次复兴、Softmax引发的“注意力分散”问题研究、利用代表性典型估计查找异常值、用位置注意力提升神经算法推理的分布外泛化和表现力、LLM推理能力差异研究 ...... No 48. 数据准备工具箱:旨在为大型语言模型(LLM)应用程序开发者提供数据准备的工具和方法,包含多种数据处理模块,支持从个人电脑到数据中心规模的数据加工,支持代码和自然语言等多种数据模式 No 49. MAT3341 Applied Linear Algebra: 一份详尽的应用线性代数课程笔记,涵盖矩阵算法、范数、条件数、正交性、对角化等关键概念,帮助理解和解决实际线性系统问题 No 50. 本文证明了softmax函数在处理大规模输入时注意力系数会不可避免地分散,并提出自适应温度机制作为权宜之计,最终呼吁探索更能应对大规模输入的替代注意力机制,这颠覆了人们对softmax在推理系统中作用的传统认知。
No 1. ProxyCat:一款代理池中间件,能将临时IP变成固定IP,适用于需要频繁更换IP的网络操作,如网络安全测试 No 2. 向量数据库列表:集合了多种向量数据库资源的列表,用于存储、管理和搜索高维数据,适用于机器学习和人工智能领域 No 3. Semantic Cache:基于语义相似性而非字面相等的模糊键值存储工具,适用于需要根据语义查询或检索信息的场景,如自然语言分类或缓存AI响应 No 4. Dataformer:旨在解决大型语言模型(LLMs)数据问题的开源项目,它提供了一个框架来创建高质量的合成数据集 No 5. Midi Music Generator:音乐创作助手,能够根据用户的指令生成MIDI格式的音乐,适合音乐爱好者和制作人使用,具有易于操作和快速生成音乐的特点 No 6. 探讨基于大型语言模型(LLM)的聊天机器人缺乏目的感的问题,并提出通过引入目的性对话系统来解决这一问题的方法 No 7. 悟空AI:一款基于强化学习的ARPG/魂类游戏AI演示,能自主学习游戏操作,提升玩家体验,可用于在黑神话悟空等 ARPG/Soul-like 游戏中自主学习战斗场景和跑图策略 No 8. JIT Implementation:一个Python库,能即时生成代码,让程序自己编写自己,特别适合不想写代码的懒人 No 9. Reverb开源语音识别:一款基于WeNet框架的语音识别工具,支持长文本语音转文字,具有高精度和快速处理的特点,适用于语音数据的分析和处理 No 10. 晚安~ [月亮] No 11. minGRU-pytorch:一种在Pytorch中实现的minGRU,用于提高深度学习模型的效率和稳定性,特别适合处理序列数据 No 12. Swiftide:用Rust编写的快速、流式索引和查询库,专为AI应用(特别是 RAG 应用)设计,能高效处理大量数据,支持快速查询,适用于构建智能应用 No 13. [CL]《Selective Attention Improves Transformer》 No 14. 早![太阳] No 15. CAX:高性能的元胞自动机库,基于JAX/Flax构建,适用于研究和探索自组织系统 No 16. [LG]《softmax is not enough (for sharp out-of-distribution)》 No 17. [LG]《Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models》 No 18. 语音助手:基于OpenAI实时API的智能语音Agent,能通过语音指令调用不同的工具,实现语音控制和交互 No 19. LiveKit + OpenAI Realtime Playground:允许用户在浏览器中体验 OpenAI 新的实时 API 的平台 No 20. 标准开放机械臂SO-ARM100:一款开源的机械臂项目,旨在提供标准化的四轴机械臂设计,方便爱好者和开发者进行远程操作和编程学习,项目代码、设计文件和使用手册均托管在 GitHub 上,方便用户下载和参与贡献 No 21. 旨在实现基于熵的采样和并行链式思维(CoT)解码,目前支持 llama3.1+ 模型,计划支持 DeepSeekV2+ 和 Mistral Large (123B) 模型 No 22. [LG]《GUD: Generation with Unified Diffusion》 No 23. 几篇论文实现代码 No 24. [LG]《A Watermark for Black-Box Language Models》 No 25. kew:Linux终端音乐播放器,在命令行界面享受音乐,支持多种音频格式,具有搜索音乐库、创建播放列表、控制播放等功能,界面简洁,操作方便 No 26. BlinkShot:实时AI图像生成器,能够快速生成高质量的图像,支持自定义分辨率和生成步骤,适合艺术创作和设计领域 No 27. GPU模式教程:为GPU编程爱好者提供的系列讲座资料,涵盖了从基础到高级的GPU编程技巧,特色在于实战案例和代码分享 No 28. Data Gemma:一个开源模型库,旨在通过谷歌数据共享平台的海量真实世界统计数据,帮助解决语言模型的幻觉问题,实现语言模型的现实世界数据锚定。主要采用检索交错生成(RIG)和检索增强生成(RAG)两种方法 No 29. 用 Groq API实现 Deeplearning.ai 定义的 4 种从头实现的 agentic 模式的项目,提升大型语言模型(LLM)的响应性能,支持自定义工具访问外部信息,规划复杂任务的执行步骤,以及多代理协作完成任务 No 30. DuckSearch:基于 DuckDB 的轻量级文档搜索库,它支持 BM25 算法,并且能够高效地更新索引和删除文档,同时还支持 HuggingFace 数据集的直接索引 No 31. 视频转文字助手:一键提取YouTube视频音频并转写成文字,适用于快速生成视频字幕或记录视频内容,特色是使用OpenAI的Whisper模型进行准确转写 No 32. 提出一种无需参数的选择性注意力机制,通过选择性地忽略不相关信息并进行上下文剪枝,在不增加计算复杂度的情况下显著提升了Transformer模型的语言建模性能和推理效率。//[CL]《Selective Attention Improves Transformer》 No 33. [LG]《Were RNNs All We Needed?》 No 34. MOSEL:公开的、包含超过 950,000 小时开源语音数据的 GitHub 仓库,旨在为欧盟语言的开源语音基础模型训练提供资源 No 35. Stricli:用于构建复杂命令行界面(CLI)的框架,它支持类型安全,并且不依赖其他库 No 36. 本文提出一种名为自适应投影引导(APG)的新方法,通过巧妙地分解和重组分类器无关引导(CFG)的更新规则,并结合重缩放和反向动量,有效解决了高引导尺度下CFG导致的图像过饱和和伪影问题,在多个指标上显著优于CFG,且计算开销极低。//[LG]《Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models》 No 37. AI实操Excel:通过Excel实现人工智能基础算法的练习工具,让你亲手体验和学习AI的核心操作,如Softmax、LeakyReLU等,适合初学者和爱好者 No 38. WebLLM Playground:开源的前端项目,旨在在浏览器中运行大型语言模型(LLM),通过 MLC-LLM 和 WebLLM Chat 实现,支持用户通过简单的界面与模型进行交互,无需复杂的配置或安装 No 39. [CL]《RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning》 No 40. Speakeasy CLI:企业级API开发体验,一键生成高质量SDK、Terraform提供者、文档等,简化API集成过程 No 41. nano-pgo:从头开始、单文件、纯Python实现的姿态图优化项目,旨在教育目的,最小化依赖,易于理解和使用 No 42. o1推理链:旨在用 Groq、OpenAI 或 Ollama 等技术创建类似 o1 的推理链,以提高大型语言模型(LLMs)的逻辑推理能力 No 43. [LG] A Survey on Diffusion Models for Inverse Problems 对利用预训练扩散模型解决逆问题的各种方法进行了全面综述,通过统一的数学框架揭示了不同方法的内在联系和近似策略,并指出了该领域未来研究的关键方向,特别是对近似误差分析和标准化基准测试的呼吁。 ...... No 44. 机器学习入门课:为大学生设计的机器学习基础课程,包含幻灯片、Jupyter笔记本和练习题,仍在更新中 No 45. PandaETL:一个无需编程的ETL(提取、转换、加载)工具,能从PDF、电子邮件、网站、音频文件等多种文档中提取和解析数据,提供直观的界面和强大的后端支持,让数据提取和转换变得简单易用 No 46. 本文提出的 RLEF 方法通过强化学习巧妙地利用代码执行反馈,在代码合成任务中实现了显著的性能提升和样本效率的极大提高,其发现——迭代式代码生成结合强化学习能够有效利用执行反馈——为 LLM 的自主运行能力带来了突破性进展。//[CL]《RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning》 No 47. 今日推介(第1548期):让RNN再次复兴、Softmax引发的“注意力分散”问题研究、利用代表性典型估计查找异常值、用位置注意力提升神经算法推理的分布外泛化和表现力、LLM推理能力差异研究 ...... No 48. 数据准备工具箱:旨在为大型语言模型(LLM)应用程序开发者提供数据准备的工具和方法,包含多种数据处理模块,支持从个人电脑到数据中心规模的数据加工,支持代码和自然语言等多种数据模式 No 49. MAT3341 Applied Linear Algebra: 一份详尽的应用线性代数课程笔记,涵盖矩阵算法、范数、条件数、正交性、对角化等关键概念,帮助理解和解决实际线性系统问题 No 50. 本文证明了softmax函数在处理大规模输入时注意力系数会不可避免地分散,并提出自适应温度机制作为权宜之计,最终呼吁探索更能应对大规模输入的替代注意力机制,这颠覆了人们对softmax在推理系统中作用的传统认知。