Open fly51fly opened 4 weeks ago
No 1. Tabled:一款能从PDF和图片中智能识别并提取表格数据的小工具,支持输出为Markdown和CSV格式,让你的数据整理工作更轻松 No 2. Awesome O1:收集了与 OpenAI 的 o1 相关的研究论文,并提供了相关的文件和脚本 No 3. #免费##抽奖# 携手@图灵新知 送出3本《算法图解(第2版)》 No 4. #免费##抽奖# 携手@博文视点Broadview 送出3本《大模型推荐系统:算法原理、代码实战与案例分析》 No 5. Mini-Omni2:一款多模态交互模型,能听懂图像、音频和文本输入,并能与用户进行端到端的语音对话,具有实时语音输出和灵活的交互能力 No 6. 早![太阳] No 7. Open Canvas:开源的网络应用程序,旨在与代理合作编写文档,灵感来源于 OpenAI 的 'Canvas',但具有一些关键的差异,如开源代码、内置记忆功能、以及从现有文档开始工作的能力 No 8. [LG] A Hitchhiker's Guide to Scaling Law Estimation 本文通过大规模实证研究,揭示了大型语言模型训练中规模律估计的最佳实践,特别是强调了利用中间训练检查点、模型规模与数量的权衡以及规模律参数潜在简化的反直觉发现,为高效的模型预训练决策提供了重要指导。 ...... No 9. Icechunk:开源的云原生事务式张量存储引擎,旨在提供高性能、协作和安全的数据存储解决方案,特别适用于云对象存储 No 10. [LG]《Agent-as-a-Judge: Evaluate Agents with Agents》 No 11. [LG]《Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models》 No 12. MODEL SWARMS 提出了一种基于群体智能的LLM协同搜索适配算法,无需微调,在低数据场景下即可灵活适应多种目标,并能涌现出模型初始检查点中未曾预见的全新能力,显著优于现有基线方法。 No 13. 手把手教你用C语言打造自己的张量库:从零开始理解神经网络,不依赖任何高级库,只用基础的数学和C语言 No 14. [RO]《Latent Action Pretraining from Videos》 No 15. [CL]《Thinking LLMs: General Instruction Following with Thought Generation》 No 16. AgentStack:快速构建强大AI Agent的工具,提供从命令行创建AI Agent项目的简便方法,无需复杂配置,即可快速开始开发 No 17. Pumpkin:由 Rust 编写的 Minecraft 服务器,旨在提供高性能、高兼容性和高安全性的服务器解决方案,同时支持插件开发和高度可配置性 No 18. 数字人动作视频生成资源库:汇总2D数字人动作视频生成的最新研究,包括论文、数据集和代码库,特色在于按视觉、文本、音频驱动分类,并明确五大生成阶段 No 19. Cirkit:用于构建、学习和推理概率机器学习模型的 Python 框架,特别是用于概率电路和张量网络 No 20. 今日推介(第1561期):通过群体智能协作搜索来自适应LLM专家、用Agent评估智Agent、连续时间一致性模型的简化稳定和扩展、智能体化信息检索、视频潜动作预训练 ...... No 21. ComfyUI-Fluxtapoz:用于 ComfyUI 中 Flux 图像拼接的节点,支持图像编辑和风格迁移,并且包含了一些示例工作流程和不同的图像反转技术 No 22. LAPA 提出了一种无监督的视觉-语言-动作模型预训练方法,通过学习离散的潜在动作表示,有效利用了大规模无标签视频数据,显著提升了模型的性能和泛化能力,并实现了超过30倍的预训练效率提升,为构建通用的机器人基础模型提供了新的途径,但仍存在细粒度动作生成和实时推理等方面的局限性。//[RO]《Latent Action Pretraining from Videos》 No 23. 数学好书推荐:一个汇集了各种数学书籍资源的宝库,无论你是数学专业的学生还是对数学感兴趣的爱好者,都能在这里找到丰富的学习材料和参考书籍 No 24. 欢迎收听「爱可可AI前沿快报」,用最通俗的语言,介绍最前沿的学术进展,思考新成果带给我们的启发,即使你是中学生,也能有所收获! ...... No 25. 晚安~ [月亮] No 26. CleanS2S:语音到语音 (S2S) 的原型智能体,提供高质量的流式交互,并采用单文件实现 No 27. HAMi:针对 Kubernetes 的异构 AI 计算虚拟化中间件,用于管理和调度各种异构设备,如 GPU 和 NPU,以实现设备资源的共享和隔离 No 28. [LG]《On Information-Theoretic Measures of Predictive Uncertainty》 No 29. [IR]《Agentic Information Retrieval》 No 30. 「TAI前沿」第9期 红杉资本揭示AI应用层革命与推理新纪元 No 31. 医学图像配准资源库:汇集了关于医学图像配准的各类有用资料、论文和代码,是该领域研究者的宝贵资料库 No 32. Adaline Gateway:一款本地生产级别的超级软件开发工具包SDK,提供简单、统一且强大的接口,可调用200多种大型语言模型LLMs,支持本地部署,功能丰富,不依赖外部代理 No 33. 日常使用的AI工具推荐,涵盖多个领域:(via Alvaro Cintas ) 日常工作: ChatGPT (聊天机器人,用于各种日常任务) ...... No 34. 本文发现大型语言模型中混合专家架构的路由权重可以作为一种无需额外训练的有效嵌入方法,并提出了一种结合路由权重和隐藏状态的MOEE嵌入模型,在多个文本嵌入任务上显著提升了性能,展现了大型语言模型的潜在能力及其内部机制的丰富信息。//[CL]《Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free》 No 35. Web Visual Editor:一个直观的HTML编辑器,让你在浏览器中实时编辑和预览HTML文件,支持拖拽、复制粘贴等操作,并且与VSCode无缝集成 No 36. Skore:允许数据科学家通过 Python 代码创建跟踪和可视化的工具,支持存储多种类型的对象,并提供一个用户友好的仪表板来组织和导出这些对象到 HTML 文件 No 37. [CL]《Differential Transformer》 No 38. [CL]《Model Swarms: Collaborative Search to Adapt LLM Experts via Swarm Intelligence》 No 39. 几篇论文实现代码 No 40. AsrTools:智能语音转文字工具,集成了剪映、快手、必剪的官方接口,支持高效的批量处理,提供用户友好的界面,无需 GPU,可以免费使用大厂的 ASR 服务,支持 SRT 和 TXT 格式的输出 No 41. [LG]《Don't Transform the Code, Code the Transforms: Towards Precise Code Rewriting using LLMs》 No 42. 本文提出了一种简化、稳定且可扩展的连续时间一致性模型训练方法,通过 TrigFlow 框架和一系列改进,在高分辨率图像生成任务上取得了显著成果,并以极低的计算成本达到了与最先进扩散模型相当的性能。//[LG]《Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models》 No 43. CuiCui:一个开源的动画组件库,使用React、Typescript、Tailwind CSS和Framer Motion构建,提供可复制粘贴的高质量UI元素和模板,助你快速打造专业级网站和SaaS平台 No 44. 智能文档助手:通过视觉语言模型与你的文档进行对话,这个项目实现了一个端到端的RAG(Retrieval-Augmented Generation)流程,支持本地和专有的视觉语言模型 No 45. DROID-Splat:一款结合了相机校准、单目深度预测和密集渲染的端到端SLAM系统,能够实时优化姿态和3D重建 No 46. 为自然语言处理打造的先进工具库,提供预训练模型,支持文本分类、问答、翻译等多种语言任务,让NLP技术更易用 No 47. Block Sparse Attention:支持混合稀疏模式的稀疏注意力核心库,主要用于优化大型语言模型的计算性能,有效降低推理成本 No 48. Boring SSH隧道管理器:轻量级的命令行 SSH 隧道管理器,用于简化和自动化 SSH 隧道的创建和管理,具备轻量级、快速连接、自动重连等特点,支持本地和远程隧道,兼容SSH配置和ssh-agent No 50. mcts-llm:集成了蒙特卡洛树搜索(MCTS)和提示工程技术的轻量级项目,旨在提高大型语言模型(LLMs)的性能
No 1. Tabled:一款能从PDF和图片中智能识别并提取表格数据的小工具,支持输出为Markdown和CSV格式,让你的数据整理工作更轻松 No 2. Awesome O1:收集了与 OpenAI 的 o1 相关的研究论文,并提供了相关的文件和脚本 No 3. #免费##抽奖# 携手@图灵新知 送出3本《算法图解(第2版)》 No 4. #免费##抽奖# 携手@博文视点Broadview 送出3本《大模型推荐系统:算法原理、代码实战与案例分析》 No 5. Mini-Omni2:一款多模态交互模型,能听懂图像、音频和文本输入,并能与用户进行端到端的语音对话,具有实时语音输出和灵活的交互能力 No 6. 早![太阳] No 7. Open Canvas:开源的网络应用程序,旨在与代理合作编写文档,灵感来源于 OpenAI 的 'Canvas',但具有一些关键的差异,如开源代码、内置记忆功能、以及从现有文档开始工作的能力 No 8. [LG] A Hitchhiker's Guide to Scaling Law Estimation 本文通过大规模实证研究,揭示了大型语言模型训练中规模律估计的最佳实践,特别是强调了利用中间训练检查点、模型规模与数量的权衡以及规模律参数潜在简化的反直觉发现,为高效的模型预训练决策提供了重要指导。 ...... No 9. Icechunk:开源的云原生事务式张量存储引擎,旨在提供高性能、协作和安全的数据存储解决方案,特别适用于云对象存储 No 10. [LG]《Agent-as-a-Judge: Evaluate Agents with Agents》 No 11. [LG]《Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models》 No 12. MODEL SWARMS 提出了一种基于群体智能的LLM协同搜索适配算法,无需微调,在低数据场景下即可灵活适应多种目标,并能涌现出模型初始检查点中未曾预见的全新能力,显著优于现有基线方法。 No 13. 手把手教你用C语言打造自己的张量库:从零开始理解神经网络,不依赖任何高级库,只用基础的数学和C语言 No 14. [RO]《Latent Action Pretraining from Videos》 No 15. [CL]《Thinking LLMs: General Instruction Following with Thought Generation》 No 16. AgentStack:快速构建强大AI Agent的工具,提供从命令行创建AI Agent项目的简便方法,无需复杂配置,即可快速开始开发 No 17. Pumpkin:由 Rust 编写的 Minecraft 服务器,旨在提供高性能、高兼容性和高安全性的服务器解决方案,同时支持插件开发和高度可配置性 No 18. 数字人动作视频生成资源库:汇总2D数字人动作视频生成的最新研究,包括论文、数据集和代码库,特色在于按视觉、文本、音频驱动分类,并明确五大生成阶段 No 19. Cirkit:用于构建、学习和推理概率机器学习模型的 Python 框架,特别是用于概率电路和张量网络 No 20. 今日推介(第1561期):通过群体智能协作搜索来自适应LLM专家、用Agent评估智Agent、连续时间一致性模型的简化稳定和扩展、智能体化信息检索、视频潜动作预训练 ...... No 21. ComfyUI-Fluxtapoz:用于 ComfyUI 中 Flux 图像拼接的节点,支持图像编辑和风格迁移,并且包含了一些示例工作流程和不同的图像反转技术 No 22. LAPA 提出了一种无监督的视觉-语言-动作模型预训练方法,通过学习离散的潜在动作表示,有效利用了大规模无标签视频数据,显著提升了模型的性能和泛化能力,并实现了超过30倍的预训练效率提升,为构建通用的机器人基础模型提供了新的途径,但仍存在细粒度动作生成和实时推理等方面的局限性。//[RO]《Latent Action Pretraining from Videos》 No 23. 数学好书推荐:一个汇集了各种数学书籍资源的宝库,无论你是数学专业的学生还是对数学感兴趣的爱好者,都能在这里找到丰富的学习材料和参考书籍 No 24. 欢迎收听「爱可可AI前沿快报」,用最通俗的语言,介绍最前沿的学术进展,思考新成果带给我们的启发,即使你是中学生,也能有所收获! ...... No 25. 晚安~ [月亮] No 26. CleanS2S:语音到语音 (S2S) 的原型智能体,提供高质量的流式交互,并采用单文件实现 No 27. HAMi:针对 Kubernetes 的异构 AI 计算虚拟化中间件,用于管理和调度各种异构设备,如 GPU 和 NPU,以实现设备资源的共享和隔离 No 28. [LG]《On Information-Theoretic Measures of Predictive Uncertainty》 No 29. [IR]《Agentic Information Retrieval》 No 30. 「TAI前沿」第9期 红杉资本揭示AI应用层革命与推理新纪元 No 31. 医学图像配准资源库:汇集了关于医学图像配准的各类有用资料、论文和代码,是该领域研究者的宝贵资料库 No 32. Adaline Gateway:一款本地生产级别的超级软件开发工具包SDK,提供简单、统一且强大的接口,可调用200多种大型语言模型LLMs,支持本地部署,功能丰富,不依赖外部代理 No 33. 日常使用的AI工具推荐,涵盖多个领域:(via Alvaro Cintas ) 日常工作: ChatGPT (聊天机器人,用于各种日常任务) ...... No 34. 本文发现大型语言模型中混合专家架构的路由权重可以作为一种无需额外训练的有效嵌入方法,并提出了一种结合路由权重和隐藏状态的MOEE嵌入模型,在多个文本嵌入任务上显著提升了性能,展现了大型语言模型的潜在能力及其内部机制的丰富信息。//[CL]《Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free》 No 35. Web Visual Editor:一个直观的HTML编辑器,让你在浏览器中实时编辑和预览HTML文件,支持拖拽、复制粘贴等操作,并且与VSCode无缝集成 No 36. Skore:允许数据科学家通过 Python 代码创建跟踪和可视化的工具,支持存储多种类型的对象,并提供一个用户友好的仪表板来组织和导出这些对象到 HTML 文件 No 37. [CL]《Differential Transformer》 No 38. [CL]《Model Swarms: Collaborative Search to Adapt LLM Experts via Swarm Intelligence》 No 39. 几篇论文实现代码 No 40. AsrTools:智能语音转文字工具,集成了剪映、快手、必剪的官方接口,支持高效的批量处理,提供用户友好的界面,无需 GPU,可以免费使用大厂的 ASR 服务,支持 SRT 和 TXT 格式的输出 No 41. [LG]《Don't Transform the Code, Code the Transforms: Towards Precise Code Rewriting using LLMs》 No 42. 本文提出了一种简化、稳定且可扩展的连续时间一致性模型训练方法,通过 TrigFlow 框架和一系列改进,在高分辨率图像生成任务上取得了显著成果,并以极低的计算成本达到了与最先进扩散模型相当的性能。//[LG]《Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models》 No 43. CuiCui:一个开源的动画组件库,使用React、Typescript、Tailwind CSS和Framer Motion构建,提供可复制粘贴的高质量UI元素和模板,助你快速打造专业级网站和SaaS平台 No 44. 智能文档助手:通过视觉语言模型与你的文档进行对话,这个项目实现了一个端到端的RAG(Retrieval-Augmented Generation)流程,支持本地和专有的视觉语言模型 No 45. DROID-Splat:一款结合了相机校准、单目深度预测和密集渲染的端到端SLAM系统,能够实时优化姿态和3D重建 No 46. 为自然语言处理打造的先进工具库,提供预训练模型,支持文本分类、问答、翻译等多种语言任务,让NLP技术更易用 No 47. Block Sparse Attention:支持混合稀疏模式的稀疏注意力核心库,主要用于优化大型语言模型的计算性能,有效降低推理成本 No 48. Boring SSH隧道管理器:轻量级的命令行 SSH 隧道管理器,用于简化和自动化 SSH 隧道的创建和管理,具备轻量级、快速连接、自动重连等特点,支持本地和远程隧道,兼容SSH配置和ssh-agent No 50. mcts-llm:集成了蒙特卡洛树搜索(MCTS)和提示工程技术的轻量级项目,旨在提高大型语言模型(LLMs)的性能