Closed XiangyunHuang closed 1 year ago
美团点评效果广告实验配置平台的设计与实现 https://tech.meituan.com/2019/11/28/advertising-performance-experiment-configuration-platform.html 美团配送A/B评估体系建设实践 https://tech.meituan.com/2020/05/28/peisong-a-b-test.html 适用于在线服务的 A/B 测试方法论 http://www.fengjunchen.com/ 广告界的因果推断挑战,陈丽云,2021, https://cosx.org/2021/02/cause-and-effect-in-ads/
Somers' D https://en.wikipedia.org/wiki/Somers%27_D Jonckheere's trend test https://en.wikipedia.org/wiki/Jonckheere%27s_trend_test Cochran's Q test https://en.wikipedia.org/wiki/Cochran%27s_Q_test Cramér's V https://en.wikipedia.org/wiki/Cram%C3%A9r's_V
比例优势检验 The Paired 2x2 Table https://folk.universitetetioslo.no/mortenfa/SACT/FagerlandLydersenLaake2017-chap8.pdf Statistical Analysis of Contingency Tables https://contingencytables.com/sample-chapter 卡方统计量和F统计量的等价性 O’Brien, & Francis J., Jr. (1982). A Proof That t2 and F are Identical: The General Case. https://likan.info/en/post/2017-05-23-f-statistic-and-t-square-are-identical/
常见检验都是线性模型 渐近理想国:McNemar 检验的两种统计量 Bootstrap 方法和置换/秩检验(Permutation Test)的入门读物 t 检验方差不齐有多重要 Cohen's d 统计分布的检验 对标 SAS JMP 试验设计指南,SAS 的开源替代,我们可以达到一样的效果,对标给用户以可靠性 https://www.jmp.com/content/dam/jmp/documents/en/support/jmp161/doe-guide.pdf
Octave 的 statistics 扩展包 https://gnu-octave.github.io/statistics/ 非参数统计检验量 R 语言实现 https://likan.info/en/post/2017-05-02-nonparametric-test/ kruskal.test https://en.wikipedia.org/wiki/Kruskal%E2%80%93Wallis_one-way_analysis_of_variance 非参数检验,置换检验框架 coin: Conditional Inference Procedures in a Permutation Test Framework 三大检验 Wald, score, LRT: the picture 检验方法统一起来 Universal inference Larry Wasserman Aaditya Ramdas Sivaraman Balakrishnan
@Mangiafico2015 为书籍《Handbook of Biological Statistics》[@McDonald2014] 提供 R 语言版的代码实现,原书使用 Excel 来做统计检验和分析,其后,又扩充了很多内容,形成自己的书《Summary and Analysis of Extension Program Evaluation in R》[@Mangiafico2016],不得不承认在 R 语言流行之前, Excel 是非常强大的统计分析工具。可以说,Mangiafico 给我们指了一条很好的路径:先学习,后积累,再创作。
Summary and Analysis of Extension Program Evaluation in R 介绍了各类假设检验方法 几个正态性检验的功效比较 https://arxiv.org/ftp/arxiv/papers/1605/1605.06293.pdf 和 PoweR 包 [@JSS_2016_PoweR] 从心理学和可视化的角度谈 Cohen's d https://rpsychologist.com/d3/cohend/ 从抛硬币到 P 值和统计显著性 https://blog.ephorie.de/from-coin-tosses-to-p-hacking-make-statistics-significant-again 一分钟学会 A/B 测试 https://blog.ephorie.de/learning-data-science-a-b-testing-in-under-one-minute 一个样本量计算器 https://github.com/pieces201020/AB-Test-Sample-Size-Calculator 功效和样本量计算器 https://powerandsamplesize.com/ precisely 包实现 @Rothman2018 提出的方法---根据置信区间的宽度而不是功效计算样本量。 PowerUpR [@PowerUpR2021] PowerTOST pwr Superpower 基于随机模拟的因子试验功效分析 https://aaroncaldwell.us/SuperpowerBook/
https://rstudio.com/resources/rstudioconf-2019/building-an-a-b-testing-analytics-system-with-r-and-shiny/ https://en.m.wikipedia.org/wiki/Multi-armed_bandit https://cosx.org/2017/05/Bandit-and-recommender-systems https://stats.stackexchange.com/questions/15052/bayesian-ab-testing 非平衡的 A/B 试验设计 Optimal unbalanced design for A/B test Wilcoxon (WMWU) test sensitivity 检验的灵敏性 https://www.evanmiller.org/ab-testing/sample-size.html https://www.volcengine.com/product/datatester https://resources.rstudio.com/shiny-2 https://rappa.shinyapps.io/estimator-variance/ http://varianceexplained.org/r/simulation-bayes-baseball/
MKpower 包提供 Welch 和 Hsu(许宝騄)t 检验、Wilcoxon 秩和检验、符号秩检验的功效分析和样本量计算,经验功效和第一类错误的计算方法是蒙特卡罗模拟。Superpower 基于模拟的方法分析三因素方差分析实验设计的功效,开发者写了本书介绍,详见 https://aaroncaldwell.us/SuperpowerBook/,也开发了两个 Shiny 应用。powerlmm 可用于计算两、三个水平的纵向多水平/线性混合效应模型的功效。pwrAB Welch 两样本 t 检验的功效分析,常用于 A/B 测试。Metin Bulus 开发 PowerUpR 计算响应变量是连续型的多水平随机对照实验统计功效,最小可检测的效应大小,最小样本量要求。simr 通过模拟方法分析广义线性混合效应模型的功效。WebPower 提供相关性、比例、t 检验、单因素方差分析、两因素方差分析、线性回归、逻辑回归、泊松回归、纵向数据分析、结构方程模型和多水平模型等的功效分析,详见网站 https://webpower.psychstat.org/,包含书籍和功效分析的工具。PowerAnalysisIL 功效分析的 shiny 应用 http://daniellakens.blogspot.com/2015/01/always-use-welchs-t-test-instead-of.html。
高维列联表,联合独立性检验,条件独立性检验,耶茨连续矫正是什么意思 多维列联表 http://staff.ustc.edu.cn/~jbs/CDA/chapt22.pdf Statistical Analysis of Contingency Tables https://contingencytables.com/ 卡方检验的理论,耶茨连续矫正 https://bookdown.org/ssjackson300/ASM_Lecture_Notes/twocontingencytables.html#chi-square-test
# 分类数据
library(vcdExtra)
datasets(package = c("vcd", "vcdExtra"))
CRAN 上有很多功效计算和分析的 R 包,我们针对不同的混合效应模型和统计检验,提供对应的 R 实现。
lmerTest [@Kuznetsova_2017_lmerTest] 和 lmtest [@Zeileis_2002_lmtest]。 试验设计 [@Design_2004_Mao] 可以视为一种组织形式,包括各类检验, R 语言实战 [@Action_2015_Robert] 作者 Robert I. Kabacoff 创建了网站 Quick-R,实战这本书第 10 章功效分析主要基于 pwr 包来介绍,Jacob Cohen 的著作《Statistical Power Analysis for the Behavioral Sciences》第二版 [@Cohen1988]
pbkrtest 提供 parametric bootstrap test、Kenward-Roger-type F-test、Satterthwaite-type F-test 用于线性混合效应模型,parametric bootstrap test 用于广义线性混合效应模型
lmerTest 和 lmtest 从命名空间导入函数的方式来计算,以免引起冲突、同时能尽量减少对运行环境的污染
plotly 和 mermaid 不能出现在同一个 qmd 文档里,存在冲突,导致奇怪的错误(反正我是不清楚)。而且化简后,又复现不了问题。soul 宏包不支持 A 波浪线。