使用 ggplot 将 S 形曲线拟合到点
Fitting a sigmoidal curve to points with ggplot
我有一个简单的数据框,用于测量不同剂量药物治疗的反应:
drug <- c("drug_1", "drug_1", "drug_1", "drug_1", "drug_1",
"drug_1", "drug_1", "drug_1", "drug_2", "drug_2", "drug_2",
"drug_2", "drug_2", "drug_2", "drug_2", "drug_2")
conc <- c(100.00, 33.33, 11.11, 3.70, 1.23, 0.41, 0.14,
0.05, 100.00, 33.33, 11.11, 3.70, 1.23, 0.41, 0.14, 0.05)
mean_response <- c(1156, 1833, 1744, 1256, 1244, 1088, 678, 489,
2322, 1867, 1333, 944, 567, 356, 200, 177)
std_dev <- c(117, 317, 440, 200, 134, 38, 183, 153, 719,
218, 185, 117, 166, 167, 88, 50)
df <- data.frame(drug, conc, mean_response, std_dev)
我可以使用以下代码绘制这些点,并获得我想要的可视化的基本基础:
p <- ggplot(data=df, aes(y=mean_response, x= conc, color = drug)) +
geom_pointrange(aes(ymax = (mean_response + std_dev), ymin = (mean_response - std_dev))) +
scale_x_log10()
p
我想对这些数据做的下一件事是在图中添加一条 S 形曲线,它适合每种药物的标绘点。之后,我想计算这条曲线的 EC50。
我意识到我的数据中可能没有 S 形曲线的整个范围,但我希望用我所拥有的得到最好的估计。此外,drug_1 的最终点不遵循 S 形曲线的预期趋势,但这实际上并不意外,因为药物所在的溶液可以抑制高浓度的反应(每种药物在不同的溶液中).我想从数据中排除这一点。
我在为我的数据拟合 S 形曲线的步骤中遇到了困难。我查看了其他一些将 S 形曲线拟合到数据的解决方案,但 none 似乎有效。
一个非常接近我的问题的post是这样的:
(sigmoid) curve fitting glm in r
基于它,我尝试了:
p + geom_smooth(method = "glm", family = binomial, se = FALSE)
这给出了以下错误,并且似乎默认绘制直线:
`geom_smooth()` using formula 'y ~ x'
Warning message:
Ignoring unknown parameters: family
我也试过这个 link 的解决方案:
在这种情况下,我收到以下错误:
Computation failed in `stat_smooth()`:
Convergence failure: singular convergence (7)
并且图中没有添加任何线条。
我已经尝试查找这两个错误,但似乎找不到对我的数据有意义的原因。
如有任何帮助,我们将不胜感激!
我会建议下一个接近您想要的方法。我还尝试使用 binomial
系列对您的数据进行设置,但在 0 和 1 之间的值存在一些问题。在这种情况下,您需要一个额外的变量来确定各自的比例。以下几行中的代码使用非线性近似来绘制输出。
最初,数据:
library(ggplot2)
#Data
df <- structure(list(drug = c("drug_1", "drug_1", "drug_1", "drug_1",
"drug_1", "drug_1", "drug_1", "drug_1", "drug_2", "drug_2", "drug_2",
"drug_2", "drug_2", "drug_2", "drug_2", "drug_2"), conc = c(100,
33.33, 11.11, 3.7, 1.23, 0.41, 0.14, 0.05, 100, 33.33, 11.11,
3.7, 1.23, 0.41, 0.14, 0.05), mean_response = c(1156, 1833, 1744,
1256, 1244, 1088, 678, 489, 2322, 1867, 1333, 944, 567, 356,
200, 177), std_dev = c(117, 317, 440, 200, 134, 38, 183, 153,
719, 218, 185, 117, 166, 167, 88, 50)), class = "data.frame", row.names = c(NA,
-16L))
在非线性最小二乘法中,您需要定义初始值以搜索理想参数。我们使用带有基函数 nls()
的下一个代码来获取这些初始值:
#Drug 1
fm1 <- nls(log(mean_response) ~ log(a/(1+exp(-b*(conc-c)))), df[df$drug=='drug_1',], start = c(a = 1, b = 1, c = 1))
#Drug 2
fm2 <- nls(log(mean_response) ~ log(a/(1+exp(-b*(conc-c)))), df[df$drug=='drug_2',], start = c(a = 1, b = 1, c = 1))
通过这种初始参数方法,我们使用 geom_smooth()
绘制了绘图。我们再次使用 nls()
来找到正确的参数:
#Plot
ggplot(data=df, aes(y=mean_response, x= conc, color = drug)) +
geom_pointrange(aes(ymax = (mean_response + std_dev), ymin = (mean_response - std_dev))) +
geom_smooth(data = df[df$drug=='drug_1',],method = "nls", se = FALSE,
formula = y ~ a/(1+exp(-b*(x-c))),
method.args = list(start = coef(fm1),
algorithm='port'),
color = "tomato")+
geom_smooth(data = df[df$drug=='drug_2',],method = "nls", se = FALSE,
formula = y ~ a/(1+exp(-b*(x-c))),
method.args = list(start = coef(fm0),
algorithm='port'),
color = "cyan3")
输出:
正如我在评论中所说,我只会将 geom_smooth()
用于非常简单的问题;一旦我 运行 遇到麻烦,我就用 nls
代替。
我的回答和@Duck的很相似,有以下区别:
- 我展示了未加权和 (inverse-variance) 加权拟合。
- 为了让加权拟合起作用,我不得不使用
nls2
包,它提供了稍微更稳健的算法
- 我使用
SSlogis()
来获得自动 (self-starting) 初始参数选择
- 我在
ggplot2
之外进行所有预测,然后将其输入 geom_line()
p1 <- nls(mean_response~SSlogis(conc,Asym,xmid,scal),data=df,
subset=(drug=="drug_1" & conc<100)
## , weights=1/std_dev^2 ## error in qr.default: NA/NaN/Inf ...
)
library(nls2)
p1B <- nls2(mean_response~SSlogis(conc,Asym,xmid,scal),data=df,
subset=(drug=="drug_1" & conc<100),
weights=1/std_dev^2)
p2 <- update(p1,subset=(drug=="drug_2"))
p2B <- update(p1B,subset=(drug=="drug_2"))
pframe0 <- data.frame(conc=10^seq(log10(min(df$conc)),log10(max(df$conc)), length.out=100))
pp <- rbind(
data.frame(pframe0,mean_response=predict(p1,pframe0),
drug="drug_1",wts=FALSE),
data.frame(pframe0,mean_response=predict(p2,pframe0),
drug="drug_2",wts=FALSE),
data.frame(pframe0,mean_response=predict(p1B,pframe0),
drug="drug_1",wts=TRUE),
data.frame(pframe0,mean_response=predict(p2B,pframe0),
drug="drug_2",wts=TRUE)
)
library(ggplot2); theme_set(theme_bw())
(ggplot(df,aes(conc,mean_response,colour=drug)) +
geom_pointrange(aes(ymin=mean_response-std_dev,
ymax=mean_response+std_dev)) +
scale_x_log10() +
geom_line(data=pp,aes(linetype=wts),size=2)
)
我认为 EC50 等同于 xmid
参数...请注意加权和未加权估计之间的巨大差异...
我有一个简单的数据框,用于测量不同剂量药物治疗的反应:
drug <- c("drug_1", "drug_1", "drug_1", "drug_1", "drug_1",
"drug_1", "drug_1", "drug_1", "drug_2", "drug_2", "drug_2",
"drug_2", "drug_2", "drug_2", "drug_2", "drug_2")
conc <- c(100.00, 33.33, 11.11, 3.70, 1.23, 0.41, 0.14,
0.05, 100.00, 33.33, 11.11, 3.70, 1.23, 0.41, 0.14, 0.05)
mean_response <- c(1156, 1833, 1744, 1256, 1244, 1088, 678, 489,
2322, 1867, 1333, 944, 567, 356, 200, 177)
std_dev <- c(117, 317, 440, 200, 134, 38, 183, 153, 719,
218, 185, 117, 166, 167, 88, 50)
df <- data.frame(drug, conc, mean_response, std_dev)
我可以使用以下代码绘制这些点,并获得我想要的可视化的基本基础:
p <- ggplot(data=df, aes(y=mean_response, x= conc, color = drug)) +
geom_pointrange(aes(ymax = (mean_response + std_dev), ymin = (mean_response - std_dev))) +
scale_x_log10()
p
我想对这些数据做的下一件事是在图中添加一条 S 形曲线,它适合每种药物的标绘点。之后,我想计算这条曲线的 EC50。 我意识到我的数据中可能没有 S 形曲线的整个范围,但我希望用我所拥有的得到最好的估计。此外,drug_1 的最终点不遵循 S 形曲线的预期趋势,但这实际上并不意外,因为药物所在的溶液可以抑制高浓度的反应(每种药物在不同的溶液中).我想从数据中排除这一点。
我在为我的数据拟合 S 形曲线的步骤中遇到了困难。我查看了其他一些将 S 形曲线拟合到数据的解决方案,但 none 似乎有效。
一个非常接近我的问题的post是这样的: (sigmoid) curve fitting glm in r
基于它,我尝试了:
p + geom_smooth(method = "glm", family = binomial, se = FALSE)
这给出了以下错误,并且似乎默认绘制直线:
`geom_smooth()` using formula 'y ~ x'
Warning message:
Ignoring unknown parameters: family
我也试过这个 link 的解决方案:
在这种情况下,我收到以下错误:
Computation failed in `stat_smooth()`:
Convergence failure: singular convergence (7)
并且图中没有添加任何线条。
我已经尝试查找这两个错误,但似乎找不到对我的数据有意义的原因。
如有任何帮助,我们将不胜感激!
我会建议下一个接近您想要的方法。我还尝试使用 binomial
系列对您的数据进行设置,但在 0 和 1 之间的值存在一些问题。在这种情况下,您需要一个额外的变量来确定各自的比例。以下几行中的代码使用非线性近似来绘制输出。
最初,数据:
library(ggplot2)
#Data
df <- structure(list(drug = c("drug_1", "drug_1", "drug_1", "drug_1",
"drug_1", "drug_1", "drug_1", "drug_1", "drug_2", "drug_2", "drug_2",
"drug_2", "drug_2", "drug_2", "drug_2", "drug_2"), conc = c(100,
33.33, 11.11, 3.7, 1.23, 0.41, 0.14, 0.05, 100, 33.33, 11.11,
3.7, 1.23, 0.41, 0.14, 0.05), mean_response = c(1156, 1833, 1744,
1256, 1244, 1088, 678, 489, 2322, 1867, 1333, 944, 567, 356,
200, 177), std_dev = c(117, 317, 440, 200, 134, 38, 183, 153,
719, 218, 185, 117, 166, 167, 88, 50)), class = "data.frame", row.names = c(NA,
-16L))
在非线性最小二乘法中,您需要定义初始值以搜索理想参数。我们使用带有基函数 nls()
的下一个代码来获取这些初始值:
#Drug 1
fm1 <- nls(log(mean_response) ~ log(a/(1+exp(-b*(conc-c)))), df[df$drug=='drug_1',], start = c(a = 1, b = 1, c = 1))
#Drug 2
fm2 <- nls(log(mean_response) ~ log(a/(1+exp(-b*(conc-c)))), df[df$drug=='drug_2',], start = c(a = 1, b = 1, c = 1))
通过这种初始参数方法,我们使用 geom_smooth()
绘制了绘图。我们再次使用 nls()
来找到正确的参数:
#Plot
ggplot(data=df, aes(y=mean_response, x= conc, color = drug)) +
geom_pointrange(aes(ymax = (mean_response + std_dev), ymin = (mean_response - std_dev))) +
geom_smooth(data = df[df$drug=='drug_1',],method = "nls", se = FALSE,
formula = y ~ a/(1+exp(-b*(x-c))),
method.args = list(start = coef(fm1),
algorithm='port'),
color = "tomato")+
geom_smooth(data = df[df$drug=='drug_2',],method = "nls", se = FALSE,
formula = y ~ a/(1+exp(-b*(x-c))),
method.args = list(start = coef(fm0),
algorithm='port'),
color = "cyan3")
输出:
正如我在评论中所说,我只会将 geom_smooth()
用于非常简单的问题;一旦我 运行 遇到麻烦,我就用 nls
代替。
我的回答和@Duck的很相似,有以下区别:
- 我展示了未加权和 (inverse-variance) 加权拟合。
- 为了让加权拟合起作用,我不得不使用
nls2
包,它提供了稍微更稳健的算法 - 我使用
SSlogis()
来获得自动 (self-starting) 初始参数选择 - 我在
ggplot2
之外进行所有预测,然后将其输入geom_line()
p1 <- nls(mean_response~SSlogis(conc,Asym,xmid,scal),data=df,
subset=(drug=="drug_1" & conc<100)
## , weights=1/std_dev^2 ## error in qr.default: NA/NaN/Inf ...
)
library(nls2)
p1B <- nls2(mean_response~SSlogis(conc,Asym,xmid,scal),data=df,
subset=(drug=="drug_1" & conc<100),
weights=1/std_dev^2)
p2 <- update(p1,subset=(drug=="drug_2"))
p2B <- update(p1B,subset=(drug=="drug_2"))
pframe0 <- data.frame(conc=10^seq(log10(min(df$conc)),log10(max(df$conc)), length.out=100))
pp <- rbind(
data.frame(pframe0,mean_response=predict(p1,pframe0),
drug="drug_1",wts=FALSE),
data.frame(pframe0,mean_response=predict(p2,pframe0),
drug="drug_2",wts=FALSE),
data.frame(pframe0,mean_response=predict(p1B,pframe0),
drug="drug_1",wts=TRUE),
data.frame(pframe0,mean_response=predict(p2B,pframe0),
drug="drug_2",wts=TRUE)
)
library(ggplot2); theme_set(theme_bw())
(ggplot(df,aes(conc,mean_response,colour=drug)) +
geom_pointrange(aes(ymin=mean_response-std_dev,
ymax=mean_response+std_dev)) +
scale_x_log10() +
geom_line(data=pp,aes(linetype=wts),size=2)
)
我认为 EC50 等同于 xmid
参数...请注意加权和未加权估计之间的巨大差异...