平滑R数据帧中的缺失值
我正在使用dataset - https://data.ca.gov/dataset/covid-19-cases/resource/7e477adb-d7ab-4d4b-a198-dc4c6dc634c9来调查加州的covid病例和死亡情况。
除了按种族查看病例/死亡外,我还对数据进行了分组,给出了每天死亡病例的总列。我还使用了lag函数来给出每天的病例/死亡人数。
但是,在12月的第2天(23号和30号),没有增加cases or deaths列,因此每日的cases and deaths显示为0。第二天,数据被“赶上”,并添加了额外的大量数据,显然是这两天的总和。(我怀疑圣诞节和新年是原因)
有没有办法修复这些数据?例如,将双倍天数的测量值一分为二,并将其填充到单元中,然后回溯更改每日病例和每日死亡数字?希望截图能澄清我的意思。
下面是我使用的代码:
demog_eth <- (read.csv ("./Data/case_demographics_ethnicity.csv", header = T, sep = ","))
demog_eth$date <-as.Date(demog_eth$date)
#Create a DF with total daily information
total_stats <- data.frame(demog_eth$cases,demog_eth$deaths,demog_eth$date)
names(total_stats) <- c('cases', 'deaths', 'date')
total_stats <- total_stats %>% group_by(date) %>% summarise(cases = sum(cases), deaths = sum(deaths))
#Add daily cases and deaths by computing faily difference in totals
##Comment - use lag to look at previous rows
total_stats <- total_stats %>%
mutate(daily_cases = cases-lag(cases),
daily_deaths = deaths-lag(deaths))
?
?
图像中文本的顶部段落表示病例和死亡。它应该是每日病例和每日死亡。向您道歉
转载请注明出处:http://www.ahddzj.com/article/20230526/1278655.html