R๐Ÿ“Š

[R]์‰ฝ๊ฒŒ๋ฐฐ์šฐ๋Š” R ๋ฐ์ดํ„ฐ์‚ฌ์ด์–ธ์Šค :: ๋ฐ์ดํ„ฐ ์ •์ œ_๊ฒฐ์ธก์น˜ ์ •์ œํ•˜๊ธฐ

ํžˆ์Šคํ†ค 2021. 5. 15. 12:00

1. ๊ฒฐ์ธก์น˜ ์ •์ œํ•˜๊ธฐ

๊ฒฐ์ธก์น˜(Missing Value)๋Š” ๋ˆ„๋ฝ๋œ ๊ฐ’, ๋น„์–ด์žˆ๋Š” ๊ฐ’์„ ์˜๋ฏธํ•œ๋‹ค.

ํ˜„์žฅ์—์„œ ๋งŒ๋“ค์–ด์ง„ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋Š” ์ˆ˜์ง‘ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•œ ์˜ค๋ฅ˜๋กœ ์ธํ•ด ๊ฒฐ์ธก์น˜๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์„ ๋•Œ๊ฐ€ ๋งŽ๋‹ค. ๊ฒฐ์ธก์น˜๊ฐ€ ์žˆ์œผ๋ฉด ํ•จ์ˆ˜๊ฐ€ ์ ์šฉ๋˜์ง€ ์•Š๊ฑฐ๋‚˜ ๋ถ„์„ ๊ฒฐ๊ณผ๊ฐ€ ์™œ๊ณก๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

 

๊ฒฐ์ธก์น˜ ์ œ๊ฑฐํ•˜๊ธฐ ์œ„ํ•ด ๊ฒฐ์ธก์น˜๊ฐ€ ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์„ ์ƒ์„ฑํ•ด ์ถœ๋ ฅํ•œ๋‹ค. R์—์„œ ๊ฒฐ์ธก์น˜๋Š” ๋Œ€๋ฌธ์ž๋กœ NA๋กœ ํ‘œ๊ธฐํ•œ๋‹ค.

is. na()๋ฅผ ํ™•์ธํ•˜๋ฉด ๋ฐ์ดํ„ฐ์— ๊ฒฐ์ธก์น˜๊ฐ€ ๋“ค์–ด์žˆ๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

๋งŒ์ผ ๊ฒฐ์ธก์น˜๊ฐ€ ์กด์žฌํ•˜๋ฉด TRUE, ์•„๋‹ˆ๋ฉด FALSE๋กœ ์ถœ๋ ฅ๋œ๋‹ค.

 

#๊ฒฐ์ธก์น˜ ํ™•์ธ

table(is.na(df$score))

 

#๊ฒฐ์ธก์น˜ ์ œ๊ฑฐ

#is.na()๋ฅผ filter()์— ์ ์šฉํ•˜๋ฉด ๊ฒฐ์ธก์น˜๊ฐ€ ์žˆ๋Š” ํ–‰์„ ์ œ๊ฑฐํ•  ์ˆ˜ ์žˆ๋‹ค.

 

df_nomiss <- df %>% filter(!is.na(score))

 

#์—ฌ๋Ÿฌ ๋ณ€์ˆ˜ ๋™์‹œ์— ๊ฒฐ์ธก์น˜ ์ œ๊ฑฐ

df_nomiss <- df %>% filter(!is.na(score)) & !is.na(sex))