-
[Data Science] ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค์ ์ฌ์ฉ๋๋ ํ์ด์ฌ ํจํค์ง ์ ๋ฆฌ(numpy, matplotlib, pandas)๐ปProgramming/Data Science 2024. 9. 28. 04:40
Numpy
์์น์ ์ธ ์ฐ์ฐ์ ์ต์ ํ๋ ํ์ด์ฌ ๋๊ตฌ์ด๋ค.
๊ฐ๋ฐ์๋ ํ์ด์ฌ ๋ฌธ๋ฒ์ ์ด์ฉํด ์ฌ์ฉํ์ง๋ง ๋ด๋ถ์ ์ผ๋ก๋ C์ธ์ด๋ก ์์ฒญ๋ ์ต์ ํ๊ฐ ๋์ด์์ด ๋ ํจ์จ์ ์ธ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ์
๋ ํจ์จ์ ์ธ ์ฐ์ฐ์ด ๊ฐ๋ฅํ๋๋ก ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ๊ฐ ๋์ด์๋ค. ๋ํ ์ปดํจํฐ ํ๋์จ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ฉํ๋ค๋ ์ฅ์ ์ด ์๋ค.
์๋ฅผ ๋ค์ด, ํ๊ตญ์ ๋ ๋๋ณ gdp๊ฐ ๋ฌ๋ฌ๋ก ํํ๋ ๋ฐฐ์ด์ ์ํ๋ก ํ์ฐํ๊ณ ์ถ๋ค๋ฉด,
Python๋ง ์ด์ฉ
for i in range(len(gdp_korea_array)): gdp_korea_array[i] = gdp_korea_array[i] * 1335 gdp_korea_array
ํ์ด์ฌ์์๋ ๋ฐฐ์ด ์์ ๋ชจ๋ ์์์ ๊ณฑํ๊ธฐ๋ฅผ ํ๊ณ ์ถ์ ๋ ์ด๋ ๊ฒ for๋ฌธ์ ์ฌ์ฉํด์ ํ๋ํ๋ ๋ฃ์ด์ฃผ์ด์ผ ํ์ง๋ง,
numpy ์ด์ฉ
gdp_korea_array * 1335
numpy๋ฅผ ์ฌ์ฉํ๋ฉด ์ด ํ์ค๋ก ํด๊ฒฐ์ด๋๋ค. (์ฌ์ง์ด ์๋๋ ๋ ๋น ๋ฅด๋ค.)
Matplotlib
์ฐ๋ฆฌ๊ฐ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ "์๊ฐํ"ํ๋๋ฐ ์ค์ ์ ๋ ํจํค์ง์ด๋ค.
๋ง์ฝ์ ๋ฐฐ์ด์ numpy๋ก ํํํ๋ค๊ณ ํ์ ๋,
numpy
๋ณ๋ก ์ง๊ด์ ์ผ๋ก ์๋ฟ์ง ์๋๋ค. ํ์ง๋ง maplotlib์ ์ฌ์ฉํ๋ค๋ฉด,
matplotlib
์ด๋ ๊ฒ ํจ์ฌ๋ ์ง๊ด์ ์ผ๋ก ํํ์ด ๊ฐ๋ฅํ๋ค.
pandas
์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค๋ฅผ ํ ๋, ์ฌ๋ฌ ์ซ์๋ค์ ํ๋ก ์ ๋ฆฌํ๋ ๊ฒ์ด ํ์์ ์ธ๋ฐ, numpy๋ง ์ด์ฉํด์๋ ์ง๊ด์ ์ผ๋ก ์ฌ๋ฌ ๋ณ์๋ค ์ฌ์ด์ ์๊ด๊ด๊ณ๋ฅผ ์์๋ด๊ธฐ ์ด๋ ต๋ค.
๋ํ, numpy๋ฅผ ์ฌ์ฉํด ๋ฐฐ์ด์ ํํํ๋ฉด ํ ํ์ ๋ง ๋ฐฐ์ด์ ๋ฃ์ ์ ์๊ธฐ ๋๋ฌธ์ ๋ฐฐ์ด์์ ์์์ ์ซ์๊ฐ๊ณผ ๋ฌธ์๊ฐ์ ๋์์ ๋ฃ๊ณ ์ถ๋๋ผ๋ ํ๊ฐ์ง ํ์ ๋ง ์ฌ์ฉํด์ผํ๋ค๋ ์น๋ช ์ ์ธ ๋จ์ ์ด ์กด์ฌํ๋ค. ๋ฐ๋ผ์ numpy ๋ฐฐ์ด์ ๋จ์ ์ ์ ๋ฆฌํ์๋ฉด,
numpy array์ ๋จ์
- ๊ฐ๋ ์ฑ์ด ๋จ์ด์ง
- ์์๋ค์ ๋ํ ๋ ์ด๋ธ ์ฝ์ ์ด ๋ถ๊ฐ -> ์ง๊ด์ ์ด์ง ๋ชปํจ
- ํ ๊ฐ์ง ๋ฐ์ดํฐ ํ์ ๋ง ์ฌ์ฉ ๊ฐ๋ฅ
์ด๋ ๊ฒ ํด์ ๋์จ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ "pandas"์ด๋ค.
pandas๋ numpy๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํด์ ๋์จ ๋ํ์ ์ธ ๋ฐ์ดํฐ ๋ถ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ด๋ค.
pandas๋ฅผ ์ด์ฉํ๋ค๋ฉด,
- ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
- ๋ฐ์ดํฐ ๊ฐ๊ณต
- ๋ฐ์ดํฐ ๋ถ์
- ๋ฐ์ดํฐ ์๊ฐํ
๊ฐ ๊ฐ๋ฅํ๋ค.
Numpy = ๋ณต์กํ ์ํ ์ฐ์ฐ์ ํ ๋
Pandas = "ํ ํํ"์ ๋ฐ์ดํฐ๋ฅผ ๊ฐํธํ๊ฒ ๋ค๋ฃจ๊ณ ์ถ์ ๋
์ฌ์ฉํ๋ค๊ณ ์ ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ค.
pandas ์ฌ์ฉ ์์