์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ์๋ฐ์คํฌ๋ฆฝํธ
- ์๋ฐ๊ธฐ์ด
- ์๋๋ก์ด๋ ์คํ๋์ค
- ํ๋ค์ค๊ณต๋ถ
- Pandas
- ์คํธ๋ฆผ๋ฆฟ ๊ธฐ๋ณธ
- serverless
- JavaScript
- ์น๋์๋ณด๋ ๊ธฐ์ด
- Streamlit๊ธฐ์ด
- Flutter
- ๋ฐ์ดํฐ๋ฒ ์ด์ค
- Android
- RESTful API
- ํ๋ค์ค
- ์คํธ๋ฆผ๋ฆฟ
- ์น๋์๋ณด๋ ์ ์
- streamlit
- ํ์ด์ฌ๊ณต๋ถ
- java
- ์๋๋ก์ด๋ ์ฑ ๊ฐ๋ฐ
- ํ์ด์ฌ
- ์๋ฐ
- ์๋ฐ์ด๋ณด
- db
- ์๋ฐํ๋ก๊ทธ๋๋ฐ
- ์๋ฐ์คํฌ๋ฆฝํธ ๊ณต๋ถ
- Streamlit๊ธฐ๋ณธ
- MySQL
- ์๋ฐ๊ณต๋ถ
- Today
- Total
๋ชฉ๋ก๐Python/Pandas (9)
ruriruriya
ํ๋ค์ค์์ ๋ฐ์ดํฐํ๋ ์์ ์ ๋ ฌํ๋ ๋ฐ์๋ sort_values()์ sort_index()๋ผ๋ ๋ ๊ฐ์ง ๋ฉ์๋๊ฐ ์๋ค. ๊ฐ๊ฐ์ ๋ฉ์๋๋ ๋ค์ํ ์ ๋ ฌ ์ต์ ์ ์ ๊ณตํด ๋ฐ์ดํฐ๋ฅผ ์ํ๋ ๋๋ก ์ ๋ ฌํ ์ ์๋ค. ์๋์ ๋ฐ์ดํฐ๋ก ๋ ๊ฐ์ง ๋ฉ์๋๋ฅผ ํ์ธํด๋ณด์. >> df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) >> df sort_values() ์ฌ์ฉํ๊ธฐ ์ด ๋ฉ์๋๋ ๋ฐ์ดํฐํ๋ ์์ ํน์ ์ด(column)์ ๊ฐ์ ๊ธฐ์ค์ผ๋ก ์ ๋ ฌํ ๋ ์ฌ์ฉ๋๋ค. ์ฃผ๋ก ..
apply()๋ ํ๋ค์ค์์ Series๋ DataFrame์ ํจ์๋ฅผ ์ ์ฉํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๋ฉ์๋์ด๋ค. ์ด๋ฅผ ํตํด ์ฌ์ฉ์๊ฐ ์ ์ํ ํจ์๋ฅผ ๊ฐ ํ์ด๋ ์ด์ ์ ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ฑฐ๋ ๋ณํํ ์ ์๋ค. ์๋ ๋ฐ์ดํฐ๋ก apply() ๋ฉ์๋๋ฅผ ์ ์ฉํด๋ณด์. >> df ์ฒซ๋ฒ ์งธ, ํจ์๋ง๋ค๊ธฐ #### ํจ์๋ฅผ ๋ง๋๋ ์์ ๊ผญ ๊ธฐ์ตํ์! ์ด๋ ๊ฒ ๊ธฐ์ตํ๋ฉด ํจ์ ๋ง๋๋ ๊ฒ์ด ์ข๋ ์ฌ์์ง๋ค. 1. ํจ์์ ํธ์ถ๋ถ๋ถ์ ๋จผ์ ์์ฑํ๋ค. 2. ํธ์ถ๋ถ๋ถ์ ์ฐธ๊ณ ํ์ฌ ํจ์๋ฅผ ์ ์ํ๋ค. # ์๊ธ์ด 30 ์ด์์ด๋ฉด, 'A' ๊ทธ๋ฃน์ด๋ผ ํ๊ณ ,์๊ธ์ด 30๋ณด๋ค ์์ผ๋ฉด, 'B' ๊ทธ๋ฃน์ด๋ผ๊ณ ํ๊ฒ ๋ค.์๋ก์ด ์ปฌ๋ผ group์ ๋ง๋ค์ด์ ์ ์ฅํ์์ค. ๋จผ์ ํธ์ถํ ํจ์๋ช ๊ณผ ๋งค๊ฐ๋ณ์๋ฅผ ์จ์ ์ถ๋ ฅ ๋ด์ฉ์ ์์ธกํด๋ณธ๋ค. grouping(35) # 'A' ์ถ๋ ฅ grou..
ํ๋ค์ค์์ ๋ค์ค ์กฐ๊ฑด์ผ๋ก ๋ฐ์ดํฐ ๊ฐ์ ํํฐ๋งํ๊ณ ์ํ๋ ํ์ ์ ํํ๋ ๋ฐฉ๋ฒ์ ์ฌ๋ฌ ๊ฐ์ง๊ฐ ์๋ค. ๊ฐ์ฅ ํํ ๋ฐฉ๋ฒ ์ค ํ๋๋ loc ๋๋ iloc๋ฅผ ์ฌ์ฉํ์ฌ ํน์ ์กฐ๊ฑด์ ์ถฉ์กฑํ๋ ํ์ ์ ํํ๋ ๊ฒ์ด๋ค. ์๋์ ๋ฐ์ดํฐ ํ๋ ์์ผ๋ก ๋ค์ค์กฐ๊ฑด ํํฐ๋ง์ ํด๋ณด์. >> df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) >> df ํ๋ค์ค์ ๋น๊ต์ฐ์ฐ์ ์ฐ์ ํ๋ค์ค๋ ํ์ด์ฌ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ง ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ธ๋ฐ ๋น๊ต์ฐ์ฐ์๋ ์กฐ๊ธ ๋ค๋ฅธ ์ ์ ์ธ์งํ๊ณ ์ฌ์ฉํด์ผ ํ๋ค..
unique(), nunique(), value_counts()๋ ํ๋ค์ค์์ ๋ฐ์ดํฐ์ ๊ณ ์ ํ ๊ฐ๋ค๊ณผ ๊ทธ ๋น๋๋ฅผ ํ์ธํ๋ ๋ฐ ์ฌ์ฉ๋๋ ๋ฉ์๋๋ค. ์ด ์ธ ๊ฐ์ง ๋ฉ์๋๋ ๋ฐ์ดํฐํ๋ ์์ด๋ ์๋ฆฌ์ฆ์์ ๊ณ ์ ํ ๊ฐ๋ค์ ๋ค๋ฃจ๋ ๋ฐ ์ ์ฉํ๋ค. ์๋ ๋ฐ์ดํฐํ๋ ์์ ํ์ฉํ์ฌ ์์๋ณด์. unique() ๋ฉ์๋๋ unique() ๋ฉ์๋๋ ์๋ฆฌ์ฆ(Series) ๊ฐ์ฒด์ ์ ์ฉํ์ฌ ๊ทธ ์์ ์๋ ๊ณ ์ ํ ๊ฐ๋ค์ ๋ฐํํฉ๋๋ค. ์ค๋ณต์ ์ ๊ฑฐํ(unique) ๊ฐ๋ค์ ๋ฆฌ์คํธ ํํ๋ก ๋ฐํํฉ๋๋ค. ํด๋น ์๋ฆฌ์ฆ์ ์ค์ ๋ก ์กด์ฌํ๋ ๊ณ ์ ํ ๊ฐ๋ค์ ๋ณด์ฌ์ค๋๋ค. ๋ ๋์ ์ ๋ํฌํ ๋ฐ์ดํฐ๋ฅผ ํ์ํ๋ค. >> df['Year'].unique() array([1990, 1991, 1992]) nunique() ๋ฉ์๋๋ nunique() ๋ฉ์๋๋ ์๋ฆฌ์ฆ(Series)..
describe()๋ฉ์๋๋? describe() ๋ฉ์๋๋ ํ๋ค์ค์์ ๋ฐ์ดํฐํ๋ ์์ ๊ฐ๋จํ ํต๊ณ ์์ฝ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๋ฉ์๋์ด๋ค. ์ด ๋ฉ์๋๋ ๋ฐ์ดํฐํ๋ ์์ ๊ฐ ์ด์ ๋ํ ์์ฝ ํต๊ณ๋์ ๊ณ์ฐํ์ฌ ๋ฐํํ๋ค. ๊ฐ์(count): ๊ฐ ์ด์ ์๋ ๋น๊ฒฐ์ธก์น(non-null) ํญ๋ชฉ์ ์๋ฅผ ๋ํ๋ธ๋ค. ํ๊ท (mean): ๊ฐ ์ด์ ํ๊ท ๊ฐ์ ๋ณด์ฌ์ค๋ค. ํ์คํธ์ฐจ(std): ๊ฐ ์ด ๊ฐ๋ค์ ํ์คํธ์ฐจ๋ฅผ ๋ณด์ฌ์ค๋ค. ์ต์๊ฐ(min): ๊ฐ ์ด์ ์ต์๊ฐ์ ๋ณด์ฌ์ค๋ค. ๋ฐฑ๋ถ์์(25%, 50%, 75%): ๊ฐ ์ด์ ๋ฐฑ๋ถ์์(25%, 50%, 75%)๋ฅผ ๋ณด์ฌ์ค๋ค. ์ต๋๊ฐ(max): ๊ฐ ์ด์ ์ต๋๊ฐ์ ๋ณด์ฌ์ค๋ค. ํ์ผ์์ ๋ถ๋ฌ์จ ๋ฐ์ดํฐ๋ก ๋ฉ์๋๋ฅผ ์ฌ์ฉํด๋ณด์ :) describe() ๋ฉ์๋๋ฅผ ์ฌ์ฉํ๋ฉด ์๋์ ๊ฐ์ด ๊ธฐ๋ณธ ํต๊ณ์ ๋ณด๋ค์ด ๋์จ๋ค. >> ..
๋ฐ์ดํฐํ๋ ์์ ํ์ผ์ ๋ก๋ํ๋ ๋ฐฉ๋ฒ์ ๋ค์ํ ํ์ผ ํ์์ ๋ฐ๋ผ ๋ค๋ฅด๋ค. ์ฃผ๋ก ์ฌ์ฉ๋๋ ํ์ผ ํ์์ผ๋ก๋ CSV, Excel, JSON, SQL, HTML ๋ฑ์ด ์๋ค. ๊ฐ ํ์์ ๋ง๊ฒ ์ ์ ํ ํ๋ค์ค ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ํ ์ ์๋ค. CSV(Comma Separated Values)ํ์ผ ์ฝ๋ ๋ฐฉ๋ฒ CSV ํ์ผ์ ๋ฐ์ดํฐํ๋ ์์ ์์๊ฐ ์ฝค๋ง๋ก ๊ตฌ๋ถ๋์ด ์๋ ๊ฒ์ ๋งํ๋ค. CSV ํ์ผ์ read_csv() ๋ฉ์๋๋ก ๋ก๋ํ๋ฉด ์ฝค๋ง ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐํ๋ ์์ด ์ถ๋ ฅ๋๋ค. ๊ตฌ๊ธ ์ฝ๋ฉ์์ ์คํํ๋ฉด ๋ฐ์ดํฐ๊ฐ ๋ง์ ๋ ์๋ ํ๊ณผ ์ด์ด ํ์๋๋ฉฐ ์ค๊ฐ์ด ์๋ต๋๋ค. >> df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/แแ ฆแแ ตแแ ฅแแ ฎแซแแ ฅแจ/data/GOOG.csv') >>..
NaN์ด๋? NaN์ "Not a Number"์ ์ฝ์๋ก, ๊ฒฐ์ธก์น(missing value)๋ฅผ ๋ํ๋ด๋ ๋ฐ ์ฌ์ฉ๋๋ ํน์ํ ๊ฐ์ด๋ค. ์ฃผ๋ก ํ์ด์ฌ์ ํ๋ค์ค์ ๊ฐ์ ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ์์ ์ฌ์ฉ๋๋ค. NaN์ ๋ฐ์ดํฐ์ ์์ ๊ฐ์ด ์กด์ฌํ์ง ์๊ฑฐ๋ ์ํ์ ์ผ๋ก ์ ์ํ ์ ์๋ ์ํ๋ฅผ ๋ํ๋ธ๋ค. ์ด๊ฒ์ ๋ฐ์ดํฐ์ ๋ถ์ฌ, ๋๋ฝ, ๋๋ ํน์ ์ฐ์ฐ ๊ฒฐ๊ณผ๊ฐ ์ ์๋์ง ์๋ ๊ฒฝ์ฐ์ ํด๋นํ๋ค. ๋จผ์ ๋ฐ์ดํฐํ๋ ์์ ํตํด NaN ๋ฐ์ดํฐ๋ฅผ ์์๋ณด์. >> items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'sh..
ํ๋ค์ค ๋ฐ์ดํฐํ๋ ์(Pandas DataFrame)์ด๋? ๋ฐ์ดํฐํ๋ ์(DataFrame)์ ํ๋ค์ค์ ํต์ฌ ์๋ฃ๊ตฌ์กฐ ์ค ํ๋๋ก, ํ ์ด๋ธ ํํ์ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฐ ์ฌ์ฉ๋๋ค. ๋ฐ์ดํฐํ๋ ์์ ํ๊ณผ ์ด๋ก ๊ตฌ์ฑ๋ 2์ฐจ์ ํ ์ด๋ธ๋ก, ๊ฐ ์ด์ ๋ค๋ฅธ ๋ฐ์ดํฐ ํ์ ์ ๊ฐ์ง ์ ์๋ค. ์ด๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ฝ๊ฒ ์กฐ์ํ๊ณ ๋ถ์ํ ์ ์๋ค. ๋ฐ์ดํฐํ๋ ์์ CSV, Excel, ๋ฐ์ดํฐ๋ฒ ์ด์ค ๋ฑ ๋ค์ํ ์์ค๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ ์ฒ๋ฆฌํ ์ ์๋ค. ํ๋ค์ค์ ๋ค์ํ ํจ์์ ๋ฉ์๋๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐํ๋ ์์ ์กฐ์ํ๊ณ ํํฐ๋งํ๋ฉฐ, ๋ถ์ ๋ฐ ์๊ฐํ๋ฅผ ์ํํ ์ ์๋ค. ํ๋ค์ค ๋ฐ์ดํฐํ๋ ์ ์์ฑํ๊ธฐ ๋จผ์ ํ์ด์ฌ์ dict๋ฅผ ํ๋ค์ค 1์ฐจ์ ๋ฐ์ดํฐ Series ์ฌ์ฉํด 2์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ ๋ณ์์ ํ ๋นํ๋ค. import pandas as pd it..