์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- streamlit
- ์น๋์๋ณด๋ ์ ์
- ์๋ฐ
- JavaScript
- ์๋ฐ๊ณต๋ถ
- ํ๋ค์ค๊ณต๋ถ
- Android
- RESTful API
- ํ์ด์ฌ๊ณต๋ถ
- ์๋ฐํ๋ก๊ทธ๋๋ฐ
- ์๋ฐ์คํฌ๋ฆฝํธ ๊ณต๋ถ
- Flutter
- Streamlit๊ธฐ๋ณธ
- ์๋ฐ์คํฌ๋ฆฝํธ
- ์น๋์๋ณด๋ ๊ธฐ์ด
- db
- ์๋ฐ์ด๋ณด
- ๋ฐ์ดํฐ๋ฒ ์ด์ค
- MySQL
- serverless
- ์๋๋ก์ด๋ ์ฑ ๊ฐ๋ฐ
- ์๋๋ก์ด๋ ์คํ๋์ค
- Pandas
- Streamlit๊ธฐ์ด
- ์๋ฐ๊ธฐ์ด
- java
- ์คํธ๋ฆผ๋ฆฟ ๊ธฐ๋ณธ
- ์คํธ๋ฆผ๋ฆฟ
- ํ๋ค์ค
- ํ์ด์ฌ
- Today
- Total
ruriruriya
[Python] ํ์ด์ฌ ํ๋ค์ค(Pandas) - ๋ฐ์ดํฐํ๋ ์(DataFrame)์ ๋ฐ์ดํฐ ๋ก๋ ๋ณธ๋ฌธ
[Python] ํ์ด์ฌ ํ๋ค์ค(Pandas) - ๋ฐ์ดํฐํ๋ ์(DataFrame)์ ๋ฐ์ดํฐ ๋ก๋
๋ฃจ๋ฆฌ์ผใ 2023. 11. 15. 14:11
๋ฐ์ดํฐํ๋ ์์ ํ์ผ์ ๋ก๋ํ๋ ๋ฐฉ๋ฒ์ ๋ค์ํ ํ์ผ ํ์์ ๋ฐ๋ผ ๋ค๋ฅด๋ค. ์ฃผ๋ก ์ฌ์ฉ๋๋ ํ์ผ ํ์์ผ๋ก๋ CSV, Excel, JSON, SQL, HTML ๋ฑ์ด ์๋ค. ๊ฐ ํ์์ ๋ง๊ฒ ์ ์ ํ ํ๋ค์ค ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ํ ์ ์๋ค.
CSV(Comma Separated Values)ํ์ผ ์ฝ๋ ๋ฐฉ๋ฒ
CSV ํ์ผ์ ๋ฐ์ดํฐํ๋ ์์ ์์๊ฐ ์ฝค๋ง๋ก ๊ตฌ๋ถ๋์ด ์๋ ๊ฒ์ ๋งํ๋ค.
CSV ํ์ผ์ read_csv() ๋ฉ์๋๋ก ๋ก๋ํ๋ฉด ์ฝค๋ง ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐํ๋ ์์ด ์ถ๋ ฅ๋๋ค.
๊ตฌ๊ธ ์ฝ๋ฉ์์ ์คํํ๋ฉด ๋ฐ์ดํฐ๊ฐ ๋ง์ ๋ ์๋ ํ๊ณผ ์ด์ด ํ์๋๋ฉฐ ์ค๊ฐ์ด ์๋ต๋๋ค.
>> df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/แแ
ฆแแ
ตแแ
ฅแแ
ฎแซแแ
ฅแจ/data/GOOG.csv')
>> df
HTML ํ์ผ๋ก ๋ก๋ํ ์ ์๋ค.
๋ฐ์ดํฐํ๋ ์์ด ํด๋น๋ ์นํ์ด์ง์ ๋งํฌ๋ก ๋ก๋ํ๋ค.
read_html() ๋ฉ์๋๋ฅผ ์ฌ์ฉํด์ ๋ณ์์ ๋ฃ์ด ์ถ๋ ฅํด๋ณด๋ฉด
๋ฐ์ดํฐํ๋ ์์ด ์๋ ๋ฆฌ์คํธ๊ฐ ๋์จ๋ค.
์ด ์นํ์ด์ง ๋ด์ ํ๊ฐ 2๊ฐ์ด๊ธฐ ๋๋ฌธ์ ๋ถ๋ฌ์จ๋ค ์ง์ ์ ํด์ฃผ์ง ์์ผ๋ฉด
์ด๋ ๊ฒ ๋ฆฌ์คํธ(list) ๋ก ์ถ๋ ฅ๋๋ค.
๊ทธ๋ฌ๋ฉด ๋ฐ์ดํฐ ํ๋ ์์ผ๋ก ๋ณด๋ ค๋ฉด ์ด๋ป๊ฒ ํด์ผํ ๊น?
>> df = pd.read_html('https://www.livingin-canada.com/house-prices-canada.html')
>> df
[ City \
0 Vancouver, BC
1 Toronto, Ont
2 Ottawa, Ont
3 Calgary, Alb
4 Montreal, Que
5 Halifax, NS
6 Regina, Sask
7 Fredericton, NB
8 (adsbygoogle = window.adsbygoogle || []).push(...
Average House Price \
0 $1,036,000
1 $870,000
2 $479,000
3 $410,000
4 $435,000
5 $331,000
6 $254,000
7 $198,000
8 (adsbygoogle = window.adsbygoogle || []).push(...
12 Month Change
0 + 2.63 %
1 +10.2 %
2 + 15.4 %
3 – 1.5 %
4 + 9.3 %
5 + 3.6 %
6 – 3.9 %
7 – 4.3 %
8 (adsbygoogle = window.adsbygoogle || []).push(... ,
Province \
0 British Columbia
1 Ontario
2 Alberta
3 Quebec
4 Manitoba
5 Saskatchewan
6 Nova Scotia
7 Prince Edward Island
8 Newfoundland / Labrador
9 New Brunswick
10 Canadian Average
11 (adsbygoogle = window.adsbygoogle || []).push(...
Average House Price \
0 $736,000
1 $594,000
2 $353,000
3 $340,000
4 $295,000
5 $271,000
6 $266,000
7 $243,000
8 $236,000
9 $183,000
10 $488,000
11 (adsbygoogle = window.adsbygoogle || []).push(...
12 Month Change
0 + 7.6 %
1 – 3.2 %
2 – 7.5 %
3 + 7.6 %
4 – 1.4 %
5 – 3.8 %
6 + 3.5 %
7 + 3.0 %
8 – 1.6 %
9 – 2.2 %
10 – 1.3 %
11 (adsbygoogle = window.adsbygoogle || []).push(... ]
๋ฆฌ์คํธ๋ ์ธ๋ฑ์ค๋ก ์์๊ฐ์ ์ฐพ์ ์ ์๋ค.
์ ๋ฆฌ์คํธ ๋ด์ ๋ฆฌ์คํธ ๊ฐ์๋ 2๊ฐ์ด๋ค.
len() ๋ฉ์๋๋ฅผ ์ฌ์ฉํ๋ฉด ์ฝ๊ฒ ์ ์ ์๋ค.
>> len(df)
2
๋ฆฌ์คํธ์ ์ฒซ ๋ฒ์งธ ๋ฐ์ดํฐํ๋ ์์ df[0], ๋ ๋ฒ์งธ ๋ฐ์ดํฐํ๋ ์์ df[1] ์ด๋ค.
ํ๋กฌํํธ๋ก ๋ณ์[์ธ๋ฑ์ค]๋ฅผ ์
๋ ฅํ์ฌ ์ถ๋ ฅํ๋ฉด ๋ฐ์ดํฐํ๋ ์ ํํ๋ก ํ๊ฐ ๋์จ๋ค.
>> df[0]
>> df[1]
์์ ๋ฐ์ดํฐ ํ๋ ์์ ๋ณด๋ฉด ๋ง์ง๋ง ํ์๋ adsbygoogle.... ๋ก ์์ํ๋ ๊ฒฝ๊ณ ๋ฌธ์ด ๋์ค๋ ๋ฐ
์ด๊ฒ์ ๊ตฌ๊ธ ๊ด๊ณ ๊ฐ ๋ฐ์ดํฐํ๋ ์๋ง๋ค ํ๋จ์ ๋ฌ๋ ค์๊ธฐ ๋๋ฌธ์ด๋ค.
์ด ๊ฒ์ ์์ ๋ ค๋ฉด ์ด๋ป๊ฒ ํด์ผํ ๊น?
drop() ๋ฉ์๋์ ์ฌ๋ผ์ด์ฑ์ผ๋ก ์์ ๋ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋ค.
>> city=df[0].loc[0:7,] #์ฌ๋ผ์ด์ฑ
>> provinces = df[0].drop(8, axis= 0) #drop ๋ฉ์๋ ์ฌ์ฉ axis์ ํ๊ณผ ์ด์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌํจ๋ค.
์ด๋ ๊ฒ ํ๋ค์ค๋ ์ฌ๋ฌ ํ์ฅ์์ ํ์ผ์ ๋ก๋ํด์ฌ ์ ์๋ค.
ํ์ผ ๋ก๋ํ ๋ ๋ฉ์๋ ์ ๋ฆฌ
ํ์ผ ํ์ | ํ๋ค์ค ๋ฉ์๋ | ์ฌ์ฉ ์์ |
CSV | read_csv() | pd.read_csv('ํ์ผ๋ช .csv') |
Excel | read_excel() | pd.read_excel('ํ์ผ๋ช .xlsx') |
JSON | read_json() | pd.read_json('ํ์ผ๋ช .json') |
SQL | read_sql() | pd.read_sql('ํ ์ด๋ธ๋ช ', engine) |
SQL | read_sql_query() | pd.read_sql_query('SELECT * FROM ํ ์ด๋ธ๋ช ', engine) |
HTML | read_html() | pd.read_html('์นํ์ด์ง ์ฃผ์')[0] |
๊ธฐํ ํ์ | ๋ค์ํ ํ์์ ๋ฐ๋ฆ | ๋ค์ํ ํ์ผ ํ์์ ๋ํ ํนํ๋ ๋ฉ์๋๋ฅผ ์ฌ์ฉ |