일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 웹대시보드 기초
- 자바기초
- JavaScript
- Matplotlib 기초
- 데이터베이스
- 안드로이드 스튜디오
- 스트림릿 기본
- 자바스크립트
- java
- 자바공부
- RESTful API
- 자바프로그래밍
- Android
- 자바스크립트 공부
- serverless
- Streamlit기초
- MySQL
- Streamlit기본
- 판다스
- Pandas
- 안드로이드 앱 개발
- 자바초보
- streamlit
- 파이썬공부
- db
- 파이썬
- 스트림릿
- 판다스공부
- 웹대시보드 제작
- 자바
- Today
- Total
목록Pandas (6)
ruriruriya
판다스에서 데이터프레임을 정렬하는 데에는 sort_values()와 sort_index()라는 두 가지 메소드가 있다. 각각의 메소드는 다양한 정렬 옵션을 제공해 데이터를 원하는 대로 정렬할 수 있다. 아래의 데이터로 두 가지 메소드를 확인해보자. >> df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) >> df sort_values() 사용하기 이 메소드는 데이터프레임을 특정 열(column)의 값을 기준으로 정렬할 때 사용된다. 주로 ..
describe()메소드란? describe() 메소드는 판다스에서 데이터프레임의 간단한 통계 요약 정보를 제공하는 메소드이다. 이 메소드는 데이터프레임의 각 열에 대한 요약 통계량을 계산하여 반환한다. 개수(count): 각 열에 있는 비결측치(non-null) 항목의 수를 나타낸다. 평균(mean): 각 열의 평균 값을 보여준다. 표준편차(std): 각 열 값들의 표준편차를 보여준다. 최솟값(min): 각 열의 최솟값을 보여준다. 백분위수(25%, 50%, 75%): 각 열의 백분위수(25%, 50%, 75%)를 보여준다. 최댓값(max): 각 열의 최댓값을 보여준다. 파일에서 불러온 데이터로 메소드를 사용해보자 :) describe() 메소드를 사용하면 아래와 같이 기본 통계정보들이 나온다. >> ..
데이터프레임에 파일을 로드하는 방법은 다양한 파일 형식에 따라 다르다. 주로 사용되는 파일 형식으로는 CSV, Excel, JSON, SQL, HTML 등이 있다. 각 형식에 맞게 적절한 판다스 함수를 사용하여 데이터를 로드할 수 있다. CSV(Comma Separated Values)파일 읽는 방법 CSV 파일은 데이터프레임의 요소가 콤마로 구분되어 있는 것을 말한다. CSV 파일을 read_csv() 메소드로 로드하면 콤마 기준으로 데이터프레임이 출력된다. 구글 코랩에서 실행하면 데이터가 많을 땐 아래 행과 열이 표시되며 중간이 생략된다. >> df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/데이터분석/data/GOOG.csv') >>..
NaN이란? NaN은 "Not a Number"의 약자로, 결측치(missing value)를 나타내는 데 사용되는 특수한 값이다. 주로 파이썬의 판다스와 같은 데이터 분석 도구에서 사용된다. NaN은 데이터셋에서 값이 존재하지 않거나 수학적으로 정의할 수 없는 상태를 나타낸다. 이것은 데이터의 부재, 누락, 또는 특정 연산 결과가 정의되지 않는 경우에 해당한다. 먼제 데이터프레임을 통해 NaN 데이터를 알아보자. >> items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'sh..
판다스 데이터프레임(Pandas DataFrame)이란? 데이터프레임(DataFrame)은 판다스의 핵심 자료구조 중 하나로, 테이블 형태의 데이터를 다루는 데 사용된다. 데이터프레임은 행과 열로 구성된 2차원 테이블로, 각 열은 다른 데이터 타입을 가질 수 있다. 이를 통해 데이터를 쉽게 조작하고 분석할 수 있다. 데이터프레임은 CSV, Excel, 데이터베이스 등 다양한 소스로부터 데이터를 가져와 처리할 수 있다. 판다스의 다양한 함수와 메서드를 사용하여 데이터프레임을 조작하고 필터링하며, 분석 및 시각화를 수행할 수 있다. 판다스 데이터프레임 생성하기 먼저 파이썬의 dict를 판다스 1차원 데이터 Series 사용해 2차원 데이터를 생성하여 변수에 할당한다. import pandas as pd it..
판다스(Pandas)는 파이썬에서 데이터 조작과 분석을 위한 라이브러리다. 주로 표 형식의 데이터나 시계열 데이터를 다루는 데에 사용한다. 판다스는 데이터를 처리하고 정리하는 데 유용한 다양한 기능을 제공한다. 판다스(Pandas)의 장점 - 행과 열에 레이블을 사용할 수 있다. - 기본적인 통계데이터를 제공한다. - NaN 값을 알아서 처리할 수 있는 메소드가 있다. - 숫자 문자열을 알아서 불러온다. - 데이터셋들을 병합할 수 있다. - Numpy와 Matplotlib와 통합된다. 판다스(Pandas) 라이브러리 불러오기 판다스 라이브러리를 불러오는 가장 첫번 째 방법이다. 다른 라이브러리도 동일한 방법으로 불러온다. import pandas as pd 판다스 시리즈(Pandas Series) 데이터..