[Python] 파이썬 판다스(Pandas) - 데이터 정렬 sort_value(), sort

🐍Python/Pandas

[Python] 파이썬 판다스(Pandas) - 데이터 정렬 sort_value(), sort_index()메소드

루리야ㅑ 2023. 11. 17. 18:11

판다스에서 데이터프레임을 정렬하는 데에는 sort_values()와 sort_index()라는 두 가지 메소드가 있다. 각각의 메소드는 다양한 정렬 옵션을 제공해 데이터를 원하는 대로 정렬할 수 있다.

아래의 데이터로 두 가지 메소드를 확인해보자.

>> df = pd.DataFrame({'Employee ID':[111, 222, 333, 444],
                   'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'],
                   'Salary [$/h]':[35, 29, 38, 20],
                   'Years of Experience':[3, 4 ,9, 1]})
>> df

sort_values() 사용하기

이 메소드는 데이터프레임을 특정 열(column)의 값을 기준으로 정렬할 때 사용된다. 주로 by 매개변수를 활용해 정렬 기준이 되는 열을 선택할 수 있다.

by: 정렬할 기준이 되는 열(column)의 이름을 나타내는 매개변수아다. 리스트로 여러 열을 지정할 수도 있다.
ascending: 정렬 방식을 결정하는데, 기본값은 True로 오름차순이고, False로 설정하면 내림차순으로 정렬된다.
ignore_index: 기본값은 False로, True로 설정하면 새로운 인덱스를 생성해준다.

위 데이터에서 경력을 오름차순으로 정렬한다.

>> df['Years of Experience'].sort_values() # 컬럼만 정렬
3    1
0    3
1    4
2    9
Name: Years of Experience, dtype: int64

그리고 행 전체를 특정 컬럼 기준으로 정렬한다.

>> df.sort_values('Years of Experience')

경력을 내림차순으로 정렬한다.

>> df.sort_values('Years of Experience', ascending= False)

length 컬럼을 내림차순으로 정렬한다.

>> df.sort_values('length', ascending= False)

정렬 조건이 여러 개일 때는 sort_values 함수에 리스트로 여러 컬럼을 넣어 정렬할 수 있다.

length를 내림파순으로 정렬하되, 숫자가 같으면, 이름을 오름차순으로 정렬한다.

>> df.sort_values(['length','Employee Name'],ascending=[False,True])

sort_index() 사용하기

이 메소드는 인덱스를 기준으로 데이터프레임을 정렬할 때 사용된다.. 주로 데이터프레임의 인덱스에 따라 정렬할 때 유용하다. 몇 가지 중요한 매개변수는 아래와 같다.

axis: 기본값은 0으로 행(row)을 기준으로 정렬하는 것이고, 1로 설정하면 열(column)을 기준으로 정렬해.
ascending: 정렬 방식을 결정하는데, 기본값은 True로 오름차순이고, False로 설정하면 내림차순으로 정렬돼.

먼저 위의 인덱스가 정렬되지 않은 sort_values 함수를 적용한 데이터 프레임을 변수에 넣는다.
그리고 새로운 변수에 sort_index()적용한다. 이때 ascending 속성에 False 값을 주어 내림차순으로 정렬한다.

>> df2=df.sort_values(['length','Employee Name'],ascending=[False,True])
>> df2.sort_index(ascending=[False])

저작자표시 비영리 변경금지 (새창열림)