일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- EA
- Turorial
- example
- 데이터 관리
- 판다스
- Tutorial
- 예제
- 액티비티 다이어그램
- 소프트웨어공학
- UML
- 사용법
- 컴포넌트 다이어그램
- data
- pandas
- 데이터
- 만들기
- 데이터 처리
- 엔터프라이즈 아키텍처
- sample
- 파이썬
- 기초
- Component Dagram
- Enterprise Architect
- Activity Diagram
- 튜토리얼
- Python
- 이론
- 코딩
- 클래스 다이어그램
- class diagram
- Today
- Total
목록Python/Pandas (10)
SW개발 지식 쌓기
패키지 import 튜토리얼을 진행하기 위해서는 아래의 패키지를 import 해야한다. 시계열 Pandas는 주기 변환 중에 리샘플링 동작을 수행하기 위한 간단하고 효율적인 기능을 가진다. 시계열 데이터 생성 및 시계열 인덱스 변환 [108] 2012년 1월 1일 부터 100일을 초 주기로 생성 * 생성시 파라미터로 입력되는 freq는 다음과 같다. Alias Description B business day frequency (주말이 아닌 평일) C custom business day frequency D calendar day frequency (일) W weekly frequency (주-일요일) M month end frequency (각 달의 마지막 날) BM business month end f..
패키지 import 튜토리얼을 진행하기 위해서는 아래의 패키지를 import 해야한다. 변형 Stack DataFrame의 열에 있는 단계를 stack() 메소드를 통해 압축하기 [95] 내장 함수인 zip 메소드를 통해서 리스트 자료형 생성 * zip 메소드는 반경가능한 자료형 여러개를 입력으로 받는 메소드이다. 예제는 다음과 같다. * list(zip([1, 2, 3], [4, 5, 6])) * [(1, 4), (2, 5), (3, 6)] * list(zip([1, 2, 3], [4, 5, 6], [7, 8, 9])) * [(1, 4, 7), (2, 5, 8), (3, 6, 9)] * list(zip("abc", "def")) * [('a', 'd'), ('b', 'e'), ('c', 'f')] [9..
패키지 import 튜토리얼을 진행하기 위해서는 아래의 패키지를 import 해야한다. 그룹화 그룹화는 다음 단계 중 하나 이상을 포함하는 단계를 말한다. 몇 가지 기준에 따라 그룹으로 데이터 분할 독립적으로 각 그룹에 기능 적용 결과를 데이터 구조로 결합 그룹화한 결과에 sum() 함수를 적용한 DataFrame 출력 [91] 'A','B','C','D' 컬럼을 가지고 각각의 컬럼 값을 가지는 Dataframe 생성 [92] DataFrame 출력 [93] 'A' 컬럼을 기준으로 그룹화하고 각 값을 합산한 값을 출력 * 'A' 컬럼의 문자인 'bar'와 'foo'로 그룹화 된것을 볼 수 있고, 정수값을 가진 'C','D' 컬럼만 sum() 함수 값을 반환한다. * 문자열 값을 가진 'B' 컬럼은 자동으..
패키지 import 튜토리얼을 진행하기 위해서는 아래의 패키지를 import 해야한다. Merge (병합) Concat Pandas는 Series, DataFrame 및 Panel 객체를 join / Merge 유형의 작업에서, 인덱스 및 관계 대수 기능에 대한 다양한 유형의 논리로 쉽게 합칠 수 있는 다양한 기능을 제공한다. Pandas 객체 합치기 [73] 10행 4열의 DataFrame에 랜덤한 값을 넣는다. [74] 생성된 DataFrame 출력 [75] DataFrame을 행을 기준으로 1-3행까지 4-7행까지 8-10행까지 나누어 pieces 리스트에 저장한다. * 리스트의 시작은 0부터 시작 * pieces[0]을 출력하면 df[:3]의 결과가 출력된다. * pieces[1]을 출력하면 df..
패키지 import 튜토리얼을 진행하기 위해서는 아래의 패키지를 import 해야한다. 튜토리얼을 진행하기 위해서는 아래의 과정을 수행해야한다. 메소드 통계 일반적으로 메소드는 누락 된 데이터 (NaN)을 제외한다. 평균 값 출력 통계 - 열 기준 [61] Pandas의 내장 메소드인 mean()을 사용하여서 각 열의 평균 값을 출력한다. * 'F' 라벨의 경우 NaN 값이 포함되어 있지만 NaN 값을 제외하고 평균값이 계산된 것을 알 수 있다. 평균 값 출력 통계 - 행 기준 [62] df.mean(1)을 사용하면 각 행 기준의 평균 값을 출력한다. * '2013-01-01' 인덱스의 경우 NaN 값이 포함되어 있지만 NaN 값을 제외하고 평균값이 계산된 것을 알 수 있다. NaN 값이 있는 Serie..
패키지 import 튜토리얼을 진행하기 위해서는 아래의 패키지를 import 해야한다. 튜토리얼을 진행하기 위해서는 아래의 과정을 수행해야한다. 누락 데이터 처리 Pandas는 기본적으로 numpy.nan 값을 사용하여 누락된 데이터를 나타낸다. 기본적으로 nan 값은 계산에 포함되지 않는다. 색인 변경 / 추가 / 삭제 [55] df.reindex 메소드를 통해서 숫자로 구성된 인덱스 값을 날짜 값으로 변경하고, 기존 컬럼에 'E' 컬럼을 추가하여 df1 생성 [56] df1의 2013-01-01, 2013-01-02의 'E' 컬럼의 값을 1로 변경, 'E' 컬럼의 나머지 부분은 값이 없으므로 NaN 값 [57] df1 출력 NaN 데이터 값 삭제 [58] df1에 NaN 값을 가지고 있는 경우 해당 ..
패키지 import 튜토리얼을 진행하기 위해서는 아래의 패키지를 import 해야한다. 튜토리얼을 진행하기 위해서는 아래의 과정을 수행해야한다. 데이터 선택 단일 열 선택 단일 열을 선택하는 방법은 다음과 같다. [23] df[ ] 대괄호 안에 컬럼 값을 입력하여서 단일 열을 선택할 수 있다. 특정 영역을 선택하는 경우 [ ]을 사용하여 선택한다. [24] df[시작지점:종료지점] 을 통해 데이터 프레임의 특정 영역을 선택할 수 있다. (입력 값을 index로 한 경우) [24] df[시작지점:종료지점] 을 통해 데이터 프레임의 특정 영역을 선택할 수 있다. (입력 값을 date로 한 경우) 라벨을 통한 선택 라벨을 사용하여 해당하는 행을 선택한다. [26] 이전 [5]에서 만든 dates 리스트에서 첫..
패키지 import 튜토리얼을 진행하기 위해서는 아래의 패키지를 import 해야한다. 튜토리얼을 진행하기 위해서는 아래의 과정을 수행해야한다. 데이터 보기 데이터 프레임의 상단과 하단 행을 보는 방법은 다음과 같다. [13] df.head 메소드를 통해 데이터 프레임이 최상단부터 출력되고 입력 값이 없는 경우 디폴트 값인 5개가 출력된다. 숫자 값을 입력하게 되면, 입력한 값 만큼 최상단부터 출력된다. [14] df.tail 메소드를 통해 데이터 프레임이 최하단부터 출력되고 입력 값이 없는 경우 디폴트 값인 5개가 출력된다. 숫자 값을 입력하게 되면, 입력한 값 만큼 최하단부터 출력된다. 인덱스와 컬럼을 보는 방법을 다음과 같다. [15] df.index 메소드를 통해 df에 존제하는 index 값을 ..
패키지 import 튜토리얼을 진행하기 위해서는 아래의 패키지를 import 해야한다. 객체 생성 Pandas에서 사용되는 객체는 다음과 같다. 차원 이름 설명 1차원 Series 균일한 유형의 배열로 표시된 1차원 데이터 2차원 DataFrame 잠재적으로 이질적으로 유형이 지정된 열이있는 크기가 가변적인 테이블 형식의 2차원 데이터 1차원 정수 인덱스를 생성하는 방법은 다음과 같다. [3] s 변수에 Pandas에서 사용되는 Series 데이터를 만들어서 저장, Series 객체에는 1,3,5,Nan,6,8이 순서대로 입력 * np.nan 메소드는 numpy에서 제공하는 함수로 nan (null) 값을 생성해주는 메소드 [4] s로 입력하였을때 에러가 나는 경우 print(s)로 출력, python ..
Pandas Overview Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업 할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지이다. Python에서 실용적인 실제 데이터 분석을 수행하기 위한 고수준의 객체 형태를 목표로한다. 또한, 어떤 언어로도 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석 / 조직 도구가되는 더 넓은 목표를 가지고 있다. Pandas는 다음의 종류의 데이터에 적합한 분석 패키지이다. SQL 테이블 또는 Excel 스프레드 시트에서와 같이 이질적으로 유형이 지정된 열이있는 데이블 형식 데이터 정렬되고 정렬되지 않은 시계열 데이터 행 및 열 레이블이 포함 된 임의의 행렬 데이터 다른 형태의 관찰 / 통계 데이터 세트..