2015. 9. 19. 23:45

아키텍처 기반 튜닝 원리- SQL 전문가 가이드

출처 : SQL 전문가 가이드  요약 정리 


데이터베이스 성능 튜닝의 3대 핵심 요소 

  1. SQL 부하 해소 
  2. 데이터 베이스 Call 최소화 
  3. I/O 효율화 
--> 성능 요소를 해결 하는데 90% 이상은 개발팀 역량에 달렸다. 
어플리케이션으로 부터 발생하는 일량을 근본 적으로 줄여야 한다. 

정의

데이터베이스 : 물리적인 디스크에 저장된 데이터집합(데이터파일, 리두로그파일, 컨트롤파일)
인스턴스 : 공유메모리(SGA)와 이를 엑세스하는 프로세스 집합

★하나의 인스턴스는 하나의 데이터베이스를 엑세스(Single), 여러개의 인스턴스는 하나의 데이터베이스를 엑세스(RAC)

나.SQL Server 아키텍처
정의

하나의 인스턴스당 최고 32,767개의 데이터베이스를 정의해서 사용
기본적으로 시스템데이터베이스가 만들어지면, 사용자데이터베이스를 추가하여 생성하는 구조

시스템데이터베이스 : mster, model, msdb, tempdb 등
사용자데이터베이스 : 데이터파일(mdf), 트랜잭션로그파일(ldf), 보조데이터파일(ndf)


백그라운드프로세스
ORACLE SQL Server설명 
SMON(System Monitor)Database cleanup / Shrinking Thread장애가 발생한 시스템을 재기동할 때 인스턴스 복구를 수행하고, 임시 세그먼트와 익스텐트를 모니터링한다
PMON(Process Minitor)Open Data Services(OPS) 이상이 생긴 프로세스가 사용하던 리소스를 복구한다
DBWn(Database Writers) Lazywriter Thread버퍼 캐시에 있는 더티 버퍼를 데이터 파일에 기록
LGWR (Log Writer)Log writer Thread로그 버퍼 엔트리를 redo 로그 파일에 기록한다
ARCn(Archiver)N/A꽉찬 리두로그가 덮어 쓰여지기 전에 archive로그 디렉토리로 백업한다
CKPT(Checkpoint) Database Checkpoint Threadcheckpoint 프로시스는 이전의 checkpoint 가 일어났던 마지막 시점 이후의 데이터베이스 변경 사항을 데이터파일에 기록하도록 트리거링하고, 기록이 완료되면 현재 어디까지 기록했는지를 컨트롤 파일과 데이터 파일 헤더에 기록한다. 좀더 자세히 설명하면 wirte Ahead Logging 방식을 사용하는 DBMS는 리두로그에 기록해 둔 버퍼 블록에 대한 변경사항 중 현재 어디까지를 데이터 파일에 기록했는지 체크 포인트정보를 관리해야 한다. 이는 버퍼캐시와 데이터 파일이 동기화된 시점을 가리키며, 장애가 발생하면 마지막 체크포인트 이후 로그 데이터만 디스크에 기록함으로써 인스턴스를 복구할수 있도록 하는 용도로 사용된다.이 정보를 갱신하는 주기가 길수록 장애 발생시 인스턴스 복구 시간도길어진다.
RECO(Recoverer)Distributed Transaction Coordinator(DTC)분산 트랜잭션 과정에 발생한 문제를 해결한다

파일구조

가.데이터파일

1) 블록(=페이지)

  • 대부분의 DBMS에서는 I/O 블록단위로 이루어짐
  • 데이터를 읽고 쓸때의 논리적인 단위
  • SQL 성능을 좌우하는 가장 중요한 성능지표
  • 옵티마이저의 판단에 가장 큰 영향을 미치는 요소
항목오라클SQL Server
명칭블록페이지
블록크기2KB,4KB, 8KB, 16KB, 32KB, 64KB8KB

2)익스텐트(Extent)

  • 테이블스페이스로부터 공간을 할당하는 단위
항목오라클SQL Server
크기다양한크기의 익스텐트항상 64KB(페이지크기가 8KB이므로)
오브젝트단일오브젝트사용2개이상의오브젝트
  • 균일익스텐트(Uniform) : 64KB 이상의 공간을 필요로 하는 테이블이나 인덱스를 위해 사용됨
    8개 페이지 단위로 할당된 익스텐트를 단일 오브젝트가 모두 사용
  • 혼합익스텐트(Mixed) : 한 익스텐트에 할당된 8페이지를 여러 오브젝트가 나누어 사용
    모든 테이블이 처음에는 혼합 익스텐트로 시작하지만 64KB가 넘으면서 두번째부터는 균일익스텐트 사용

3)세그먼트(Segment)

  • 테이블, 인덱스,Undo 처럼 저장공간을 필요로하는 데이터베이스 오브젝트 (한개 이상의 익스테트 사용)
  • 파티션은 오브젝트와 세그먼트가 1:M (파티션을 만들면 내부적으로 여러개의 세그먼트가 만들어짐)
  • 한 세그먼트에 할당된 엑스텐트가 여러 데이터파일에 흩어져 저장됨(디스크 경합감소.I/O 분산효과)
오라클SQL Server
세그먼트힙구조 또는 인덱스구조 오브젝트

4) 테이블스페이스(Tablespace) 

  • 세그먼트를 담는 콘테이너로서 여러개의 데이터파일로 구성됨
  • 사용자는 데이터파일을 직접 선택할수 없으므로 실제 파일을 선택하고 익스텐트를 할당하는것은 DBMS의 몫
오라클SQL Server
테이블스페이스파일그룹

'Oracle' 카테고리의 다른 글

Character Set  (0) 2016.12.06
오라클 vs MS SQL 함수 비교.  (0) 2016.12.06
SQL 기본 및 활용  (0) 2015.09.19
2015. 9. 19. 23:24

SQL 기본 및 활용

출처 : http://wiki.gurubee.net/pages/viewpage.action?pageId=26743834&

그루비 지식 창고

수정 없이 정리 목적으로 필요한 부분가 가져왔습니다. 



DUAL 테이블 특징

 - 사용자 SYS가 소유하며 모든 사용자가 액세스 가능한 테이블이다.
- SELECT ~ FROM ~ 의 형식을 갖추기 위한 일종의 DUMMY 테이블이다.
- DUMMY라는 문자열 유형의 칼럼에 'X'라는 값이 들어 있는 행을 1건 포함하고 있다.


날짜형 함수
  날짜형 함수는 DATE 타입의 값을 연산하는 함수이다.
  Oracle의 TO_NUMBER(TO_CHAR( )) 함수의 경우 변환형 함수로 구분할 수도 있으나 SQL Server의 YEAR, MONTH,DAY 함수와 매핑하기 위하여 날짜형 함수에서 설명한다. 


변환함수
변환형 함수는 특정 데이터 타입을 다양한 형식으로 출력하고 싶을 경우에 사용되는 함수이다.  

암시적 데이터 유형 변환의 경우 성능 저하가 발생할 수 있으며, 자동적으로 데이터베이스가 알아서 계산하지 않는 경우가 있어 에러를 발생할 수 있으므로 명시적인 데이터 유형 변환 방법을 사용하는 것이 바람직하다. 

명시적 데이터 유형 변환에 사용되는 대표적인 변환형 함수는 다음과 같다. 


CASE 표현
IF-THEN-ELSE 논리와 유사한 방식으로 표현식을 작성해서 SQL의 비교 연산 기능을 보완하는 역할을 한다.  

 


집계 함수와 NULL

  리포트의 빈칸을 NULL이 아닌 ZERO로 표현하기 위해 NVL(Oracle)/ISNULL(SQL Server) 함수를 사용하는 경우가 많은데, 다중 행 함수를 사용하는 경우는 오히려 불필요한 부하가 발생하므로 굳이 NVL 함수를 다중 행 함수 안에 사용할 필요가 없다.
다중 행 함수는 입력 값으로 전체 건수가 NULL 값인 경우만 함수의 결과가 NULL이 나오고 전체 건수 중에서 일부만 NULL인 경우는 NULL인 행을 다중 행 함수의 대상에서 제외한다.
   SUM(CASE MONTH WHEN 1 THEN SAL ELSE 0 END)처럼 ELSE 절에서 0(Zero)을 지정하면 불필요하게 0이 SUM 연산에 사용되므로 자원의 사용이 많아진다.
하나가 Oracle의 SUM(NVL(SAL,0)), SQL Server의 SUM(ISNULL (SAL,0)) 연산이다. 개별 데이터의 급여(SAL)가 NULL인 경우는 NULL의 특성으로 자동적으로 SUM 연산에서 빠지는 데, 불필요하게 NVL/ISNULL 함수를 사용해 0(Zero)으로 변환시켜 데이터 건수만큼의 연산이 일어나게 하는 것은 시스템의 자원을 낭비하는 일이다.

[예제] SIMPLE_CASE_EXPRESSION 조건  
SELECT TEAM_ID
              , NVL(SUM(CASE POSITION WHEN 'FW' THEN 1 ELSE 0 END),0) FW -- 불필요한 연산이 일어남
              , NVL(SUM(CASE POSITION WHEN 'MF' THEN 1 END),0) MF   -- SUM은 NULL을 제외 하고 합산 하므로 SUM안이 아닌 밖에 NVL를 사용 하여 건수들 만큼 자원의 낭비를 줄임
              , NVL(SUM(CASE POSITION WHEN 'DF' THEN 1 END),0) DF   -- SQL SERVER로 변경 하고자 할 경우 ISNULL(SUM(CASE POSITION WHEN 'DF' THEN 1 END),0) DF
              , NVL(SUM(CASE POSITION WHEN 'GK' THEN 1 END),0) GK  -- SEARCHED_CASE_EXPRESSION 표현 NVL(SUM(CASE POSITION = 'GK' THEN 1 END),0) GK
              , COUNT                                                                                 SUM
FROM PLAYER
GROUP BY TEAM_ID;  


NATURAL JOIN

NATURAL JOIN은 두 테이블 간의 동일한 이름을 갖는 모든 칼럼들에 대해 EQUI(=) JOIN을 수행한다. NATURAL JOIN이 명시되면, 추가로 USING 조건절, ON 조건절, WHERE 절에서 JOIN 조건을 정의할 수 없다. 그리고, SQL Server에서는 지원하지 않는 기능이다. 

SELECT DEPTNO, EMPNO, ENAME, DNAME
FROM   EMP NATURAL JOIN DEPT ;

NATURAL은 식별자를 가질 수 없다. 또한 동일한 열에 대해서는 생략된다. 
USING 조건절

NATURAL JOIN에서는 모든 일치되는 칼럼들에 대해 JOIN이 이루어지지만, FROM 절의 USING 조건절을 이용하면 같은 이름을 가진 칼럼들 중에서 원하는 칼럼에 대해서만 선택적으로 EQUI JOIN을 할 수가 있다. 다만, 이 기능은 SQL Server에서는 지원하지 않는다. 

SELECT *
FROM DEPT JOIN DEPT_TEMP
USING (DEPTNO);

SELECT *
FROM DEPT JOIN DEPT_TEMP
USING (LOC, DEPTNO);

USING절에 명시된 컬럼이 기준이 되어 동일한 열들을 조인한다. 명시된 데이터가 앞에 나온다. 

SELECT *
FROM DEPT JOIN DEPT_TEMP
USING (DEPTNO);

SELECT *
FROM DEPT JOIN DEPT_TEMP
USING (LOC, DEPTNO);

USING절에 명시된 컬럼이 기준이 되어 동일한 열들을 조인한다. 명시된 데이터가 앞에 나온다. 

  • natural join 에선 using 절 사용 불가하지
  • using 절은 Inner join 에서만 사용하는 구문
  • Inner Join 에서 On 절 또는 Using 절 필수
  • Inner Join 에서 On 절 사용결과 와 Using 절 결과가 다름(Select * 시 조회 컬럼수가 다름)
  • Inner Join 에서 On 절 사용 : 모든 항목이 조회됨
  • Inner Join 에서 Using 절 사용 : 조인키 항목은 한번만 조회됨
계층형 질의

테이블에 계층형 데이터가 존재하는 경우 데이터를 조회하기 위해서 계층형 질의(Hierarchical Query)를 사용한다. 
계층형 데이터란 동일 테이블에 계층적으로 상위와 하위 데이터가 포함된 데이터를 말한다. 

그림은 사원에 대한 순환관계 데이터 모델을 표현한 것이다. 
(2)계층형 구조에서 A의 하위 사원은 B, C이고 B 밑에는 하위 사원이 없고 C의 하위 사원은 D, E가 있다. 
계층형 구조를 데이터로 표현한 것이 (3)샘플 데이터이다. 

Oracle 계층형 질의
SELECT ...
FROM   TABLE
WHERE  CONDITION AND CONDITION
START WITH CONDITION
CONNECT BY [NOCYCLE] CONDITION AND CONDITION
[ORDER SIBLINGS BY COLUMN, COLUMN......]
  • START WITH절은 계층 구조 전개의 시작 위치를 지정하는 구문이다. 즉, 루트 데이터를 지정한다.(액세스)
  • CONNECT BY절은 다음에 전개될 자식 데이터를 지정하는 구문이다. 자식 데이터는 CONNECT BY절에 주어진 조건을 만족해야 한다.(조인)
  • PRIOR : CONNECT BY절에 사용되며, 현재 읽은 칼럼을 지정한다. PRIOR 자식 = 부모 형태를 사용하면 계층구조에서 자식 데이터에서 부모 데이터(자식 → 부모) 방향으로 전개하는 순방향 전개를 한다. 그리고 PRIOR 부모 = 자식 형태를 사용하면 반대로 부모 데이터에서 자식 데이터(부모 → 자식) 방향으로 전개하는 역방향 전개를 한다.
  • NOCYCLE : 데이터를 전개하면서 이미 나타났던 동일한 데이터가 전개 중에 다시 나타난다면 이것을 가리켜 사이클(Cycle)이 형성되었다라고 말한다. 사이클이 발생한 데이터는 런타임 오류가 발생한다. 그렇지만 NOCYCLE를 추가하면 사이클이 발생한 이후의 데이터는 전개하지 않는다.
  • ORDER SIBLINGS BY : 형제 노드(동일 LEVEL) 사이에서 정렬을 수행한다.
  • WHERE : 모든 전개를 수행한 후에 지정된 조건을 만족하는 데이터만 추출한다.(필터링)

Oracle은 계층형 질의를 사용할 때 다음과 같은 가상 칼럼(Pseudo Column)을 제공한다. 

가상 컬럼설명
LEVEL루트 데이터이면 1, 그 하위 데이터이면 2이다. 리프(Leaf) 데이터까지 1씩 증가한다.
CONNECT_BY_ISLEAF전개 과정에서 해당 데이터가 리프 데이터이면 1, 그렇지 않으면 0이다.
CONNECT_BY_ISCYCLE전개 과정에서 자식을 갖는데, 해당 데이터가 조상으로서 존재하면 1, 그렇지 않으면 0이다. 여기서 조상이란 자신으로부터 루트까지의 경로에 존재하는 데이터를 말한다. CYCLE 옵션을 사용했을 때만 사용할 수 있다.

다음은 그림의 (3)샘플 데이터를 계층


조인의 이해 

http://wiki.gurubee.net/pages/viewpage.action?pageId=26744589




'Oracle' 카테고리의 다른 글

Character Set  (0) 2016.12.06
오라클 vs MS SQL 함수 비교.  (0) 2016.12.06
아키텍처 기반 튜닝 원리- SQL 전문가 가이드  (0) 2015.09.19
2015. 9. 14. 10:58

Index IGNORE_DUP_KEY 옵션 TEST

No

방법

문제점

1

클러스터 Key IGNORE_DUP_KEY 옵션

온라인 Reindex가 되지 않음 -DBA 상에서 관리 이슈 있음
성능 이슈 -  Data 비교를 하기 때문에 일반 보다는 비용이 더 소요 됨
성능 TEST No1 참고

2

유니크 Index를 생성하고 IGNORE_DUP_KEY 옵션

No 1의 문제점 해결
동일 Key Index가 더 생성되는 것이며,  No1 번과 마찬가지로
데이터 입력시 Sort 비용,  Semi Join 비용,  Buffer Pool 공간 사용 비용이 증가하여
기본 예상 비용 보다  3배 정도 초과 운영됨

데이터를 삽입 하는 동안 정합성을 유지 하기 위해  입력 Data Range 에 대한 Shared range, Update Lock를 발생 함

동시 변경시 문제가 있을 수 있고,  SQL 아키텍쳐상 Lock  Escalation 될 수 있으므로 Table Lock으로 발전 될 수 있는 가능 성 있음

성능 Test No2 참고

3

쿼리 문을 수정 하는 방법

Insert 문을 수정해서 입력 하는 방법
- EXCEPT
방식, Merage 방식

-- Insert 문 수정  with except

INSERT dbo.PKDUP (pk)

select  i from dbo.DUMP_INSERT

where i between 10000 and 130000

except select pk from dbo.PKDUP

 

-- merge 문 사용

MERGE dbo.PKDUP  AS b

USING (SELECT i FROM dbo.DUMP_INSERT WHERE i BETWEEN 10000 AND 130000) AS s

ON s.i = b.pk

WHEN NOT MATCHED THEN

INSERT (pk) VALUES (s.i);


성능 TEST No3 참고

4

INSTEAD OF trigger 사용 방법

3번 으로 하면 가장 좋으나 대량의 bulk 성으로 입력을 해야 하는 경우 대안이 될 수 있을 것 같음

해당 트리거는 테이블당 하나만 생성 할 수 있고
INSTEAD
트리거가 제약 조건에 위배 되면 AFTER이 실행 되지 않음을 알아야 함

성능 Test No4 참고



CREATE TABLE dbo.PK_DUP

(

    pk int NOT NULL,  CONSTRAINT PK_PK_DUP PRIMARY KEY (pk) WITH (IGNORE_DUP_KEY = ON)

);

GO

select * from sys.indexes where object_id = object_id ('PK_DUP')

-- Unique values

INSERT dbo.PK_DUP (pk)

VALUES (1), (3), (5);

GO

-- key 3 already exists

INSERT dbo.PK_DUP (pk)

VALUES (2), (3), (4);

/*

중복 키가 무시되었습니다.

(2개 행이 영향을 받음)

*/

select * from PK_DUP

/*

pk

1

2

3

4

5

*/

/**  Problem 1 :  Rebild를 할  수 없다. **/

ALTER INDEX PK_PK_DUP ON dbo.PK_DUP

REBUILD WITH (FILLFACTOR = 90, ALLOW_ROW_LOCKS = OFF, ONLINE = ON, IGNORE_DUP_KEY = ON);

GO

/*

메시지 1979, 수준 16, 상태 1, 1

인덱스 옵션 ignore_dup_key PRIMARY KEY 또는 UNIQUE 제약 조건을 적용하므로 이 인덱스 옵션을 사용하여 인덱스 'PK_PK_DUP'() 변경할 수 없습니다.

*/


[성능 TEST No2]

-- 새로운 Idea

-- 유니크 key를 만들어서 처리 한다.

CREATE TABLE dbo.PKDUP (pk int NOT NULL CONSTRAINT PK_PKDUP PRIMARY KEY);

GO

INSERT dbo.PKDUP (pk) VALUES (1), (2), (3);

GO

-- New constraint (or index) with IGNORE_DUP_KEY, added ONLINE

ALTER TABLE dbo.PKDUP  ADD CONSTRAINT UIDX_PKDUP  UNIQUE NONCLUSTERED (pk) WITH (IGNORE_DUP_KEY = ON, ONLINE = ON);

select * from sys.indexes where object_id = object_id ('PKDUP')

 

-- key 3을 입력 한다.

INSERT dbo.PKDUP (pk) VALUES (3), (4), (5);

GO

/*중복 키가 무시되었습니다. */

SELECT pk FROM dbo.PKDUP;

/*

pk

1

2

3

4

5

*/

-- Problem 1 해결

ALTER INDEX PK_PKDUP ON dbo.PKDUP

REBUILD WITH (FILLFACTOR = 90, ALLOW_ROW_LOCKS = OFF, ONLINE = ON);

GO

ALTER INDEX UIDX_PKDUP ON dbo.PKDUP

REBUILD WITH (FILLFACTOR = 100, ALLOW_ROW_LOCKS = OFF, ONLINE = ON);

GO


No1의 문제는 해결 되나  성능 상의 이슈로  입력 하는 데이터와 기존 데이터를 비교 하는 추가 적인 작업 단계가 늘어나면서

예상 비용이 3배 정도 증가 함





[성능 TEST No3]


CREATE TABLE DUMP_INSERT ( i int )

set nocount on

declare @i int 

set @i =1

while (@i < 10000 )

begin

             insert into DUMP_INSERT  values ( @i )

             set @i = @i + 1

end

insert into PKDUP

select * from DUMP_INSERT

set nocount on

declare @i int 

set @i =90000

while (@i < 110001 )

begin

             insert into DUMP_INSERT  values ( @i )

             set @i = @i + 1

end

-- 유니크 Index 삭제

alter table dbo.PKDUP

drop constraint  UIDX_PKDUP

set nocount on

declare @i int 

set @i =120001

while (@i < 150001 )

begin

             insert into DUMP_INSERT  values ( @i )

             set @i = @i + 1

end

 

 

-- Insert 문 수정  with except

INSERT dbo.PKDUP (pk)

select  i from dbo.DUMP_INSERT

where i between 10000 and 130000

except select pk from dbo.PKDUP

 

n  여전히  Buffer pool 공간은 사용 하지만 예상 비용은 0.96

 

 


 

 

-- merge 문 사용

MERGE dbo.PKDUP  AS b

USING (SELECT i FROM dbo.DUMP_INSERT WHERE i BETWEEN 10000 AND 130000) AS s

ON s.i = b.pk

WHEN NOT MATCHED THEN

INSERT (pk) VALUES (s.i);

 

-    비용은 증가하나 Buffer pool 공간은 사용하지 않음

 


 

 


성능 TEST No4]

-- INSTEAD OF trigger

-- INSTEAD OF 트리거는 트리거 문의 표준 동작을 무시합니다.

-- 따라서 이 트리거를 사용하여 하나 이상의 열에서 오류나 값을 확인하고 행을 삽입, 업데이트 또는 삭제하기 전에 추가 동작을 수행할 수 있습니다.

-- INSTEAD OF 트리거가 제약 조건을 위한 하면 AFTER 트리거는 실행되지 않습니다.

CREATE TRIGGER  tI_PKDUP ON DBO.PKDUP

INSTEAD OF INSERT

AS

BEGIN

             SET NOCOUNT ON

             INSERT dbo.PKDUP (pk)

             SELECT PK FROM INSERTED

             except select pk from dbo.PKDUP

END

GO

INSERT dbo.PKDUP (pk)

SELECT i FROM dbo.DUMP_INSERT WHERE i BETWEEN 10000 AND 130000

 



-    Mearge랑 비슷한 예상 비용이 발생 함. 트리거 사용을 권하지는 않지만 대량 데이터 입력으로 인해 No3 번이 불가능 할 때 고려해 볼 만 함.

 

 


'Peformance Tuning' 카테고리의 다른 글

파티션 테이블 - 문제점, 주의 사항  (0) 2012.11.19
query plan의 실행 옵션 보기  (0) 2012.01.29
Dynamic Management Views  (0) 2012.01.22
Hash Join 제약.  (0) 2011.10.10