funMV: 기계학습에서 Data cleaning 기술

2014년 1월 17일 금요일

기계학습에서 Data cleaning 기술

앞에서는 기계학습에서 발생하는 imbalanced data 문제를 해결하기 위해 여러가지의 샘플링 기반의 데이터 합성 기술을 살펴 보았다.
데이터를 합성하면 overlapping 문제가 생기는데, 이것은 정,부의 데이터들이 서로 뒤 섞여서 학습 성능을 저하시키는 것을 말한다.

따라서 Tomek link와 같은 데이터 삭제 기술을 적용하여 샘플링에 의한 합성 데이터로 생긴 overlapping을 제거할 수 있다.

Tomek link는 정의를 위해 샘플사이의 거리 값을 이용한다. 단, 서로 다른 부류가 연결된 것이며, 상호간의 최소 거리를 가진 두 샘플의 쌍(pair)을 말한다.
예를 들면, (xi, xj)의 쌍에 대해 xi는 Smin(minority of S)에 속하며, xj는 Smaj(majority of S)에 속한다.
또한 d(xi, xj)는 xi xj사이의 거리이며, 만일 d(xi,xk)<d(xi,xj)이거나 d(xj,xk)<d(xi,xj)가 되는 샘플 xk가 없다면 이것을 Temek link라 부른다.

만일 어떤 두 샘플이 Tomek link를 형성한다면, 두 샘플의 어떤 하나는 노이즈이거나 둘 다가 부류의 경계근처에 있는 것으로 볼 수 있다.

따라서, 데이터 합성 후, 원치 않는 부류들 사이의 overlapping을 제거하기 위해 모든 Temek link를 찾아 제거한다. 제거 과정은 모든 최소 거리 연결 쌍이 같은 부류에 있을 때까지 계속된다.

overlapping 샘플들을 제거함에 의해 학습 샘플들은 잘 정의된 부류의 cluster를 얻을 수 있고, 이것은 결국 개선된 성능으로 나타난다.

그림 (a)는 overlapping이 있는 imbalanced된 원 데이터를 보여준다. 그림 (b)는 SMOTE에 의한 데이터 합성 후의 분포를 보여준다. SMOTE에 의해 생긴 overlapping 증가가 나타난다. 그림 (c)에서 Tomek link는 점선 박스로 표시되고, 그림 (d)는 Tomek link를 제거한 결과를 보여준다. 잘 정의된 클래스의 cluster가 나타난다.

참고 논문

[1] Haibo He, et. al., Learning from Imbalanced data, IEEE Trans. Knowledge and data Eng., 21(9), 2009
[2] I, Tomek, Two modifications of CNN, IEEE Trans. System, Man, Cybernetics, 6(11), 1976.

funMV

2014년 1월 17일 금요일

기계학습에서 Data cleaning 기술

댓글 없음:

댓글 쓰기

태그

프로필