CLICK AI 가이드 / 데이터 전처리


CLICK AI의 auto 프로세싱은 데이터 불러오기부터 데이터 전처리를 통한 데이터 품질 향상까지 데이터 준비과정을 자동으로 수행합니다.

데이터 전처리란, 보다 정확한 결과물을 위해 데이터의 품질을 향상시키는 작업을 의미합니다. 데이터 전처리는 데이터 과학/분석 단계 중 가장 중요한 작업으로써, 가장 많은 시간 투자가 필요한 작업입니다.

CLICK AI는 데이터 품질을 향상시킬 수 있는 보편적인 방법을 자동화하여 간편하고 신속하게 전처리를 수행할 수 있습니다.

  1. 공란 데이터 값의 존재
  2. 동일한 데이터 값의 서로 다른 표기
  3. 형식에 맞지 않는 데이터 값의 존재 등
  4. 표준분포에서 벗어난 값
  5. 유니크값만으로 이뤄진 값

CLICK AI에서 제공하는 전처리는 총 다섯가지로 이루어져 있으며, 데이터의 특성에 따라서 전처리 기능을 선택하여 할 수 있으며, 전처리 기능은 텍스트 기반의 인공지능 모델에 한해서 적용됩니다.

데이터 클렌징1

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/411f78d3-e7e4-437f-9974-2428d2e12013/data_cleaning_1.png

[상대적으로 데이터 개수와 비교하여 유니크 값이 너무 적을 경우, 데이터 품질의 저해를 야기할 수 있습니다. 이것은 곧, 인공지능 학습에 저해를 발생시킬 수 있기 때문에, 이런 데이터는 삭제를 권장합니다. 일반적으로 데이터 5개 미만인 유니크 값을 가지고 있는 행들의 삭제를 추천하며, 데이터의 특성에 따라 다른 값으로 변경하여 삭제 할 수 있습니다.]

데이터 클렌징2

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/79ffb816-ed12-46e3-a9bc-c2e16ea3fd74/data_cleaning_2.png

[전체 데이터 중 전체 표준분포 이상을 가지고 있는 값, 즉, 평균적인 데이터 범위에 해당하지 않는 값이 있을 경우, 데이터 품질의 저해를 야기할 수 있습니다. 이것은 곧, 인공지능 학습에 저해를 발생시킬 수 있기 때문에, 이런 데이터는 삭제를 권장합니다. 전체 표준분포의 99.9% 이상을 벗어나는 값의 삭제를 추천하며, 데이터의 특성에 따라 다른 값으로 변경하여 삭제할 수 있습니다.]

정규화

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/ce8673d4-946f-4ecd-8a53-f34d05cd437e/data_.png

[인공지능은 학습을 할 때, 데이터가 가진 특성들을 비교하여 데이터의 패턴을 찾습니다. 하지만, 데이터가 가진 특성의 스케일이 항상 동일한 스케일을 가지지 않는 경우가 있습니다. 이 경우, 데이터의 스케일에 의해 인공지능 학습에 있어서 잘못된 패턴을 가지는 경우가 있기 때문에, 정규화라는 모든 데이터의 스케일을 동일하게 잡아주는 작업이 필요합니다. CLICK AI에서는 MIN-MAX 정규화를 이용하며, 이를 이용하여 데이터의 정규화를 실시합니다.]