머신러닝

데이터 마이닝(Data Mining) - 개념 정리 1

He110 2023. 10. 8. 16:31

데이터 마이닝 : 대규모 데이터 집합에서 유용한 정보와 패턴을 추출하기 위해 통계적이고 수학적인 기술을 사용하여 데이터를 분석하고 발견하는 프로세스이다. 이를 통해 숨겨진 통찰력을 얻고, 예측 모델을 개발하며, 의사 결정을 지원하는 도움을 준다. 연역적/논리적 추론이 불가능한 경우, 귀납적 추론이 가능한 머신러닝을 활용한다. 하지만 기계가 했던 행동으로 인해 발생한 문제점으로 도입이 꺼려진다. 예를 들면 자동차 사고가 있겠다. 또한, 명령의 이유를 몰라서 도입되기가 꺼려진다.

데이터 : 기록된 사실을 의미한다. 이러한 기록된 사실을 구조적 패턴으로 활용해야 가치가 있다.

정보 : 데이터에 내제된 패턴을 의미한다.

구조적 패턴 : if-then 규칙이 있다. 이런 규칙을 찾아내는 것이 데이터 마이닝, 기계학습이라고 한다.

학습 : 어떤 공부하는 모델이 있다. Task: 시험 잘보기, performance: 성적, behavior: 부룩 읽기, 수업시간 필기가 있다고 가정해보면, 이 모델을 공부하는 모델이고 공부하는 모델이 학습했다고 할 수 있다. 이 과정에서 시험 성적이 오르지 않으면 학습을 했다고 할 수 없다. 따라서 성능이 개선되게 만드는 것이 학습이라고 할 수 있다.

기계학습과 데이터 마이닝 : 이 두개의 개념이 서로 혼용되지만 데이터마이닝이 조금 더 상위 개념이라고 할 수 있다. 이 부분이 궁금해서 chat gpt를 사용한 결과, 기계학습은 데이터로부터 예측을 위한 모델을 구축하는 중점을 두고, 데이터 마이닝은 데이터에서 유용한 정보와 패턴을 발견하는 중점을 둔.

분류 규칙 : 주어진 속성(attribute)의 분류 결과 값을 예측하는 규칙이다.

연관 규칙 : 강한 연관성으로 서로 다른 임의 속성의 값을 연관시켜주는 규칙을 말한다. 연관성이 높은 속성끼리 묶는 것이 하나의 예시이다.

의사 결정 트리 : 다양한 목적을 위해 좀 더 간결하고, 명쾌하게 규칙들을 표현한다. 이동할 때는 부모 노드에 영향을 받는다.

선형회귀(Linear Regression) : 예측하고자 하는 값을 수치화할때 쓰이는 알고리즘이다. 연속적 수치 값을 예측하는 고전적 방식으로 선형방적식의 결과는 적절한 가중치와 속성 값의 곱을 합계한 형태로 쓰인다.

데이터 마이닝 프로세스 : Business understanding <=> Data understanding -> Data preparation <=> modeling -> evaluation -> deployment

기계학습 vs 통계학 : 통계학은 가설을 검증하는 데 초점이 맞추어져 있는 반면, 기계학습은 올바른 가설을 찾아내는데 초점이 맞추어져 있다.

윤리지침

1. 데이터의 익명화

2. 데이터 마이닝이 차별에 악용될 소지가 있는 지

3. 데이터 속성에 문제가 있는 정보가 있는 지