머신러닝(Machine Learning)은 컴퓨터로 하여금 데이터를 삽입하여 사용자가 원하는 출력물이 나오게 하는 전 과정을 일컫는다. 데이터라는 입력을 정밀히 하는 것이 전처리 과정이고, 출력물이 나오는 블랙박스를 모델링하거나 기계학습을 할 수 있다. 출력결과물은 예측 혹은 분류결과물이 될 수 있다.

입력, 블랙박스, 출력에 대하여 다양한 기술옵션과 경우의 수가 있기 때문에 머신러닝을 단 몇 가지의 기술로 다 말할 수는 없다. 쉽게 이해해보자면 머신러닝에 대한 입력, 블랙박스, 출력에 대한 경우를 이해해보는 것이다.

예를 들어, 다량의 데이터를 주고 해당 데이터에 대한 사례를 기반으로 새로운 데이터에 대한 판단이 가능하도록 머신러닝을 학습시킬 수 있다.

다량의 입력 데이터에 사람에 의한 정답, 오답을 표기하여 컴퓨터에게 이를 학습시키는 경우 이를 지도학습(Supervised)이라고 한다. 입력 데이터에 정답, 오답을 기재하는 일을 라벨링(labelling)이라고 한다. 라벨링하지 않고 컴퓨터를 학습시키는 경우 비지도학습(Unsupervised), 지도와 비지도의 중간 정도의 사람의 간섭이 있을 경우 준지도학습(Semi-supervised) 이라고 한다. 비지도학습에는 대표적으로 군집분류, …. 등이 있다. 입력 데이터에 의존하여 위 구분과 별다르게 나뉘는 알고리즘이 있는데, 입력데이터를 학습한 결과에 따라서 상점과 벌점(panelty)를 부과하고 이를 반복하며 적절한 정책(policy)을 따르는 것을 강화학습(Reinforcement learning) 이라고 한다.

블랙박스, 판단과정에 대하여 수학적 모델과 함수를 기반으로 하거나 입력 데이터의 사례와 유사한 결과를 낼 수 있는 사례 기반 케이스가 있다. 모델링은 결과를 양산하는 여러 가지 특징적 지표들을 가감 선택하고 가중치를 조정하는 과정이 필요하다. 사례 기반 케이스는 벡터화된 말뭉치(corpus)를 코사인 유사도에 따라 분류하고 판단하는 경우라고 볼 수 있다.