인공지능(AI)의 “기본 논리”는 단일하고 고정된 개념이 아닙니다. 오히려 지능을 만드는 방법에 대한 수십 년에 걸친 지적 논쟁에서 비롯됩니다. AI를 이해하려면 먼저 지능에 대한 상반된 두 가지 핵심 철학 학파인 상징주의(Symbolicism)와 연결주의(Connectionism)의 충돌과 융합인 지적 기원을 파고들어야 합니다. 이 두 학파는 지능에 대한 뚜렷하게 반대되는 견해를 나타내며, 그들의 변동하는 운은 전체 AI 분야의 역사적 궤적과 미래 방향을 형성했습니다.
1.1 두 가지 사고방식
인공지능의 구성 논리는 크게 하향식 기호 조작과 상향식 생체 영감 학습의 두 가지 경로를 따라 전개됩니다.
상징주의 (하향식 논리)
논리주의 또는 컴퓨터 학파라고도 하는 상징주의는 지능의 본질이 명확하고 공식화된 규칙 세트에 따라 기호를 조작하는 데 있다는 핵심 믿음을 기반으로 합니다. 이것은 인간의 인지와 사고 과정을 기호 연산으로 추상화할 수 있다는 전제를 가진 “하향식” 접근 방식입니다. 이러한 관점에서 지능은 논리적 추론의 과정으로 간주되며 마음은 구조화된 데이터에서 실행되는 컴퓨터 프로그램과 같습니다.
이 학파의 가장 대표적인 표현은 **전문가 시스템(Expert Systems)**입니다. 이러한 시스템은 1970년대와 1980년대에 황금기를 누렸으며 AI의 최초 대규모 상업적 성공을 기록했습니다. 그들은 많은 수의 “if-then” 규칙을 포함하는 지식 기반을 통해 특정 좁은 분야(예: 의료 진단 또는 화학 분석)에서 인간 전문가의 의사 결정 프로세스를 시뮬레이션하는 것을 목표로 했습니다. 전문가 시스템의 성공으로 상징주의는 정점에 도달하여 당시 AI와 거의 동의어가 되었습니다.
연결주의 (상향식 논리)
상징주의와 대조적으로 생체 공학 학교라고도 하는 연결주의는 지능이 창발적(emergent) 현상이라고 주장합니다. 중앙 제어기나 사전 설정된 규칙이 지배하는 것이 아니라 많은 수의 간단하고 상호 연결된 처리 장치(예: 인공 뉴런) 간의 복잡한 상호 작용에서 발생합니다. 이 “상향식” 논리는 인간 두뇌의 구조에서 영감을 받아 지능은 프로그래밍되는 것이 아니라 데이터에서 패턴을 학습하여 얻는다고 믿습니다.
연결주의의 핵심 믿음은 복잡한 행동이 전역적인 명시적 규칙 없이 간단한 로컬 상호 작용에서 발생할 수 있다는 것입니다. 핵심 기술적 구현은 **인공 신경망(ANNs)**입니다. 이러한 모델은 막대한 양의 샘플 데이터를 통해 훈련하고 뉴런 간의 “가중치”(즉, 연결 강도)를 지속적으로 조정하여 입력과 출력 간의 복잡한 관계를 학습합니다.
1.2 역사의 추: 부상, 겨울, 부활
AI 개발의 역사는 선형적인 진보의 역사가 아니라 상징주의와 연결주의 사이를 오가는 추와 같습니다. 이 과정은 이론적 패러다임의 성공 또는 실패가 아이디어의 깊이뿐만 아니라 당시의 기술 및 경제적 조건의 제약 조건에 따라 달라진다는 것을 분명히 보여줍니다. AI의 기본 논리는 진공 상태에서 진화하지 않으며, 개발 궤적은 (1) 주류 철학적 사고, (2) 사용 가능한 컴퓨팅 성능, (3) 경제적 타당성 간의 복잡한 상호 작용의 직접적인 결과입니다.
초기 장점과 첫 번째 AI 겨울
AI 초기에는 연결주의가 큰 잠재력을 보였습니다. 그러나 1969년 상징주의의 주요 인물인 Marvin Minsky는 *퍼셉트론(Perceptrons)*이라는 책을 발표했는데, 이는 역사에서 중요한 전환점이 되었습니다. Minsky는 당시의 단순한 단일 계층 신경망(즉, 퍼셉트론)이 논리적 “배타적 OR”(XOR) 문제와 같이 가장 기본적인 문제 중 일부를 해결할 수 없다는 것을 수학적으로 엄격하게 증명했습니다. 이러한 정확한 학술적 비판은 당시 컴퓨터 컴퓨팅 성능의 전반적인 부족과 결합되어 연결주의 연구에 엄청난 타격을 입혔습니다. 연구 자금은 대폭 삭감되었고 신경망 연구는 10년 이상 지속된 침체기에 접어들었는데, 이를 첫 번째 “AI 겨울”이라고 합니다. 이 기간 동안 상징주의의 논리가 절대적인 지배적 위치를 차지했습니다.
상징주의의 황금기와 두 번째 AI 겨울
전문가 시스템은 1980년대에 번성하여 상징주의를 상업적 응용의 정점으로 끌어올렸습니다. 그러나 그 한계가 점차 드러났습니다. 전문가 시스템은 구축 비용이 많이 들고, 지식 기반은 유지 관리가 어려웠으며, 모호한 정보를 처리할 수 없었고, 새로운 지식을 자동으로 학습할 수 없었습니다. 궁극적으로 Lisp 언어와 같은 상징적 AI 프로그램을 실행하는 데 특별히 사용되는 “Lisp 머신”의 상업적 실패는 이 시대의 종말을 알렸습니다. 더 강력한 성능과 더 낮은 가격으로 범용 컴퓨터(예: IBM PC)가 부상하면서 이러한 전용 하드웨어 장치는 경쟁력을 잃었고 AI 분야는 두 번째 겨울에 접어들었습니다. 이는 이론적 논리가 계속 발전하려면 강력하고 경제적인 하드웨어 기반이 지원되어야 함을 다시 한번 증명합니다.
연결주의의 부활
연결주의의 부활은 우연이 아니었지만 세 가지 주요 요인에 의해 추진되었습니다.
알고리즘 돌파구: “겨울” 동안 역전파 알고리즘의 도입과 장단기 기억 네트워크(LSTMs)와 같은 보다 복잡한 네트워크 구조의 발명은 신경망의 효과적인 훈련을 위한 알고리즘 기반을 마련했습니다.
데이터 홍수: 인터넷의 인기는 전례 없는 양의 데이터를 가져왔습니다. 이 데이터는 훈련에 많은 수의 샘플이 필요한 신경망에 충분한 “영양”을 제공했습니다.
컴퓨팅 성능 혁명: 원래 비디오 게임용으로 설계된 그래픽 프로세서(GPU)는 신경망의 핵심 행렬 연산에 완벽하게 적합한 대규모 병렬 컴퓨팅 아키텍처를 가지고 있습니다. GPU의 등장은 수십 년 동안 연결주의를 괴롭혔던 컴퓨팅 성능 병목 현상을 해소하여 이론적 잠재력을 진정으로 발휘할 수 있게 했습니다.
마지막으로 알고리즘, 데이터 및 컴퓨팅 성능의 융합은 딥 러닝 혁명을 촉발하여 오늘날 연결주의 논리를 AI 분야에서 논쟁의 여지가 없는 주류로 만들었습니다.
1.3 철학적 난제: 이해 대 시뮬레이션
두 주요 학파 간의 역사적 논쟁은 궁극적으로 오늘날까지 해결되지 않은 심오한 철학적 질문으로 이어집니다. 지능적인 행동을 완벽하게 시뮬레이션할 수 있는 기계는 진정으로 이해할 수 있는 능력을 가지고 있을까요?
튜링 테스트
Alan Turing의 “튜링 테스트”는 지능에 대한 작동적 행동주의적 정의를 제공합니다. 이 테스트는 기계가 인간과 대화할 수 있는지 여부와 인간이 기계인지 사람인지 구별할 수 없는지 여부를 포함합니다. 그러면 기계는 지능적이라고 간주될 수 있습니다. 튜링 테스트는 “지능이란 무엇인가”에 대한 본질적인 질문을 피하고 “지능은 어떤 행동을 보여야 하는가”로 전환합니다.
“중국어 방” 사고 실험
철학자 John Searle은 1980년에 유명한 “중국어 방” 사고 실험을 제안하여 상징주의와 튜링 테스트에 맹렬한 공격을 가했습니다. 이 실험은 다음과 같이 구상됩니다. 중국어를 이해하지 못하는 사람이 방에 갇히고 방에는 자세한 중국어 처리 규칙 매뉴얼(프로그램에 해당)이 들어 있습니다. 그는 창문을 통해 중국어 문자가 쓰인 메모(입력)를 받고 규칙 매뉴얼의 지침을 엄격히 따라 해당 문자를 찾아 결합한 다음 창밖으로 결과를 전달합니다(출력). 방 밖의 사람들에게는 방의 응답이 모국어 화자의 응답과 다르지 않으므로 튜링 테스트를 통과합니다.
그러나 Searle은 방에 있는 사람은 처음부터 끝까지 중국어 문자의 **의미(의미론)**를 결코 이해하지 못했고 그가 한 일은 순수한 **기호 조작(구문)**뿐이라고 지적했습니다. Searle은 아무리 복잡하더라도 기호를 조작하는 것만으로는 결코 진정한 “이해”를 생성할 수 없다고 결론지었습니다. 이 주장은 “강한 AI”(즉, 올바르게 프로그래밍된 컴퓨터가 마음을 가질 수 있다는 믿음)에 대한 견해에 강력하게 도전합니다.
오늘날 대규모 언어 모델(LLMs)로 대표되는 현대 AI는 어떤 의미에서 “중국어 방”의 초고도화된 버전으로 볼 수 있습니다. 그들은 방대한 양의 텍스트 데이터에서 통계적으로 패턴을 일치시켜 겉보기에 지능적인 답변을 생성합니다. 그들이 실제로 언어를 “이해”하는지 아니면 복잡한 “확률적 앵무새”인지에 대한 논쟁은 현대 시대의 튜링 대 Searle 논쟁의 연속입니다.
오랫동안 상징주의와 연결주의는 상호 배타적인 패러다임으로 간주되었습니다. 그러나 역사의 “전쟁”은 합성의 형태로 끝나가고 있습니다. 미래의 기본 논리는 양자택일이 아니라 둘의 융합입니다. 이러한 추세는 **뇌-기호 AI(Neuro-Symbolic AI)**의 부상에 반영됩니다. 이 분야는 신경망의 강력한 패턴 인식 기능과 기호 시스템의 엄격한 논리적 추론 기능을 결합하여 학습하고 추론할 수 있는 보다 강력한 시스템을 구축하는 것을 목표로 합니다. 예를 들어, 현대 AI 에이전트는 계산기, 데이터베이스 쿼리와 같은 외부 기호 도구를 호출하여 자체 기능을 향상시킬 수 있는데, 이는 신경 모델과 기호 도구를 실제로 결합한 것입니다.
또한 현대 대규모 언어 모델의 “전문가 혼합(MoE)“ 아키텍처는 개념적으로 상징주의의 전문가 시스템을 반영합니다. MoE 모델은 여러 전문화된 “전문가” 하위 네트워크와 각 입력을 처리하기에 가장 적합한 전문가를 선택하는 역할을 하는 “게이팅” 네트워크로 구성됩니다. 이는 규칙에 따라 특정 기능 모듈을 호출하는 기호 시스템과 기능적으로 유사하지만 구현은 완전히 연결주의적입니다. 즉 엔드투엔드 학습과 차등 최적화를 통해 구현됩니다. 이는 AI의 기본 논리가 대립에서 상호 보완으로 이동하여 융합을 통해 전례 없이 강력한 기능을 창출하고 있음을 보여줍니다.
표 1: 기본 AI 패러다임 비교: 상징주의 대 연결주의
| 특징 | 상징주의 (하향식) | 연결주의 (상향식) |
|---|---|---|
| 핵심 원리 | 기호를 조작하고 공식 규칙을 따름으로써 지능을 달성합니다. | 지능은 많은 수의 간단하고 상호 연결된 장치의 상호 작용에서 발생합니다. |
| 지식 표현 | 명시적이고 구조화된 지식 기반(예: “if-then” 규칙). | 암시적이고 분산된 지식은 네트워크 연결의 가중치로 인코딩됩니다. |
| 추론 방법 | 논리적 연역, 검색 및 휴리스틱 규칙에 기반한 추론. | 데이터 기반 패턴 인식 및 통계적 유추에 기반한 추론. |
| 주요 기술 | 전문가 시스템, 논리 프로그래밍, 지식 그래프. | 인공 신경망, 딥 러닝, 대규모 언어 모델. |
| 장점 | 강력한 해석 가능성, 논리적으로 엄격함, 잘 정의된 영역에서 뛰어납니다. | 강력한 학습 능력, 모호하고 구조화되지 않은 데이터를 처리할 수 있으며, 일반화 능력이 뛰어납니다. |
| 단점 | 지식 습득 병목 현상, 불확실성을 처리하는 약한 능력, 취약한 시스템. | “블랙 박스” 문제(낮은 해석 가능성), 많은 양의 데이터와 컴퓨팅 성능이 필요하며, 적대적 공격에 취약합니다. |
| 역사적 정점 | 1970년대와 1980년대의 전문가 시스템 시대. | 2010년부터 오늘날까지 딥 러닝 시대. |
| 대표적인 인물 | Marvin Minsky, Herbert A. Simon, Allen Newell. | Geoffrey Hinton, Yann LeCun, John Hopfield, Fei-Fei Li. |
인공지능의 본질을 파헤치기 위해서는 그 "기본 논리"가 인간의 상식이나 추론이 아닌, 정확하고 보편적인 수학적 언어라는 사실을 깨달아야 합니다. 특히 연결주의가 주도하는 AI는 본질적으로 "데이터, 알고리즘, 컴퓨팅 능력"에 의해 구동되는 응용 수학입니다. 지능의 생성, 학습 및 최적화 프로세스는 확률 통계, 선형 대수 및 미적분학의 세 가지 수학적 기둥의 시너지로 세분화할 수 있습니다.
2.1 AI의 수학적 본질
현대 인공지능의 핵심 과제는 일반적으로 고차원적이고 복잡한 문제 공간에서 대략적으로 최적의 해를 찾는 것으로 설명될 수 있습니다. 가능한 모든 가능성을 철저히 시도하여 문제를 해결하는 대신 수학적 방법을 적용하여 충분히 좋은 해를 찾습니다. 수학은 AI에 공식적인 모델링 도구와 과학적 설명 언어를 제공하며 AI 시스템을 구축, 이해 및 개선하기 위한 초석입니다.
2.2 기둥 1: 확률 및 통계 - 불확실성의 논리
확률 이론과 통계는 AI에 불확실한 환경에서 추론하고 데이터에서 패턴을 추출하기 위한 이론적 프레임워크를 제공합니다. AI 모델은 본질적으로 데이터의 기본 분포를 학습하여 예측과 결정을 내리는 확률 시스템입니다.
그러나 빅데이터의 등장은 전통적인 통계의 기초에 심각한 과제를 제기합니다. 큰 수의 법칙 및 중심 극한 정리와 같은 전통적인 통계 이론은 대부분 샘플이 "독립적이고 동일하게 분포됨(i.i.d.)"이고 샘플 크기 n이 특징 수 p보다 훨씬 크다는 가정에 기반합니다(즉, p ≪ n). 그러나 빅데이터 시대에는 이러한 가정이 종종 깨집니다. 예를 들어, 이미지 인식 작업에서 고해상도 이미지는 수백만 개의 픽셀(특징 p)을 포함할 수 있지만 훈련 데이터 세트는 수만 개의 이미지(샘플 n)만 가질 수 있는데, 이는 p ≫ n인 "차원의 저주" 문제를 야기합니다. 이 경우 전통적인 통계 방법을 무효화하는 "유사 상관 관계"를 쉽게 생성할 수 있습니다.
딥 러닝의 부상은 어느 정도 이러한 문제에 대한 대응입니다. 딥 러닝은 전통적인 통계 가정에 의존하지 않고 고차원 데이터에서 효과적인 특징 표현을 자동으로 학습하는 방법을 제공합니다. 그럼에도 불구하고 이 새로운 데이터 패러다임에 대한 견고한 통계적 기반을 구축하는 것은 여전히 현재 AI 연구에서 시급히 해결해야 할 중요한 수학적 문제입니다.
2.3 기둥 2: 선형 대수 - 표현의 논리
선형 대수는 AI 세계의 "보편적 언어"이며 데이터와 모델을 나타내는 기본 도구를 제공합니다. 신경망에서 이미지의 픽셀, 텍스트의 단어 벡터 또는 모델의 매개변수(가중치)이든 최종 출력이든 모두 벡터, 행렬 또는 고차원 텐서의 수치 구조로 표현됩니다.
뉴런이 모든 입력을 가중하고 합산하는 것과 같은 신경망의 핵심 연산은 본질적으로 행렬과 벡터의 곱셈입니다. GPU가 AI 훈련을 크게 가속화할 수 있는 이유는 하드웨어 아키텍처가 이러한 대규모 병렬 선형 대수 연산을 효율적으로 실행하도록 고도로 최적화되어 있기 때문입니다.
2.4 기둥 3: 미적분학 및 최적화 - 학습의 논리
AI의 학습 과정은 본질적으로 수학적 최적화(Optimization) 문제입니다. 목표는 모델의 예측과 실제 답변 간의 차이를 최소화하는 모델 매개변수 집합(예: 신경망의 가중치 및 편향)을 찾는 것입니다. 이 차이는 **손실 함수(Loss Function)**로 정량화됩니다.
경사 하강법: 학습 엔진
**경사 하강법(Gradient Descent)**은 이 목표를 달성하기 위한 핵심 알고리즘이며 거의 모든 현대 AI 모델의 학습을 주도하는 엔진입니다.
핵심 아이디어: 경사 하강법은 손실 함수의 최소점을 찾는 것을 목표로 하는 반복적인 최적화 알고리즘입니다. 이 과정은 짙은 안개 속에서 산을 내려가는 사람에 비유할 수 있습니다. 그는 계곡의 가장 낮은 지점이 어디인지 볼 수 없지만 발 아래 땅의 경사를 감지할 수 있습니다. 가장 합리적인 전략은 현재 위치에서 가장 가파른 내리막 방향으로 작은 걸음을 내딛고 이 과정을 반복하는 것입니다.
구체적인 과정:
초기화: 먼저 모델 매개변수(가중치 및 편향)의 초기 집합을 무작위로 설정합니다.
손실 계산: 현재 매개변수를 사용하여 모델이 훈련 데이터에 대한 예측을 수행하게 하고 예측과 실제 레이블 간의 총 오차(손실)를 계산합니다.
경사 계산: 미적분학의 **편미분(Partial Derivatives)**을 사용하여 각 매개변수에 대한 손실 함수의 **경사(Gradient)**를 계산합니다. 경사는 손실 함수 값의 가장 빠른 증가 방향을 가리키는 벡터입니다.
매개변수 업데이트: 각 매개변수를 경사의 반대 방향으로 작은 걸음을 옮깁니다. 이 단계의 크기는 학습률(Learning Rate)(일반적으로 η로 표시됨)이라는 하이퍼 매개변수로 제어됩니다. 업데이트 공식은 다음과 같습니다. 매개변수new = 매개변수old − η × 경사.
반복: 2단계에서 4단계를 수천 번 지속적으로 반복합니다. 각 반복은 모델 매개변수를 미세 조정하여 손실 값이 점차 감소하도록 합니다. 손실 값이 더 이상 크게 감소하지 않으면 알고리즘이 로컬 또는 전역 최소점으로 “수렴”되고 학습 프로세스가 종료됩니다.
알고리즘 변형: 각 반복에서 사용되는 데이터의 양에 따라 계산 효율성과 수렴 안정성 간에 다른 절충안을 제공하는 배치 GD, 확률적 GD(SGD) 및 미니 배치 GD와 같은 경사 하강법의 많은 변형이 있습니다.
수학은 모든 현대 AI 패러다임을 연결하는 통일된 언어입니다. 단순 선형 회귀, 복잡한 서포트 벡터 머신 또는 거대한 심층 신경망이든 학습의 기본 논리는 공통적입니다. 모델을 정의하고, 손실 함수를 정의한 다음, 손실 함수를 최소화하는 매개변수를 찾기 위해 최적화 알고리즘(예: 경사 하강법)을 사용합니다. "손실 최소화"에 기반한 이 수학적 프레임워크는 기계가 데이터에서 학습하는 방식에 대한 진정한 핵심 논리입니다.
AI의 수학적 논리는 또한 전통적인 프로그래밍 논리와 근본적인 변화를 나타냅니다. 전통적인 프로그래밍은 결정론적이고 정확합니다. 반면에 AI는 확률적이고 근사적입니다. 연구에서 알 수 있듯이 AI의 목표는 일반적으로 현실 세계의 복잡한 문제에 대해 종종 불가능한 증명 가능한 완벽한 해를 찾는 것이 아니라 “충분히 좋은” 근사 해를 찾는 것입니다. AI의 “블랙 박스” 특성은 이러한 변화의 직접적인 결과입니다. 우리는 손실 또는 정확도를 평가하여 AI가 효과적인지 여부를 측정할 수 있지만 전통적인 알고리즘처럼 단계별 명확한 논리를 사용하여 작동 방식을 설명하기는 어렵습니다. 이는 AI의 “해”가 사람이 읽을 수 있는 규칙 집합이 아니라 수백만 개의 최적화된 수치 매개변수에 의해 인코딩된 고차원 복잡 함수이기 때문입니다. 고유한 “논리”는 의미론적 규칙 자체가 아닌 손실 함수에 의해 형성된 다차원 공간의 기하학적 형태에 구현됩니다.
3. 주된 학습 방법론 - AI가 지식을 습득하는 방법
수학적 원리를 기반으로 AI는 세 가지 주요 학습 전략 또는 "학습 패러다임"을 개발했습니다. 이러한 패러다임은 훈련 중에 AI 시스템에 제공되는 데이터 유형과 피드백 신호에 따라 지도 학습, 비지도 학습 및 강화 학습으로 분류됩니다.
3.1 지도 학습: 멘토와 함께 학습
지도 학습은 가장 널리 사용되는 기계 학습 패러다임입니다.
핵심 논리: 모델은 레이블이 지정된 데이터 세트에서 학습합니다. 이 데이터 세트에서 각 입력 샘플은 올바른 출력 답변과 명시적으로 쌍을 이룹니다. 이 과정은 학생이 표준 답변이 있는 연습 문제 세트를 가지고 시험을 준비하는 것과 같습니다.
학습 과정: 모델은 입력 샘플에 대한 예측을 수행한 다음 예측을 실제 레이블과 비교하여 오차(손실)를 계산합니다. 그런 다음 경사 하강법과 같은 최적화 알고리즘을 사용하여 이 오차를 줄이기 위해 모델의 내부 매개변수를 조정합니다.
주요 작업 및 알고리즘:
분류: 개별 범주 레이블을 예측합니다. 예를 들어 이메일이 “스팸”인지 “스팸이 아닌지” 판단하거나 사진 속 동물이 “고양이”인지 “개”인지 식별합니다. 일반적인 알고리즘으로는 로지스틱 회귀, 의사 결정 트리 및 서포트 벡터 머신(SVM)이 있습니다.
회귀: 연속적인 수치 값을 예측합니다. 예를 들어 집 가격이나 내일 온도를 예측합니다. 일반적인 알고리즘에는 선형 회귀 및 랜덤 포레스트가 있습니다.
데이터 요구 사항: 지도 학습의 성공은 많은 양의 고품질 수동으로 레이블이 지정된 데이터에 크게 의존합니다. 이 레이블이 지정된 데이터를 얻는 것은 일반적으로 비용이 많이 들고 시간이 많이 걸리므로 이 방법의 주요 병목 현상입니다.
3.2 비지도 학습: 멘토 없이 학습
비지도 학습은 데이터의 내재적 구조를 탐색합니다.
핵심 논리: 모델은 레이블이 지정되지 않은 데이터를 수신하고 데이터에서 숨겨진 패턴, 구조 또는 관계를 자율적으로 발견해야 합니다. 이 과정은 인류학자가 안내 없이 알려지지 않은 부족을 관찰하는 것과 같으며, 관찰을 통해 다양한 사회 집단과 행동 관습을 식별할 수 있습니다.
주요 작업 및 알고리즘:
군집화: 유사한 데이터 포인트를 함께 그룹화합니다. 예를 들어 구매 행동에 따라 고객을 다양한 그룹으로 나눕니다. 일반적인 알고리즘으로는 K-평균 및 가우스 혼합 모델(GMM)이 있습니다.
연관 규칙 학습: 데이터 항목 간의 흥미로운 관계를 발견합니다. 예를 들어 시장 바구니 분석에서 “빵을 사는 고객은 우유도 살 가능성이 높습니다” 규칙을 발견합니다.
차원 축소: 대부분의 정보를 유지하면서 데이터에서 가장 중요한 기본 특징을 찾아 데이터를 단순화합니다. 예를 들어 주성분 분석(PCA)입니다.
중요한 의미: 비지도 학습은 탐색적 데이터 분석에 매우 중요하며 대규모 언어 모델(LLMs)의 “사전 훈련” 단계에서 초석이 되어 방대한 양의 레이블이 지정되지 않은 텍스트에서 언어에 대한 일반적인 지식을 학습할 수 있습니다.