파일 매직 넘버란? 포맷 감지 원리 완벽 해설
2026년 4월 24일 게시 · 약 6분 분량
운영체제는 파일 유형을 어떻게 알까?
PNG 파일의 확장자를 .txt로 바꿔도 macOS Quick Look은 여전히 이미지로 미리 봅니다. Linux에서 file renamed.txt를 실행하면 출력은 여전히 PNG image data입니다. 파일 이름은 바뀌었는데 왜 포맷은 그대로일까요?
운영체제는 포맷 식별에 파일 이름을 사용하지 않기 때문입니다. 대신 파일 시작 부분의 고정 바이트 시퀀스를 읽습니다. 이것이 바로 매직 넘버(파일 시그니처라고도 합니다)입니다.
Windows 탐색기, macOS Finder, 브라우저 MIME 스니핑 — 모두 같은 방식입니다. 처음 몇 바이트를 읽고, 알려진 시그니처와 비교하고, 결론을 내립니다.
매직 넘버란?
모든 파일 포맷은 파일 시작 부분에 유형을 선언하기 위한 고정 바이트 시퀀스를 예약합니다. 이를 매직 넘버(파일 시그니처 또는 파일 헤더라고도 합니다)라고 합니다.
여권에 비유하면, 입국 심사에서 이름을 묻지 않고 여권 첫 페이지를 열어 국적을 확인하는 것과 같습니다. 매직 넘버는 파일의 「여권 첫 페이지」입니다. 파일 이름이 무엇이든 처음 몇 바이트가 진실을 말해줍니다.
이는 Unix file 명령어의 동작 원리 그 자체입니다. 바이트 패턴의 magic 데이터베이스를 유지하며 확장자에 의존하지 않고 매칭합니다. Windows 탐색기, macOS Finder, 브라우저 MIME 스니핑도 모두 같습니다. 파일 유형은 내용으로 결정되며, 이름으로 결정되지 않습니다.
매직 넘버 속견표
실무에서 자주 만나는 포맷 시그니처 목록입니다:
| 포맷 | 매직 바이트 (Hex) | ASCII | 비고 |
|---|---|---|---|
| PNG | 89 50 4E 47 0D 0A 1A 0A | ‰PNG.... | 8바이트, 가장 알아보기 쉬운 시그니처 중 하나 |
| JPEG | FF D8 FF | — | 3바이트, 3번째 바이트는 서브타입에 따라 다름 |
| GIF | 47 49 46 38 | GIF8 | 37(GIF87a) 또는 39(GIF89a)가 뒤따름 |
| 25 50 44 46 | %PDF | 버전 번호가 뒤따름 (예: -1.7) | |
| WebP | 52 49 46 46 … 57 45 42 50 | RIFF…WEBP | RIFF 컨테이너, 바이트 8–11 확인 필요 |
| WAV | 52 49 46 46 … 57 41 56 45 | RIFF…WAVE | RIFF 컨테이너, 서브타입은 WAVE |
| MP3 | 49 44 33 / FF Fx | ID3 / sync | ID3 태그 있으면 ID3로 시작, 없으면 동기화 워드 FF Ex 또는 FF Fx |
| FLAC | 66 4C 61 43 | fLaC | 무손실 오디오, 모호하지 않은 시그니처 |
| MP4 / MOV / M4A | 00 00 00 xx 66 74 79 70 | ....ftyp | ftyp 컨테이너, 바이트 8–11의 브랜드 확인 필요 |
| WebM | 1A 45 DF A3 | — | EBML 컨테이너 헤더 |
| OGG | 4F 67 67 53 | OggS | OGG 오디오/비디오 컨테이너 |
| BMP | 42 4D | BM | Windows 비트맵 |
함정: 처음 4바이트만으로는 부족하다
두 컨테이너 계열은 완전히 다른 미디어 유형인데도 공통 접두사를 공유합니다. 4바이트에서 멈추면 잘못된 결과를 얻게 됩니다.
RIFF 컨테이너 (WebP / WAV / AVI)
WebP, WAV, AVI는 모두 RIFF (52 49 46 46)로 시작합니다. 실제 서브타입은 바이트 8–11에 있습니다:
ftyp 컨테이너 (MP4 / MOV / M4A)
MP4, MOV, M4A는 처음 4바이트가 가변 박스 크기이고, 바이트 4–7이 ftyp로 고정됩니다. 바이트 8–11의 브랜드 코드가 실제 포맷을 결정합니다:
주요 브랜드 코드: isom / iso2 / avc1 = MP4, M4A = M4A (Apple 오디오), qt = QuickTime MOV.
직접 해보기: file 명령어로 매직 넘버 읽기
macOS와 Linux에서 file 명령어는 파일 이름이 아닌 매직 넘버를 읽어 포맷을 식별합니다:
# macOS / Linux
$ file -b photo.png
PNG image data, 617 x 875, 8-bit/color RGBA, non-interlaced
$ file -b photo.txt # 확장자를 .txt로 변경
PNG image data, 617 x 875, 8-bit/color RGBA, non-interlaced file은 macOS와 Linux에 내장된 도구입니다. Windows에는 동일한 네이티브 명령어가 없습니다.
코드로 같은 감지를 구현한다면 핵심 로직은 JavaScript 몇 줄이면 됩니다:
// Base64 문자열의 처음 24자를 가져와(atob 디코딩 후 = 18바이트) 포맷 감지
// (Base64 4자 = 3바이트)
const b64 = "iVBORw0KGgoAAAANSUhEUgAA...";
const bin = atob(b64.slice(0, 24));
const hex = [...bin]
.map(c => c.charCodeAt(0).toString(16).padStart(2, "0"))
.join(" ");
console.log(hex);
// → 89 50 4e 47 0d 0a 1a 0a ... (PNG) 속견표와 대조: 89 50 4e 47 → PNG, ff d8 ff → JPEG, 25 50 44 46 → PDF.
요약
파일 유형은 바이너리 시작 부분의 매직 바이트로 결정되며, 파일 이름이나 확장자와는 무관합니다. 처음 몇 바이트를 읽고 알려진 시그니처와 비교하면 아무 컨텍스트 없이도 포맷을 식별할 수 있습니다.
파일 이름을 바꿔도 운영체제를 속일 수 없는 이유 — 매직 넘버를 읽는 모든 도구에 공통됩니다.
관련 글
JSON API 응답에서 Base64 이미지 디버깅하는 방법 →ViewJSON은 JSON 내 모든 문자열에 매직 넘버 감지를 적용하여 Base64 이미지, 오디오, 비디오를 인라인으로 미리 봅니다.
지금 바로 사용해 보세요
Base64가 포함된 JSON을 붙여넣기만 하세요. ViewJSON이 포맷을 자동 감지하고 이미지, 오디오, 비디오를 인라인으로 표시합니다.
ViewJSON 열기 →