M4 Mac mini Ollama 성능 실측 (7B / 14B tok/s + Swap 영향)

M4 Mac mini에서 Ollama, 충분히 빠른가?

M4 Mac mini에서 로컬 Ollama를 돌릴 때 체감 한계는 칩 연산 부족보다 Swap 발생 여부인 경우가 많습니다. 7B는 대부분 충분하고, 14B나 Chrome / VS Code / CI runner를 겹치면 Apple Silicon 통합 메모리가 차고 Swap이 시작될 때 생성 속도가 뚝 떨어집니다. M4/M5 클러스터 Performance 실측 글입니다.

실측 핵심 결론

M4 Mac mini Ollama benchmark

7B (`qwen3:8b`)

16GB: 34 tok/s (Swap 1.1GB)
24GB: 37 tok/s (Swap 없음)

14B (`qwen3:14b`)

16GB: Swap >2GB → 뚜렷한 저하
24GB: 안정 (≈ 7B 체감)

한 줄: 이번 7B/14B 조건에서 M4 Ollama는 메모리 압력(Swap)에 먼저 걸리고, 칩 연산이 먼저 모자라는 경우는 적습니다.

벤치마크 표 (핵심 데이터)

Model	RAM	tok/s	Swap	상태	해석
7B	16GB	34	1.1GB	사용 가능	가벼운 Swap 영향
7B	24GB	37	0	안정	최적
14B	16GB	뚜렷한 하락	>2GB	불안정	메모리 병목
14B	24GB	~37	0	안정	7B에 근접

환경: Mac mini M4 · macOS 15.x · Ollama latest · Chrome + VS Code + Slack 배경. tok/s는 512 token 프롬프트, 2분 워밍 후. Ollama 기준；llama.cpp는 절대값이 다르지만 Swap 체감은 유사합니다.

실제 사용 (표보다 중요)

① 7B: 일상에 충분

코드 보완, chat, 요약, 가벼운 로컬 어시스턴트—대부분 여기서 멈춥니다. 16GB 가능, 24GB는 더 안정적.

② 14B: 메모리가 체감을 결정

숫자보다 먼저 느껴집니다: 토큰 지연, 스트리밍 끊김, 멀티태스크 시 대기. 16GB는 Swap으로 먼저 ‘무겁다’.

③ 멀티태스킹이 분수령

16GB에서 qwen3:8b를 띄운 채 로컬 xcodebuild를 돌렸을 때 Swap 0→1.8GB, 같은 프롬프트 tok/s 34→29—모델 고장이 아니라 CI와 추론이 unified memory를 나눠 쓴 겁니다.

edge case: 14B를 2시간 넘게 돌리면 새 탭 없이도 Memory Pressure가 녹→노랑—단편화로 headroom 감소. Memory / Swap 참고.

Swap 메커니즘 (이 글의 핵심)

Apple Silicon에서 로컬 LLM 병목은 종종 여기—Neural Engine 코어 수가 아니라:

통합 메모리 포화
macOS inactive pages 회수
Swap(SSD)
IO 지연 증가
tok/s 하락(약 5–15%)

압력이 오르면 inactive memory가 SSD로 갑니다. 크래시는 드물지만 IO 지연으로 생성이 눈에 띄게 느려집니다. CI 병행 34→29 tok/s가 그 실제 사례입니다.

M3 vs M4 vs M2 (세대 비교)

「M4 Ollama」 검색은 보통 세대 업그레이드 가치 질문입니다. 동일 RAM·모델 기준 추세:

7B 추세 (참고)

M2 → 기준
M3 → 약 +10–15% tok/s
M4 → 약 +15–25%, 16GB→24GB만큼 극적이지 않을 때도

체감을 가르는 요소

M2/M3/M4 모두 7B 가능; 세대만 바꿔 14B 메모리 압이 사라지지 않음
M4의 7B 향상은 제한적; 14B 안정성은 대역폭·Swap 쪽
구매 시 16GB vs 24GB가 M3/M4 선택보다 영향 큰 경우 많음

결론: 로컬 Ollama는 메모리 구성 문제가 우선. M4/M5 Hub.

16GB vs 24GB 선택

16GB 적합

주로 7B
피크는 Cloud Mac/CI로 분산

특징: 쓸 만하지만 출렁임. 구매 스토리는 16GB vs 24GB 일주일기(전환)—본문은 벤치 숫자만.

24GB 적합

14B 상시, CI+LLM 병행, 안정 tok/s

특징: 생산성 안정.

한 줄: 7B → 16GB 충분; 14B → 24GB 권장.

Cloud Mac 검증

실기 구매 전 Cloud Mac에서 동일 스크립트로 Swap·14B·CI 병행 확인—구매 전 스트레스 테스트.

→ Cloud Mac에서 benchmark 재현 · M4/M5 Hub · GitHub Runner

자주 찾는 질문

Q: M4 Mac mini Ollama speed?
A: 7B ≈ 34–37 tok/s; Swap이 변수 (핵심 결론).

Q: Can M4 run 14B model?
A: 가능. 16GB 불안정, 24GB 권장.

Q: M4 vs M3 Ollama performance?
A: 7B 세대 차 작음; 14B는 RAM/Swap.

Q: Does Swap affect LLM performance?
A: 예, 약 5–15% tok/s.

Q: 16GB vs 24GB for AI?
A: 7B 16GB; 14B/멀티태스크 24GB.

마무리

M4 Mac mini Ollama: 연산은 충분, RAM과 Swap이 체감을 결정.

클러스터 페이지 역할

M4 Ollama 콘텐츠는 역할별 분리—로케일당 주 벤치마크 URL 하나, 나머지는 내부 링크로 종속 표시:

페이지	역할	설명
본문	Primary SEO	성능 메인 · 해당 로케일 canonical
`m4-ollama-benchmark-spec`	SSOT	📅 6/20 · 지표 정의
16GB vs 24GB 일지	전환 내러티브	구매 스토리 · 결론 인용
Memory / Swap	메커니즘/runbook	스케줄링 · tok/s 표 중복 없음

재현 (부록)

표와 동일 배경 (정의 📅 m4-ollama-benchmark-spec):

ollama pull qwen3:8b && ollama run qwen3:8b ""
memory_pressure

ollama run qwen3:8b \
  "Write 512 tokens about Apple Silicon unified memory." \
  --verbose 2>&1 | tee /tmp/ollama-bench.log

Memory Used · Swap · tok/s · Memory Pressure 기록. 14B는 qwen3:14b.

ZavCloud

Cloud Mac에서 동일 Ollama benchmark 재현

실부하로 16GB vs 24GB 검증 후 실기 결정.

Cloud Mac 요금 보기

M4 Mac mini Ollama 성능 실측: 7B / 14B tok/s + Swap 영향