Zum Hauptinhalt springen

1,5-bit LLM på iPhone: Hvorfor Apples 'hardware-skat' er en indtjeningsport, ikke en teknisk hindring

Dom: En LLM med 7 milliarder parametre, skrumpet til 1,58 bit per vægt, kan sagtens ligge i 1,2 GB RAM. En iPhone 12 har 4 GB. Den flaskehals, Apple henviser til — “Apple Intelligence kræver A17 Pro eller nyere” — er teknisk vrøvl i 2026.

Tallene: BitNet b1.58-papiret (Microsoft Research, 2024) → LLaMA-skala ydeevne ved 1/8 af modelstørrelsen. Recover-LoRA (juni 2026) → 2-bit kvantisering genvinder fuld præcision via low-rank fine-tuning. Hybrid Gated Flow (februar 2026) → identificerer “Memory Wall” som den egentlige begrænsning, ikke compute.

Apples træk: Blokering af Apple Intelligence på iPhone 15 og tidligere. Tving 250 mio.+ brugere til at opgradere for at få den on-device Siri-oplevelse.

Status: Hardware-porten er en indtjeningsport. Teknikken er klar. Implementeringen er det ikke.

30-sekunders versionen: hvad er en “1,5-bit” LLM #

Når en LLM kører på din telefon, er hver “vægt” — hver forbindelse i det neurale netværk — normalt et tal, der fylder 16 bit (2 bytes) i hukommelsen. En model med 7 milliarder parametre, i størrelsen af Metas LLaMA 2 7B, æder omkring 14 GB ved 16-bit præcision. Det er derfor, cloud-AI er cloud-AI: ingen telefon har 14 GB ledig til en enkelt model.

Kvantisering skrumper hver vægt til færre bit. At gå fra 16-bit til 8-bit halverer hukommelsen (7 GB). 4-bit halverer igen (3,5 GB). 2-bit bringer det ned på 1,75 GB. 1,58-bit, BitNet b1.58-designet fra Microsoft Research [_The Era of 1-bit LLMs (Æraen for 1-bit LLM’er)], er den mest aggressive: hver vægt er en af tre værdier — minus ét, nul eller plus ét. Hver vægt fylder ca. 1,58 bit. En 7B-model bliver til 1,2 GB.

Det tal, 1,2 GB, er hele historien. En iPhone 12, udgivet i 2020, har 4 GB RAM. Apples iPhone 13, 14 og 15 har 4–8 GB. Ingen af disse telefoner mangler regnekraft til en 1,2 GB model. Hukommelsen er fin. Compute er fin. Neural Engine er ikke blevet dramatisk bedre mellem A14 og A17 for denne type arbejde — den er blevet inkrementelt hurtigere, ikke kategorisk i stand til det.

Hvad forskningen siger — i klare vendinger #

Tre artikler udgivet i 2026 fastslår, at 1,5-bit ikke længere er eksperimentelt.

[Hybrid Gated Flow] (februar 2026) er den mest præcise udmelding om den tekniske virkelighed: “Udrulningen af Large Language Models (LLMs) på edge-enheder er fundamentalt begrænset af ‘Memory Wall’ — en hardwarebegrænsning, hvor hukommelsesbåndbredde, ikke compute, bliver flaskehalsen.” Artiklen viser derefter, hvordan man implementerer 1,58-bit LLM’er på edge-hardware med selektive low-rank korrektioner. Det virker.

[Recover-LoRA] (juni 2026) adresserer den historiske bekymring: når man skrumper en model så aggressivt, mister den præcision. Artiklen viser, at 2-bit kvantisering, parret med en lille LoRA fine-tune efter komprimeringen, genvinder fuld præcision. Pipeline’en er: tag enhver 7B-model → kvantisér til 2-bit → fine-tun en lille LoRA-adapter → send afsted. Præcisionsproblemet er løst.

[Sparse-BitNet] (marts 2026) viser, at 1,58-bit modeller og sparsitet kan stables — man kan fjerne 2 ud af hver 4 vægte (sætte dem til nul), og 1,58-bit formatet komprimerer modellen endnu mere uden genoptræning. En 7B Sparse-BitNet-model fylder ca. 600 MB.

[BitNet Distillation] (oktober 2025) leverer produktionspipeline’en: et “letvægts”-værktøj, der konverterer full-precision modeller som Qwen til 1,58-bit form. Apple bruger allerede Qwen og Apple Foundation Model internt. De kunne køre denne konvertering i dag.

Uden for den akademiske verden demonstrerer [Litespark] (maj 2026) ternære neurale netværk, der kører på forbruger-CPU’er via specialiserede SIMD-kerner. [PD-Swap] (december 2025) viser 1,58-bit Transformers, der kører på edge FPGA’er — chips med langt mindre regnekraft end en iPhone Neural Engine. Hvis en FPGA til 150 kr. kan gøre det, kan en iPhone 12 også.

Hardware-porten, set i tal #

EnhedChipRAMNeural Engine TOPSÅrApple Intelligence?
iPhone 11A134 GB6 TOPS2019Nej (iOS 18 dropped)
iPhone 12A144 GB11 TOPS2020Nej
iPhone 13A154 GB15,8 TOPS2021Nej
iPhone 14A166 GB17 TOPS2022Nej
iPhone 15A166 GB17 TOPS2023Nej
iPhone 15 ProA17 Pro8 GB35 TOPS2023Ja
iPhone 16A188 GB35 TOPS2024Ja
iPhone 16 ProA18 Pro8 GB35 TOPS2024Ja
iPhone 17 (rygte)A198–12 GB~45 TOPS2025Ja

Grænsen er trukket ved A17 Pro. Springet i TOPS fra A16 (17) til A17 Pro (35) er reelt, men ikke kategorisk. Begge kan køre en 1,2 GB model. De 8 GB RAM mod 6 GB betyder noget for KV-cache ved lange kontekster, men BitNet Sparse-varianten (600 MB) efterlader over 5 GB luft på en iPhone 14 med 6 GB.

Hvorfor Apple gør det alligevel #

Tre årsager, rangeret efter virksomhedsmæssig vægt:

Indtjening. Omkring 250 millioner iPhones i aktiv brug er A16 eller ældre, baseret på Apples egne oplysninger om installeret base og analytikerestimater for 2025–2026 cyklussen. Hvis blot 10 % af disse brugere opgraderer for at få Apple Intelligence — en funktion, de har hørt om i to år — er det 25 millioner enheder til en gennemsnitlig salgspris på ca. 6.200 kr. (~900 $), eller 155 milliarder kr. i hardwareindtjening. iOS 27’s adgangskrav er en økonomisk gearing, skjult inde i en softwareopdatering.

Økosystem-lock-in. Apple Intelligence integreres med Fotos, Mail, Beskeder, Noter og Siri. Når du først har det på en iPhone 15 Pro, køber du en Mac med Apple Silicon for at fortsætte oplevelsen, AirPods der parrer sømløst, et Apple TV der kører det samme intelligenslag. Hardware-porten er også en accelerant for lock-in: brugere, der skipper den, er udelukket fra AI-fasen af Apples økosystem de næste 4–5 år.

Kontrol over AI-narrativet. Apple ønsker ikke, at brugere kører open-source 1,58-bit Qwen eller LLaMA lokalt — det konkurrerer med Apple Intelligence, som Apple (eventuelt) sælger som et betalt abonnement. Hardware-porten holder “AI på iPhone”-oplevelsen Apple-brandet og Apple-kontrolleret. Dette er en del af den samme Apple AI Safety walled-garden logik — jo strammere porten er, desto færre alternative AI-overflader skal Apple forsvare sig imod.

Hvad “Memory Wall” egentlig betyder #

HGF-papirets vinkling er vigtig her. “Memory Wall” er gabet mellem, hvor hurtigt CPU’er kan regne, og hvor hurtigt hukommelsen kan fodre dem med data. For en 16-bit LLM er dette gab enormt: modellen er for stor til at fodre chippen hurtigt nok. For en 1,58-bit model kollapser gabet: 1,2 GB passer ind i LPDDR5-båndbredden, Neural Engine kan holde sig mæt, og flaskehalsen bliver token-genereringslatens, ikke hukommelse.

A14’s Neural Engine kan køre en 1,58-bit model. A13, chippen i iPhone 11, kan køre den langsommere, men kan stadig køre den. Hukommelsesbåndbredde, ikke compute TOPS, er det, BitNet-familien låser op for. Og iPhone 12 og nyere har hukommelsesbåndbredden.

Den tekniske vej Apple kunne sende ud i dag #

TrinHvadHvorfor
1Tag Apple Foundation Model (3B params)Allerede trænet, allerede optimeret til Apple hardware
2BitDistill til 1,58-bit præcision~600 MB modelstørrelse, passer i 4 GB RAM med plads til KV cache
3Tilføj Sparse-BitNet pruningNed til 300 MB, passer selv på en 3 GB iPhone 11
4Recover-LoRA fine-tune på Apple Intelligence opgaverGenvind ethvert kvalitetstab fra kvantiseringen
5Send ud som iOS 26.5 opdatering til iPhone 12+Back-port i stedet for forward-gate

Dette er et 4-måneders ingeniørprojekt. Apple har forskerne (Apple Foundation Model-teamet har publiceret arbejde om on-device inferens), hardwaren (alle iPhone 12 og nyere) og softwarestakken (Core ML understøtter allerede 1-bit og 2-bit kvantiserede modeller via mlpackage). Årsagen til, at det ikke sker, er ikke teknisk. Den er kommerciel — og Apples uddybende partnerskab med Anthropic om Project Glasswing og Mythos cybersikkerhed viser, hvor AI-compute, der ikke er on-device, er tiltænkt at flyde hen.

Hvad dette betyder for iOS 27-cyklussen #

iOS 27’s adgangskrav vil blive præsenteret som et hardwarekrav. Keynoten vil sige, at Apple Intelligence “kræver Neural Engine i A17 Pro” eller lignende. Keynoten vil være teknisk forsvarlig kun for de tungeste Apple Intelligence-funktioner — on-device billedgenerering, komplekse multi-step agentiske flows og on-device oversættelse mellem sprog med meget forskellige skrifttyper.

For størstedelen af Apple Intelligence — delene der opsummerer Mail, udkast til svar i Beskeder, genererer Genmoji, prioriterer Notifikationer, den omskrevne Siri — er hardware-porten ikke nødvendig. 1,58-bit / 2-bit / Sparse-BitNet forskningsstakken beviser det. Apples valg om at låse disse funktioner er en forretningsbeslutning, ikke en teknisk. Den fulde iOS 27 enhedskompatibilitetsoversigt viser, hvilke Apple Intelligence-funktioner A17 Pro+ porten rent faktisk muliggør.

Den ærlige vinkling #

Apple har teknikken. iPhone 12, en seks år gammel enhed, kan køre Apple Intelligence i 2026, hvis Apple vælger at sende en kvantiseret model. Valget om ikke at gøre det er rationelt fra et indtjeningssynspunkt, forsvarligt fra et marketingsynspunkt, og uærligt fra et teknisk kommunikationssynspunkt. At kalde en indtjeningsport for et hardwarekrav, uden at anerkende den 1,5-bit kvantiseringsforskning, der har gjort det overflødigt, er en bevidst udeladelse.

De 250 millioner iPhone-brugere på A16 og ældre er ikke blokeret af deres telefoner. De er blokeret af Apples resultatopgørelse.

Kilder #

Læs også #