Hintergrund

Aus dem Labor: Warum ein Benchmark nicht der Weisheit letzter Schluss ist

Benchmarks sollen dazu da sein, einen standardisierten Vergleich für Smartphones und andere Technologie zu liefern. Doch die automatisierten Tests vergessen eines: Den Menschen. Blicken wir hinter die Kulissen unserer Testmethodik.

Benchmarks versprechen viel. Vor allem seien sie eine verlässliche, objektive und neutrale Indikation für die Performance eines Smartphones. Daraus schliessen einige, dass sie besser als jeder Test sind. Dem ist nicht so, sage ich als professioneller Phone-Tester.

Es kommt nicht oft vor, dass ich zwei Phones des selben Typs auf meinem Pult habe. Mit dem LG V30 aber habe ich Glück. Nicht nur habe ich ein LG V30+, ein Korea-Import, sondern auch eine EU-Version des LG V30 bei mir.

Die zwei Geräte unterscheiden sich nur in zwei Dingen:

  1. Das LG V30+ hat 128 GB interner Speicher, das LG V30 nur 64
  2. Das LG V30+ hat einen Hybrid Dual SIM Slot, das LG V30 nicht

Der Rest der Specs ist identisch. Wenn ich jetzt eine Benchmark App drüberlaufen lasse, dann sollten die Werte identisch sein.

Der Test beginnt: Die Methodologie für die Benchmarks

Für meinen Benchmark-Test verwende ich folgende Geräte.

LG V30 (64 GB, Cloud Silver, 6", Single SIM, 16 Mpx, 4G)
Smartphone

LG V30

64 GB, Cloud Silver, 6", Single SIM, 16 Mpx, 4G

LG V30+ (128 GB, Moroccan Blue, 6", Hybrid Dual SIM, 16 Mpx, 4G)
Smartphone

LG V30+

128 GB, Moroccan Blue, 6", Hybrid Dual SIM, 16 Mpx, 4G

Die App, die ich für das Benchmark nehme, heisst Antutu Benchmark mit dem 3D Add On. Es gibt im Google Play Store unzählige Benchmarks, aber Antutu hat durchwegs gute Reviews und so ist die Wahl nach Absprache mit den Mobile Geeks im Unternehmen zufällig auf Antutu gefallen.

Hier begegnen wir dem ersten Problem, des Benchmark Testings. Es gibt nicht «das eine Benchmark», denn jeder kann eine Benchmark App entwickeln und veröffentlichen. Wenn ein Benchmark universell gelten soll, so muss eine Art Standard etabliert werden. Diesen Standard gibt es nicht. Aus diesem Grund kann jedes Benchmark jeder App einfach mal in Frage gestellt werden. Mit dem guten Grund, dass eine andere App eine andere Zahl auswirft, die eben so viel Gewicht in der Benchmark-Welt besitzt, wie der Antutu-Test.

Das Resultat: V30+ gewinnt

Ich habe also zehn Runden Antutu Benchmarks durchlaufen lassen. Die Mobile Geeks sind sich nicht einig. Jeder weiss, wie ein Benchmark besser und daher aussagekräftiger ausfällt. Nach einem Benchmark soll das Phone eine halbe Stunde in den Kühlschrank gelegt werden, da dann das Phone wieder abkühlen könne. In den Flugmodus soll das Phone gesetzt werden, damit der Datentransfer keine Funktionen beeinträchtige.

Das LG V30 und das LG V30+ sind beinahe identisch

Ein Benchmark, das von so vielen Umweltfaktoren beeinflusst werden kann und inkonsistente Daten liefert, kann grundsätzlich angezweifelt werden. Ich entschliesse mich, den Test so zu machen: Ich nehme die beiden Phones, lasse zehn mal den Benchmark-Test hintereinander laufen. Ohne Pause, ohne Kühlschrank, ohne auf die richtige Mondphase zu warten.

LG V30LG V30+
1162116169016
2165968168973
3158907163637
4160792160500
5156781157918
6147413152253
7148210149940
8142798148834
9173738173223
10165803168960

Eine kleine Auswertung:

  • Das LG V30 hat durchschnittlich 158 252.60 Punkte erzielt
  • Das LG V30+ hat durchschnittlich 161 325.40 Punkte erzielt
  • Das LG V30 hat den höchsten Einzelwert von 173 738.00 Punkten erzielt
  • Das LG V30 hat den niedrigsten Einzelwert von 142 798.00 Punkten erzielt

Im Durchschnitt gewinnt also das LG V30+. Der Unterschied beträgt im Schnitt 3072.80 Punkte, was 1.9 Prozent entspricht. Aber während des Benchmarkings ist mir einiges aufgefallen. Die Idee hinter der Aufbewahrung im Kühlschrank ist es, das Phone abzukühlen. Denn, so geht Theorie weiter, ein kühles Phone liefert bessere und verlässlichere Resultate. Dem widerspricht mein Test. Zumindest anekdotisch, denn für eine absolute Aussage fehlt mir eine signifikante Anzahl Tests, die ich dann basierend auf gar nichts als repräsentativ bezeichnen würde. Beide Phones haben in der neunten Runde des Testings ihre Höchstwerte geliefert, die niedrigsten aber in der Achten.

Was ein Benchmark sagen kann

Ein Benchmark hat aber doch Aussagekraft. Wenn ich zwei komplett verschiedene Phones, ein altes HTC M7 aus dem Jahr 2013 und ein nagelneues Razer Phone vergleiche, dann kommt folgendes heraus.

Überraschenderweise siegt das Razer Phone (2018) gegen das HTC M7 (2013)
Razer Phone (64 GB, Black, 5.70", Single SIM, 12 Mpx, 4G)
Smartphone

Razer Phone

64 GB, Black, 5.70", Single SIM, 12 Mpx, 4G

HTC One M7Razer Phone
140863178219
240459180698
340227181227
440045180238
540988177600
640814176727
740603171843
840662175492
940467175660
1039987171611

Eine kleine Auswertung

  • Das Razer Phone hat durchschnittlich 176 931.50 Punkte erzielt
  • Das HTC One M7 hat durchschnittlich 40 511.50 Punkte erzielt
  • Das Razer Phone hat den höchsten Einzelwert von 181 227 Punkten erzielt
  • Das HTC One M7 hat den niedrigsten Einzelwert von 39 611 Punkten erzielt

Und was sagt das jetzt aus? Das neue Phone ist besser als das alte Phone. Wer hätte das gedacht? Die Differenz von 77.10 Prozent ist komplett bedeutungslos. Gut, anderer Test. Razer Phone versus Samsung Galaxy Note 8.

Bei mehr oder weniger ebenbürtigen Phones braucht es auch keinen Benchmark Test
Razer PhoneSamsung Galaxy Note 8
1178219175360
2180698176210
3181227176939
4180238176036
5177600175236
6176727176321
7171843122752
8175492175762
9175660176286
10171611114510
Samsung Galaxy Note8 EU (64 GB, Midnight Black, 6.30", Hybrid Dual SIM, 12 Mpx, 4G)
Smartphone

Samsung Galaxy Note8 EU

64 GB, Midnight Black, 6.30", Hybrid Dual SIM, 12 Mpx, 4G

Das Note 8 hat das Nachsehen. Auch nicht überraschend, denn wer die Specs liest, der weiss, dass das so kommen muss. Der Benchmark Test verkommt bestenfalls zur Spielerei, der deine Thesen bestätigt, schlimmstenfalls zur reinen Zeitverschwendung.

Was dir Benchmarks nicht sagen

Wir testen Phones. Das geht weit über ein Benchmark hinaus. Am Ende hast du einen Erfahrungsbericht aus dem Alltag, nicht aus einer App. Denn du wirst dein Phone im Alltag brauchen und auch der beste Benchmark Score wird dir zig Faktoren schlicht verschweigen. Er wird dir nichts von der kleinen Unsauberkeit im Glas meines LG V30+ erzählen, die unübersehbar ist, wenn du sie einmal gesehen hast. Die Kamerageschwindigkeit des Razer Phones wird nirgends angezweifelt und die Langlebigkeit des HTC One M7 wird nirgends hervorgehoben.

Um diese Faktoren zu entdecken, um sie einzuschätzen, zu qualifizieren und zu quantifizieren braucht es das Auge und die Hände eines Menschen. Denn am Ende des Tages, nachdem alle automatischen Benchmarks durchgelaufen sind, bist du es – ein Mensch aus Fleisch und Blut –, der das Phone in den Händen hält, damit telefoniert, Bilder schiesst und deinen Liebsten WhatsApp-Messages schickst. Da kann ein arbiträrer Wert noch so hoch sein.

So. Fertig. Ich teste weiter. Einfach meist ohne Benchmarks.

23 Personen gefällt dieser Artikel


User Avatar
User Avatar

Journalist. Autor. Hacker. Ich bin Geschichtenerzähler und suche Grenzen, Geheimnisse und Tabus. Ich dokumentiere die Welt, schwarz auf weiss. Nicht, weil ich kann, sondern weil ich nicht anders kann.


Smartphone
Folge Themen und erhalte Updates zu deinen Interessen

17 Kommentare

Avatar
later