Wie die Mars-Score-Gewichte kalibriert wurden — die Methodik hinter der Zahl

Jedes Produkt auf vsMars trägt einen Mars Score von 0–100. Es ist kein Bauchgefühl. Die Formel ist in unserer Methodik veröffentlicht, und die Gewichte pro Kategorie sind im Repo versionskontrolliert. So werden diese Gewichte gewählt.

Die Mars-Score-Formel

Für ein beliebiges Produkt P in Kategorie C:

MarsScore(P) = Σ_i (weight_i × normalize(spec_i(P), category_C))

Jede Kategorie definiert (1) welche Spec-Keys bewertet werden, (2) das Gewicht jedes einzelnen, (3) die Normalisierungskurve (linear, logarithmisch, Schwellenwert, stückweise).

Wie Gewichte gewählt werden

Für jede Kategorie:

Reviewer-Konsens erheben. 30+ professionelle Tests von Kategorie-Flaggschiffen lesen; tabellieren, welche Specs als „Dealbreaker", „wichtig" oder „nice-to-have" beschrieben werden.
Kaufreue-Daten erheben. Reddit-Threads, Amazon-Rezensionen, Rücksendequoten-Umfragen — was hätten Käufer rückblickend lieber höher gewichtet?
Sensitivitätsanalyse durchführen. Für eine Stichprobe von 20 Produkten der Kategorie jedes Gewicht um ±20 % variieren und prüfen, ob sich Rankings auf eine Weise verschieben, die dem Konsens widerspricht.
Gewichte fixieren, veröffentlichen, Feedback annehmen. Wenn sich der Score für ein Flaggschiff bedeutsam vom Konsens entfernt anfühlt, offenbart die Diskrepanz entweder eine fehlende Spezifikation oder ein fehlkalibriertes Gewicht.

Beispiel: Smartphones (Mai 2026)

Spec-Key	Gewicht	Begründung
battery_life_hours	0,18	Wichtigster Reue-Treiber in Umfragen
chipset_score	0,14	Prädiktiv für mehrjährige Langlebigkeit
camera_main_score	0,13	Primärer Kaufgrund
display_score	0,11	Täglich hohe Sichtbarkeit
build_water_resistance	0,07	Asymmetrisches Abwärtsrisiko
update_years_promised	0,07	Mittelfristiger Wert
charging_w_wired + wireless	0,06	Komfort, aber Deckeneffekt
price_value	0,10	Klassenübergreifende Normalisierung
weitere (12 Specs)	0,14	Long Tail

Diese Gewichte änderten sich 2026 zweimal: Das chipset_score-Gewicht stieg nach der iPhone 17 Pro Max-Thermo-Throttling-Geschichte (die Dauerleistung erwies sich als prädiktiver für die mehrjährige Erfahrung als die Spitzenleistung); das Lade-Gewicht fiel, nachdem jedes Flaggschiff 80W+ erreichte (kein Differenzierungsmerkmal mehr).

Normalisierungskurven — die zweite Hälfte der Formel

Ein Gewicht sagt dir, wie viel eine Spezifikation zählt. Eine Normalisierungskurve sagt dir, wie ein gegebener Spec-Wert auf einen Teil-Score von 0–100 abgebildet wird. Wir verwenden vier Kurven:

Linear (Min-Max): bildet das Minimum-bis-Maximum der Kategorie linear auf 0–100 ab. Verwendet für Bildwiederholrate, Reaktionszeit, Spitzenhelligkeit — Specs, bei denen jede Verbesserungseinheit ungefähr gleichwertig ist.
Logarithmisch: verwendet für Speicherkapazität, RAM — wo Verdopplung mehr zählt als inkrementelle Zuwächse.
Schwellenwert (binär): verwendet für boolesche Specs (has_anc, supports_dolby_vision) — vorhanden oder nicht.
Stückweise: verwendet für Specs mit nichtlinearem Wert, wie Kamera-Megapixel (12–48 MP zählt; über 48 MP zeigt abnehmenden Grenznutzen).

Die Normalisierungskurven sind neben den Gewichten versionskontrolliert. Änderungen werden im Audit-Log des Score-Recompute-Workers dokumentiert.

Gewichtsbeispiele pro Kategorie

Kopfhörer (Mai 2026):

ANC-Wirksamkeit: 0,17
Klangqualität (Treibergröße + Frequenzgang): 0,16
Akkulaufzeit: 0,12
Codec-Unterstützung: 0,10
Multipoint: 0,08
Komfort (Gewicht + Anpresskraft): 0,07
Verarbeitung / Wasserdichtigkeit: 0,06
Weitere: 0,24

Laptops (Mai 2026):

CPU/SoC-Score: 0,16
Akkulaufzeit (real): 0,15
Displayqualität (Panel + Auflösung + Helligkeit): 0,13
Verarbeitungsqualität + Gewicht: 0,10
Arbeitsspeicher (RAM): 0,08
Speicher (SSD): 0,07
Anschlussauswahl (USB-C, Thunderbolt): 0,06
Weitere: 0,25

Was wir ausdrücklich nicht tun

Keine Reviewer-Stimmungswerte. „Gefühl" geht nicht in die Formel ein. Subjektive Bewertungen würden den Score irreproduzierbar machen.
Kein Popularitätsbonus. Ein millionenfach verkauftes Flaggschiff schlägt kein besseres Nischenprodukt. Verkaufsgeschwindigkeit ist ein Marktsignal, kein Qualitätssignal.
Keine Markenverzerrung. Marke ist keine Spezifikation. Der Mars Score weiß nicht, ob das Gerät von Apple, Samsung oder einem unbekannten OEM stammt.
Kein Preisnachlass, sofern er die Normalisierung einer Kategorie nicht wesentlich verändert. Der Preis fließt über ein price_value-Gewicht ein, wird aber innerhalb der Kategorie normalisiert; ein 200-$-Telefon schlägt ein 1.200-$-Telefon nicht im absoluten Score, selbst wenn sein Preis-/Spec-Verhältnis besser ist.

Warum 92,4 → 87,1 nicht „viel schlechter" ist

Mars Scores liegen für in Produktion befindliche Produkte einer beliebigen Kategorie geclustert zwischen 60 und 95. Eine 5-Punkte-Lücke ist bedeutsam (andere Unterklasse); eine 1,3-Punkte-Lücke liegt im Methodik-Rauschen (effektiv ein Gleichstand). Behandle die Zahl als Sortierschlüssel, nicht als Ranking-Wahrheit. Das 87,1-Produkt ist nicht „5,7 % schlechter" als das 92,4-Produkt — sie liegen in derselben Nachbarschaft, unterschieden durch spezifische Abwägungen.

Warum wir die Mathematik veröffentlichen

Andere Vergleichsseiten veröffentlichen undurchsichtige „Experten-Bewertungen". Der Mars Score ist bewusst das Gegenteil: Jedes Gewicht, jede Normalisierungskurve, jeder Spec-Key steht in der Versionskontrolle. Jeder kann das Repo forken, die Gewichte ändern, den Score neu berechnen und sehen, wie sich die Rankings verschieben. Das ist die einzige ehrliche Art, eine Vergleichsplattform zu betreiben — deine Gewichte unterscheiden sich von unseren, und das ist in Ordnung; die Mathematik sollte offen genug sein, dass du deine einsetzen kannst.

Die vollständigen Gewichte pro Kategorie liegen in src/lib/score/mars.ts. Jeder kann die Mathematik prüfen, reproduzieren oder kritisieren. Siehe unsere Methodikseite für den breiteren Test- und Bewertungsansatz.

Kategorie

Alle smartphones-Vergleiche anzeigen →