Jedes Produkt auf vsMars trägt einen Mars Score von 0–100. Es ist kein Bauchgefühl. Die Formel ist in unserer Methodik veröffentlicht, und die Gewichte pro Kategorie sind im Repo versionskontrolliert. So werden diese Gewichte gewählt.
Die Mars-Score-Formel
Für ein beliebiges Produkt P in Kategorie C:
MarsScore(P) = Σ_i (weight_i × normalize(spec_i(P), category_C))
Jede Kategorie definiert (1) welche Spec-Keys bewertet werden, (2) das Gewicht jedes einzelnen, (3) die Normalisierungskurve (linear, logarithmisch, Schwellenwert, stückweise).
Wie Gewichte gewählt werden
Für jede Kategorie:
- Reviewer-Konsens erheben. 30+ professionelle Tests von Kategorie-Flaggschiffen lesen; tabellieren, welche Specs als „Dealbreaker", „wichtig" oder „nice-to-have" beschrieben werden.
- Kaufreue-Daten erheben. Reddit-Threads, Amazon-Rezensionen, Rücksendequoten-Umfragen — was hätten Käufer rückblickend lieber höher gewichtet?
- Sensitivitätsanalyse durchführen. Für eine Stichprobe von 20 Produkten der Kategorie jedes Gewicht um ±20 % variieren und prüfen, ob sich Rankings auf eine Weise verschieben, die dem Konsens widerspricht.
- Gewichte fixieren, veröffentlichen, Feedback annehmen. Wenn sich der Score für ein Flaggschiff bedeutsam vom Konsens entfernt anfühlt, offenbart die Diskrepanz entweder eine fehlende Spezifikation oder ein fehlkalibriertes Gewicht.
Beispiel: Smartphones (Mai 2026)
| Spec-Key | Gewicht | Begründung |
|---|---|---|
| battery_life_hours | 0,18 | Wichtigster Reue-Treiber in Umfragen |
| chipset_score | 0,14 | Prädiktiv für mehrjährige Langlebigkeit |
| camera_main_score | 0,13 | Primärer Kaufgrund |
| display_score | 0,11 | Täglich hohe Sichtbarkeit |
| build_water_resistance | 0,07 | Asymmetrisches Abwärtsrisiko |
| update_years_promised | 0,07 | Mittelfristiger Wert |
| charging_w_wired + wireless | 0,06 | Komfort, aber Deckeneffekt |
| price_value | 0,10 | Klassenübergreifende Normalisierung |
| weitere (12 Specs) | 0,14 | Long Tail |
Diese Gewichte änderten sich 2026 zweimal: Das chipset_score-Gewicht stieg nach der iPhone 17 Pro Max-Thermo-Throttling-Geschichte (die Dauerleistung erwies sich als prädiktiver für die mehrjährige Erfahrung als die Spitzenleistung); das Lade-Gewicht fiel, nachdem jedes Flaggschiff 80W+ erreichte (kein Differenzierungsmerkmal mehr).
Normalisierungskurven — die zweite Hälfte der Formel
Ein Gewicht sagt dir, wie viel eine Spezifikation zählt. Eine Normalisierungskurve sagt dir, wie ein gegebener Spec-Wert auf einen Teil-Score von 0–100 abgebildet wird. Wir verwenden vier Kurven:
- Linear (Min-Max): bildet das Minimum-bis-Maximum der Kategorie linear auf 0–100 ab. Verwendet für Bildwiederholrate, Reaktionszeit, Spitzenhelligkeit — Specs, bei denen jede Verbesserungseinheit ungefähr gleichwertig ist.
- Logarithmisch: verwendet für Speicherkapazität, RAM — wo Verdopplung mehr zählt als inkrementelle Zuwächse.
- Schwellenwert (binär): verwendet für boolesche Specs (has_anc, supports_dolby_vision) — vorhanden oder nicht.
- Stückweise: verwendet für Specs mit nichtlinearem Wert, wie Kamera-Megapixel (12–48 MP zählt; über 48 MP zeigt abnehmenden Grenznutzen).
Die Normalisierungskurven sind neben den Gewichten versionskontrolliert. Änderungen werden im Audit-Log des Score-Recompute-Workers dokumentiert.
Gewichtsbeispiele pro Kategorie
Kopfhörer (Mai 2026):
- ANC-Wirksamkeit: 0,17
- Klangqualität (Treibergröße + Frequenzgang): 0,16
- Akkulaufzeit: 0,12
- Codec-Unterstützung: 0,10
- Multipoint: 0,08
- Komfort (Gewicht + Anpresskraft): 0,07
- Verarbeitung / Wasserdichtigkeit: 0,06
- Weitere: 0,24
Laptops (Mai 2026):
- CPU/SoC-Score: 0,16
- Akkulaufzeit (real): 0,15
- Displayqualität (Panel + Auflösung + Helligkeit): 0,13
- Verarbeitungsqualität + Gewicht: 0,10
- Arbeitsspeicher (RAM): 0,08
- Speicher (SSD): 0,07
- Anschlussauswahl (USB-C, Thunderbolt): 0,06
- Weitere: 0,25
Was wir ausdrücklich nicht tun
- Keine Reviewer-Stimmungswerte. „Gefühl" geht nicht in die Formel ein. Subjektive Bewertungen würden den Score irreproduzierbar machen.
- Kein Popularitätsbonus. Ein millionenfach verkauftes Flaggschiff schlägt kein besseres Nischenprodukt. Verkaufsgeschwindigkeit ist ein Marktsignal, kein Qualitätssignal.
- Keine Markenverzerrung. Marke ist keine Spezifikation. Der Mars Score weiß nicht, ob das Gerät von Apple, Samsung oder einem unbekannten OEM stammt.
- Kein Preisnachlass, sofern er die Normalisierung einer Kategorie nicht wesentlich verändert. Der Preis fließt über ein price_value-Gewicht ein, wird aber innerhalb der Kategorie normalisiert; ein 200-$-Telefon schlägt ein 1.200-$-Telefon nicht im absoluten Score, selbst wenn sein Preis-/Spec-Verhältnis besser ist.
Warum 92,4 → 87,1 nicht „viel schlechter" ist
Mars Scores liegen für in Produktion befindliche Produkte einer beliebigen Kategorie geclustert zwischen 60 und 95. Eine 5-Punkte-Lücke ist bedeutsam (andere Unterklasse); eine 1,3-Punkte-Lücke liegt im Methodik-Rauschen (effektiv ein Gleichstand). Behandle die Zahl als Sortierschlüssel, nicht als Ranking-Wahrheit. Das 87,1-Produkt ist nicht „5,7 % schlechter" als das 92,4-Produkt — sie liegen in derselben Nachbarschaft, unterschieden durch spezifische Abwägungen.
Warum wir die Mathematik veröffentlichen
Andere Vergleichsseiten veröffentlichen undurchsichtige „Experten-Bewertungen". Der Mars Score ist bewusst das Gegenteil: Jedes Gewicht, jede Normalisierungskurve, jeder Spec-Key steht in der Versionskontrolle. Jeder kann das Repo forken, die Gewichte ändern, den Score neu berechnen und sehen, wie sich die Rankings verschieben. Das ist die einzige ehrliche Art, eine Vergleichsplattform zu betreiben — deine Gewichte unterscheiden sich von unseren, und das ist in Ordnung; die Mathematik sollte offen genug sein, dass du deine einsetzen kannst.
Die vollständigen Gewichte pro Kategorie liegen in src/lib/score/mars.ts. Jeder kann die Mathematik prüfen, reproduzieren oder kritisieren. Siehe unsere Methodikseite für den breiteren Test- und Bewertungsansatz.