Entdeckung von Biomarkern
Ein Biomarker wird typischerweise definiert als:
Merkmal, das als Indikator für normale biologische Prozesse, pathogene Prozesse oder pharmazeutische Antwort auf therapeutisches Eingreifen objektiv gemessen und evaluiert wurde.
Der Ausdruck Entdeckung von Biomarkern ist untrennbar mit der modernen biologischen und pharmazeutischen Forschung verbunden. Im allgemeinen beinhaltet der Begriff nach der Erfassung des biologischen Rohmaterials den gesamten Arbeitsablauf von der Datenvorprozessierung bis zur Reduktion von hochdimensionalen Gendaten auf diagnostisch spezifische Datenuntereinheiten. Die Anwendungen variieren von der Unterscheidung zwischen Tumor- und Normalgewebe bis zur Vorhersage verschiedener Krankheitsstadien und der Diagnose von komplexen Krankheiten auf molekularer Ebene.
Auswahl von Merkmalen
Technisch gesehen ist die Idee, in der Lage zu sein, unterscheidbare Stadien (Klassen) anhand des gemessenen biologischen Materials vorhersagen zu können. Deshalb ist der wesentliche Schritt bei der Entdeckung von Biomarkern die Auswahl von Merkmalen:
Die verlässliche Identifikation von Variablen mit Vorhersagekraft.
Die Techniken für die Auswahl von Merkmalen stammen ursprünglich aus dem maschinellen Lernen und der Statistik, wo redundante Merkmale nicht mehr Information enthalten als die bereits gewählten und irrelevante Merkmale überhaupt keine nutzbaren Informationen enthalten. Offensichtlich verringert die Vermeidung dieser Merkmale die Berechnungszeiten in den späteren Schritten, wenn das Vorhersagemodell trainiert und angewendet wird. Man könnte aber meinen, dass dies der einzige Vorteil sei. Tatsache ist, dass die Auswahl von Merkmalen eine zentrale Rolle spielt, denn sie beeinflusst die Vorhersagegenauigkeit. Die besten Selektionsalgorithmen reduzieren Übertraining und verbessern dadurch die Genauigkeit. Wenn wir den biologischen Hintergrund der Daten betrachten, gibt es abschließend noch einen weiteren Vorzug:
Modelle, die auf wenigen Biomarkern basieren, sind häufig einfacher (biologisch) interpretierbar (z.B. Beeinflussung der Gene untereinander).
Scientific Consilience
Scientific Consilience hat sich auf die Analyse biologischer Daten spezialisert. Biologische Daten haben mehrere Besonderheiten, was ihre Analyse zu einer Herausforderung werden lässt. Im einfachsten Fall sind die Daten mit Rauschen und Messfehlern überzogen. Oft schlagen statistische Hypothesen mangels angenommener Verteilungen fehl - was eine individuelle Eigenheit des entsprechenden Messgerätes sein könnte.
TrueSet ist der proprietäre Biomarker-Selektions-Service von Scientific Consilience. Wir haben proprietäre Software als Teil unseres Analyseservices entwickelt, der informationstheoretische Kriterien mit statistischen Auswertungen kombiniert.
Ablauf
Üblicherweise übersenden Kunden uns anonymisierte Proben, z.B. Vektoren von Zahlen, die mit Klassenbezeichnern benannt sind. Diese Daten analysieren und prozessieren wir vor. Darauf basierend selektieren wir die besten Biomarker und führen alle statistische Tests und Vorhersagen in unserem Hause durch und geben die Ergebnisse zurück. Bei der Auswahl der Merkmale identifizieren wir normalerweise zuerst die beste Anzahl an Biomarker und dann die besten Biomarker für Teilmengen der gefundenen Größe. Basierend auf diesen Erkenntnissen trainieren wir ein Vorhersagemodell, das für die Einordnung von unbekannten Proben in verschiedene Eigenschaften oder Klassen verwendet werden kann. Dieses Modell wird dann dem Kunden übergeben, der das Modell für zukünftige Evaluierungen verwenden kann.
Für weitere Informationen kontaktieren Sie uns bitte unter
info (at) scientific-consilience.com