Original by Benjamin Obi Tayo Ph.D.: https://medium.com/towards-artificial-intelligence/how-much-math-do-i-need-in-data-science-d05d83f8cb19 (01.06.2020)
Einführung
Wenn Sie ein Anwärter auf die Datenwissenschaft sind, haben Sie zweifellos die folgenden Fragen im Sinn:
Kann ich ein Datenwissenschaftler mit wenig oder keinem mathematischen Hintergrund werden?
Welche wesentlichen mathematischen Fähigkeiten sind in der Datenwissenschaft wichtig?
Es gibt so viele gute Pakete, die für die Erstellung von Vorhersagemodellen oder für die Erstellung von Datenvisualisierungen verwendet werden können. Einige der gebräuchlichsten Pakete für deskriptive und prädiktive Analysen sind
- GgPlot2
- Matplotlib
- Seefahrt
- Scikit-Lernen
- Caret
- TensorFlow
- PyTorch
- Keras
Fallstudie: Aufbau eines multiplen Regressionsmodells
Nehmen wir an, wir werden ein Multi-Regressionsmodell aufbauen. Bevor wir das tun, müssen wir uns die folgenden Fragen stellen:Wie groß ist mein Datensatz?
Was sind meine Merkmals- und Zielvariablen?
Welche Prädiktormerkmale korrelieren am stärksten mit der Zielvariablen?
Welche Merkmale sind wichtig?
Sollte ich meine Merkmale skalieren?
Wie sollte mein Datensatz in Trainings- und Testsätze unterteilt werden?
Was ist die Hauptkomponentenanalyse (PCA)?
Sollte ich die HKA zur Entfernung redundanter Merkmale verwenden?
Wie evaluiere ich mein Modell? Sollte ich R2-Score, MSE oder MAE verwenden?
Wie kann ich die Vorhersagekraft des Modells verbessern?
Sollte ich regularisierte Regressionsmodelle verwenden?
Was sind die Regressionskoeffizienten?
Was ist der Intercept?
Sollte ich nichtparametrische Regressionsmodelle wie die KNeighbors-Regression oder die Support-Vektor-Regression verwenden?
Was sind die Hyperparameter in meinem Modell, und wie können sie fein abgestimmt werden, um das Modell mit optimaler Leistung zu erhalten?
Ohne einen soliden mathematischen Hintergrund wären Sie nicht in der Lage, die oben gestellten Fragen zu beantworten. Unterm Strich sind in der Datenwissenschaft und im maschinellen Lernen mathematische Fähigkeiten genauso wichtig wie Programmierkenntnisse. Als Anwärter auf die Datenwissenschaft ist es daher unerlässlich, dass Sie Zeit investieren, um die theoretischen und mathematischen Grundlagen der Datenwissenschaft und des maschinellen Lernens zu studieren. Ihre Fähigkeit, zuverlässige und effiziente Modelle zu erstellen, die sich auf Probleme der realen Welt anwenden lassen, hängt davon ab, wie gut Ihre mathematischen Fähigkeiten sind. Um zu sehen, wie mathematische Fähigkeiten beim Aufbau eines Regressionsmodells für maschinelles Lernen angewendet werden, lesen Sie bitte diesen Artikel: Tutorial zum Prozess des maschinellen Lernens.
Lassen Sie uns nun einige der wesentlichen mathematischen Fähigkeiten besprechen, die in der Datenwissenschaft und beim maschinellen Lernen benötigt werden.
Grundlegende mathematische Fähigkeiten für Datenwissenschaft und Maschinelles Lernen
Statistik und Wahrscheinlichkeit
Statistik und Wahrscheinlichkeit wird zur Visualisierung von Merkmalen, Datenvorverarbeitung, Merkmalstransformation, Datenimputation, Dimensionalitätsreduktion, Merkmalstechnik, Modellbewertung usw. verwendet.
Hier sind die Themen, mit denen Sie vertraut sein müssen: Mittelwert, Median, Modus, Standardabweichung/Varianz, Korrelationskoeffizient und die Kovarianzmatrix, Wahrscheinlichkeitsverteilungen (Binomial, Poisson, Normal), p-Wert, Baye'sches Theorem (Präzision, Rückruf, positiver Vorhersagewert, negativer Vorhersagewert, Konfusionsmatrix, ROC-Kurve), Zentralgrenzsatz, R_2-Score, Mittlerer quadratischer Fehler (MSE), A/B-Tests, Monte-Carlo-Simulation
Multivariable Berechnung
Die meisten maschinellen Lernmodelle werden mit einem Datensatz mit mehreren Merkmalen oder Prädiktoren aufgebaut. Daher ist die Vertrautheit mit der Multivariablenrechnung für die Erstellung eines maschinellen Lernmodells äußerst wichtig.
Hier sind die Themen, mit denen Sie vertraut sein müssen: Funktionen mehrerer Variablen; Ableitungen und Gradienten; Schrittfunktion, Sigmoid-Funktion, Logit-Funktion, ReLU (Rectified Linear Unit)-Funktion; Kostenfunktion; Plotten von Funktionen; Minimal- und Maximalwerte einer Funktion
Lineare Algebra
Lineare Algebra ist die wichtigste mathematische Fertigkeit beim maschinellen Lernen. Ein Datensatz wird als Matrix dargestellt. Lineare Algebra wird bei der Datenvorverarbeitung, Datentransformation, Dimensionalitätsreduktion und Modellbewertung verwendet.
Hier sind die Themen, mit denen Sie vertraut sein müssen: Vektoren; Norm eines Vektors; Matrizen; Transponierung einer Matrix; Die Inverse einer Matrix; Die Determinante einer Matrix; Die Spur einer Matrix; Punktprodukt; Eigenwerte; Eigenvektoren
Methoden zur Optimierung
Die meisten Algorithmen des maschinellen Lernens führen eine prädiktive Modellierung durch, indem sie eine objektive Funktion minimieren und dadurch die Gewichte lernen, die auf die Testdaten angewendet werden müssen, um die vorhergesagten Etiketten zu erhalten.
Hier sind die Themen, mit denen Sie vertraut sein müssen: Kostenfunktion/Zielfunktion; Wahrscheinlichkeitsfunktion; Fehlerfunktion; Gradientenabstiegsalgorithmus und seine Varianten (z.B. stochastischer Gradientenabstiegsalgorithmus)
Zusammenfassung und Schlussfolgerung
Zusammenfassend haben wir die wesentlichen mathematischen und theoretischen Fähigkeiten besprochen, die in der Datenwissenschaft und im maschinellen Lernen benötigt werden. Es gibt mehrere kostenlose Online-Kurse, die Ihnen die notwendigen mathematischen Fähigkeiten beibringen, die Sie in der Datenwissenschaft und im maschinellen Lernen benötigen. Als Anwärter auf die Datenwissenschaft ist es wichtig, sich vor Augen zu halten, dass die theoretischen Grundlagen der Datenwissenschaft für die Erstellung effizienter und zuverlässiger Modelle sehr wichtig sind. Sie sollten daher genügend Zeit investieren, um die mathematische Theorie hinter jedem Algorithmus des maschinellen Lernens zu studieren.
Literaturhinweise
Grundlagen der linearen Regression für absolute Anfänger.
Mathematik der Principal Component Analysis mit R-Code-Implementierung.
Tutorial zum maschinellen Lernprozess.
Zuerst erschienen auf iota.passives-einkommen.blogBLOG : http://iota.passives-einkommen.blog/2020/06/30/wie-viel-mathematik-brauche-ich-in-der-datenwissenschaft/