Wie viel Mathematik brauche ich in der Datenwissenschaft?

Original by Benjamin Obi Tayo Ph.D.: https://medium.com/towards-artificial-intelligence/how-much-math-do-i-need-in-data-science-d05d83f8cb19 (01.06.2020)

Einführung

Wenn Sie ein Anwärter auf die Datenwissenschaft sind, haben Sie zweifellos die folgenden Fragen im Sinn:

Kann ich ein Datenwissenschaftler mit wenig oder keinem mathematischen Hintergrund werden?

Welche wesentlichen mathematischen Fähigkeiten sind in der Datenwissenschaft wichtig?

Es gibt so viele gute Pakete, die für die Erstellung von Vorhersagemodellen oder für die Erstellung von Datenvisualisierungen verwendet werden können. Einige der gebräuchlichsten Pakete für deskriptive und prädiktive Analysen sind

GgPlot2
Matplotlib
Seefahrt
Scikit-Lernen
Caret
TensorFlow
PyTorch
Keras

Dank dieser Pakete kann jeder ein Modell bauen oder eine Datenvisualisierung erstellen. Ein sehr solides mathematisches Hintergrundwissen ist jedoch für die Feinabstimmung Ihrer Modelle unerlässlich, um zuverlässige Modelle mit optimaler Leistung zu erstellen. Es ist eine Sache, ein Modell zu bauen, aber eine andere, das Modell zu interpretieren und aussagekräftige Schlussfolgerungen zu ziehen, die für eine datengesteuerte Entscheidungsfindung verwendet werden können. Es ist wichtig, dass Sie vor der Verwendung dieser Pakete die mathematischen Grundlagen jedes einzelnen verstehen, damit Sie diese Pakete nicht einfach als Black-Box-Tools verwenden.

Fallstudie: Aufbau eines multiplen Regressionsmodells

Nehmen wir an, wir werden ein Multi-Regressionsmodell aufbauen. Bevor wir das tun, müssen wir uns die folgenden Fragen stellen:

Wie groß ist mein Datensatz?
Was sind meine Merkmals- und Zielvariablen?
Welche Prädiktormerkmale korrelieren am stärksten mit der Zielvariablen?
Welche Merkmale sind wichtig?
Sollte ich meine Merkmale skalieren?
Wie sollte mein Datensatz in Trainings- und Testsätze unterteilt werden?
Was ist die Hauptkomponentenanalyse (PCA)?
Sollte ich die HKA zur Entfernung redundanter Merkmale verwenden?
Wie evaluiere ich mein Modell? Sollte ich R2-Score, MSE oder MAE verwenden?
Wie kann ich die Vorhersagekraft des Modells verbessern?
Sollte ich regularisierte Regressionsmodelle verwenden?
Was sind die Regressionskoeffizienten?
Was ist der Intercept?
Sollte ich nichtparametrische Regressionsmodelle wie die KNeighbors-Regression oder die Support-Vektor-Regression verwenden?
Was sind die Hyperparameter in meinem Modell, und wie können sie fein abgestimmt werden, um das Modell mit optimaler Leistung zu erhalten?

Ohne einen soliden mathematischen Hintergrund wären Sie nicht in der Lage, die oben gestellten Fragen zu beantworten. Unterm Strich sind in der Datenwissenschaft und im maschinellen Lernen mathematische Fähigkeiten genauso wichtig wie Programmierkenntnisse. Als Anwärter auf die Datenwissenschaft ist es daher unerlässlich, dass Sie Zeit investieren, um die theoretischen und mathematischen Grundlagen der Datenwissenschaft und des maschinellen Lernens zu studieren. Ihre Fähigkeit, zuverlässige und effiziente Modelle zu erstellen, die sich auf Probleme der realen Welt anwenden lassen, hängt davon ab, wie gut Ihre mathematischen Fähigkeiten sind. Um zu sehen, wie mathematische Fähigkeiten beim Aufbau eines Regressionsmodells für maschinelles Lernen angewendet werden, lesen Sie bitte diesen Artikel: Tutorial zum Prozess des maschinellen Lernens.

Lassen Sie uns nun einige der wesentlichen mathematischen Fähigkeiten besprechen, die in der Datenwissenschaft und beim maschinellen Lernen benötigt werden.

Grundlegende mathematische Fähigkeiten für Datenwissenschaft und Maschinelles Lernen

Statistik und Wahrscheinlichkeit

Statistik und Wahrscheinlichkeit wird zur Visualisierung von Merkmalen, Datenvorverarbeitung, Merkmalstransformation, Datenimputation, Dimensionalitätsreduktion, Merkmalstechnik, Modellbewertung usw. verwendet.

Hier sind die Themen, mit denen Sie vertraut sein müssen: Mittelwert, Median, Modus, Standardabweichung/Varianz, Korrelationskoeffizient und die Kovarianzmatrix, Wahrscheinlichkeitsverteilungen (Binomial, Poisson, Normal), p-Wert, Baye'sches Theorem (Präzision, Rückruf, positiver Vorhersagewert, negativer Vorhersagewert, Konfusionsmatrix, ROC-Kurve), Zentralgrenzsatz, R_2-Score, Mittlerer quadratischer Fehler (MSE), A/B-Tests, Monte-Carlo-Simulation

Multivariable Berechnung

Die meisten maschinellen Lernmodelle werden mit einem Datensatz mit mehreren Merkmalen oder Prädiktoren aufgebaut. Daher ist die Vertrautheit mit der Multivariablenrechnung für die Erstellung eines maschinellen Lernmodells äußerst wichtig.
Hier sind die Themen, mit denen Sie vertraut sein müssen: Funktionen mehrerer Variablen; Ableitungen und Gradienten; Schrittfunktion, Sigmoid-Funktion, Logit-Funktion, ReLU (Rectified Linear Unit)-Funktion; Kostenfunktion; Plotten von Funktionen; Minimal- und Maximalwerte einer Funktion

Lineare Algebra

Lineare Algebra ist die wichtigste mathematische Fertigkeit beim maschinellen Lernen. Ein Datensatz wird als Matrix dargestellt. Lineare Algebra wird bei der Datenvorverarbeitung, Datentransformation, Dimensionalitätsreduktion und Modellbewertung verwendet.
Hier sind die Themen, mit denen Sie vertraut sein müssen: Vektoren; Norm eines Vektors; Matrizen; Transponierung einer Matrix; Die Inverse einer Matrix; Die Determinante einer Matrix; Die Spur einer Matrix; Punktprodukt; Eigenwerte; Eigenvektoren

Methoden zur Optimierung

Die meisten Algorithmen des maschinellen Lernens führen eine prädiktive Modellierung durch, indem sie eine objektive Funktion minimieren und dadurch die Gewichte lernen, die auf die Testdaten angewendet werden müssen, um die vorhergesagten Etiketten zu erhalten.

Hier sind die Themen, mit denen Sie vertraut sein müssen: Kostenfunktion/Zielfunktion; Wahrscheinlichkeitsfunktion; Fehlerfunktion; Gradientenabstiegsalgorithmus und seine Varianten (z.B. stochastischer Gradientenabstiegsalgorithmus)

Zusammenfassung und Schlussfolgerung

Zusammenfassend haben wir die wesentlichen mathematischen und theoretischen Fähigkeiten besprochen, die in der Datenwissenschaft und im maschinellen Lernen benötigt werden. Es gibt mehrere kostenlose Online-Kurse, die Ihnen die notwendigen mathematischen Fähigkeiten beibringen, die Sie in der Datenwissenschaft und im maschinellen Lernen benötigen. Als Anwärter auf die Datenwissenschaft ist es wichtig, sich vor Augen zu halten, dass die theoretischen Grundlagen der Datenwissenschaft für die Erstellung effizienter und zuverlässiger Modelle sehr wichtig sind. Sie sollten daher genügend Zeit investieren, um die mathematische Theorie hinter jedem Algorithmus des maschinellen Lernens zu studieren.

Literaturhinweise

Grundlagen der linearen Regression für absolute Anfänger.
Mathematik der Principal Component Analysis mit R-Code-Implementierung.
Tutorial zum maschinellen Lernprozess.

Zuerst erschienen auf iota.passives-einkommen.blogBLOG : http://iota.passives-einkommen.blog/2020/06/30/wie-viel-mathematik-brauche-ich-in-der-datenwissenschaft/