Was ist der Unterschied zwischen einem Datenwissenschaftler und einem Statistiker?


Antwort 1:

Sasha Mikheev

Insbesondere ist der Code, den sie schreiben, niemals dafür gedacht, von jemand anderem als sich selbst verwendet zu werden

Aber sie vermasseln routinemäßig ihre Analysen, indem sie Techniken auf Probleme anwenden, ohne die Annahmen zu verstehen, die hinter diesen Techniken stehen.

josh_wills: Data Scientist (n.): Person ...

Unabhängige und gleich verteilte Zufallsvariablen

Nichtparametrische Statistik


Antwort 2:

Datenwissenschaftler verstehen Dinge aus einer Datenperspektive. Man muss verstehen, welche Eigenschaften die Daten haben - ist es spärlich? Hat es eine bestimmte Struktur? Können wir einige orthogonale Informationen aus anderen Datenquellen nutzen? Was sagen die Domain-Wissenschaftler zu den Dateneigenschaften? unter anderem solche Fragen. Der andere Unterschied besteht darin, dass Datenwissenschaftler in erster Linie Informatiker sind. Sie entwickeln algorithmische Lösungen für Probleme der realen Welt unter Berücksichtigung von Rechenzwängen, die möglicherweise durch die schiere Größe der Daten verursacht werden und Platz- und Zeitanforderungen enthalten. Um dies zu gewährleisten, muss ein Datenwissenschaftler möglicherweise Technologien wie Parallel Computing kennen, mit denen er diese Probleme lösen kann. Abhängig von den Rechenanforderungen der jeweiligen Aufgabe, insbesondere bei Anwendungen, die On-the-Fly-Berechnungen erfordern, möchte er möglicherweise einen Teil seiner Verarbeitung in der Cloud ausführen - einer leistungsstarken Rechenmaschine, auf die über das Netzwerk zugegriffen werden kann in dem zusätzlichen Problem, was in der Cloud zu verarbeiten ist, wobei zu berücksichtigen ist, dass dies ein kontinuierliches Senden von Daten im Netzwerk erfordern würde, was die erforderliche Zeit erhöht. Dies ist nur die Spitze des Eisbergs. Bei der Verarbeitung von Rohdaten gibt es eine Vielzahl anderer Probleme, die je nach Anwendung von verschiedenen Quellen stammen können, von Verkehrsüberwachungskameras bis zu Sensoren, die auf Satelliten montiert sind und die Klimabedingungen auf unserem Planeten überwachen.

Der Punkt, den ich ansprechen möchte, ist, dass ein Datenwissenschaftler zwar fundierte statistische Kenntnisse benötigt, dies jedoch nicht das einzige Tool in seinem Arsenal ist.


Antwort 3:

Ein Statistiker muss mehr Statistiken kennen, um diesen schweren Begriff tragen zu können. Es reicht nicht aus, nur zu wissen, wie man Korrelationen findet, verschiedene Arten von Regression berechnet und Wahrscheinlichkeitsverteilungen versteht. Die Kenntnis der Statistik kann beliebig komplex sein. Beide müssen grundlegende Statistiken verstehen und aussagekräftige Ergebnisse auf interessante und informative Weise visuell darstellen.

Ein Data Scientist muss in der Lage sein, sich eine eigene Hypothese zu bilden und diese von A bis Z zu testen. Er muss die Hardware- und Softwareanforderungen herausfinden und alles auch verschlüsseln können. Es scheint, als wäre Kartenreduzierung wirklich üblich. Zumindest in einigen Fällen müssen sie Serveradministratoren werden und können sogar verteilte Systeme ausführen.


Antwort 4:

Ein Statistiker muss mehr Statistiken kennen, um diesen schweren Begriff tragen zu können. Es reicht nicht aus, nur zu wissen, wie man Korrelationen findet, verschiedene Arten von Regression berechnet und Wahrscheinlichkeitsverteilungen versteht. Die Kenntnis der Statistik kann beliebig komplex sein. Beide müssen grundlegende Statistiken verstehen und aussagekräftige Ergebnisse auf interessante und informative Weise visuell darstellen.

Ein Data Scientist muss in der Lage sein, sich eine eigene Hypothese zu bilden und diese von A bis Z zu testen. Er muss die Hardware- und Softwareanforderungen herausfinden und alles auch verschlüsseln können. Es scheint, als wäre Kartenreduzierung wirklich üblich. Zumindest in einigen Fällen müssen sie Serveradministratoren werden und können sogar verteilte Systeme ausführen.