2022 & 2023
Dissertation, RWTH Aachen University, 2022
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2023
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
;
Tag der mündlichen Prüfung/Habilitation
2022-06-17
Online
DOI: 10.18154/RWTH-2023-00739
URL: https://publications.rwth-aachen.de/record/888682/files/888682.pdf
Einrichtungen
Inhaltliche Beschreibung (Schlagwörter)
data science (frei) ; data scientists (frei) ; data workers (frei) ; hypothesis testing (frei) ; qualitative research (frei)
Thematische Einordnung (Klassifikation)
DDC: 004
Kurzfassung
Data Science wird in der Wissenschaft und Industrie häufig benötigt. Ein wichtiger Nutzen ist die Prüfung von Hypothesen, wofür der Analyst signifikanz-basierte Hypothesentests verwendet, um auf Basis von Daten aus Experimenten Erkenntnisse über eine Populationsverteilung zu gewinnen. Neben Data Scientists, die professionelles Training in Data Science und hohe Kompetenz haben, üben viele nicht-professionelle Analysten Data Science aus. Diese bezeichnen wir als Data Workers und sie sind Experten in einem Gebiet, denen jedoch Expertise in Data Science fehlt. Data Workers umfassen akademische Wissenschaftler, Projektmanager und Vertriebsleiter. Mithilfe von Interviews, Beobachtungen, Online-Umfragen und Inhaltsanalyse haben wir versucht, den Arbeitsablauf von Data Workern in wichtigen Aufgabenbereichen von Hypothesentests zu verstehen: Theoretische und praktische Statistik erlernen; statistische Verfahren auswählen; Data Science Programmierumgebungen nutzen, um mit Ideen in Quellcode zu experimentieren; den Quellcode verfeinern und überarbeiten; sowie die Analysergebnisse verbreiten. Wir gruppieren unsere Ergebnisse in zwei Teilschritte von Data Science:1. Die Vorbereitung zur Durchführung von Data Science-Aufgaben: Wir diskutieren unsere Ergebnisse zum Einfluss von formaler Ausbildung auf die tatsächliche Praxis; Abwägungen zwischen Informationsquellen, welche die Auswahl von statistischen Verfahren herangezogen werden; empfundene Komplexität und Unsicherheit über die getroffene Wahl statistischer Verfahren; und den Widerwillen von Data Workern, alternative Analysemethoden anzuwenden. Aufgrund dieser Ergebnisse präsentieren wir Designempfehlungen sowie ein Artefakt, welche die Arbeit von Data Workern verbessern sollen. Unsere Artefakt ist StatPlayground, ein interaktives Simulations-Tool, das zum selbstständigen Erlernen statistischer Konzepte und Verfahren genutzt werden kann. 2. Die Durchführung von Data Science-Aufgaben: Unsere Ergebnisse beinhalten eine Übersicht über den Arbeitsablauf eines Hypothesentests unter Nutzung einer Programmierumgebung, der die Form von explorativer Programmierung nimmt; und ein Vergleich existierender Oberflächen für Data Science-Programmierung, nämlich Notebooks, Skripte und Konsolen, sowie eine Diskussion darüber, wie gut sie die verschiedenen Schritte der Hypothesentests unterstützen. Um den Arbeitsablauf von Data Workern während solcher Data Science-Aufgaben zu verbessern, präsentieren wir Designempfehlungen und zwei Artefakte. Die Artefakte sind StatWire, eine experimentelle Oberfläche zur hybriden Programmierung, die Data Worker dazu ermutigen kann, hochwertigen Quellcode zu schreiben; und Tractus, eine interaktive Visualisierung, die den Aufwand der Arbeit mit experimentellem Code verringert. Basierend auf dieser Arbeit stellen wir vier Erkenntnisse vor, die von Wissenschaftlern, Software-Entwicklern und Ausbildern genutzt werden können, um die Hürden zum Erlernen des Umgangs mit Hypothesentests zu senken.Data science is a frequent task in academia and industry. One common use of data science is to validate hypotheses, in which the analyst uses significance-based hypothesis testing to draw insights about a population distribution based on experimental data. Apart from data scientists, who are professionally trained in data science and have high skills levels, many non-professional analysts also carry out data analysis. These non-professionals, who we refer to as data workers, are domain experts who lack expertise in data science, such as academic researchers, project managers, and sales managers. Through interviews, observations, online surveys, and content analyses, we aim to understand data workers’ workflows across important tasks in hypothesis testing: learning theoretical and practical statistics, selecting statistical procedures, using data science programming IDEs to experiment with ideas in source code, refine and refactor source code, and disseminating findings from an analysis. We present our findings grouped into two steps when performing data science tasks: 1. Preparing to perform data science tasks: We discuss our findings about the impact of formal training on real-world statistical practice; trade-offs among information sources used for selecting statistical procedures; perceived complexity and uncertainty about statistical procedure selection; and reluctance among data workers to adopt alternative methods of analysis. Based on the above findings, we present design recommendations and one artifact to improve data workers’ workflows. Our artifact StatPlayground is an interactive simulation tool that can be used to self-learn or teach statistical concepts and statistical procedure selection. 2. Performing data science tasks: Our findings include an overview of data workers’ workflows when performing hypothesis testing using programming IDEs, which follows an exploratory programming workflow; and a comparison of existing interfaces for data science programming, namely computational notebooks, scripts, and consoles, and a discussion of how well they support various steps in hypothesis testing. To improve data workers’ workflows when performing data science tasks, we contribute design recommendations and two artifacts. Our artifacts include StatWire, an experimental hybrid-programming interface that encourages data workers to write high-quality source code; and Tractus, an interactive visualization that can lower the cost of working with experimental source code. Based on our work, we present four takeaways that can be used by researchers, software developers, and educators to lower the barriers to hypothesis testing.
OpenAccess:
PDF
(additional files)
Dokumenttyp
Dissertation / PhD Thesis
Format
online
Sprache
English
Externe Identnummern
HBZ: HT021705334
Interne Identnummern
RWTH-2023-00739
Datensatz-ID: 888682
Beteiligte Länder
Germany
|
The record appears in these collections: |