REVIEW: 81. Digitaldialog: Webinar | Data (Science) in Action – from data to value

The applied university FH CAMPUS 02 in Graz invited to the 81st Digitaldialog on March 23 with the topic “Data (Science) in Action – from data to value”. The event took place online as a webinar. Three different lectures presented the value data can have in the respective field of application. The event was hosted by Stefan Grünwald, head of the IT & business informatics department at FH CAMPUS 02.

GERMAN REVIEW BELOW

"Data Science Lifecycle – challenges and support options", Robert Ginthör, Know-Center

After the vivid introduction by host Stefan Grünwald, Know-Center’s Robert Ginthör started the event with the first lecture and spoke about challenges and support options in the area of ​​data science lifecycle. Consequently, he gave the audience an overview of the Know-Center which is active in both data analytics and data science and forms the interface between research and business in order to promote the development towards data-driven business. After the general insight into the activities and focus of the Know-Center, Robert Ginthör explained Data Science as a term that often is not clear and unambiguous, but essentially describes the generation of knowledge from data. This means that the output of data science is shown in reports that present the insights gained from data. This requires two aspects: On the one hand, different methods such as machine learning, for which mathematical-statistical knowledge is required in order to extract data. On the other hand, domain knowledge is required to be able to interpret data. Different skills are therefore required to carry out research along the data value chain.

At the beginning of every data science project, the aim is to obtain data, to clean it up, to explore data descriptively, and only then to gain deeper insights into data with machine learning. That implies approx. 80% of the time and effort is put into the not yet profitable or useful data processing. Against this background, the Know-Center uses the SystemDS framework. This Apache top-level project was developed by IBM and came to the Know-Center with Böhm Matthias, who is an endowed professor at the Graz University of Technology at the Institute for Interactive Systems and Data Science. The basic idea of ​​SystemDS is to support the data science lifecycle, whereby tasks from data preparation and analysis to interpretation are mapped in the framework. SystemDS should go in the direction of “Lineage and Reuse” in order to reproduce analyzes. Furthermore, “Federal ML” concepts are pursued in order to maintain data ownership in the application of machine learning. After Ginthör Robert presented examples for the use of SystemDS, he said that new SystemDS fans would be happy to download the framework. The aim is to develop SystemDS further so that it can be used in specialized application systems.

"A data-based analysis of driver interaction in semi-autonomous vehicles under real driving conditions", Alexander Stocker, Virtual Vehicles

The second lecture was about the use of data in the automotive industry. Stocker Alexander from Virtual Vehicle Research presented experiences and results from a project on the subject of “A data-based analysis of driver interaction in semi-autonomous vehicles under real driving conditions”. Autonomous or automated driving is a popular topic that has been investigated in a field study. The focus was on the question of trust in and acceptance of 2 semi-autonomous assistance systems: the assistance system for keeping the lane (lane-keeping assistant) and the assistance system for keeping a distance (adaptive driving assistant). A total of 100 people took part in the field study, in which they were able to try out the assistance systems on a voluntary basis while driving after training. The study design was developed by psychologists with the aim of collecting qualitative and quantitative data and analyzing it exploratively using data science methods.

Methodology and data

The data collection was divided into 3 test steps and included, among other things, questionnaires and interviews, video recordings, audio recording (thinking-aloud) or data collection using psycho-social sensors. The field test showed that trust in the semi-autonomous assistance system increased after the test drive (“learned trust”), although trust in the adaptive driving assistance system was higher. There were no significant gender differences in the use of the systems, but there was a significant difference in the age groups with regard to interaction with and the perception of the systems. Driving with assistance systems was characterized by the fact that test persons paid more attention to the dashboard and drove more slowly on average. The example clearly showed how data science methods were used to obtain results from the data in order to evaluate the semi-autonomous assistance systems in their interaction with humans.

"2.4 billion data points per day say more than 1,000 words", Markus Streibl and Matthias Traub, Invenium Data Insights

The last lecture entitled “2.4 billion data points per day say more than 1,000 words” dealt with data science methods for evaluating cell phone data. Markus Streibl and Matthias Traub from Invenium Data Insights gave an exciting perspective on where data can come from and what kind of insight it gives. On the basis of cell phone signaling data retrieved from over 7,000 radio stations of the cell phone provider A1, representative data is generated daily that provide information about the mobility behavior of Austrians. With the help of modern algorithms, data can be analyzed from purely technical, completely anonymous cell phone data and provide area-specific answers to neuralgic questions. Data protection is an important topic in this regard, which is met with a TÜV Saarland certification for data anonymization. The advantage of mobile radio signaling data is that it is up-to-date, comprehensive and flexible. The interest is always on the meta level, i.e. in the flow of data and not on the individual level, be it in the area of ​​urban development, tourism, location analysis or transport.

Methodolgy and data

The data foundation thereby consists of 3 levels: technology, people and processes. Furthermore, the CRISP-DM is used as a framework to map the procedure along the big data lifecycle from data identification and data preparation to analysis and visualization. The model is run through several times with the various questions until the use case can be fully covered. The 3 most important steps in the data analytics pipeline are data collection, data analysis and data visualization, whereby the data analysis includes frequency measurements, rural and urban catchment area analyzes or location measurements. An example of an application area is the creation of forecast models for an infection. By having movement data from people in Austria and knowing how many people are in a specific area, a possible cluster formation and thus the source and course of infection can be derived. In addition to the mobility data, the data are based on metadata such as weather data, temperature, radiation, virological data, etc., which further influence the forecast.

After the presentations, questions were taken up in the online chat. Discussions included how far we are from vehicle-to-vehicle communication, how to imagine SystemDS in more detail, or where the virological data for creating prognostic models for the course of infection may come from.

Watch the recap video

Watch on YouTube

 

NACHBERICHT 81. Digitaldialog: Webinar | Data (Science) in Action – von Daten zum Nutzen

Die FH CAMPUS 02 lud am 23. März zum 81. Digitaldialog mit dem Thema „Data (Science) in Action – von Daten zum Nutzen“ ein. Die Veranstaltung fand als Webinar online statt. In drei unterschiedlichen Vorträgen wurde beschrieben, welchen Nutzen Daten im jeweiligen Anwendungsfeld haben können. Durch die Veranstaltung führte Grünwald Stefan, Leiter der Studienrichtung IT & Wirtschaftsinformatik der FH CAMPUS 02.

Den Auftakt übernahm Ginthör Robert vom Know-Center, der über Herausforderungen und Unterstützungsmöglichkeiten im Bereich Data Science Lifecycle sprach. Vorab gab er den Zuhörern einen Überblick über das Know-Center, das sowohl im Bereich Data Analytics als auch Data Science tätig ist und die Schnittstelle zwischen Forschung und Wirtschaft bildet, um eine Entwicklung hin zum data-driven Business zu fördern. Nach dem allgemeinen Einblick in Tätigkeiten und Schwerpunkte des Know-Centers wurde von Ginthör Robert Data Science als Begriff erklärt, der nicht eindeutig ist, aber im Wesentlichen das Generieren von Wissen aus Daten beschreibt. Das heißt der Output von Data Science zeigt sich in Berichten die gewonnen Einsichten aus Daten präsentieren. Hierfür braucht es zwei Aspekte: Einerseits unterschiedliche Methoden wie Machine Learning, wofür mathematisch-statistisches Wissen erforderlich ist, um Daten zu extrahieren. Andererseits braucht es Domain-Wissen, um Daten interpretieren zu können. Es braucht daher unterschiedlichen Kompetenzen, um Forschung entlang der Datenwertschöpfungskette zu bewerkstelligen.

Am Beginn jedes Data Science Projektes geht es darum Daten zu beschaffen, zu bereinigen, deskriptiv Daten zu explorieren, um erst danach mit Machine Learning tiefere Einblicke in Daten zu erhalten. Das heißt ca. 80% der Zeit und des Aufwandes wird in die noch nicht gewinnbringende oder nutzenstiftende Datenaufbereitung gesteckt. Vor diesem Hintergrund wird vom Know-Center das Framework SystemDS angewendet. Dieses Apache Top-Level Projekt wurde von IBM entwickelt und kam mit Böhm Matthias, der an der TU Graz am Institut für Interactive Systems und Data Science eine Stiftungsprofessur innehat, an das Know-Center. Die grundlegende Idee von SystemDS ist die Unterstützung des Data Science Lifecycles, wobei Aufgaben der Datenaufbereitung und Analyse bis hin zur Interpretation im Framework abgebildet sind. SystemDS soll in Richtung „Lineage und Reuse“ gehen, um Analysen zu Reproduzieren. Weiters werden „Federal ML“ Konzepte verfolgt, um Data Ownership in der Anwendung von Machine Learning zu wahren. Nachdem Ginthör Robert Beispiele für den Einsatz von SystemDS vorstellte meinte er, dass man sich über neue SystemDS Fans freuen würde durch Download des Frameworks. Ziel ist es nämlich SystemDS weiter zu entwickeln, um dieses bei spezialisierte Anwendungssystemen einsetzen zu können.

Im zweiten Vortrag ging es um Nutzen von Daten im Bereich der automotive Industry. Stocker Alexander von Virtual Vehicle Research präsentierte zum Thema „Eine Daten-basierte Analyse der Fahrerinteraktion in teilautonomen Fahrzeugen unter realen Fahrverhältnissen“ Erfahrungen und Ergebnisse aus einem Projekt. Autonomes oder automatisiertes Fahren ist ein populäres Thema, dass in einer Feldstudie untersucht wurde. Im Mittelpunkt stand die Frage nach dem Vertrauen in und die Akzeptanz von 2 teilautonomen Assistenzsystemen: Assistenzsystem zum Halten der Spur (Lane-keeping assistant) und dem Assistenzsystem zum Halten von Abstand (Adaptive driving assistant). Insgesamt nahmen 100 Personen an der Feldstudie teil, in der sie nach einer Einschulung die Assistenzsysteme auf freiwilliger Basis in einer Autofahrt ausprobieren konnten. Das Studiendesign wurde von Psychologen entwickelt mit dem Ziel qualitative und quantitative Daten zu sammeln und explorativ mit Data Science Methoden zu analysieren.

Die Datensammlung war in 3 Testschritte unterteilt und umfasste unter anderem Fragebögen und Interviews, Videoaufzeichnungen, Audioaufzeichnung (thinking-aloud) oder Datensammlung durch psycho-soziale Sensoren. Der Feldtest zeigte, dass das Vertrauen in die teilautonomen Assistenzsystem nach der Testfahrt stieg („learnded trust“), wobei das Vertrauen in das adaptive driving Assistenzsystem höher war. Es waren keine signifikanten Geschlechterunterschiede bei der Nutzung der Systeme zu erkennen, dafür zeigte sich ein signifikanter Unterschied in den Altersgruppen hinsichtlich Interaktion mit den Systemen und Wahrnehmung dieser. Die Fahrt mit Assistenzsystemen war dadurch charakterisiert, dass Probanden mehr Aufmerksamkeit dem Dashboard schenkten und im Durchschnitt langsamer fuhren. Das Beispiel zeigte gut wie mit Data Science Methoden Ergebnisse aus den Daten gewonnen wurden, um die teilautonomen Assistenzsysteme zu evaluieren in ihrer Interaktion mit dem Menschen.

Der letzte Vortrag mit dem Titel „2,4 Milliarden Datenpunkte pro Tag sagen mehr als 1.000 Worte“ befasste sich mit Data Science Methoden zur Auswertung von Mobilfunkdaten. Markus Streibl und Matthias Traub von Invenium Data Insights gaben einen spannenden Einblick, woher Daten noch kommen können und welchen Einblick dadurch gegeben wird. Auf Basis von Mobilfunk-signalisierungsdaten von über 7.000 Funkstationen des Mobilfunkanbieters A1 werden täglich repräsentative Daten generiert, die Auskunft über das Mobilitätsverhalten der Österreicher und Österreicherinnen geben. Aus rein technischen, vollständig anonymisierten Mobilfunkdaten können mit Hilfe moderner Algorithmen Daten analysiert werden und gebietsspezifische Antworten auf Fragestellungen liefern. Datenschutz ist in diesem Vorhaben ein wichtiges Thema, dem man mit einer TÜV Saarland Zertifizierung für Datenanonymisierung begegnet. Der Vorteil der Mobilfunksignalisierungsdaten ist, dass sie tagesaktuell, umfassend und flexibel vorliegen. Das Interesse liegt immer auf der Meta-Ebene, d.h. am Datenfluss und nicht am einzelnen Individuum, sei es im Bereich Stadtentwicklung, Tourismus, Standortanalyse oder Transport.

Das Datenfundament besteht hierbei aus 3 Ebenen: Technologie, Menschen und Prozesse. Weiters wird das CRISP-DM als Framework angewendet, um das Vorgehen entlang des Big Data Lifecycles abzubilden von der Datenidentifikation, der Datenaufbereitung bis hin zur Analyse und Visualisierung. Das Modell wird mehrmals Durchlaufen mit den diversen Fragestellungen bis man den Use Case vollständig abdecken kann. Die 3 wichtigsten Schritte in der Data Analytics Pipeline sind dabei Datensammlung, Datenanalyse und die Datenvisualisierung, wobei die Datenanalyse unter anderem Frequenzmessungen, Einzugsgebietsanalysen oder Aufenthaltsmessungen umfasst. Ein Beispiel für ein Anwendungsgebiet ist die Erstellung von Prognosemodellen für ein Ansteckungsgeschehen. In dem man Bewegungsdaten von Personen in Österreich hat und weiß, wie viele Personen sich in einem spezifischen Gebiet aufhalten, lässt sich eine mögliche Clusterbildung ableiten und damit der Ansteckungsverlauf. Datengrundlage sind neben den Mobilitätsdaten Metadaten wie Wetterdaten, Temperatur, Strahlung, virologische Daten, etc. die die Vorhersage beeinflussen.

Im Anschluss der Vorträge wurden Fragen im online Chat aufgegriffen. Diskutiert wurde unter anderem wieweit wir von der Fahrzeug-zu-Fahrzeug-Kommunikation entfernt sind, wie man sich SystemDS genauer vorstellen oder woher die virologischen Daten zur Erstellung von Prognosemodellen zum Ansteckungsverlauf kommen.