Zur Seitenansicht
 

Titelaufnahme

Titel
Konzeption und Umsetzung von RDF-Summarization-Cubes in SPARK-SQL für das Profiling von schema.org-Daten / eingereicht von Roland Buschberger, BSc
AutorInnenBuschberger, Roland
Beurteiler / BeurteilerinSchrefl, Michael
ErschienenLinz, 2018
Umfang118 Blätter : Illustrationen
HochschulschriftUniversität Linz, Masterarbeit, 2018
SpracheDeutsch
DokumenttypMasterarbeit
Schlagwörter (DE)RDF / schema.org / SPARK-SQL / Data Profiling
Schlagwörter (GND)RDF <Informatik> / Data-Profiling / Semantic Web / Softwareentwicklung
URNurn:nbn:at:at-ubl:1-24916 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist gemäß den "Hinweisen für BenützerInnen" verfügbar
Dateien
Konzeption und Umsetzung von RDF-Summarization-Cubes in SPARK-SQL für das Profiling von schema.org-Daten [2.52 mb]
Links
Nachweis
Klassifikation
Zusammenfassung

Das von den führenden Suchmaschinenanbietern ins Leben gerufene schema. org-Vokabular erlaubt die semantische Beschreibung einer Web-Seite in maschinenlesbarer Form. Um im Rahmen von Data-Profiling die tatsächliche Verwendung des schema.org-Vokabulars untersuchen zu können, wird in dieser Arbeit ein entsprechender Entwurf erarbeitet und umgesetzt. Für die Analyse der Verwendung des schema.org-Vokabulars werden die von Web- Data-Commons veröffentlichten, aus den Korpussen von Common-Crawl extrahierten strukturierten Web-Daten herangezogen. Aus den Rohdaten werden Primärfakten erstellt, welche die schema.org-Klassenhierarchie als semantische Dimensionen enthalten. Ausgehend von den Primärfakten werden die Umsetzungsvarianten “Cube” und “Star” (zusammengefasst als RDFSummarization- Cubes) erzeugt, welche die entsprechenden schema.org-Analysen ermöglichen. Die Umsetzung wird in PySpark-SQL implementiert und in einem Hadoop-Cluster einer Proof-of-Concept-Umgebung entwickelt und getestet. Die ersten Analysen in Bezug auf die strukturierten Web-Daten- Formate Microdata, JSON-LD und RDFa auf Basis eines relativ kleinen Ausschnittes von Web-Data-Commons haben ergeben, dass in JSON-LD am öftesten schema.org-Klassen verwendet werden. Um die Skalierbarkeit der Umsetzung zu überprüfen, wurde der Proof-of-Concept-Prototyp mithilfe der Plattform Databricks in der Microsoft-Azure-Cloud auf eine größere Datenmenge ausgeführt.

Statistik
Das PDF-Dokument wurde 11 mal heruntergeladen.