Was Big Data Clusters eigentlich sollten
SQL Server Big Data Clusters (BDC) waren ein ambitionierter Ansatz.
Ziel: relationale Daten + HDFS + Spark + KI-Workloads in einem Stack.
Verwaltet über Kubernetes. Integriert per PolyBase.
Für große Szenarien gedacht.
Für den Mittelstand meist zu viel des Guten.
Warum Microsoft den Stecker gezogen hat
Offizielles Supportende: SQL Server 2022.
BDC sind in SQL Server 2022 nicht mehr enthalten.
Kein Deployment-Support, keine Patches.
Gründe:
- Kubernetes war für viele SQL-Admins zu fremd
- Setup komplex, Debugging aufwendig
- kaum Nachfrage außerhalb Konzernumfeld
- Microsoft verlagert Fokus Richtung Azure Synapse, Fabric & Co.
Zugespitzt: Zu viel Aufwand, zu wenig Nutzen.
Was Du jetzt brauchst: Alternativen
Ziel | Ersatzlösung |
---|---|
HDFS-Anbindung | Azure Data Lake, Azure Synapse |
Spark-Verarbeitung | Azure Databricks, Fabric Runtime |
verteilte Abfragen auf CSV | PolyBase (on-prem) oder External Tables |
ML-Workloads mit Datenzugriff | ML.NET, Azure Machine Learning |
Cluster-Infrastruktur | Synapse Pipelines, Data Factory |
Wenn Du on-prem bleibst: PolyBase ist das letzte stabile Standbein.
PolyBase kurz erklärt
PolyBase erlaubt externe Tabellen auf:
- CSV / Parquet / ORC
- Azure Blob / ADLS
- Hadoop / Cloudera
- ODBC-fähige Quellen (PostgreSQL, Oracle, etc.)
Beispiel: CSV via External Table einbinden
-- Datenquelle definieren
CREATE EXTERNAL DATA SOURCE CsvData
WITH (
TYPE = HADOOP,
LOCATION = 'wasbs://daten@storageaccount.blob.core.windows.net/'
);
-- Format definieren
CREATE EXTERNAL FILE FORMAT CsvFormat
WITH (
FORMAT_TYPE = DELIMITEDTEXT,
FORMAT_OPTIONS (FIELD_TERMINATOR = ',', STRING_DELIMITER = '"')
);
-- Tabelle erstellen
CREATE EXTERNAL TABLE dbo.ImportedKunden (
id INT,
name NVARCHAR(100),
ort NVARCHAR(100)
)
WITH (
LOCATION = '/kunden.csv',
DATA_SOURCE = CsvData,
FILE_FORMAT = CsvFormat
);
Danach kannst Du ganz normal:
SELECT * FROM dbo.ImportedKunden;
Fühlt sich an wie eine normale Tabelle – ist aber extern.
Wenn Du Data Science brauchst
BDC war auch für ML gedacht.
Jetzt gehst Du besser über:
- Azure Machine Learning
- ML.NET (on-prem)
- Jupyter Notebooks + Spark/Databricks
- Python-Runtime + Zugriff per
pyodbc
T-SQL reicht nicht.
Aber SQL kann Vorarbeit leisten.
SELECT
kunde_id,
SUM(umsatz) AS gesamtumsatz
INTO staging.ml_input
FROM dbo.auftraege
GROUP BY kunde_id;
Exportieren, Modell trainieren, zurückschreiben.
Fazit für KMU
BDC war kein Werkzeug für uns.
Zu groß. Zu viel Technik außenrum. Zu wenig Kontrolle.
Was Du heute brauchst:
- PolyBase für externe Daten
- Azure Synapse oder Databricks für Skalierung
- keine Angst vor „Hybrid Workloads“, aber pragmatisch bleiben
Wenn Du willst, schauen wir uns an, wie Du bestehende ETL- oder Analyseprozesse mit einfachen Mitteln modernisierst.
Ohne dass gleich ein Data Engineer-Team einziehen muss.
Keine Antworten