Microsoft SQL Server: Big Data Clusters (Ende & Nachfolger) – warum sie eingestellt wurden und was Alternativen sind

Was Big Data Clusters eigentlich sollten

SQL Server Big Data Clusters (BDC) waren ein ambitionierter Ansatz.
Ziel: relationale Daten + HDFS + Spark + KI-Workloads in einem Stack.
Verwaltet über Kubernetes. Integriert per PolyBase.

Für große Szenarien gedacht.
Für den Mittelstand meist zu viel des Guten.

Warum Microsoft den Stecker gezogen hat

Offizielles Supportende: SQL Server 2022.
BDC sind in SQL Server 2022 nicht mehr enthalten.
Kein Deployment-Support, keine Patches.

Gründe:

  • Kubernetes war für viele SQL-Admins zu fremd
  • Setup komplex, Debugging aufwendig
  • kaum Nachfrage außerhalb Konzernumfeld
  • Microsoft verlagert Fokus Richtung Azure Synapse, Fabric & Co.

Zugespitzt: Zu viel Aufwand, zu wenig Nutzen.

Was Du jetzt brauchst: Alternativen

ZielErsatzlösung
HDFS-AnbindungAzure Data Lake, Azure Synapse
Spark-VerarbeitungAzure Databricks, Fabric Runtime
verteilte Abfragen auf CSVPolyBase (on-prem) oder External Tables
ML-Workloads mit DatenzugriffML.NET, Azure Machine Learning
Cluster-InfrastrukturSynapse Pipelines, Data Factory

Wenn Du on-prem bleibst: PolyBase ist das letzte stabile Standbein.

PolyBase kurz erklärt

PolyBase erlaubt externe Tabellen auf:

  • CSV / Parquet / ORC
  • Azure Blob / ADLS
  • Hadoop / Cloudera
  • ODBC-fähige Quellen (PostgreSQL, Oracle, etc.)

Beispiel: CSV via External Table einbinden

-- Datenquelle definieren
CREATE EXTERNAL DATA SOURCE CsvData
WITH (
    TYPE = HADOOP,
    LOCATION = 'wasbs://daten@storageaccount.blob.core.windows.net/'
);

-- Format definieren
CREATE EXTERNAL FILE FORMAT CsvFormat
WITH (
    FORMAT_TYPE = DELIMITEDTEXT,
    FORMAT_OPTIONS (FIELD_TERMINATOR = ',', STRING_DELIMITER = '"')
);

-- Tabelle erstellen
CREATE EXTERNAL TABLE dbo.ImportedKunden (
    id INT,
    name NVARCHAR(100),
    ort NVARCHAR(100)
)
WITH (
    LOCATION = '/kunden.csv',
    DATA_SOURCE = CsvData,
    FILE_FORMAT = CsvFormat
);

Danach kannst Du ganz normal:

SELECT * FROM dbo.ImportedKunden;

Fühlt sich an wie eine normale Tabelle – ist aber extern.

Wenn Du Data Science brauchst

BDC war auch für ML gedacht.
Jetzt gehst Du besser über:

  • Azure Machine Learning
  • ML.NET (on-prem)
  • Jupyter Notebooks + Spark/Databricks
  • Python-Runtime + Zugriff per pyodbc

T-SQL reicht nicht.
Aber SQL kann Vorarbeit leisten.

SELECT 
    kunde_id,
    SUM(umsatz) AS gesamtumsatz
INTO staging.ml_input
FROM dbo.auftraege
GROUP BY kunde_id;

Exportieren, Modell trainieren, zurückschreiben.

Fazit für KMU

BDC war kein Werkzeug für uns.
Zu groß. Zu viel Technik außenrum. Zu wenig Kontrolle.

Was Du heute brauchst:

  • PolyBase für externe Daten
  • Azure Synapse oder Databricks für Skalierung
  • keine Angst vor „Hybrid Workloads“, aber pragmatisch bleiben

Wenn Du willst, schauen wir uns an, wie Du bestehende ETL- oder Analyseprozesse mit einfachen Mitteln modernisierst.
Ohne dass gleich ein Data Engineer-Team einziehen muss.

Kategorien:

Keine Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert