Konfigurieren von Lakehouse in einer Kopieraktivität - Microsoft Fabric (2023)

  • Artikel

In diesem Artikel wird beschrieben, wie Sie die Kopieraktivität in einer Datenpipeline verwenden, um Daten aus und in Fabric Lakehouse zu kopieren.

Wichtig

Microsoft Fabric befindet sich derzeit in der VORSCHAU.Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen. Weitere Informationen finden Sie in Azure Data Factory Dokumentation für den Dienst in Azure.

Unterstütztes Format:

Lakehouse unterstützt die folgenden Dateiformate. Informationen zu formatbasierten Einstellungen finden Sie in den jeweiligen Artikeln.

  • Avro-Format
  • Binärformat
  • Textformat mit Trennzeichen
  • Excel-Format
  • JSON-Format
  • ORC-Format
  • Parquet-Format
  • XML-Format

Unterstützte Konfiguration

Für die Konfiguration der einzelnen Registerkarten unter der Kopieraktivität wechseln Sie zu den folgenden Abschnitten.

  • Allgemein
  • Quelle
  • Ziel
  • Zuordnung
  • Einstellungen

Allgemein

Wechseln Sie für die Registerkartenkonfiguration Allgemein zu Allgemein.

Quelle

Die folgenden Eigenschaften werden für Lakehouse auf der Registerkarte Quelle einer Kopieraktivität unterstützt.

Die folgenden Eigenschaften sind erforderlich:

  • Datenspeichertyp: Wählen Sie Arbeitsbereich aus.
  • Arbeitsbereichsdatenspeichertyp: Wählen Sie lakehouse aus der Liste des Datenspeichertyps aus.
  • Lakehouse: Wählen Sie im Arbeitsbereich ein vorhandenes Lakehouse aus. Wenn keine vorhanden ist, erstellen Sie ein neues Lakehouse, indem Sie Neu auswählen.
  • Stammordner: Wählen Sie Tabellen oder Dateien aus, um die virtuelle Ansicht des verwalteten oder nicht verwalteten Bereichs in Ihrem Lake anzuzeigen. Weitere Informationen finden Sie unter Lakehouse-Einführung.
    • Wenn Sie Tabellen auswählen:
      • Tabellenname: Wählen Sie eine vorhandene Tabelle aus der Tabellenliste aus, oder geben Sie einen Tabellennamen als Quelle an.
      • Unter Erweitert können Sie die folgenden Felder angeben:
        • Zeitstempel: Geben Sie an, um eine ältere Momentaufnahme nach Zeitstempel abzufragen.
        • Version: Geben Sie an, um eine ältere Momentaufnahme nach Version abzufragen.
        • Zusätzliche Spalten: Fügen Sie dem relativen Pfad oder statischen Wert der Quelldateien zusätzliche Datenspalten hinzu. Der Ausdruck wird für Letzteres unterstützt.
    • Wenn Sie Dateien auswählen:
      • Dateipfadtyp: Sie können Dateipfad, Wildcarddateipfad oder Dateiliste als Dateipfadtyp auswählen. In der folgenden Liste wird die Konfiguration der einzelnen Einstellungen beschrieben:

        • Dateipfad: Wählen Sie Durchsuchen aus, um die Datei auszuwählen, die Sie kopieren möchten, oder geben Sie den Pfad manuell ein.

        • Pfad der Wildcarddatei: Geben Sie den Ordner oder Dateipfad mit Wildcardzeichen unter dem angegebenen nicht verwalteten Lakehouse-Bereich (unter Dateien) an, um Ihre Quellordner oder -dateien zu filtern. Folgende Platzhalter sind zulässig: * (entspricht null [0] oder mehr Zeichen) und ? (entspricht null [0] oder einem einzelnen Zeichen). Verwenden Sie ^ , um ein Escapezeichen zu verwenden, wenn Ihr Ordner oder Dateiname einen Wildcard oder dieses Escapezeichen enthält.

          • Pfad des Wildcardordners: Der Pfad zum Ordner unter dem angegebenen Container. Wenn Sie einen Wildcard verwenden möchten, um den Ordner zu filtern, überspringen Sie diese Einstellung, und geben Sie diese Informationen in den Einstellungen der Aktivitätsquelle an.

          • Name der Wildcard-Datei: Der Dateiname unter dem angegebenen nicht verwalteten Lakehouse-Bereich (unter Dateien) und Ordnerpfad.

        • Liste der Dateien: Gibt an, dass ein bestimmter Dateisatz kopiert werden soll.

          • Ordnerpfad: Verweist auf einen Ordner, der dateien enthält, die Sie kopieren möchten.
          • Pfad zur Dateiliste: Verweist auf eine Textdatei, die eine Liste der dateien enthält, die Sie kopieren möchten, eine Datei pro Zeile. Dies ist der relative Pfad zum konfigurierten Dateipfad.

      • Rekursiv: Gibt an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Wenn diese Option aktiviert ist, werden alle Dateien im Eingabeordner und den zugehörigen Unterordnern rekursiv verarbeitet. Diese Eigenschaft gilt nicht, wenn Sie den Dateipfadtyp als Dateiliste konfigurieren.

      • Dateiformat: Wählen Sie in der Dropdownliste Ihr Dateiformat aus. Wählen Sie die Schaltfläche Einstellungen aus, um das Dateiformat zu konfigurieren. Ausführliche Informationen zu Einstellungen für verschiedene Dateiformate finden Sie in den Artikeln unter Unterstütztes Format .

      • Unter Erweitert können Sie die folgenden Felder angeben:

        • Filtern nach letzter Änderung: Dateien werden basierend auf den Datumsangaben der letzten Änderung gefiltert. Diese Eigenschaft gilt nicht, wenn Sie den Dateipfadtyp als Dateiliste konfigurieren.
          • Startzeit: Die Dateien werden ausgewählt, wenn die Zeit der letzten Änderung größer oder gleich der konfigurierten Zeit ist.
          • Endzeit: Die Dateien werden ausgewählt, wenn die Zeit der letzten Änderung kleiner als die konfigurierte Zeit ist.
        • Partitionsermittlung aktivieren: Geben Sie für partitionierte Dateien an, ob die Partitionen aus dem Dateipfad analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen.
          • Partitionsstammpfad: Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammpfad an, um partitionierte Ordner als Datenspalten zu lesen.
        • Max. gleichzeitige Verbindungen: Gibt die Obergrenze für gleichzeitige Verbindungen an, die während der Aktivitätsausführung mit dem Datenspeicher eingerichtet wurden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.

Destination

Die folgenden Eigenschaften werden für Lakehouse auf der Registerkarte Ziel einer Kopieraktivität unterstützt.

Die folgenden Eigenschaften sind erforderlich:

  • Datenspeichertyp: Wählen Sie Arbeitsbereich aus.
  • Arbeitsbereichsdatenspeichertyp: Wählen Sie lakehouse aus der Liste des Datenspeichertyps aus.
  • Lakehouse: Wählen Sie im Arbeitsbereich ein vorhandenes Lakehouse aus. Wenn keine vorhanden ist, erstellen Sie ein neues Lakehouse, indem Sie Neu auswählen.
  • Stammordner: Wählen Sie Tabellen oder Dateien aus, um die virtuelle Ansicht des verwalteten oder nicht verwalteten Bereichs in Ihrem Lake anzuzeigen. Weitere Informationen finden Sie unter Lakehouse-Einführung.
    • Wenn Sie Tabellen auswählen:

      • Tabellenname: Wählen Sie eine vorhandene Tabelle aus der Tabellenliste aus, oder geben Sie einen Tabellennamen als Ziel an.

        Konfigurieren von Lakehouse in einer Kopieraktivität - Microsoft Fabric (6)

      • Unter Erweitert können Sie die folgenden Felder angeben:

        • Max. Zeilen pro Datei: Geben Sie die maximalen Zeilen pro Datei an, wenn Daten in Lakehouse geschrieben werden.
        • Tabellenaktionen: Geben Sie den Vorgang für die ausgewählte Tabelle an.
          • Append: Fügen Sie neue Werte an eine vorhandene Tabelle an.
          • Überschreiben: Überschreiben Sie die vorhandenen Daten und das Schema in der Tabelle mithilfe der neuen Werte. Wenn dieser Vorgang ausgewählt ist, können Sie die Partition für Ihre Zieltabelle aktivieren:
            • Partition aktivieren: Mit dieser Auswahl können Sie Partitionen in einer Ordnerstruktur erstellen, die auf einer oder mehreren Spalten basiert. Jeder eindeutige Spaltenwert (Paar) ist eine neue Partition. Beispiel: "year=2000/month=01/file". Diese Auswahl unterstützt den Reinfügemodus und erfordert ein leeres Verzeichnis im Ziel.
              • Name der Partitionsspalte: Wählen Sie in der Schemazuordnung aus den Zielspalten aus. Unterstützte Datentypen sind string, integer, boolean und datetime. Format berücksichtigt die Typkonvertierungseinstellungen auf der Registerkarte Zuordnung .
        • Max. gleichzeitige Verbindungen: Die Obergrenze für gleichzeitige Verbindungen, die während der Aktivitätsausführung mit dem Datenspeicher eingerichtet wurden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.
    • Wenn Sie Dateien auswählen:

      • Dateipfad: Wählen Sie Durchsuchen aus, um die Datei auszuwählen, die Sie kopieren möchten, oder geben Sie den Pfad manuell ein.

      • Dateiformat: Wählen Sie in der Dropdownliste Ihr Dateiformat aus. Wählen Sie Einstellungen aus, um das Dateiformat zu konfigurieren. Ausführliche Informationen zu Einstellungen für verschiedene Dateiformate finden Sie in den Artikeln unter Unterstütztes Format .

      • Unter Erweitert können Sie die folgenden Felder angeben:

        • Kopierverhalten: Definiert das Kopierverhalten, wenn die Quelle Dateien aus einem dateibasierten Datenspeicher ist. Sie können dynamischen Inhalt hinzufügen, Keine, Flache Hierarchie oder Hierarchie beibehalten als Kopierverhalten auswählen. Die Konfiguration jeder Einstellung lautet:

          • Dynamischen Inhalt hinzufügen: Wählen Sie dynamischen Inhalt hinzufügen aus, um einen Ausdruck für einen Eigenschaftswert anzugeben. Dieses Feld öffnet den Ausdrucks-Generator, in dem Sie Ausdrücke aus unterstützten Systemvariablen, Aktivitätsausgaben, Funktionen und benutzerdefinierten Variablen oder Parametern erstellen können. Weitere Informationen zur Ausdruckssprache findest du unter Ausdrücke und Funktionen.

          • Keine: Wählen Sie diese Auswahl aus, um kein Kopierverhalten zu verwenden.

          • Flache Hierarchie: Alle Dateien aus dem Quellordner befinden sich auf der ersten Ebene des Zielordners. Die Zieldateien verfügen über automatisch generierte Namen.

          • Beibehalten der Hierarchie: Behält die Dateihierarchie im Zielordner bei. Der relative Pfad einer Quelldatei zum Quellordner ist identisch mit dem relativen Pfad einer Zieldatei zum Zielordner.

        • Max. gleichzeitige Verbindungen: Die Obergrenze für gleichzeitige Verbindungen, die während der Aktivitätsausführung mit dem Datenspeicher eingerichtet wurden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.

        • Blockgröße (MB): Geben Sie beim Schreiben von Daten in Lakehouse die Blockgröße in MB an. Der zulässige Wert liegt zwischen 4 und 100MB.

        • Metadaten: Legen Sie beim Kopieren in den Zieldatenspeicher benutzerdefinierte Metadaten fest. Jedes Objekt unter dem Array metadata stellt eine zusätzliche Spalte dar. name definiert den Namen des Metadatenschlüssels, und value gibt den Datenwert dieses Schlüssels an. Wenn das Feature zum Beibehalten von Attributen verwendet wird, werden die angegebenen Metadaten mit den Metadaten der Quelldatei vereint/überschrieben. Die zulässigen Datenwerte sind:

          • $$LASTMODIFIED: Eine reservierte Variable gibt an, dass der Zeitpunkt der letzten Änderung der Quelldateien gespeichert werden soll. Gilt nur für eine dateibasierte Quelle mit Binärformat.

          • Ausdruck

          • Statischer Wert

Zuordnung

Wechseln Sie für die Konfiguration der Registerkarte Zuordnung zu Zuordnung. Wenn Sie Binär als Dateiformat auswählen, wird die Zuordnung nicht unterstützt.

Einstellungen

Wechseln Sie für die Konfiguration der Registerkarte Einstellungen zu Einstellungen.

Tabellenzusammenfassung

Die folgenden Tabellen enthalten weitere Informationen zu einer Kopieraktivität in Lakehouse.

Quellinformationen

NameBESCHREIBUNGWertErforderlichJSON-Skripteigenschaft
DatenspeichertypIhr Datenspeichertyp.ArbeitsbereichYes/
ArbeitsbereichsdatenspeichertypDer Abschnitt zum Auswählen des Datenspeichertyps ihres Arbeitsbereichs.LakehouseJatype
LakehouseDas Lakehouse, das Sie als Quelle verwenden.<Ihr Lakehouse>YesworkspaceId
artifactId
StammordnerDer Typ des Stammordners.* Tabellen
* Dateien
NorootFolder:
Tabelle oder Dateien
TabellennameDer Name der Tabelle zum Lesen von Daten.<Tabellenname>Ja, wenn Sie Tabellen im Stammordner auswählentable
(unter typeProperties ->source ->typeProperties)
TimestampDer Zeitstempel zum Abfragen einer älteren Momentaufnahme.<timestamp>NotimestampAsOf
VersionDie Version, die eine ältere Momentaufnahme abfragen soll.<version>NoversionAsOf
Zusätzliche SpaltenZusätzliche Datenspalten zum Speichern des relativen Pfads oder statischen Werts der Quelldateien. Der Ausdruck wird für Letzteres unterstützt.*Namen
*Wert
NoadditionalColumns:
*Namen
*Wert
DateipfadtypDer Typ des verwendeten Dateipfads.* Dateipfad
* Pfad der Feldhalterdatei
* Liste der Dateien
Yes/
DateipfadKopieren Sie aus dem Pfad in einen Ordner/eine Datei im Quelldatenspeicher. Wenden Sie an , wenn Sie Dateipfad im Dateipfadtyp auswählen.<Dateipfad>Ja beim Auswählen des Dateipfads* folderPath
*Dateiname
WeghalterpfadeDer Ordnerpfad mit Feldhalterzeichen unter dem Quelldatenspeicher, der zum Filtern von Quellordnern konfiguriert ist. Wenden Sie an, wenn Sie unter Dateipfadtypden Pfad der Feldhalterdatei auswählen.<Wildcardpfade>Ja beim Auswählen des Pfads für die Wildcard-Datei* platzhalterFolderPath
* PlatzhalterDateiname
OrdnerpfadZeigt auf einen Ordner, der Dateien enthält, die Sie kopieren möchten. Wenden Sie an, wenn Sie Liste der Dateien im Dateipfadtyp auswählen.<Ordnerpfad>NeinfolderPath
Pfad zur DateilisteGibt an, dass eine bestimmte Dateigruppe kopiert werden soll. Zeigen Sie auf eine Textdatei, die eine Liste von Dateien enthält, die Sie kopieren möchten, eine Datei pro Zeile, wobei es sich um den relativen Pfad zum konfigurierten Pfad handelt. Wenden Sie an, wenn Sie Liste der Dateien im Dateipfadtyp auswählen.<Pfad zur Dateiliste>NofileListPath
RekursivVerarbeiten Sie alle Dateien im Eingabeordner und seinen Unterordnern rekursiv oder nur die Dateien im ausgewählten Ordner. Diese Einstellung ist deaktiviert, wenn eine einzelne Datei ausgewählt wird.Auswählen oder Aufheben der AuswahlNoRekursive:
true oder false
DateiformatDas Format der von Ihnen verwendeten Datei.<Dateiformat>Yesgeben Sie ein (unter formatSettings):
DelimitedTextReadSettings
Nach der letzten Änderung filternDie Dateien mit der Zeit der letzten Änderung im Bereich [Startzeit, Endzeit) werden für die weitere Verarbeitung gefiltert.

Die Zeit wird im Format "jjjj-mm-ttThh:mm:ss.fffZ" auf die UTC-Zeitzone angewendet.

Diese Eigenschaft kann übersprungen werden, was bedeutet, dass kein Dateiattributefilter angewendet wird. Diese Eigenschaft gilt nicht, wenn Sie ihren Dateipfadtyp als Dateiliste konfigurieren.

* Startzeit
* Endzeit
NeinmodifiedDatetimeStart
modifiedDatetimeEnd
Aktivieren der PartitionsermittlungGibt an, ob die Partitionen aus dem Dateipfad analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen.Ausgewählt oder nicht ausgewähltNoenablePartitionDiscovery:
true oder false (Standard)
PartitionsstammpfadDer absolute Partitionsstammpfad zum Lesen partitionierte Ordner als Datenspalten.<Ihr Partitionsstammpfad>NeinpartitionRootPath
Maximale Anzahl gleichzeitiger VerbindungenDie Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Ein Wert wird nur benötigt, wenn Sie gleichzeitige Verbindungen einschränken möchten.<Maximale Anzahl gleichzeitiger Verbindungen>NeinmaxConcurrentConnections

Zielinformationen

NameBESCHREIBUNGWertErforderlichJSON-Skripteigenschaft
DatenspeichertypIhr Datenspeichertyp.ArbeitsbereichYes/
ArbeitsbereichsdatenspeichertypDer Abschnitt zum Auswählen des Arbeitsbereichsdatenspeichertyps.LakehouseJatype
LakehouseDas Lakehouse, das Sie als Ziel verwenden.<Ihr Lakehouse>YesworkspaceId
artifactId
StammordnerDer Typ des Stammordners.* Tabellen
* Dateien
YesrootFolder:
Tabelle oder Dateien
TabellennameDer Name der Tabelle, in die Sie Daten schreiben möchten.<Ihr Tabellenname>Ja, wenn Sie Tabellen im Stammordner auswählentable
(unter typeProperties ->sink ->typeProperties)
Max. Zeilen pro DateiWenn Sie Daten in einen Ordner schreiben, können Sie in mehrere Dateien zu schreiben und die maximale Anzahl von Zeilen pro Datei angeben.<Max. Zeilen pro Flie>NomaxRowsPerFile
Aktion tableFügen Sie neue Werte an eine vorhandene Tabelle an, oder überschreiben Sie die vorhandenen Daten und das Schema in der Tabelle mithilfe der neuen Werte.* Anfügen
* Überschreiben
NotableActionOption:
Anfügen oder Überschreiben
Maximale Anzahl gleichzeitiger VerbindungenDie Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.<Max. gleichzeitige Verbindungen>NeinmaxConcurrentConnections
DateipfadSchreiben sie Daten in den Pfad zu einem Ordner/einer Datei unter dem Zieldatenspeicher.<Dateipfad>No* folderPath
*Dateiname
DateiformatDas Format der datei, die Sie verwenden.<Dateiformat>Yestype (unter formatSettings):
DelimitedTextWriteSettings
KopierverhaltenDas Kopierverhalten, das definiert wird, wenn die Quelle Dateien aus einem dateibasierten Datenspeicher ist.* Hinzufügen dynamischer Inhalte
* Keine
* Vereinfachen der Hierarchie
* Beibehalten der Hierarchie
NocopyBehavior:

* FlattenHierarchy
* PreserveHierarchy

Blockgröße (MB)Die Blockgröße in MB, die zum Schreiben von Daten in Lakehouse verwendet wird. Der zulässige Wert liegt zwischen 4 und 100MB.<Blockgröße>NeinblockSizeInMB
MetadatenDie beim Kopieren in ein Ziel festgelegten benutzerdefinierten Metadaten.* $$LASTMODIFIED
*Ausdruck
* Statischer Wert
Neinmetadata

Nächste Schritte

  • Übersicht über lakehouse-Connector

References

Top Articles
Latest Posts
Article information

Author: Allyn Kozey

Last Updated: 07/24/2023

Views: 6241

Rating: 4.2 / 5 (43 voted)

Reviews: 90% of readers found this page helpful

Author information

Name: Allyn Kozey

Birthday: 1993-12-21

Address: Suite 454 40343 Larson Union, Port Melia, TX 16164

Phone: +2456904400762

Job: Investor Administrator

Hobby: Sketching, Puzzles, Pet, Mountaineering, Skydiving, Dowsing, Sports

Introduction: My name is Allyn Kozey, I am a outstanding, colorful, adventurous, encouraging, zealous, tender, helpful person who loves writing and wants to share my knowledge and understanding with you.