- Artikel
In diesem Artikel wird beschrieben, wie Sie die Kopieraktivität in einer Datenpipeline verwenden, um Daten aus und in Fabric Lakehouse zu kopieren.
Wichtig
Microsoft Fabric befindet sich derzeit in der VORSCHAU.Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen. Weitere Informationen finden Sie in Azure Data Factory Dokumentation für den Dienst in Azure.
Unterstütztes Format:
Lakehouse unterstützt die folgenden Dateiformate. Informationen zu formatbasierten Einstellungen finden Sie in den jeweiligen Artikeln.
- Avro-Format
- Binärformat
- Textformat mit Trennzeichen
- Excel-Format
- JSON-Format
- ORC-Format
- Parquet-Format
- XML-Format
Unterstützte Konfiguration
Für die Konfiguration der einzelnen Registerkarten unter der Kopieraktivität wechseln Sie zu den folgenden Abschnitten.
- Allgemein
- Quelle
- Ziel
- Zuordnung
- Einstellungen
Allgemein
Wechseln Sie für die Registerkartenkonfiguration Allgemein zu Allgemein.
Quelle
Die folgenden Eigenschaften werden für Lakehouse auf der Registerkarte Quelle einer Kopieraktivität unterstützt.
Die folgenden Eigenschaften sind erforderlich:
- Datenspeichertyp: Wählen Sie Arbeitsbereich aus.
- Arbeitsbereichsdatenspeichertyp: Wählen Sie lakehouse aus der Liste des Datenspeichertyps aus.
- Lakehouse: Wählen Sie im Arbeitsbereich ein vorhandenes Lakehouse aus. Wenn keine vorhanden ist, erstellen Sie ein neues Lakehouse, indem Sie Neu auswählen.
- Stammordner: Wählen Sie Tabellen oder Dateien aus, um die virtuelle Ansicht des verwalteten oder nicht verwalteten Bereichs in Ihrem Lake anzuzeigen. Weitere Informationen finden Sie unter Lakehouse-Einführung.
- Wenn Sie Tabellen auswählen:
- Tabellenname: Wählen Sie eine vorhandene Tabelle aus der Tabellenliste aus, oder geben Sie einen Tabellennamen als Quelle an.
- Unter Erweitert können Sie die folgenden Felder angeben:
- Zeitstempel: Geben Sie an, um eine ältere Momentaufnahme nach Zeitstempel abzufragen.
- Version: Geben Sie an, um eine ältere Momentaufnahme nach Version abzufragen.
- Zusätzliche Spalten: Fügen Sie dem relativen Pfad oder statischen Wert der Quelldateien zusätzliche Datenspalten hinzu. Der Ausdruck wird für Letzteres unterstützt.
- Wenn Sie Dateien auswählen:
Dateipfadtyp: Sie können Dateipfad, Wildcarddateipfad oder Dateiliste als Dateipfadtyp auswählen. In der folgenden Liste wird die Konfiguration der einzelnen Einstellungen beschrieben:
Dateipfad: Wählen Sie Durchsuchen aus, um die Datei auszuwählen, die Sie kopieren möchten, oder geben Sie den Pfad manuell ein.
Pfad der Wildcarddatei: Geben Sie den Ordner oder Dateipfad mit Wildcardzeichen unter dem angegebenen nicht verwalteten Lakehouse-Bereich (unter Dateien) an, um Ihre Quellordner oder -dateien zu filtern. Folgende Platzhalter sind zulässig:
*
(entspricht null [0] oder mehr Zeichen) und?
(entspricht null [0] oder einem einzelnen Zeichen). Verwenden Sie^
, um ein Escapezeichen zu verwenden, wenn Ihr Ordner oder Dateiname einen Wildcard oder dieses Escapezeichen enthält.Pfad des Wildcardordners: Der Pfad zum Ordner unter dem angegebenen Container. Wenn Sie einen Wildcard verwenden möchten, um den Ordner zu filtern, überspringen Sie diese Einstellung, und geben Sie diese Informationen in den Einstellungen der Aktivitätsquelle an.
Name der Wildcard-Datei: Der Dateiname unter dem angegebenen nicht verwalteten Lakehouse-Bereich (unter Dateien) und Ordnerpfad.
Liste der Dateien: Gibt an, dass ein bestimmter Dateisatz kopiert werden soll.
- Ordnerpfad: Verweist auf einen Ordner, der dateien enthält, die Sie kopieren möchten.
- Pfad zur Dateiliste: Verweist auf eine Textdatei, die eine Liste der dateien enthält, die Sie kopieren möchten, eine Datei pro Zeile. Dies ist der relative Pfad zum konfigurierten Dateipfad.
Rekursiv: Gibt an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Wenn diese Option aktiviert ist, werden alle Dateien im Eingabeordner und den zugehörigen Unterordnern rekursiv verarbeitet. Diese Eigenschaft gilt nicht, wenn Sie den Dateipfadtyp als Dateiliste konfigurieren.
Dateiformat: Wählen Sie in der Dropdownliste Ihr Dateiformat aus. Wählen Sie die Schaltfläche Einstellungen aus, um das Dateiformat zu konfigurieren. Ausführliche Informationen zu Einstellungen für verschiedene Dateiformate finden Sie in den Artikeln unter Unterstütztes Format .
Unter Erweitert können Sie die folgenden Felder angeben:
- Filtern nach letzter Änderung: Dateien werden basierend auf den Datumsangaben der letzten Änderung gefiltert. Diese Eigenschaft gilt nicht, wenn Sie den Dateipfadtyp als Dateiliste konfigurieren.
- Startzeit: Die Dateien werden ausgewählt, wenn die Zeit der letzten Änderung größer oder gleich der konfigurierten Zeit ist.
- Endzeit: Die Dateien werden ausgewählt, wenn die Zeit der letzten Änderung kleiner als die konfigurierte Zeit ist.
- Partitionsermittlung aktivieren: Geben Sie für partitionierte Dateien an, ob die Partitionen aus dem Dateipfad analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen.
- Partitionsstammpfad: Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammpfad an, um partitionierte Ordner als Datenspalten zu lesen.
- Max. gleichzeitige Verbindungen: Gibt die Obergrenze für gleichzeitige Verbindungen an, die während der Aktivitätsausführung mit dem Datenspeicher eingerichtet wurden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.
- Filtern nach letzter Änderung: Dateien werden basierend auf den Datumsangaben der letzten Änderung gefiltert. Diese Eigenschaft gilt nicht, wenn Sie den Dateipfadtyp als Dateiliste konfigurieren.
- Wenn Sie Tabellen auswählen:
Destination
Die folgenden Eigenschaften werden für Lakehouse auf der Registerkarte Ziel einer Kopieraktivität unterstützt.
Die folgenden Eigenschaften sind erforderlich:
- Datenspeichertyp: Wählen Sie Arbeitsbereich aus.
- Arbeitsbereichsdatenspeichertyp: Wählen Sie lakehouse aus der Liste des Datenspeichertyps aus.
- Lakehouse: Wählen Sie im Arbeitsbereich ein vorhandenes Lakehouse aus. Wenn keine vorhanden ist, erstellen Sie ein neues Lakehouse, indem Sie Neu auswählen.
- Stammordner: Wählen Sie Tabellen oder Dateien aus, um die virtuelle Ansicht des verwalteten oder nicht verwalteten Bereichs in Ihrem Lake anzuzeigen. Weitere Informationen finden Sie unter Lakehouse-Einführung.
Wenn Sie Tabellen auswählen:
Tabellenname: Wählen Sie eine vorhandene Tabelle aus der Tabellenliste aus, oder geben Sie einen Tabellennamen als Ziel an.
Unter Erweitert können Sie die folgenden Felder angeben:
- Max. Zeilen pro Datei: Geben Sie die maximalen Zeilen pro Datei an, wenn Daten in Lakehouse geschrieben werden.
- Tabellenaktionen: Geben Sie den Vorgang für die ausgewählte Tabelle an.
- Append: Fügen Sie neue Werte an eine vorhandene Tabelle an.
- Überschreiben: Überschreiben Sie die vorhandenen Daten und das Schema in der Tabelle mithilfe der neuen Werte. Wenn dieser Vorgang ausgewählt ist, können Sie die Partition für Ihre Zieltabelle aktivieren:
- Partition aktivieren: Mit dieser Auswahl können Sie Partitionen in einer Ordnerstruktur erstellen, die auf einer oder mehreren Spalten basiert. Jeder eindeutige Spaltenwert (Paar) ist eine neue Partition. Beispiel: "year=2000/month=01/file". Diese Auswahl unterstützt den Reinfügemodus und erfordert ein leeres Verzeichnis im Ziel.
- Name der Partitionsspalte: Wählen Sie in der Schemazuordnung aus den Zielspalten aus. Unterstützte Datentypen sind string, integer, boolean und datetime. Format berücksichtigt die Typkonvertierungseinstellungen auf der Registerkarte Zuordnung .
- Partition aktivieren: Mit dieser Auswahl können Sie Partitionen in einer Ordnerstruktur erstellen, die auf einer oder mehreren Spalten basiert. Jeder eindeutige Spaltenwert (Paar) ist eine neue Partition. Beispiel: "year=2000/month=01/file". Diese Auswahl unterstützt den Reinfügemodus und erfordert ein leeres Verzeichnis im Ziel.
- Max. gleichzeitige Verbindungen: Die Obergrenze für gleichzeitige Verbindungen, die während der Aktivitätsausführung mit dem Datenspeicher eingerichtet wurden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.
Wenn Sie Dateien auswählen:
Dateipfad: Wählen Sie Durchsuchen aus, um die Datei auszuwählen, die Sie kopieren möchten, oder geben Sie den Pfad manuell ein.
Dateiformat: Wählen Sie in der Dropdownliste Ihr Dateiformat aus. Wählen Sie Einstellungen aus, um das Dateiformat zu konfigurieren. Ausführliche Informationen zu Einstellungen für verschiedene Dateiformate finden Sie in den Artikeln unter Unterstütztes Format .
Unter Erweitert können Sie die folgenden Felder angeben:
Kopierverhalten: Definiert das Kopierverhalten, wenn die Quelle Dateien aus einem dateibasierten Datenspeicher ist. Sie können dynamischen Inhalt hinzufügen, Keine, Flache Hierarchie oder Hierarchie beibehalten als Kopierverhalten auswählen. Die Konfiguration jeder Einstellung lautet:
Dynamischen Inhalt hinzufügen: Wählen Sie dynamischen Inhalt hinzufügen aus, um einen Ausdruck für einen Eigenschaftswert anzugeben. Dieses Feld öffnet den Ausdrucks-Generator, in dem Sie Ausdrücke aus unterstützten Systemvariablen, Aktivitätsausgaben, Funktionen und benutzerdefinierten Variablen oder Parametern erstellen können. Weitere Informationen zur Ausdruckssprache findest du unter Ausdrücke und Funktionen.
Keine: Wählen Sie diese Auswahl aus, um kein Kopierverhalten zu verwenden.
Flache Hierarchie: Alle Dateien aus dem Quellordner befinden sich auf der ersten Ebene des Zielordners. Die Zieldateien verfügen über automatisch generierte Namen.
Beibehalten der Hierarchie: Behält die Dateihierarchie im Zielordner bei. Der relative Pfad einer Quelldatei zum Quellordner ist identisch mit dem relativen Pfad einer Zieldatei zum Zielordner.
Max. gleichzeitige Verbindungen: Die Obergrenze für gleichzeitige Verbindungen, die während der Aktivitätsausführung mit dem Datenspeicher eingerichtet wurden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.
Blockgröße (MB): Geben Sie beim Schreiben von Daten in Lakehouse die Blockgröße in MB an. Der zulässige Wert liegt zwischen 4 und 100MB.
Metadaten: Legen Sie beim Kopieren in den Zieldatenspeicher benutzerdefinierte Metadaten fest. Jedes Objekt unter dem Array
metadata
stellt eine zusätzliche Spalte dar.name
definiert den Namen des Metadatenschlüssels, undvalue
gibt den Datenwert dieses Schlüssels an. Wenn das Feature zum Beibehalten von Attributen verwendet wird, werden die angegebenen Metadaten mit den Metadaten der Quelldatei vereint/überschrieben. Die zulässigen Datenwerte sind:$$LASTMODIFIED
: Eine reservierte Variable gibt an, dass der Zeitpunkt der letzten Änderung der Quelldateien gespeichert werden soll. Gilt nur für eine dateibasierte Quelle mit Binärformat.Ausdruck
Statischer Wert
Zuordnung
Wechseln Sie für die Konfiguration der Registerkarte Zuordnung zu Zuordnung. Wenn Sie Binär als Dateiformat auswählen, wird die Zuordnung nicht unterstützt.
Einstellungen
Wechseln Sie für die Konfiguration der Registerkarte Einstellungen zu Einstellungen.
Tabellenzusammenfassung
Die folgenden Tabellen enthalten weitere Informationen zu einer Kopieraktivität in Lakehouse.
Quellinformationen
Name | BESCHREIBUNG | Wert | Erforderlich | JSON-Skripteigenschaft |
---|---|---|---|---|
Datenspeichertyp | Ihr Datenspeichertyp. | Arbeitsbereich | Yes | / |
Arbeitsbereichsdatenspeichertyp | Der Abschnitt zum Auswählen des Datenspeichertyps ihres Arbeitsbereichs. | Lakehouse | Ja | type |
Lakehouse | Das Lakehouse, das Sie als Quelle verwenden. | <Ihr Lakehouse> | Yes | workspaceId artifactId |
Stammordner | Der Typ des Stammordners. | * Tabellen * Dateien | No | rootFolder: Tabelle oder Dateien |
Tabellenname | Der Name der Tabelle zum Lesen von Daten. | <Tabellenname> | Ja, wenn Sie Tabellen im Stammordner auswählen | table (unter typeProperties ->source ->typeProperties ) |
Timestamp | Der Zeitstempel zum Abfragen einer älteren Momentaufnahme. | <timestamp> | No | timestampAsOf |
Version | Die Version, die eine ältere Momentaufnahme abfragen soll. | <version> | No | versionAsOf |
Zusätzliche Spalten | Zusätzliche Datenspalten zum Speichern des relativen Pfads oder statischen Werts der Quelldateien. Der Ausdruck wird für Letzteres unterstützt. | *Namen *Wert | No | additionalColumns: *Namen *Wert |
Dateipfadtyp | Der Typ des verwendeten Dateipfads. | * Dateipfad * Pfad der Feldhalterdatei * Liste der Dateien | Yes | / |
Dateipfad | Kopieren Sie aus dem Pfad in einen Ordner/eine Datei im Quelldatenspeicher. Wenden Sie an , wenn Sie Dateipfad im Dateipfadtyp auswählen. | <Dateipfad> | Ja beim Auswählen des Dateipfads | * folderPath *Dateiname |
Weghalterpfade | Der Ordnerpfad mit Feldhalterzeichen unter dem Quelldatenspeicher, der zum Filtern von Quellordnern konfiguriert ist. Wenden Sie an, wenn Sie unter Dateipfadtypden Pfad der Feldhalterdatei auswählen. | <Wildcardpfade> | Ja beim Auswählen des Pfads für die Wildcard-Datei | * platzhalterFolderPath * PlatzhalterDateiname |
Ordnerpfad | Zeigt auf einen Ordner, der Dateien enthält, die Sie kopieren möchten. Wenden Sie an, wenn Sie Liste der Dateien im Dateipfadtyp auswählen. | <Ordnerpfad> | Nein | folderPath |
Pfad zur Dateiliste | Gibt an, dass eine bestimmte Dateigruppe kopiert werden soll. Zeigen Sie auf eine Textdatei, die eine Liste von Dateien enthält, die Sie kopieren möchten, eine Datei pro Zeile, wobei es sich um den relativen Pfad zum konfigurierten Pfad handelt. Wenden Sie an, wenn Sie Liste der Dateien im Dateipfadtyp auswählen. | <Pfad zur Dateiliste> | No | fileListPath |
Rekursiv | Verarbeiten Sie alle Dateien im Eingabeordner und seinen Unterordnern rekursiv oder nur die Dateien im ausgewählten Ordner. Diese Einstellung ist deaktiviert, wenn eine einzelne Datei ausgewählt wird. | Auswählen oder Aufheben der Auswahl | No | Rekursive: true oder false |
Dateiformat | Das Format der von Ihnen verwendeten Datei. | <Dateiformat> | Yes | geben Sie ein (unter formatSettings ):DelimitedTextReadSettings |
Nach der letzten Änderung filtern | Die Dateien mit der Zeit der letzten Änderung im Bereich [Startzeit, Endzeit) werden für die weitere Verarbeitung gefiltert. Die Zeit wird im Format "jjjj-mm-ttThh:mm:ss.fffZ" auf die UTC-Zeitzone angewendet. Diese Eigenschaft kann übersprungen werden, was bedeutet, dass kein Dateiattributefilter angewendet wird. Diese Eigenschaft gilt nicht, wenn Sie ihren Dateipfadtyp als Dateiliste konfigurieren. | * Startzeit * Endzeit | Nein | modifiedDatetimeStart modifiedDatetimeEnd |
Aktivieren der Partitionsermittlung | Gibt an, ob die Partitionen aus dem Dateipfad analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen. | Ausgewählt oder nicht ausgewählt | No | enablePartitionDiscovery: true oder false (Standard) |
Partitionsstammpfad | Der absolute Partitionsstammpfad zum Lesen partitionierte Ordner als Datenspalten. | <Ihr Partitionsstammpfad> | Nein | partitionRootPath |
Maximale Anzahl gleichzeitiger Verbindungen | Die Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Ein Wert wird nur benötigt, wenn Sie gleichzeitige Verbindungen einschränken möchten. | <Maximale Anzahl gleichzeitiger Verbindungen> | Nein | maxConcurrentConnections |
Zielinformationen
Name | BESCHREIBUNG | Wert | Erforderlich | JSON-Skripteigenschaft |
---|---|---|---|---|
Datenspeichertyp | Ihr Datenspeichertyp. | Arbeitsbereich | Yes | / |
Arbeitsbereichsdatenspeichertyp | Der Abschnitt zum Auswählen des Arbeitsbereichsdatenspeichertyps. | Lakehouse | Ja | type |
Lakehouse | Das Lakehouse, das Sie als Ziel verwenden. | <Ihr Lakehouse> | Yes | workspaceId artifactId |
Stammordner | Der Typ des Stammordners. | * Tabellen * Dateien | Yes | rootFolder: Tabelle oder Dateien |
Tabellenname | Der Name der Tabelle, in die Sie Daten schreiben möchten. | <Ihr Tabellenname> | Ja, wenn Sie Tabellen im Stammordner auswählen | table (unter typeProperties ->sink ->typeProperties ) |
Max. Zeilen pro Datei | Wenn Sie Daten in einen Ordner schreiben, können Sie in mehrere Dateien zu schreiben und die maximale Anzahl von Zeilen pro Datei angeben. | <Max. Zeilen pro Flie> | No | maxRowsPerFile |
Aktion table | Fügen Sie neue Werte an eine vorhandene Tabelle an, oder überschreiben Sie die vorhandenen Daten und das Schema in der Tabelle mithilfe der neuen Werte. | * Anfügen * Überschreiben | No | tableActionOption: Anfügen oder Überschreiben |
Maximale Anzahl gleichzeitiger Verbindungen | Die Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten. | <Max. gleichzeitige Verbindungen> | Nein | maxConcurrentConnections |
Dateipfad | Schreiben sie Daten in den Pfad zu einem Ordner/einer Datei unter dem Zieldatenspeicher. | <Dateipfad> | No | * folderPath *Dateiname |
Dateiformat | Das Format der datei, die Sie verwenden. | <Dateiformat> | Yes | type (unter formatSettings ):DelimitedTextWriteSettings |
Kopierverhalten | Das Kopierverhalten, das definiert wird, wenn die Quelle Dateien aus einem dateibasierten Datenspeicher ist. | * Hinzufügen dynamischer Inhalte * Keine * Vereinfachen der Hierarchie * Beibehalten der Hierarchie | No | copyBehavior: * FlattenHierarchy |
Blockgröße (MB) | Die Blockgröße in MB, die zum Schreiben von Daten in Lakehouse verwendet wird. Der zulässige Wert liegt zwischen 4 und 100MB. | <Blockgröße> | Nein | blockSizeInMB |
Metadaten | Die beim Kopieren in ein Ziel festgelegten benutzerdefinierten Metadaten. | * $$LASTMODIFIED *Ausdruck * Statischer Wert | Nein | metadata |
Nächste Schritte
- Übersicht über lakehouse-Connector