====== Schnelles kopieren ======

Aus **Gentoo Linux Wiki**.\\ 
Der Inhalt stammt ursprünglich von [[http://de.gentoo-wiki.com/Schnelles_kopieren]]. Da die Datenbank des Gentoo Linux Wikis im Oktober 2009 verloren gegangen war (Meldung von dem Hauptadmin "Mikevalstar" vom 27.10.2009 auf [[http://de.gentoo-wiki.com/wiki/Hauptseite]], mehr dazu unter [[http://gentoo-wiki.com/outage-10-08.html]]), kann ich die ursprüngliche Seite nicht mehr verlinken.

Durch Zufall habe ich aber eine lokale Kopie davon. Hier ist sie (wegen des anderen Wikis leicht umformatiert):

===== Der Normale Weg =====

Um Dateien **rekursiv** von quelle1/ und quelle2/ nach ziel/ zu kopieren, benutzt man folgende Anweisung:

<code>
cp -Rv quelle1/ quelle2/ ziel/
</code>

===== Der "piped way" =====

**cp** kopiert Zeichen für Zeichen. Mit den Kernel-**Pipes** können Daten Block für Block kopiert werden. **tar** konvertiert Verzeichnisse und Dateien **rekursiv** in einen einzigen Datenstrom (**stream**). An einem Ende der Pipe werden Dateien und Verzeichnisse in einen Stream gepackt und am anderen entpackt.

<code>
# Kopieren mit tar:

tar -c quelle1/ quelle2/ | tar -C ziel/ -xv
</code>

Das ist nicht unbedingt schneller aber flexibler. Das geht natürlich auch über ein Script:


<code bash>
# tcp (tar copy):

#!/bin/bash
tar -c $1 | tar -C $2 -xv
</code>

Man sollte beachten, dass ext2, ext3 und die meisten modernen Linux-Dateisysteme sog. **sparse files** besitzen. Diese Funktion wird benutzt, um große Dateien, deren Inhalt aus vielen Nullen besteht auf effiziente Weise zu speichern. Im Normalfall ist das nicht von Interesse, aber manche Programme nutzen die Funktion ausgiebig (z.B. net-p2p/mldonkey). Man sollte vorsichtig sein, wenn man solche Dateien mit dieser Methode kopiert, weil dies den verfügbaren Speicherplatz sprengen könnte. Während das Hilfsmittel cp 'sparse files' automatisch erkennt, tut tar dies nicht. 'Sparse files' aus dem Quellverzeichnis werden im Quellverzeichnis vollständig dargestellt, solange nicht das Flag **-S** auf der linken Seite der Pipe gesetzt wird.

===== Der Netzwerk-"Way over SSH" =====

Dateien werden gestreamt durch die Pipe an **ssh** geschickt, welches eine Verbindung aufbaut und dann entfernt einen Befehl ausführt der die Daten verarbeitet, in diesem Fall den Stream entpackt.

<code>
# Lokal zu entfernt:

tar cv Dateiliste | ssh -C entfernter.rechner.de "tar x -C /home/user/Zielpfad"
</code>

<code>
# Lokal zu entfernt, mit schnellerer Verschlüsselung:

tar cv Dateiliste | ssh -C -c blowfish entfernter.rechner.de "tar x -C /home/user/Zielpfad"
</code>

<code>
# Entfernt zu lokal:

ssh -C entfernter.rechner.de "tar c -C Quellverzeichnis" |tar x -C Zielverzeichnis
</code>

Der ssh-Parameter **-C** ist schaltet dabei die **Kompression** des Datenstroms an und ist nicht in jedem Fall sinnvoll.

Zum einfachen kopieren von Files über SSH nutzt man **scp**:

<code>
# Entfernt zu lokal:

scp -C entfernter_rechner:pfad/zur/quelldatei .
</code>

<code>
# Lokal zu entfernt:

scp -C lokal1 lokal2 ... entfernter_rechner:pfad/zum/ziel/
</code>

Auch hier ist der Komprimierungsparameter **-C** wieder optional.

===== Der Netzwerk-"Way with netcat" =====

Datentransfer mit **Netcat** verursacht nur minimale CPU-Auslastungen gegenüber ssh. Das liegt daran, dass die Daten nicht verschlüsselt werden. Es findet auch **keine Authentifizierung** statt. Es wird einfach nur ein Port geöffnet und auf eine Verbindung gewartet.

**Nachteile**:\\ 
  - man muss am Quell- und Zielrechner einen Befehl eingeben
  - die Daten werden unverschlüsselt übertragen
  - auf der Firewall des Zielrechners muss ein Port geöffnet und hinterher wieder geschlossen werden

Beispiel:

  - Öffnet den Port 2342 (-p 2342) und wartet (-l).
  - Die ankommenden Daten werden dann tar über eine Pipe übergeben(tar -C /ziel/verz -xz).

<code>
# Ziel:

user@zielrechner# nc -l -p 2342 | tar -C /ziel/verz –xz
</code>

  - Stellt die Daten mit tar zu einem Stream zusammen (tar -cz /quelle/verz).
  - Verbindet sich mit zielrechner (192.168.0.2) auf Port 2342.

<code>
# Quelle:

user@quellrechner# tar -cz /quelle/verz | nc 192.168.0.2 2342
</code>

Um die **CPU-Last** weiter zu reduzieren, kann **lzop** anstelle der tar-Option **z** verwendet werden. lzop komprimiert wesentlich schneller aber weniger effizient:

  Zielrechner: nc -l -p 2342 | lzop -d | tar -C /ziel/verz -x

  Quellrechner: tar -c /quelle/verz | lzop | nc zielrechner 2342

===== Der Netzwerk-"Way with socat" =====

Selbe Idee wie bei Netcat.

  Zielrechner: socat -u - tcp4-listen:2342 | tar x -C /ziel/verz

  Quellrechner: tar c /quelle/verz | socat -u - tcp4:zielrechner:2342

Wir können eine ganze Reihe von Kompressionsmethoden durch einen allgemeinen Aufruf verwenden:

  Zielrechner: socat -u - tcp4-listen:2342 | ${UNZIP} | tar x -C /ziel/verz

  Quellrechner: tar c /quelle/verz | ${ZIP} | socat -u - tcp4:zielrechner:2342

Wir definieren schließlich ZIP als einen der folgenden Befehle:

  * cat
  * lzop
  * gzip
  * bzip2

und UNZIP als:

  * cat
  * lzop -d
  * gunzip
  * bunzip2

Wo liegen die Unterschiede?

<code>
# Messvorrichtung:

time -p tar /usr/src/linux-2.6.3 | ${ZIP} | cat > /dev/null
</code>

^Programm	^Daten	^Laufzeit	^
|cat		|182 MB	|1.1 sec	|
|lzop		|64 MB 	|4 sec		|
|gzip --fast	|51 MB 	|9 sec		|
|gzip		|41 MB 	|18 sec		|
|gzip --best	|41 MB 	|49 sec		|
|bzip2		|32 MB 	|134 sec	|

Diese Einsparungen beim Komprimieren (bzw. beim Nicht-Komprimieren) sollten jedoch mit der vorhanden Bandbreite abgewogen werden. So macht es wenig Sinn, große Datenmengen unkomprimiert über eine DSL Leitung zu schicken - andererseits macht es aber wenig Sinn, nicht weiter komprimierbare Daten (z.B. JPEG/PNG-Bilder, AVIs, MP3s, zips, ...) mit lzop/gzip/bzip2 nochmal zu "komprimieren". Hierdurch wird nur Rechenleistung verschwendet und somit u.U. ein geringerer Durchsatz erreicht.

===== Externe Links zum Thema: =====

Quelle: [[http://de.gentoo-wiki.com/]] - Gentoo Linux Wiki\\ 

----
Stand: 19.11.2009

EOF