Auf NCBI-FTP via rsync zugreifen

English Deutsch

Ein wenig bekannter Weg, um auf Daten auf den NCBI-FTP-Servern zuzugreifen, ist die Verwendung von rsync. Diese Methode wurde erstmals 2004 in diesem Mailinglisten-Beitrag erwähnt.

Die Verwendung von rsync statt FTP hat einige entscheidende Vorteile:

Der Zugriff auf die Server via rsync ist einfach und unkompliziert. Angenommen, man möchte die GenBank-GSS-Dateien in das Verzeichnis genbank herunterladen, könnte man diesen Befehl verwenden:

rsync_genbank.sh
rsync --partial --progress -av ftp.ncbi.nlm.nih.gov::genbank/gbgss*.gz genbank/

Das Flag —progress zeigt detaillierte Fortschritts- und Download-Geschwindigkeitsinformationen an, während das Flag —partial die Wiederaufnahme unvollständiger Datei-Downloads ermöglicht (standardmäßig nur vollständig abgeschlossene). Man kann beide Flags zum Flag -P kombinieren.

Sobald der Download (teilweise) abgeschlossen ist, kann das genbank-Verzeichnis mit dem NCBI-Verzeichnis synchronisiert werden, indem man einfach den oben aufgeführten Befehl wiederholt. Alle bereits vollständig heruntergeladenen Dateien werden automatisch übersprungen.

Wenn du Dateien synchronisieren möchtest, die regelmäßig aktualisiert werden, beachte, dass rsync standardmäßig nur die Dateigröße überprüft. Wenn die Datei modifiziert wurde, aber die Größe sich nicht geändert hat, wird rsync die Datei nicht aktualisieren. Um die Überprüfung der vollständigen Datei zu erzwingen, füge die Option —checksum zum Befehl hinzu.


Check out similar posts by category: Bioinformatics