PVC's are restored as lost on AWS

ivelichkovich commented 7 years ago

Hello,

I tried an example of cluster migration with the stable/prometheus helm chart with persistent volumes enabled.

I ran: ark backup create cluster-backup --selector backup=ark --snapshot-volumes

The backup worked fine and was created but when I run: ark restore create cluster-backup --restore-volumes

It restores everything however the PVC's come back as lost.

kubectl describe on the PVC says: "Warning ClaimLost Bound claim has lost its PersistentVolume. Data on the volume is lost!"

ncdc commented 7 years ago

Hi @ivelichkovich, could you please share a copy of the logs from the ark pod? kubectl -n heptio-ark logs deployment/ark? Preferably include the times when you did the backup and when you tried the restore.

ivelichkovich commented 7 years ago

I0810 18:59:56.461013 I0810 18:59:56.481447 I0810 18:59:56.481465 I0810 18:59:56.485662 I0810 18:59:56.485678 I0810 18:59:56.485749 I0810 18:59:56.485878 I0810 18:59:56.485987 I0810 18:59:56.485998 I0810 18:59:56.486190 I0810 18:59:56.486206 I0810 18:59:56.486245 I0810 18:59:56.486273 I0810 18:59:56.647116 I0810 18:59:56.647139 I0810 18:59:56.647129 I0810 18:59:56.647260 I0810 18:59:56.647276 I0810 18:59:57.041093 I0810 18:59:57.041529 I0810 18:59:57.041538 I0810 18:59:57.041621 I0810 18:59:57.041682 I0810 18:59:57.041712 I0810 18:59:57.041621 I0810 18:59:57.042084 I0810 18:59:57.042130 I0810 18:59:57.042537 I0810 18:59:57.042569 I0810 18:59:57.047299 I0810 18:59:57.047316 I0810 18:59:57.047306 I0810 18:59:57.047360 I0810 18:59:57.047384 I0810 18:59:57.141950 I0810 18:59:57.141976 I0810 18:59:57.147453 I0810 18:59:57.147470 I0810 19:00:06.714962 I0810 19:00:06.714996 I0810 19:00:06.715004 I0810 19:00:06.715011 I0810 19:00:06.715016 I0810 19:00:06.721470 I0810 19:00:06.721487 I0810 19:00:06.736500 I0810 19:00:06.736793 I0810 19:00:06.756553 I0810 19:00:06.756705 I0810 19:00:06.775329 I0810 19:00:06.775759 I0810 19:00:06.788992 I0810 19:00:41.484311 I0810 19:00:41.484339 I0810 19:00:41.484349 I0810 19:00:41.498689 I0810 19:00:41.677155 I0810 19:00:41.931092 I0810 19:00:41.931258 I0810 19:00:41.944715 I0810 19:00:41.944899 I0810 19:00:41.945041 I0810 19:00:41.947486 I0810 19:01:11.976569 I0810 19:01:11.976799 I0810 19:01:11.976828 I0810 19:01:11.976885 I0810 19:01:11.998642 I0810 19:01:11.998919 I0810 19:01:11.998946 I0810 19:01:11.999004 I0810 19:01:12.012134 I0810 19:01:12.031339 I0810 19:01:12.047921 I0810 19:01:12.048186 I0810 19:01:12.048288 I0810 19:01:12.048501 I0810 19:01:12.064168 I0810 19:01:12.067348 I0810 19:01:12.070582 I0810 19:01:12.070948 I0810 19:01:12.087972 I0810 19:01:12.115128 I0810 19:01:12.145513 I0810 19:01:12.176653 I0810 19:01:12.222450 I0810 19:01:12.274063 I0810 19:01:12.315571 I0810 19:01:12.315808 I0810 19:01:12.315838 I0810 19:01:12.315913 I0810 19:01:12.365724 I0810 19:01:12.434970 I0810 19:01:12.482565 I0810 19:01:12.515055 I0810 19:01:12.537496 I0810 19:01:12.574617 I0810 19:01:12.593534 I0810 19:01:12.594013 I0810 19:01:12.594041 I0810 19:01:12.594175 I0810 19:01:12.610874 I0810 19:01:12.630593 I0810 19:01:12.649125 I0810 19:01:12.649815 I0810 19:01:12.649842 I0810 19:01:12.649919 I0810 19:01:12.699838 I0810 19:01:12.750997 I0810 19:01:12.804377 I0810 19:01:12.945227 I0810 19:01:13.019272 I0810 19:01:13.148523 I0810 19:01:13.194829 I0810 19:01:13.348482 I0810 19:01:13.414191 I0810 19:01:13.547668 I0810 19:01:13.607022 I0810 19:01:13.652766 I0810 19:01:13.652989 I0810 19:01:13.662863 I0810 19:01:13.674903 I0810 19:01:13.745316 I0810 19:01:13.765230 I0810 19:01:13.945225 I0810 19:01:43.973291 I0810 19:01:43.973597 I0810 19:01:43.973628 I0810 19:01:43.973691 I0810 19:01:43.988806 I0810 19:01:44.004516 I0810 19:01:44.005416 I0810 19:01:44.005476 I0810 19:01:44.005583 I0810 19:01:44.022716 I0810 19:01:44.042238 I0810 19:01:44.078137 I0810 19:01:44.126437 I0810 19:01:44.126649 I0810 19:01:44.126679 I0810 19:01:44.126785 I0810 19:01:44.177356 I0810 19:01:44.234639 I0810 19:01:44.281363 I0810 19:01:44.281711 I0810 19:01:44.281798 I0810 19:01:44.281892 I0810 19:01:44.321622 I0810 19:01:44.321901 I0810 19:01:44.321993 I0810 19:01:44.322103 I0810 19:01:44.388858 I0810 19:01:44.439823 I0810 19:01:44.512936 I0810 19:01:44.513013 I0810 19:07:04.061720 I0810 19:07:08.057852 I0810 19:08:16.058921 I0810 19:08:23.060312 I0810 19:09:19.230012 I0810 19:09:19.230046 I0810 19:09:19.230057 I0810 19:09:19.243430 I0810 19:09:19.425334 I0810 19:09:19.688924 I0810 19:09:19.689104 I0810 19:09:19.713593 I0810 19:09:19.713756 I0810 19:09:19.713781 I0810 19:09:19.716168 I0810 19:09:49.746789 I0810 19:09:49.747021 I0810 19:09:49.747047 I0810 19:09:49.747105 I0810 19:09:49.762123 I0810 19:09:49.762420 I0810 19:09:49.762452 I0810 19:09:49.762499 I0810 19:09:49.776669 I0810 19:09:49.796208 I0810 19:09:49.810185 I0810 19:09:49.810416 I0810 19:09:49.810447 I0810 19:09:49.810613 I0810 19:09:49.824376 I0810 19:09:49.824625 I0810 19:09:49.824640 I0810 19:09:49.824717 I0810 19:09:49.845165 I0810 19:09:49.859198 I0810 19:09:49.874780 I0810 19:09:49.897129 I0810 19:09:49.911148 I0810 19:09:49.925232 I0810 19:09:49.951045 I0810 19:09:49.951261 I0810 19:09:49.951288 I0810 19:09:49.951360 I0810 19:09:49.964779 I0810 19:09:49.977863 I0810 19:09:49.991619 I0810 19:09:50.011962 I0810 19:09:50.024865 I0810 19:09:50.037706 I0810 19:09:50.059223 I0810 19:09:50.059415 I0810 19:09:50.059441 I0810 19:09:50.059502 I0810 19:09:50.072022 I0810 19:09:50.084290 I0810 19:09:50.096830 I0810 19:09:50.097041 I0810 19:09:50.097067 I0810 19:09:50.097178 I0810 19:09:50.219451 I0810 19:09:50.345236 I0810 19:09:50.423041 I0810 19:09:50.545215 I0810 19:09:50.616813 I0810 19:09:50.745223 I0810 19:09:50.868838 I0810 19:09:50.945232 I0810 19:09:51.019070 I0810 19:09:51.145132 I0810 19:09:51.223543 I0810 19:09:51.345218 I0810 19:09:51.421355 I0810 19:09:51.434384 I0810 19:09:51.434523 I0810 19:09:51.434538 I0810 19:09:51.436856 I0810 19:09:51.546481 I0810 19:09:51.562376 I0810 19:09:51.745223 I0810 19:10:21.772623 I0810 19:10:21.772954 I0810 19:10:21.772984 I0810 19:10:21.773050 I0810 19:10:21.793737 I0810 19:10:21.810782 I0810 19:10:21.811093 I0810 19:10:21.811120 I0810 19:10:21.811260 I0810 19:10:21.829836 I0810 19:10:21.843816 I0810 19:10:21.857946 I0810 19:10:21.871090 I0810 19:10:21.871321 I0810 19:10:21.871349 I0810 19:10:21.871423 I0810 19:10:21.884012 I0810 19:10:21.902892 I0810 19:10:21.915273 I0810 19:10:21.915440 I0810 19:10:21.915469 I0810 19:10:21.915522 I0810 19:10:21.931078 I0810 19:10:21.931262 I0810 19:10:21.931290 I0810 19:10:21.931364 I0810 19:10:21.995046 I0810 19:10:22.067319 I0810 19:10:22.148072 I0810 19:10:22.148095 I0810 19:13:09.056838 I0810 19:15:49.055226 I0810 19:16:52.051583 I0810 19:17:35.049060 I0810 19:19:00.050728 I0810 19:23:31.045720 I0810 19:23:58.041575 1 server.go:151] Ensuring heptio-ark namespace exists for backups 1 server.go:163] Namespace already exists 1 server.go:168] Retrieving Ark configuration 1 server.go:184] Successfully retrieved Ark configuration 1 server.go:217] Using default resource priorities: [namespaces persistentvolumes persistentvolumeclaims secrets configmaps] 1 server.go:244] Configuring cloud provider for backup service 1 server.go:254] Configuring cloud provider for snapshot service 1 server.go:361] Starting controllers 1 server.go:367] Caching cloud backups every 30m0s 1 backup_sync_controller.go:56] Running backup sync controller 1 backup_sync_controller.go:62] Syncing backups from object storage 1 backup_cache.go:67] refreshing all cached backup lists from object storage 1 backup_cache.go:84] bucket "kubernetes-ark-test" is not in cache - doing a live lookup 1 backup_controller.go:132] Starting BackupController 1 backup_controller.go:135] Waiting for caches to sync 1 gc_controller.go:82] Waiting for caches to sync 1 schedule_controller.go:123] Starting ScheduleController 1 schedule_controller.go:126] Waiting for caches to sync 1 server.go:474] Server started successfully 1 reflector.go:198] Starting reflector v1.Backup (0s) from github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45 1 reflector.go:198] Starting reflector v1.Schedule (0s) from github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45 1 reflector.go:236] Listing and watching v1.Backup from github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45 1 restore_controller.go:128] Starting RestoreController 1 restore_controller.go:131] Waiting for caches to sync 1 reflector.go:236] Listing and watching v1.Schedule from github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45 1 reflector.go:198] Starting reflector v1.Restore (0s) from github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45 1 reflector.go:236] Listing and watching v1.Restore from github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45 1 reflector.go:198] Starting reflector v1.Config (0s) from github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45 1 reflector.go:236] Listing and watching v1.Config from github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45 1 shared_informer.go:116] caches populated 1 backup_controller.go:139] Caches are synced 1 shared_informer.go:116] caches populated 1 gc_controller.go:86] Caches are synced 1 backup_cache.go:84] bucket "kubernetes-ark-test" is not in cache - doing a live lookup 1 shared_informer.go:116] caches populated 1 restore_controller.go:135] Caches are synced 1 shared_informer.go:116] caches populated 1 schedule_controller.go:130] Caches are synced 1 gc_controller.go:105] garbage-collecting backups that have expired as of 2017-08-10 19:00:06.714954056 +0000 UTC 1 gc_controller.go:129] Backup heptio-ark/cluster-backup1 has not expired yet, skipping 1 gc_controller.go:129] Backup heptio-ark/test2 has not expired yet, skipping 1 gc_controller.go:129] Backup heptio-ark/test2pv has not expired yet, skipping 1 gc_controller.go:129] Backup heptio-ark/test3pv has not expired yet, skipping 1 backup_sync_controller.go:68] Found 4 backups 1 backup_sync_controller.go:71] Syncing backup heptio-ark/cluster-backup1 1 backup_sync_controller.go:71] Syncing backup heptio-ark/test2 1 backup_controller.go:96] Backup heptio-ark/cluster-backup1 has phase Completed - skipping 1 backup_sync_controller.go:71] Syncing backup heptio-ark/test2pv 1 backup_controller.go:96] Backup heptio-ark/test2 has phase Completed - skipping 1 backup_controller.go:96] Backup heptio-ark/test2pv has phase Completed - skipping 1 backup_sync_controller.go:71] Syncing backup heptio-ark/test3pv 1 backup_controller.go:96] Backup heptio-ark/test3pv has phase Completed - skipping 1 restore_controller.go:183] processRestore for key "heptio-ark/cluster-backup1-20170810190045" 1 restore_controller.go:190] Getting restore heptio-ark/cluster-backup1-20170810190045 1 restore_controller.go:211] Cloning restore heptio-ark/cluster-backup1-20170810190045 1 restore_controller.go:242] running restore for heptio-ark/cluster-backup1-20170810190045 1 restore_controller.go:325] copied 10970 bytes 1 restore.go:538] end of tar 1 restore.go:286] Restoring namespace default 1 restore.go:349] Restoring resource persistentvolumeclaims into namespace default 1 restore.go:382] Getting client for /v1, Kind=PersistentVolumeClaim 1 restore.go:401] Using custom restorer for persistentvolumeclaims 1 restore.go:444] Restoring item metrics-grafana 1 restore.go:349] Restoring resource secrets into namespace default 1 restore.go:382] Getting client for /v1, Kind=Secret 1 restore.go:398] Using default restorer for secrets 1 restore.go:444] Restoring item metrics-grafana 1 restore.go:349] Restoring resource configmaps into namespace default 1 restore.go:382] Getting client for /v1, Kind=ConfigMap 1 restore.go:398] Using default restorer for configmaps 1 restore.go:444] Restoring item metrics-grafana-config 1 restore.go:444] Restoring item metrics-grafana-dashs 1 restore.go:444] Restoring item monitoring-influxdb 1 restore.go:349] Restoring resource daemonsets.extensions into namespace default 1 restore.go:382] Getting client for extensions/v1beta1, Kind=DaemonSet 1 restore.go:398] Using default restorer for daemonsets.extensions 1 restore.go:444] Restoring item fluentd 1 restore.go:349] Restoring resource deployments.apps into namespace default 1 restore.go:382] Getting client for apps/v1beta1, Kind=Deployment 1 restore.go:398] Using default restorer for deployments.apps 1 restore.go:444] Restoring item cluster-dashboard-kubernetes-dashboard 1 restore.go:444] Restoring item cluster-kube-lego-kube-lego 1 restore.go:444] Restoring item cluster-ops-view-kube-ops-view 1 restore.go:444] Restoring item cluster-scaling-aws-cluster-autoscaler 1 restore.go:444] Restoring item metrics-grafana 1 restore.go:444] Restoring item monitoring-influxdb 1 restore.go:444] Restoring item nginx-default-backend 1 restore.go:349] Restoring resource endpoints into namespace default 1 restore.go:382] Getting client for /v1, Kind=Endpoints 1 restore.go:398] Using default restorer for endpoints 1 restore.go:444] Restoring item cluster-dashboard-kubernetes-dashboard 1 restore.go:444] Restoring item cluster-ops-view-kube-ops-view 1 restore.go:444] Restoring item cluster-scaling-aws-cluster-autoscaler 1 restore.go:444] Restoring item ingress-nginx 1 restore.go:444] Restoring item metrics-grafana 1 restore.go:444] Restoring item monitoring-influxdb 1 restore.go:444] Restoring item nginx-default-backend 1 restore.go:349] Restoring resource ingresses.extensions into namespace default 1 restore.go:382] Getting client for extensions/v1beta1, Kind=Ingress 1 restore.go:398] Using default restorer for ingresses.extensions 1 restore.go:444] Restoring item cluster-dashboard-kubernetes-dashboard 1 restore.go:444] Restoring item cluster-ops-view-kube-ops-view 1 restore.go:444] Restoring item metrics-grafana 1 restore.go:349] Restoring resource services into namespace default 1 restore.go:382] Getting client for /v1, Kind=Service 1 restore.go:401] Using custom restorer for services 1 restore.go:444] Restoring item cluster-dashboard-kubernetes-dashboard 1 restore.go:444] Restoring item cluster-ops-view-kube-ops-view 1 restore.go:444] Restoring item cluster-scaling-aws-cluster-autoscaler 1 restore.go:444] Restoring item ingress-nginx 1 request.go:638] Throttling request took 140.654527ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/default/services 1 restore.go:444] Restoring item metrics-grafana 1 request.go:638] Throttling request took 129.050128ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/default/services 1 restore.go:444] Restoring item monitoring-influxdb 1 request.go:638] Throttling request took 151.019073ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/default/services 1 restore.go:444] Restoring item nginx-default-backend 1 request.go:638] Throttling request took 133.329449ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/default/services 1 restore.go:286] Restoring namespace kube-system 1 restore.go:349] Restoring resource persistentvolumeclaims into namespace kube-system 1 restore.go:382] Getting client for /v1, Kind=PersistentVolumeClaim 1 restore.go:401] Using custom restorer for persistentvolumeclaims 1 restore.go:444] Restoring item cluster-prometheus-prometheus-alertmanager 1 request.go:638] Throttling request took 70.228989ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/kube-system/persistentvolumeclaims 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 request.go:638] Throttling request took 179.773917ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/kube-system/persistentvolumeclaims 1 restore.go:349] Restoring resource configmaps into namespace kube-system 1 restore.go:382] Getting client for /v1, Kind=ConfigMap 1 restore.go:398] Using default restorer for configmaps 1 restore.go:444] Restoring item cluster-prometheus-prometheus-alertmanager 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 restore.go:349] Restoring resource deployments.apps into namespace kube-system 1 restore.go:382] Getting client for apps/v1beta1, Kind=Deployment 1 restore.go:398] Using default restorer for deployments.apps 1 restore.go:444] Restoring item cluster-heapster-heapster 1 restore.go:444] Restoring item cluster-prometheus-prometheus-alertmanager 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 restore.go:444] Restoring item external-dns 1 restore.go:349] Restoring resource endpoints into namespace kube-system 1 restore.go:382] Getting client for /v1, Kind=Endpoints 1 restore.go:398] Using default restorer for endpoints 1 restore.go:444] Restoring item cluster-prometheus-prometheus-alertmanager 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 restore.go:444] Restoring item heapster 1 restore.go:349] Restoring resource ingresses.extensions into namespace kube-system 1 restore.go:382] Getting client for extensions/v1beta1, Kind=Ingress 1 restore.go:398] Using default restorer for ingresses.extensions 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 restore.go:349] Restoring resource services into namespace kube-system 1 restore.go:382] Getting client for /v1, Kind=Service 1 restore.go:401] Using custom restorer for services 1 restore.go:444] Restoring item cluster-prometheus-prometheus-alertmanager 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 restore.go:444] Restoring item heapster 1 restore_controller.go:246] restore heptio-ark/cluster-backup1-20170810190045 completed 1 restore_controller.go:249] updating restore heptio-ark/cluster-backup1-20170810190045 final status 1 reflector.go:405] github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45: Watch close - v1.Restore total 3 items received 1 reflector.go:405] github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45: Watch close - v1.Config total 0 items received 1 reflector.go:405] github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45: Watch close - v1.Backup total 4 items received 1 reflector.go:405] github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45: Watch close - v1.Schedule total 0 items received 1 restore_controller.go:183] processRestore for key "heptio-ark/cluster-backup1-20170810190923" 1 restore_controller.go:190] Getting restore heptio-ark/cluster-backup1-20170810190923 1 restore_controller.go:211] Cloning restore heptio-ark/cluster-backup1-20170810190923 1 restore_controller.go:242] running restore for heptio-ark/cluster-backup1-20170810190923 1 restore_controller.go:325] copied 10970 bytes 1 restore.go:538] end of tar 1 restore.go:286] Restoring namespace default 1 restore.go:349] Restoring resource persistentvolumeclaims into namespace default 1 restore.go:382] Getting client for /v1, Kind=PersistentVolumeClaim 1 restore.go:401] Using custom restorer for persistentvolumeclaims 1 restore.go:444] Restoring item metrics-grafana 1 restore.go:349] Restoring resource secrets into namespace default 1 restore.go:382] Getting client for /v1, Kind=Secret 1 restore.go:398] Using default restorer for secrets 1 restore.go:444] Restoring item metrics-grafana 1 restore.go:349] Restoring resource configmaps into namespace default 1 restore.go:382] Getting client for /v1, Kind=ConfigMap 1 restore.go:398] Using default restorer for configmaps 1 restore.go:444] Restoring item metrics-grafana-config 1 restore.go:444] Restoring item metrics-grafana-dashs 1 restore.go:444] Restoring item monitoring-influxdb 1 restore.go:349] Restoring resource daemonsets.extensions into namespace default 1 restore.go:382] Getting client for extensions/v1beta1, Kind=DaemonSet 1 restore.go:398] Using default restorer for daemonsets.extensions 1 restore.go:444] Restoring item fluentd 1 restore.go:349] Restoring resource deployments.apps into namespace default 1 restore.go:382] Getting client for apps/v1beta1, Kind=Deployment 1 restore.go:398] Using default restorer for deployments.apps 1 restore.go:444] Restoring item cluster-dashboard-kubernetes-dashboard 1 restore.go:444] Restoring item cluster-kube-lego-kube-lego 1 restore.go:444] Restoring item cluster-ops-view-kube-ops-view 1 restore.go:444] Restoring item cluster-scaling-aws-cluster-autoscaler 1 restore.go:444] Restoring item metrics-grafana 1 restore.go:444] Restoring item monitoring-influxdb 1 restore.go:444] Restoring item nginx-default-backend 1 restore.go:349] Restoring resource endpoints into namespace default 1 restore.go:382] Getting client for /v1, Kind=Endpoints 1 restore.go:398] Using default restorer for endpoints 1 restore.go:444] Restoring item cluster-dashboard-kubernetes-dashboard 1 restore.go:444] Restoring item cluster-ops-view-kube-ops-view 1 restore.go:444] Restoring item cluster-scaling-aws-cluster-autoscaler 1 restore.go:444] Restoring item ingress-nginx 1 restore.go:444] Restoring item metrics-grafana 1 restore.go:444] Restoring item monitoring-influxdb 1 restore.go:444] Restoring item nginx-default-backend 1 restore.go:349] Restoring resource ingresses.extensions into namespace default 1 restore.go:382] Getting client for extensions/v1beta1, Kind=Ingress 1 restore.go:398] Using default restorer for ingresses.extensions 1 restore.go:444] Restoring item cluster-dashboard-kubernetes-dashboard 1 restore.go:444] Restoring item cluster-ops-view-kube-ops-view 1 restore.go:444] Restoring item metrics-grafana 1 restore.go:349] Restoring resource services into namespace default 1 restore.go:382] Getting client for /v1, Kind=Service 1 restore.go:401] Using custom restorer for services 1 restore.go:444] Restoring item cluster-dashboard-kubernetes-dashboard 1 restore.go:444] Restoring item cluster-ops-view-kube-ops-view 1 request.go:638] Throttling request took 125.590528ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/default/services 1 restore.go:444] Restoring item cluster-scaling-aws-cluster-autoscaler 1 request.go:638] Throttling request took 122.058077ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/default/services 1 restore.go:444] Restoring item ingress-nginx 1 request.go:638] Throttling request took 128.291199ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/default/services 1 restore.go:444] Restoring item metrics-grafana 1 request.go:638] Throttling request took 76.257296ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/default/services 1 restore.go:444] Restoring item monitoring-influxdb 1 request.go:638] Throttling request took 125.942021ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/default/services 1 restore.go:444] Restoring item nginx-default-backend 1 request.go:638] Throttling request took 121.557413ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/default/services 1 restore.go:286] Restoring namespace kube-system 1 restore.go:349] Restoring resource persistentvolumeclaims into namespace kube-system 1 restore.go:382] Getting client for /v1, Kind=PersistentVolumeClaim 1 restore.go:401] Using custom restorer for persistentvolumeclaims 1 restore.go:444] Restoring item cluster-prometheus-prometheus-alertmanager 1 request.go:638] Throttling request took 109.490598ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/kube-system/persistentvolumeclaims 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 request.go:638] Throttling request took 182.640448ms, request: POST:https://100.64.0.1:443/api/v1/namespaces/kube-system/persistentvolumeclaims 1 restore.go:349] Restoring resource configmaps into namespace kube-system 1 restore.go:382] Getting client for /v1, Kind=ConfigMap 1 restore.go:398] Using default restorer for configmaps 1 restore.go:444] Restoring item cluster-prometheus-prometheus-alertmanager 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 restore.go:349] Restoring resource deployments.apps into namespace kube-system 1 restore.go:382] Getting client for apps/v1beta1, Kind=Deployment 1 restore.go:398] Using default restorer for deployments.apps 1 restore.go:444] Restoring item cluster-heapster-heapster 1 restore.go:444] Restoring item cluster-prometheus-prometheus-alertmanager 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 restore.go:444] Restoring item external-dns 1 restore.go:349] Restoring resource endpoints into namespace kube-system 1 restore.go:382] Getting client for /v1, Kind=Endpoints 1 restore.go:398] Using default restorer for endpoints 1 restore.go:444] Restoring item cluster-prometheus-prometheus-alertmanager 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 restore.go:444] Restoring item heapster 1 restore.go:349] Restoring resource ingresses.extensions into namespace kube-system 1 restore.go:382] Getting client for extensions/v1beta1, Kind=Ingress 1 restore.go:398] Using default restorer for ingresses.extensions 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 restore.go:349] Restoring resource services into namespace kube-system 1 restore.go:382] Getting client for /v1, Kind=Service 1 restore.go:401] Using custom restorer for services 1 restore.go:444] Restoring item cluster-prometheus-prometheus-alertmanager 1 restore.go:444] Restoring item cluster-prometheus-prometheus-server 1 restore.go:444] Restoring item heapster 1 restore_controller.go:246] restore heptio-ark/cluster-backup1-20170810190923 completed 1 restore_controller.go:249] updating restore heptio-ark/cluster-backup1-20170810190923 final status 1 reflector.go:405] github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45: Watch close - v1.Config total 0 items received 1 reflector.go:405] github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45: Watch close - v1.Restore total 3 items received 1 reflector.go:405] github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45: Watch close - v1.Schedule total 0 items received 1 reflector.go:405] github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45: Watch close - v1.Backup total 0 items received 1 reflector.go:405] github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45: Watch close - v1.Config total 0 items received 1 reflector.go:405] github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45: Watch close - v1.Restore total 0 items received 1 reflector.go:405] github.com/heptio/ark/pkg/generated/informers/externalversions/factory.go:45: Watch close - *v1.Backup total 0 items received

So.... looking at my aws snapshots I see 3 snapshots (which is expected I had 3 PVCs. 1 grafana, 2 prometheus) which I assume is from the backup (but could be from a different backup test run I can confirm this in a second) but I don't see any existing volumes made from those snapshots.

ncdc commented 7 years ago

Can you please also share ark backup get <backup name> -o yaml and ark restore get <restore name> -o yaml? If there's any data in there that's private, feel free to sanitize.

ivelichkovich commented 7 years ago

Ok not sure where those snapshots came from. Just ran backup again and it did not create snapshots.

The backup looks bad, my one restore that worked had volumeBackups with a list of objects but this has null:

apiVersion: ark.heptio.com/v1
kind: Backup
metadata:
  creationTimestamp: 2017-08-10T19:43:53Z
  name: cluster-backup3
  namespace: heptio-ark
  resourceVersion: "1395"
  selfLink: /apis/ark.heptio.com/v1/namespaces/heptio-ark/backups/cluster-backup3
  uid: 3d747630-7e04-11e7-8cad-065991c28584
spec:
  excludedNamespaces: null
  excludedResources: null
  includedNamespaces:
  - '*'
  includedResources:
  - '*'
  labelSelector:
    matchLabels:
      backup: ark
  snapshotVolumes: true
  ttl: 24h0m0s
status:
  expiration: 2017-08-11T19:43:53Z
  phase: Completed
  validationErrors: null
  version: 1
  volumeBackups: null

The restore had errors related to waiting to long for volume to attach or something but I nuked that cluster so I can't check them out

ncdc commented 7 years ago

Assuming you're using our example deployment, which runs the server at log level 4, I would expect to see something like this when it's snapshotting a volume:

Executing action on persistentvolumes, ns=, name=<pv name>
Backup <backup name>: snapshotting PersistenVolume <pv name>, volume-id <volume id>, expiration <expiration>

Or if there was an error determining the volume ID, you'd see

unable to determine volume ID for backup <backup name>, PersistentVolume <pv name>

I didn't see either of those in your logs. Are you seeing any errors anywhere?

skriss commented 7 years ago

@ivelichkovich do the PV's that you're trying to backup/restore have the backup=ark label applied? Since you're specifying a label selector in the backup, they'd need to be labeled as such in order to be captured.

ncdc commented 7 years ago

Also see #15 for an idea how to work around this (if the label is in fact the issue here).

ivelichkovich commented 7 years ago

Ahh that's it. No errors or snapshot logs but the backup that did snapshot correctly had no selector.

I have the label on a PVC and it's not inherited by the PV. A nice feature would be to get the volume from the pvc and backup that volume.

A workaround that I imagine will work is to backup without a selector and then restore that first to get the volumes then I can bring all the kubernetes resources back.

Thank you for the help!

ncdc commented 7 years ago

A nice feature would be to get the volume from the pvc and backup that volume.

That's what we're aiming to do as part of #15

skriss commented 7 years ago

No problem, and please let us know if you have any further feedback and/or issues!

ivelichkovich commented 7 years ago

Ahh that's cool. I didn't realize not specifying a selector would back everything up. Great tool! You guys released right when I started looking into disaster recovery and ark has made the job much much easier :)

ivelichkovich commented 7 years ago

Ok now it created the snapshots with no selector but it's telling me

"error preparing /tmp/093010796/cluster/persistentvolumes/pvc-efa26d87-7e03-11e7-a939-12f0b6779a20.json: InvalidParameterCombination: The parameter iops is not supported for gp2 volumes.\n\tstatus code: 400, request id: fddc16e9-e12b-4b2e-9dd5-0b5cefdd3f0f"

ncdc commented 7 years ago

Ok that is definitely a bug that we can fix. @skriss since you worked on adding iops support, can you take this?

skriss commented 7 years ago

sure thing. @ivelichkovich can you send the results of ark backup get <backup name> -o yaml again?

ivelichkovich commented 7 years ago

The successful backup? Here it is:

apiVersion: ark.heptio.com/v1
kind: Backup
metadata:
  creationTimestamp: 2017-08-11T14:48:02Z
  name: volume-migrate1
  namespace: heptio-ark
  resourceVersion: "139898"
  selfLink: /apis/ark.heptio.com/v1/namespaces/heptio-ark/backups/volume-migrate1
  uid: 135cefc2-7ea4-11e7-8c22-12d0660ff8fe
spec:
  excludedNamespaces: null
  excludedResources: null
  includedNamespaces:
  - '*'
  includedResources:
  - '*'
  labelSelector: null
  snapshotVolumes: true
  ttl: 24h0m0s
status:
  expiration: 2017-08-11T20:15:21Z
  phase: Completed
  validationErrors: null
  version: 1
  volumeBackups:
    pvc-efa26d87-7e03-11e7-a939-12f0b6779a20:
      iops: 100
      snapshotID: snap-0019f473ba6ffdcfc
      type: gp2
    pvc-efa4591a-7e03-11e7-a939-12f0b6779a20:
      iops: 100
      snapshotID: snap-00b49cb855ec00434
      type: gp2
    pvc-f36ed605-7e03-11e7-a939-12f0b6779a20:
      iops: 100
      snapshotID: snap-0a0fa6555a234e212
      type: gp2

skriss commented 7 years ago

@ivelichkovich I see the issue and am working on a fix. the possible workarounds for now would be to not use gp2 volumes, or to manually edit the backup YAML and delete the iops: 100 lines before performing a restore.

ncdc commented 7 years ago

@ivelichkovich #37 fixes the gp2/iops issue. Are you ok if we close this issue now?

vmware-tanzu / velero

PVC's are restored as lost on AWS #34