Windows: Make CM resilient to transient VNOVOL

author Jeffrey Altman <jaltman@your-file-system.com>

Sun, 6 May 2012 00:46:08 +0000 (20:46 -0400)

committer Jeffrey Altman <jaltman@your-file-system.com>

Fri, 7 Dec 2012 00:39:23 +0000 (16:39 -0800)
author Jeffrey Altman <jaltman@your-file-system.com>
Sun, 6 May 2012 00:46:08 +0000 (20:46 -0400)
committer Jeffrey Altman <jaltman@your-file-system.com>
Fri, 7 Dec 2012 00:39:23 +0000 (16:39 -0800)
diff --git a/src/WINNT/afsd/cm_conn.c b/src/WINNT/afsd/cm_conn.c

index aa50774a8d6cf907d871411dba7225ab84c1d55d..4fda7907ce06847f8673c79e10599fda6ec5b7f4 100644 (file)
--- a/src/WINNT/afsd/cm_conn.c
+++ b/src/WINNT/afsd/cm_conn.c
@@ -662,25 +662,53 @@ cm_Analyze(cm_conn_t *connp,
  
              if (cm_ServerEqual(tsrp->server, serverp)) {
                  /* REDIRECT */
-                if (errorCode == VMOVED || errorCode == VNOVOL) {
-                    osi_Log2(afsd_logp, "volume %d not present on server %s",
+                switch (errorCode) {
+                case VMOVED:
+                    osi_Log2(afsd_logp, "volume %u moved from server %s",
                               fidp->volume, osi_LogSaveString(afsd_logp,addr));
                      tsrp->status = srv_deleted;
                      if (fidp)
                          cm_RemoveVolumeFromServer(serverp, fidp->volume);
-                } else {
-                    osi_Log2(afsd_logp, "volume %d instance on server %s marked offline",
-                             fidp->volume, osi_LogSaveString(afsd_logp,addr));
-                    tsrp->status = srv_offline;
+                    break;
+                case VNOVOL:
+                    /*
+                     * The 1.6.0 and 1.6.1 file servers send transient VNOVOL errors which
+                     * are no indicative of the volume not being present.  For example,
+                     * VNOVOL can be sent during a transition to a VBUSY state prior to
+                     * salvaging or when cloning a .backup volume instance.  As a result
+                     * the cache manager must attempt at least one retry when a VNOVOL is
+                     * receive but there are no changes to the volume location information.
+                     */
+                    if (reqp->vnovolError > 0 && cm_ServerEqual(reqp->errorServp, serverp)) {
+                        osi_Log2(afsd_logp, "volume %u not present on server %s",
+                                  fidp->volume, osi_LogSaveString(afsd_logp,addr));
+                        tsrp->status = srv_deleted;
+                        if (fidp)
+                            cm_RemoveVolumeFromServer(serverp, fidp->volume);
+                    } else {
+                        osi_Log2(afsd_logp, "VNOVOL received for volume %u from server %s",
+                                 fidp->volume, osi_LogSaveString(afsd_logp,addr));
+                        if (replicated) {
+                            cm_SetServerBusyStatus(serversp, serverp);
+                        } else {
+                            Sleep(2000);
+                        }
+                    }
+                    break;
+                default:
+                    osi_Log3(afsd_logp, "volume %u exists on server %s with status %u",
+                             fidp->volume, osi_LogSaveString(afsd_logp,addr), tsrp->status);
                  }
-                /* break; */
-            } else {
-                osi_Log3(afsd_logp, "volume %d exists on server %s with status %u",
-                         fidp->volume, osi_LogSaveString(afsd_logp,addr), tsrp->status);
              }
          }
          lock_ReleaseWrite(&cm_serverLock);
  
+        /* Remember that the VNOVOL error occurred */
+        if (errorCode == VNOVOL) {
+            reqp->errorServp = serverp;
+            reqp->vnovolError++;
+        }
+
          /* Free the server list before cm_ForceUpdateVolume is called */
          if (free_svr_list) {
              cm_FreeServerList(serverspp, 0);
@@ -745,7 +773,7 @@ cm_Analyze(cm_conn_t *connp,
              LogEvent(EVENTLOG_WARNING_TYPE, MSG_RX_HARD_DEAD_TIME_EXCEEDED, addr);
              osi_Log1(afsd_logp, "cm_Analyze: hardDeadTime or idleDeadtime exceeded addr[%s]",
                       osi_LogSaveString(afsd_logp,addr));
-            reqp->tokenIdleErrorServp = serverp;
+            reqp->errorServp = serverp;
              reqp->idleError++;
          }
  
@@ -913,7 +941,7 @@ cm_Analyze(cm_conn_t *connp,
          }
  
          if (replicated && serverp) {
-            reqp->tokenIdleErrorServp = serverp;
+            reqp->errorServp = serverp;
              reqp->tokenError = errorCode;
  
              if (timeLeft > 2)
@@ -989,7 +1017,7 @@ cm_Analyze(cm_conn_t *connp,
  
          if (serverp) {
              if (reqp->flags & CM_REQ_NEW_CONN_FORCED) {
-                reqp->tokenIdleErrorServp = serverp;
+                reqp->errorServp = serverp;
                  reqp->tokenError = errorCode;
              } else {
                  reqp->flags |= CM_REQ_NEW_CONN_FORCED;
@@ -1037,7 +1065,7 @@ cm_Analyze(cm_conn_t *connp,
                    errorCode, s);
  
          if (serverp) {
-            reqp->tokenIdleErrorServp = serverp;
+            reqp->errorServp = serverp;
              reqp->tokenError = errorCode;
              retry = 1;
          }
@@ -1050,7 +1078,7 @@ cm_Analyze(cm_conn_t *connp,
           * and force the use of another server.
           */
          if (serverp) {
-            reqp->tokenIdleErrorServp = serverp;
+            reqp->errorServp = serverp;
              reqp->tokenError = errorCode;
              retry = 1;
          }
@@ -1246,15 +1274,15 @@ long cm_ConnByMServers(cm_serverRef_t *serversp, afs_uint32 replicated, cm_user_
              continue;
  
          tsp = tsrp->server;
-        if (reqp->tokenIdleErrorServp) {
+        if (reqp->errorServp) {
              /*
               * search the list until we find the server
               * that failed last time.  When we find it
               * clear the error, skip it and try the one
               * in the list.
               */
-            if (tsp == reqp->tokenIdleErrorServp)
-                reqp->tokenIdleErrorServp = NULL;
+            if (tsp == reqp->errorServp)
+                reqp->errorServp = NULL;
              continue;
          }
          if (tsp) {
diff --git a/src/WINNT/afsd/cm_conn.h b/src/WINNT/afsd/cm_conn.h

index 7b6f00a045839066e2a6232152712d8921f8086b..aac09fd2c5e535b42930c773c95b4f4af175bd33 100644 (file)
--- a/src/WINNT/afsd/cm_conn.h
+++ b/src/WINNT/afsd/cm_conn.h
@@ -57,9 +57,10 @@ typedef struct cm_req {
      int rpcError;                      /* RPC error code */
      int volumeError;           /* volume error code */
      int accessError;           /* access error code */
-    struct cm_server * tokenIdleErrorServp;  /* server that reported a token/idle error other than expired */
+    struct cm_server * errorServp;  /* server that reported a token/idle error other than expired */
      int tokenError;
      int idleError;
+    int vnovolError;
      afs_uint32 flags;
      clientchar_t * tidPathp;
      clientchar_t * relPathp;
author	Jeffrey Altman <jaltman@your-file-system.com>
	Sun, 6 May 2012 00:46:08 +0000 (20:46 -0400)
committer	Jeffrey Altman <jaltman@your-file-system.com>
	Fri, 7 Dec 2012 00:39:23 +0000 (16:39 -0800)
src/WINNT/afsd/cm_conn.c		patch \| blob \| history
src/WINNT/afsd/cm_conn.h		patch \| blob \| history