詳解C語言讀取文件求某一列的平均值

第一部分:比較讀取文件的效率

在之前的文章《生信(五)awk求取某一列的平均值》中,筆者曾經給出過C語言求取某列平均值的代碼,但是最近回顧時發現,這段代碼至少有幾點不足:

1. 利用 fgetc 函數來讀取文件,現在看來效率不高。

2. 如果文件最後沒有一個空白行的話,會陷入無限循環。也就是對 EOF 的處理不完善。

大傢都知道,C語言讀取文件的常用函數有 fgetc、fgets、fread 以及 fscanf 等。筆者曾經一度以為就讀取文件的效率而言,fgetc 不亞於其他函數。但是究竟是不是這樣,還是自己驗證一下讓自己信服。

首先隨機生成一個文件,1000萬行,4列(該文件下面還會用到)。我們看一下上述函數讀取文件的效率:

在這裡插入圖片描述

從上圖中可以看出,fread 的效率最高,fgetc 的效率最低。當然這種比較很粗淺,但是能大概看出趨勢。

各個函數讀取文件的代碼如下:其中 main 函數是一樣的,隻是 readFile 函數的實現不同。

    #include <stdio.h>
    #include <stdlib.h>
    #include <time.h>
    #define BUFSIZE 4096
    
    void readFile(FILE* fp);
    
    int main(int argc, char* argv[]) {
      FILE *fp;
      time_t start, end;
      start = time(NULL);
      if (argc < 2) {
        printf("Usage: %s <filename>\n", argv[0]);
        return 1;
      }
      if ((fp = fopen(argv[1], "r")) == NULL) {
        printf("Error: cannot open file\n");
        return 1;
      }
      readFile(fp);
      fclose(fp);
      end = time(NULL);
      printf("time spent: %d seconds\n", end - start);
      return 0;
    }
    // readFile_fgetc:
    void readFile(FILE* fp) {
      char c;
      while ((c = fgetc(fp)) != EOF)
        ;
    }
    // readFile_fgets:
    void readFile(FILE* fp) {
      char buf[BUFSIZE];
      while (fgets(buf, MAXLINE, fp) != NULL)
        ;
    }
    // readFile_fread:
    void readFile(FILE* fp) {
      char buf[BUFSIZE];
      while (fread(buf, 1, BUFSIZE, fp) > 0)
        ;
    }
    // readFile_fscanf:
    void readFile(FILE* fp) {
      char buf[BUFSIZE];
      while (fscanf(fp, " %[^\n]s", buf) == 1)
        ;
    }

第二部分:比較求取列平均值的效率

那麼各個函數計算列平均值的效率如何呢?我們依然使用上面那1000萬行的文件,用上述各個函數實現計算第2列平均數的功能,它們的效率如下:

在這裡插入圖片描述

代碼如下:main 函數大體上是一樣的,隻是 colAver 函數的實現不一樣。
(這些代碼完善地處理瞭EOF,無論文件最後是否有空白行都可以正確運行。但是仍然有前提,就是文件中每一行的分隔符(列數)是一樣的,否則代碼可能會出錯。)
這些代碼中,fscanf 的最簡短,該函數可以大大提高格式化讀取數據的編程效率。

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#define BUFSIZE 4096
void getColAver(FILE* fp, const int k);
 int main(int argc, char* argv[]) {
   FILE *fp;
   time_t start, end;
   start = time(NULL);
   if (argc < 2) {
     printf("Usage: %s <filename>\n", argv[0]);
     return 1;
   }
   if ((fp = fopen(argv[1], "r")) == NULL) {
     printf("Error: cannot open file\n");
     return 1;
   }
   getColAver(fp, 2);
   fclose(fp);
   end = time(NULL);
   printf("time spent: %d seconds\n", end - start);
   return 0;
 }
 // colAver_fgetc:
 void getColAver(FILE* fp, const int k) {
   int i = 0;  // num of '\t'
   int j = 0;  // num of chars
   int c;  // char
   char col[50];
   float sum = 0;
   int n = 0;  // num of lines.
   int inCol = 0;
   while ((c = fgetc(fp)) != EOF) {
     if (i == k - 1) {
       inCol = 1;
       if (c == '\t') i++;
       else if (c == '\n') i = 0;
       else col[j++] = c;
     } else {
       if (c == '\t') i++;
       else if (c == '\n') i = 0;
       if (inCol) {
         col[j] = '\0';
         sum += atof(col);
         n++;
       }
       j = 0;
       inCol = 0;
     }
   }
   if (inCol) {
     col[j] = '\0';
     sum += atof(col);
     n++;
   }
   if (n == 0) printf("Error: no line!\n");
   else printf("The average of col %d is %f\n", k, sum / n);
 }
 // colAver_fgets:
 void getColAver(FILE* fp, const int k) {
   int i = 0;  // num of '\t'
   int j = 0;  // num of chars
   char col[50];
   char buf[BUFSIZE];
   float sum = 0;
   int n = 0;  // num of lines.
   int inCol = 0;
   char* p;
   while (fgets(buf, BUFSIZE, fp) != NULL) {
     for (p = buf; *p != '\0'; p++) {
       if (i == k - 1) {
         inCol = 1;
         if (*p == '\t') i++;
         else if (*p == '\n') i = 0;
         else col[j++] = *p;
       } else {
         if (*p == '\t') i++;
         else if (*p == '\n') i = 0;
         if (inCol) {
           col[j] = '\0';
           sum += atof(col);
           n++;
         }
         j = 0;
         inCol = 0;
       }
     }
   }
   if (inCol) {
     col[j] = '\0';
     sum += atof(col);
     n++;
   }
   if (n == 0) printf("Error: no line!\n");
   else printf("The average of col %d is %f\n", k, sum / n);
 }
 // colAver_fread:
 void getColAver(FILE* fp, const int k) {
   int i = 0;  // num of '\t'
   int j = 0;  // num of chars
   char col[50];
   char buf[BUFSIZE];
   float sum = 0;
   int n = 0;  // num of lines.
   int m, l;
   int sizeChr = sizeof(char);
   int inCol = 0;
   while ((l = fread(buf, sizeChr, BUFSIZE, fp)) > 0) {
     for (m = 0; m < l; m++) {
       if (i == k - 1) {
         inCol = 1;
         if (buf[m] == '\t') i++;
         else if (buf[m] == '\n') i = 0;
         else col[j++] = buf[m];
       } else {
         if (buf[m] == '\t') i++;
         else if (buf[m] == '\n') i = 0;
         if (inCol) {
           col[j] = '\0';
           sum += atof(col);
           n++;
         }
         j = 0;
         inCol = 0;
       }
     }
   }
   if (inCol) {
     col[j] = '\0';
     sum += atof(col);
     n++;
   }
   if (n == 0) printf("Error: no line!\n");
   else printf("The average of col %d is %f\n", k, sum / n);
 }
 // colAver_fscanf:
 void getColAver(FILE* fp) {
   float f;
   float sum = 0;
   int n = 0;  // num of lines.
   while (fscanf(fp, "%*s%f%*[^\n]s", &f) == 1) {
     sum += f;
     n++;
   }
   if (n == 0) printf("Error: no line!\n");
   else printf("The average of col 2 is %f\n", sum / n);
 }

以上就是詳解C語言讀取文件求某一列的平均值的詳細內容,更多關於C語言讀取文件求某一列的平均值的資料請關註WalkonNet其它相關文章!

推薦閱讀: