Excel讀入dataset數據遺失的問題!

來源:互聯網
上載者:User
 1 引言
  在應用程式的設計中,經常需要讀取Excel資料或將Excel資料匯入轉換到其他資料載體中,例如將Excel資料通過應用程式匯入SQL Sever等資料庫中以備使用。筆者在開發“汽車產業鏈ASP協同商務平台”中遇到了類似需求。某汽車整車生產企業需要將其車輛發車資訊發布到汽車產業鏈平台上去,其資料為內部ERP系統產生的Excel資料表,使用者首先將該資料表上傳至汽車產業鏈平台,平台將此Excel資料讀取匯入到平台內部的SQL Sever資料庫中,以供其它應用使用。汽車產業鏈平台的開發使用的開發工具為VS.NET,使用的語言是C#,在開發的過程中發現使用Microsoft.Jet.OLEDB.4.0讀取資料會出現當某一欄位內分別含有文本和數位混合資料時,某一類型的資料會產生丟失。本文就對此問題產生的根源進行了分析並給出了相應的解決方案。
  
  2 問題描述
  Excel是Microsoft公司的試算表處理軟體,在現代辦公及公司資訊化的應用中使用非常廣泛,正因如此,在程式設計中我們經常要通過訪問Excel檔案來獲得資料,但Excel檔案不是標準資料庫[1]。
  ASP.NET也是Microsoft公司的產品,作為.NET FrameWork架構中的一個重要組成部分,其主要用於Web設計。我們在.NET中訪問讀取Excel資料時一般採用Microsoft.Jet.OLEDB.4.0[2]。現以讀取一個Excel檔案auto.xls中sheet1工作表為例,工作表的內容如表1所示。
  表1 sheet1表的資料內容
  現將該表的資料內容讀取並顯示到到DataGrid中,簡化的代碼如下:
  String ConnStr = " Provider = Microsoft.Jet.OLEDB.4.0; DataSource=c:/auto.xls;Extended Properties='Excel 8.0;HDR=YES';";
  OleDbConnection Conn=new OleDbConnection(ConnStr);
  Conn.Open();
  string SQL="select * from [sheet1$]";
  OleDbDataAdapter da=new OleDbDataAdapter(SQL,ConnStr);
  DataSet ds=new DataSet();
  da.Fill(ds);
  DataGrid1.DataSource=ds;
  DataGrid1.DataBind();
  Conn.Close();
  但是運行以上代碼的結果並不是期望的,它將顯示為表2所示的內容。可以發現第一個欄位中為“1042”的兩個資料項目變為空白。
  表2 DataGrid1所顯示的資料內容
  有程式設計人員將以上代碼OleDbConnection連接字串中的Extended Properties一項作了如下改動,Extended Properties='Excel 8.0;HDR=NO;IMEX=1’,認為可以解決此問題。由於在開發“汽車產業鏈協同商務平台”中碰到過類似問題,作了大量的測試後發現,添加IMEX=1後並未實質上解決此問題。表現為:如果某欄位前8條記錄中全部為純數位話,那麼在該欄位隨後的記錄中含有字母或漢字的項將仍然變為空白,但是如果該欄位前8條記錄中有一條不為純數字,將能得到預期想要的結果。
  
  3 問題分析
  產生這種問題的根源與Excel ISAM[3](Indexed Sequential Access Method,即索引順序存取方法)驅動程式的限制有關,Excel ISAM 驅動程式通過檢查前幾行中實際值確定一個 Excel 列的類型,然後選擇能夠代表其樣本中大部分值的資料類型[4]。也即Excel ISAM尋找某列前幾行(預設情況下是8行),把佔多的類型作為其處理類型。例如如果數字佔多,那麼其它含有字母等文本的資料項目就會置空;相反如果文本居多,純數位資料項目就會被置空。
  現具體分析在第1節程式碼Extended Properties項中的HDR和IMEX所代表的含義。HDR用來設定是否將Excel表中第一行作為欄位名,“YES”代表是,“NO”代表不是即也為資料內容;IMEX是用來告訴驅動程式使用Excel檔案的模式,其值有0、1、2三種,分別代表匯出、匯入、混合模式。當我們設定IMEX=1時將強制混合資料轉換為文本,但僅僅這種設定並不可靠,IMEX=1隻確保在某列前8行資料至少有一個是文本項的時候才起作用,它只是把尋找前8行資料中資料類型佔優選擇的行為作了略微的改變。例如某列前8行資料全為純數字,那麼它仍然以數字類型作為該列的資料類型,隨後行裡的含有文本的資料仍然變空。
  另一個改進的措施是IMEX=1與註冊表值TypeGuessRows配合使用,TypeGuessRows 值決定了ISAM 驅動程式從前幾條資料採樣確定資料類型,預設為“8”。可以通過修改“HKEY_LOCAL_MACHINE/SOFTWARE/Microsoft/Jet/4.0/Engines/Excel”下的該註冊表值來更改採樣行數。但是這種改進還是沒有根本上解決問題,即使我們把IMEX設為“1”, TypeGuessRows設得再大,例如1000,假設資料表有1001行,某列前1000行全為純數字,該列的第1001行又是一個文本,ISAM驅動的這種機制還是讓這列的資料變成空。
  
  4 解決方案
  從以上的分析中可以得知,當某列資料中含有混合類型時,在.NET中使用Microsoft.Jet.OLEDB.4.0來讀取Excel檔案造成資料丟失是不可避免的,要解決這個問題只能考慮採用其它資料讀取方法。
  在.NET中讀取Excel檔案的另外一種方法是回到使用傳統COM組件,這種方法在很多技術文章或論文中都有涉及,本文不作贅述。需要指出的是,使用COM組件來讀取Excel檔案資料的效率較低,在作釋放的時候有可能碰到不可預知的錯誤,特別開發Web應用的程式應該謹慎使用。  

本文提出另外一種利用讀取CSV純文字格式解決此問題的方法。
  (1)在讀取Excel的.xls類型的文本資料之前,先將其轉換為.csv格式,在Excel中直接另存新檔這種格式就可以達到轉換的目的。CSV檔案又稱為逗號分隔的檔案,是一種純文字檔案,它以“,”分隔資料列,本文表1的資料表用CSV格式儲存後用純文字編輯器開啟的表現形式如表3所示。
  表3 採用CSV格式儲存的表1資料
  需要指出的是,CSV檔案也可以用Ole DB或ODBC的方式讀取,但是如果採用這些方式讀取其資料又會回到遺失資料的老路上,ISAM機制同樣會發揮作用。
  (2)採用普通的讀取文字檔的方法開啟檔案,讀取第一行,用“,”作為分隔字元獲得各欄位名,在DataTable中建立對應的各欄位,欄位的類型可以統一建立成“String”。
  
本文原文
  (3)逐行讀取資料行, 用“,”作為分隔字元獲得某行各列的資料並填入DataTable相應的欄位中。
  實現的簡化代碼如下:
  String line;
  String [] split = null;
  DataTable table=new DataTable("auto");
  DataRow row=null;
  StreamReader sr=new StreamReader("c:/auto.csv",System.Text.Encoding.Default);
  //建立與資料來源對應的資料列
  line = sr.ReadLine();
  split=line.Split(',');
  foreach(String colname in split){
  table.Columns.Add(colname,System.Type.GetType("System.String")); }
  //將資料填入資料表
  int j=0;
  while((line=sr.ReadLine())!=null){
   j=0;
   row = table.NewRow();
   split=line.Split(',');
   foreach(String colname in split){
   row[j]=colname;
   j++;}
   table.Rows.Add(row);}
   sr.Close();
  //顯示資料
  dataGrid1.DataSource=table.DefaultView;
  dataGrid1.DataBind();
  
  5 結語
  在應用程式的設計中,需要訪問Excel資料的情況非常普遍,本文以在.NET中對訪問含有混合類型資料的Excel表格擬採取的方法進行探討。當然,如果不存在混合類型的資料使用Microsoft.Jet.OLEDB為較佳方案。對於不是使用.NET開發的情況,本論文的分析和所提供的方法亦可參考。
  參考文獻:
  [1]Linuxmine.利用ASP.NET來訪問Excel文檔[EB/OL]. http://www.linuxmine.com/77726.html,2007-1-22.
  [2]劉洪成.C#進階編程[M]. 北京:清華大學出版社,2003. 187-200.
  [3]肖正宏,曹元大,韓秋風.資料訪問技術——DAO、ADO、RDO的比較[J].電腦與資訊技術,2001,(1):31-32.
  [4]PBR.Excel使用DAO OpenRecordset NULL作為傳回值[EB/OL].http://support.microsoft.com/kb/194124,2004-6-24.
  本文中所涉及到的圖表、註解、公式等內容請以PDF格式閱讀原文

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.