ETL的方法很多,常用的有三種。一是借助ETL工具(比如Oracle的OWB,SQLServer2000的DTS,SQLServer2005的SSIS服務,Informatic等等)實現,一個是SQL方式的實現,另一個是ETL工具與SQL相結合。前面兩種方法各有優缺點,借助工具可以快速建立ETL工程,屏蔽復雜的編碼任務,提高工作速度,降低難度,但缺乏靈活性。SQL方法具有靈活性,提高了ETL的運行效率,但代碼復雜,技術要求較高。再次,將前兩種方法結合在一起,將大大提高ETL的開發速度和效率。

本部分需要在調查階段做大量的工作,首先要弄清楚數據來自于幾個業務系統,每個業務系統的數據庫服務器運行哪些DBMS,是否有手工數據,手工數據量有多大,是否存在非結構化數據,等等,在收集這些信息后,才能設計出數據提取。

這種類型的數據源的設計是相當簡單的。一般而言,DBMS(SQLServer,Oracle)將提供數據庫連接功能,使DW數據庫服務器與原始業務系統之間直接建立鏈接關系,即可直接進行Select語句訪問。

通常還可以使用ODBC的方式對這一類數據源進行連接,比如SQLServer與Oracle之間。在您無法建立數據庫鏈接的情況下,有兩種方法可以實現:在將源數據導入ODS之前,使用工具將源數據導出為.txt或.xls文件。另一種方法是通過程序界面實現。

業務人員可以接受培訓,使用數據庫工具將這些數據導入指定數據庫,然后從指定的數據庫中提取。也可能需要使用工具來實現。

對大量數據的系統,必須考慮增量抽取。一般而言,業務系統會記錄業務發生的時間,我們可以使用一個增量標記,每一次抽取前判斷一個ODS中記錄的最大時間,然后再根據該時間到業務系統取大于此時間的全部記錄。在業務系統中,通常不存在或者部分存在業務系統的時間戳。
以上是關于北方互聯的小編給大家的一些分析,希望對大家有所幫助,詳細了解可詢問線上客服,或者客服處留言哦,我們會盡快回復您,詳細為您解答……

