數據建模是一門復雜的科學,它涉及組織數據以滿足業務流程的需求。它要求設計邏輯關系,以便數據能夠相互關聯并支持業務。然后將邏輯設計轉換為物理模型,其中包括存儲設備、數據庫和存儲數據的文件。
在以往,企業一直使用SQL等關系數據庫技術來開發數據模型,因為它特別適合靈活地將數據集和數據類型鏈接在一起,以支持業務流程的信息需求。
不幸的是,大數據(現在占管理數據的很大一部分)不能在關系數據庫上運行。它在NoSQL等非關系數據庫上運行。這讓人們相信不需要創建大數據模型。問題是,如果想充分利用大數據的潛力,確實需要對其進行數據建模。以下是以可訪問且有效的方式建模大數據的6個技巧:
1.不要試圖將傳統的建模技術強加于大數據
傳統的固定記錄數據在增長過程中是穩定和可預測的。這使得大數據建模相對容易。相比之下,大數據的指數級增長是不可預測的,其無數形式和來源也是不可預測的。當網站考慮對大數據建模時,建模工作應該集中在構建開放和彈性的數據接口上,因為可能永遠不知道什么時候會出現新的數據源或數據形式。在傳統的固定記錄數據世界中,這并不是優先考慮的問題。
2.設計系統而不是模型
在傳統數據領域中,關系數據庫模型可以涵蓋業務信息支持所需的數據之間的大多數關系和鏈接。大數據則不是這樣,它可能沒有數據庫,或者可能使用NoSQL這樣的數據庫,而后者不需要數據庫模型。
正因為如此,大數據模型應該建立在系統上,而不是數據庫上。大數據模型應該包含的系統組件包括業務信息需求、企業治理和安全、用于數據的物理存儲、所有類型數據的集成和開放接口,以及處理各種不同數據類型的能力。
3.尋找大數據建模工具
如今有許多支持Hadoop的商業數據建模工具,以及像Tableau這樣的大數據報告軟件。在考慮大數據工具和方法時,IT決策者應該將為大數據構建數據模型的能力作為他們的需求之一。
4.關注對企業業務至關重要的數據
每天都有大量的數據涌入企業,其中很多都是無關緊要的數據。創建包含所有數據的模型是沒有意義的。更好的方法是識別對企業至關重要的大數據,并僅對這些數據建模。
5.交付高質量的數據
如果企業專注于為他們的數據開發完善的定義和詳盡的元數據(描述數據的來源、目的等),就可以為大數據建立高級的數據模型和關系。對數據了解得越多,就越能將其正確地放入支持業務的數據模型中。
6.尋找對數據的關鍵切入點
當今大數據中最常用的向量之一是地理位置。根據企業的業務和所在的行業的不同,還有其他用戶想要的大數據通用密鑰。越能識別數據中的這些常見入口點,就越能更好地設計支持企業關鍵信息訪問路徑的數據模型。
注:文章來源于網絡,如有侵權,請聯系刪除