數據建模是一門復雜的科學,它涉及組織數據以滿足業(yè)務流程的需求。它要求設計邏輯關系,以便數據能夠相互關聯并支持業(yè)務。然后將邏輯設計轉換為物理模型,其中包括存儲設備、數據庫和存儲數據的文件。
在以往,企業(yè)一直使用SQL等關系數據庫技術來開發(fā)數據模型,因為它特別適合靈活地將數據集和數據類型鏈接在一起,以支持業(yè)務流程的信息需求。
不幸的是,大數據(現在占管理數據的很大一部分)不能在關系數據庫上運行。它在NoSQL等非關系數據庫上運行。這讓人們相信不需要創(chuàng)建大數據模型。問題是,如果想充分利用大數據的潛力,確實需要對其進行數據建模。以下是以可訪問且有效的方式建模大數據的6個技巧:
1.不要試圖將傳統(tǒng)的建模技術強加于大數據
傳統(tǒng)的固定記錄數據在增長過程中是穩(wěn)定和可預測的。這使得大數據建模相對容易。相比之下,大數據的指數級增長是不可預測的,其無數形式和來源也是不可預測的。當網站考慮對大數據建模時,建模工作應該集中在構建開放和彈性的數據接口上,因為可能永遠不知道什么時候會出現新的數據源或數據形式。在傳統(tǒng)的固定記錄數據世界中,這并不是優(yōu)先考慮的問題。
2.設計系統(tǒng)而不是模型
在傳統(tǒng)數據領域中,關系數據庫模型可以涵蓋業(yè)務信息支持所需的數據之間的大多數關系和鏈接。大數據則不是這樣,它可能沒有數據庫,或者可能使用NoSQL這樣的數據庫,而后者不需要數據庫模型。
正因為如此,大數據模型應該建立在系統(tǒng)上,而不是數據庫上。大數據模型應該包含的系統(tǒng)組件包括業(yè)務信息需求、企業(yè)治理和安全、用于數據的物理存儲、所有類型數據的集成和開放接口,以及處理各種不同數據類型的能力。
3.尋找大數據建模工具
如今有許多支持Hadoop的商業(yè)數據建模工具,以及像Tableau這樣的大數據報告軟件。在考慮大數據工具和方法時,IT決策者應該將為大數據構建數據模型的能力作為他們的需求之一。
4.關注對企業(yè)業(yè)務至關重要的數據
每天都有大量的數據涌入企業(yè),其中很多都是無關緊要的數據。創(chuàng)建包含所有數據的模型是沒有意義的。更好的方法是識別對企業(yè)至關重要的大數據,并僅對這些數據建模。
5.交付高質量的數據
如果企業(yè)專注于為他們的數據開發(fā)完善的定義和詳盡的元數據(描述數據的來源、目的等),就可以為大數據建立高級的數據模型和關系。對數據了解得越多,就越能將其正確地放入支持業(yè)務的數據模型中。
6.尋找對數據的關鍵切入點
當今大數據中最常用的向量之一是地理位置。根據企業(yè)的業(yè)務和所在的行業(yè)的不同,還有其他用戶想要的大數據通用密鑰。越能識別數據中的這些常見入口點,就越能更好地設計支持企業(yè)關鍵信息訪問路徑的數據模型。
注:文章來源于網絡,如有侵權,請聯系刪除