公司新聞
[點擊量:1695][來源:創選寶防靜電專家(www.arcmerchant.com)]
2022-05-10
作為一座隱形的“金礦”,日益增長的數據規模為企業發展帶來了嶄新機遇。
以數據為驅動的模式正備受企業重視,并且逐步從基本的可視化分析,向更高的智能化分析階段持續進化。這個過程中,人工智能將全面落地在數據分析決策之中。
“增強分析(AugmentedAnalytics)”被視為數據分析與人工智能、機器學習結合的產物,這一概念于2017年由Gartner首次提出,并對其進行定義:增強分析是下一代數據和分析范式,它面向廣泛的業務用戶、運營人員和數據科學家,利用機器學習將數據準備、洞察發現和洞察共享等過程自動化。 這個概念剛開始比較模糊,后來逐漸清晰。
直接到2021年,Gartner在發布的《HypeCycle for ICT in China, 2021》中做了最新的定義:增強數據分析包括機器學習(ML)和人工智能(AI),在統一的平臺上提供數據管理和分析能力。
它通過將ML和AI應用于現有的操作流程中,使數據管理和分析自動化,從而更有效地進行數據分析。
它使更多的用戶獲得更深入的洞察力,減少了當前依賴IT處理所帶來的效率問題和口徑偏差。
01大數據與機器學習的交匯點
大數據時代,基礎數據的維度、數量、類型(結構化和非結構化)更大、更分散,企業要分析和探索的數據越來越復雜。
另一方面能兼顧專業數據分析和業務洞察的人才少之又少,增強分析正是解決這一矛盾,讓數據分析普惠所有業務用戶的良藥。
簡單地說,增強分析可以理解為借助AI技術進行智能化、自動化的數據分析,挖掘數據價值,降低分析門檻,提高分析深度。
增強分析的實現過程可以簡單概括為:通過培訓未知數據和已知問題,最終列出各種可能性和影響因素,幫助用戶加快和進行有效的數據分析。
“增強分析”并不是說讓用戶會寫AI或者數據科學背后的一些代碼,而是說如何把它封裝好、讓用戶依舊用非常傻瓜、簡單易用的形式,比如用拖拽、自然語言的方式,去進行更高級的數據分析。
未來,我們將會越來越多地看到增強分析技術,賦能到大數據產業之中,能夠讓更多人以更低門檻進行更深度的分析。
增強分析的特點是BI產品開發中最重要、最顯著的發展趨勢之一。
當云生態系統也影響人們做出選擇決策時,增強分析能力將成為區別普通分析平臺和BI平臺之間的關鍵因素。
目前,增強分析正成為用戶體驗的一個重要部分,其優勢包括以下幾個方面:
數據準備速度增快。由于增強型數據準備可以更快地將多個數據源整合到一起,因此可以快速檢測重復的操作、聯接,加速獲取見解和提高工作效率,從而生成完全數據自動化和高質量的建議,幫助提供個性化的用戶體驗。
分析偏差降低。增強型分析支持計算機執行通常用于數據分析工具的分析,通過對更大范圍的數據執行操作并僅專注于統計意義因素,可以降低潛在的偏差。
信任度提高。用戶和數據進行交互能夠為機器學習算法提供線索,隨著時間的推移,為用戶提供的建議更加相關且準確,這些建議有助于獲取用戶的信任。
增強數據素養。通過提供對結果的自動化分析,用戶可以用最少的工作量輕松地搜索見解和對見解進行可視化,從而增強數據素養。
節省更多時間。業務人員無需再花費時間收集和分析大量數據集,以及從分析結果中提取可行項,這樣他們將有更多時間專注于高級業務策略和特殊項目。
02 增強分析三大關鍵技術能力
從技術角度看,增強分析相關的技術可以分為了三類:增強數據準備、增強數據分析和增強機器學習。
數據準備是數據分析的前提,也是最耗時的工作。
數據準備通常包含數據探查、數據質量、數據模型、數據清洗等工作,涵蓋了數據管理的各個方面,甚至還包括數據集成和數據倉庫的管理。
增強數據準備主要通過兩個方面來提升效率,一方面是可視化交互,通過拖拉拽的方式實現可視化的數據配置、數據源的混合以及數據清洗工作,讓數據準備變得更加快捷。
另一方面是算法輔助,利用ML和AI技術實現部分流程的自動化。
例如自動查找數據之間的關系,對數據質量進行評估,推薦用于連接、豐富、清洗數據的最佳方法,還有自動查找元數據和血緣關系等功能。
增強數據分析無需建模和編寫代碼,幫助用戶自動尋找數據規律,將相關結果自動轉化為可視化圖表,提高分析效率。
增強數據分析的典型技術包括自動洞察(Automated Insights)和自動可視化(Automated Visualization)。
自動洞察是增強分析的核心功能,但同樣也是一個寬泛的概念。
如今,大部分主流的BI平臺都有自動洞察的相關功能,且方向各有不同,其目標是代替一部分分析師的工作,從數據中發現潛在信息和價值。
自動可視化則是根據數據分析結果自動選擇可視化的方式進行展示,與自然語言查詢(NLQ)、自然語言生成(NLG)等技術配合,大大加快整個分析流程。 增強機器學習更加關注模型,比如特征工程、模型訓練、模型部署、模型解釋以及最后的模型監控和管理。
與增強數據分析相比,增強機器學習面向的更多是數據科學家,通過算法將特征工程、模型選擇與超參數優化,以及深度神經網絡結構搜索等機器學習過程中的關鍵步驟自動化,幫助數據科學家更高效地得到滿意的模型。 這部分的核心技術就是自動機器學習AutoML。
早期的AutoML研究起源于Meta Learning,早在上個世紀八十年代就被提出,數十年間,機器學習領域的相關研究主要集中在超參數優化。
近年來隨著深度學習的廣泛應用,Meta-Leaning領域在學術界又一次升溫。
同時,自動化特征工程、自動化模型評價等技術的研究和商業化也使得AutoML的概念覆蓋到了機器學習的全流程。
03 如何打好大數據與機器學習的 “組合拳”?
機器學習技術主要依賴三大因素,分別是算力、算法、數據。
大數據技術所提供的能力是機器學習建模所需要的必然基礎,同時機器學習為大數據技術提供更高的智能,為商業業務產生價值。
大數據技術和機器學習技術本身就是互為因果。 雖然大數據與機器學習的融合看上去應用前景廣闊,但目前許多企業客戶還沒有實現兩者的融合。
亞馬遜云科技大中華區產品部總經理陳曉建認為,主要有三方面的原因。一是大數據和機器學習目前是分而治之的。
他們本身技術發展路線是兩條不同的路線,在很多企業這兩個功能都是屬于兩個完全不同的團隊來負責的,數據當然也放在不同的倉庫里。
二是數據處理能力不足,很多機器學習的團隊不具備處理海量數據規模的能力。三是數據分析人員參與度低。
在大數據與機器學習領域,亞馬遜云科技認為,要想幫助客戶解決深度數據分析的問題,就要實現大數據和AI從業務上以及用戶需求上做深度融合,企業要在云中要打造統一的數據基礎底座,實現大數據和機器學習的“雙劍合璧”,為企業發展提供創新引擎。
為此,亞馬遜云科技提供廣泛而深入的服務,既能打通兩個領域的數據治理底層服務,還能實現大數據與機器學習之間的相互賦能。
近日,亞馬遜云科技宣布推出“云、數、智三位一體”的大數據與機器學習融合服務組合,幫助企業推進大數據和機器學習的融合,將機器學習由實驗轉為規?;涞貙嵺`。
該服務組合具體涵蓋三個方面,分別是:構建云中統一的數據治理底座,為機器學習提供生產級別的數據處理能力,以及賦能給業務人員更加智能的數據分析工具。
亞馬遜科技助力機器學習由實驗轉為實踐,為機器學習提供生產級別的數據處理能力,不僅專門構建大數據服務,對復雜的數據進行加工處理,而且針對數據規模的動態變化,及時優化數據質量。
Amazon Athena能夠對支持多種開源框架的大數據平臺,包括Amazon EMR、高性能關系數據庫Amazon Aurora、NoSQL數據庫服務Amazon DynamoDB、Amazon Redshift等多種數據源,對這些數據源進行聯邦查詢,快速完成機器學習建模的數據加工。
以Amazon Redshift、Amazon MSK和Amazon EMR為代表的無服務器分析能力,可以讓客戶無需配置、擴展或管理底層基礎設施,即可輕松地處理任何規模的數據,為機器學習項目提供兼具性能和成本效益的特征數據準備。
雖然增強分析一定程度上改變了目前的數據分析模式,但并不意味著數據分析師和數據科學家變得不再重要。
相反,這對數據科學家的專業能力提出了更高的要求,既要更多地著眼于企業數字化轉型過程中數據價值的重新考量,又要追求極致的“精專主義”,畢竟簡單的題目別人都會做了,留下來肯定都是硬骨頭了。
(來源:科技云報道)