優先聚焦數據治理,Line資料平臺和AI架構再次大變革

Line資料平臺IU支援內部超過200項服務,儲存400PB資料,每天要執行15萬個任務,在技術年會中首度公開了新的資料目錄服務IU Web,提供了一站式入口,可支援搜尋資料,存取控制,後設資料管理和探索性資料分析等資料活動,其中最大新特色是利用Atlas實現了資料血統功能。(圖片來源/Line)

從去年3月,Line和Yahoo!Japan(雅虎日本)母公司Z控股整併之後,各界就高度關注通訊平臺巨頭和電商巨頭合併後將如何激發出新的火花。

Z控股訂下的首要戰略目標是優先加強數據治理。這是因為,成為一家世界級AI科技公司,是整併後雙方的共同戰略目標,而高品質的可用資料正是邁向這個願景的關鍵基礎工程。尤其,Line日本用戶 、雅虎日本用戶和PayPay三大生態系整併後,用戶數達到2億人規模。如何支撐新的超大規模生態圈,從今年11月剛結束的Line與雅虎日本首次聯合技術會中,可以觀察到,資料科技和AI技術是關鍵。

擅長社交平臺,擁有海外多國發展經驗的Line,和擁有深厚電商、零售與金融產業布局的雅虎日本,在年會中展現出各自不同的技術發展重心,卻又可以互補。Line聚焦於發展平臺式的戰略型技術架構,尤其在AI架構和資料科技平臺,及區塊鏈架構上,而雅虎日本則聚焦在擴大AI應用和產業AI實踐等。前者聚焦強化AI技術體質和未來性,後者則聚焦擴大產業AI版圖和業務廣度。

Line目前全球每月約2億用戶使用,累積了大量的用戶和行為資料,因此早在2019年,Line啟用了一個自助式的超大規模資料平臺IU(Information Universe),後來,2020年時,又進一步在IU上發展出了一層機器學習平臺MLU(Machine Learning Universe),用來支援多項跨服務共用的大型ML模型叢集,包括NLP模型、電腦視覺模型、推薦模型、廣告優化模型。

目前IU支援了Line內部超過200項服務,儲存了400PB的HDFS資料,超過4萬個Hive表格,每天要執行15萬個任務。Line技術長Tomohiro Ikebe指出:「龐大資料不只是很大的儲存挑戰,利用時也是很大的挑戰。」

IU資料平臺新變革,打造資料血統功能將資料變動過程視覺化

在年會中,Tomohiro Ikebe 首度揭露了後續IU上進一步打造的網頁式資料目錄服務,也就是IU Web入口網站。

在這個IU Web上,提供了多項自動化機制,例如後設資料搜集機制、Data profiling機制、可輔助法遵需求的資料驗證工具。另外,IU也引進了Apache Iceberg資料湖技術,並將串流大數據分析平臺Spark升級到3.2版。

IU Web最重要的新功能則是2021年11月新上線的Data Lineage (資料血統)功能。Tomohiro Ikebe解釋,隨著IU上的資料流程越來越複雜,一旦發生問題,想要找出資料間的關係,越來越困難。要解決這個問題就需要資料血統機制。

資料血統機制可以用來追蹤特定資料從建立後到現在的發展路徑,在瀏覽器上透過圖表來呈現資料變動的過程。

Line資料平臺部門資深產品經理宇田川直人表示,這個內部資料目錄提供了一站式的入口,來涵蓋所有的資料活動,來提高包括搜尋資料,存取控制,後設資料管理和探索性資料分析等資料利用的效率。

不過,要打造這樣的資料目錄有兩大挑戰,一是得搜集所有資料集的後設資料,第二是如何呈現這些後設資料的關聯。Line使用了開源的目錄服務專案Apache Atlas來串接各種不同資料源,搜集資料後設資料來了解異動狀況,並將資料每一次的變化過程用視覺化的方式呈現,這就是資料血統的機制。資料血統圖上的每一個節點,可以列出這個節點相關的資料表簡介、時間戳、表格關係、PII(涉及個資),資料擁有者,使用單位,還有從這份資料產生的相關報表、使用者清單和各種連結等。

可是,IU上有4萬個Hive表格,每天要執行15萬個任務,每一個任務和每一個表格都是一個資料血統圖上的節點,要追溯出從建立到目前的所有變化和關聯,就會產生非常複雜和龐大的節點關聯圖,。

CCD外觀檢查包裝機

品質優益穩定,效率高成本低,並已獲得國內外大廠承認使用,品質合乎EIA國際標準, 此外也針對客戶端的需要代客Tape and Reel封裝服務。

找工作! 想知道堆高機駕駛日薪是多少嗎? 哪裡有職缺?幫你快速媒合

堆高機,又稱叉架起貨機或叉式起重車,香港稱為鏟車,中國大陸稱為叉車,台灣國語稱為堆高機,台語俗稱豬哥(ti-ko),是指工廠、倉儲等地方對成件托盤貨物進行裝卸、堆垛和短距離運輸作業的各種輪式搬運車輛。國際標準化組織ISO/TC110稱為工業車輛。堆高機的發展於1920年代,今天在生產和倉儲運營過程中它已成為不可或缺的設備。

攻戰消費者第一視覺,包裝設計很重要!

包裝設計是指對包裝的形狀、大小、構造及包裝材料等方面進行創造或選擇並以適當方式吸引消費者的注意力,進而增加購買率,以及對使用者友善之特性。

一般貨櫃標準尺寸?

金誠貨櫃尺寸種類分別為,20呎櫃、20呎高櫃、40呎櫃、40呎高櫃、20呎冷凍櫃、400呎冷凍櫃。

為了改善資料血統圖的可讀性,Line採取了多項設計機制來簡化資料血統圖的複雜性。Line利用Atlas串接了HIve伺服器和Spark,利用Atlas的通知機制,採取推播更新後設資料的做法。不過,因為IU上執行的任務每天多達十幾萬個,幾分鐘內的資料表異動也多達數百次。因此,Line透過Kafka彙整來自Atlas的通知,以30分鐘為最小追蹤單位,排除掉30分鐘內的異動,例如操作錯誤的資料庫反覆新增或刪指令,大幅減少了90%異動通知。再進一步比較異動模式,過濾掉對使用者沒有意義的DDL語法異動資訊,更大幅減少了95%的雜訊。

不只如此,Line在資料血統資料庫中,排除了不重要的資料節點的註冊,這更大幅減少了9成節點數,也刪除了3萬個不需要的任務。透過這些一層又一層的過濾和篩選,才讓Line資料目錄IU Web上提供的資料血統,要處理的複雜度降低,甚至可以進一步展開到以欄位為節點單位的關聯分析圖。

Line更提供了一個互動式的介面,預設可以展開一項資料從出生到現在的血統脈絡。

資料血統功能在2021年11月上線,統計到2022年5月,有79個服務和部門使用這項功能,每天用於ETL、資料管理和資料科學分析等功能,特別是Data ETL團隊可以更容易確認資料表維護的範圍,尤其要執行資料表刪除或異動時能更放心。更有不少使用者每天常用資料血統來調查各種資料錯誤的根本原因

「可以掌握資料間的關聯,就可以很容易知道如何管理龐大資料,來提高再利用效率,更可以在安全和治理的角度下,來使用這些資料。」Tomohiro Ikebe表示。不只用於IU,在MLU平臺上,也可以利用相同的血統技術,來追蹤一個模型用了哪些資料來訓練,以及在訓練中如何使用這些資料。

IU Web的資料血統功能,可以呈現一項資料從出生到現在的資料異動脈絡也就是資料血統,預設展開三層重要的節點,使用者可以自行放大或縮小畫面,也可以針對任何一個資料欄位,再進一步展開下三層的資料血統關聯圖。圖片來源/Line

Line機器學習平臺MLU引進聯合學習新架構

不只IU資料平臺展開大變革,Line的機器學習平臺MLU也採用了全新的訓練架構和模式。Tomohiro Ikebe表示,今年秋天,Line在貼圖推薦導入了一套新的機器學習訓練架構,「可以處理爆量特徵來建立模型,又能兼顧隱私和用戶便利性,就是聯合學習(Federated Learning)和差分隱私(Differential Privacy)。」

透過聯合學習機制,在用戶本地端App上完成模型訓練,並利用差分隱私(Differential Privacy)架構,將模型加上雜訊來避免從模型回推原始資料,再將沒有用戶資料的特徵模型,回傳到後端伺服器來更新整體推薦模型,再分派新模型到用戶App上,利用本地端Log來產生更個人化的推薦順序。

雅虎日本技術長小久保雅彦指出,兩家公司共同累積了龐大用戶和爆量數據,而且只會加速增加。為了持續成長,必須解決多項技術挑戰,像是得打造一套靈活平臺,回應快速暴增的流量和資料。也得擴大甚至加速導入先進AI技術。還要打造資安和隱私保護的可靠性架構來建立信任。

這三大挑戰,也正是Line資料平臺和AI架構新變革要解決的課題。

  

https://www.ithome.com.tw/news/154629

買不起高檔茶葉,精緻包裝茶葉罐,也能撐場面!

紫砂茶葉罐是多孔性材料製成,透氣性非常好,因為罐子多微小氣孔,用來存放茶葉,不僅能保鮮鮮,還能消除茶葉中的異雜味。 但也是因為多孔,所以紫砂茶葉罐容易吸收茶葉的香味。

測試專家告訴你如何好好使用示波器

示波器主要由電源系統、同步系統、水平偏向系統、垂直偏向系統、延遲掃描系統、顯示系統和標準訊號源等部封包成。

隨時健康喝好水,高品質飲水機,優質安全有把關

飲水機的問題主要有三個方面,一是水沸騰溫度不足,絕大多數的飲水機最高溫度是95度,再沸騰溫度是90度,泡茶殺菌的溫度不夠

總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。