资料治理今年又将再度成为企业CIO的重要课题和话题。AI技术的蓬勃发展,过去几年掀起了一股企业AI化的浪潮,一段时间後,企业往往发现,AI模型成功关键,不只是技术,还要有好的资料,尤其AI模型需要不断优化校正,需要有源源不绝的数据和资料来支撑。
许多企业看到了AI的威力,但也发现手上资料不敷使用的窘境。这两年许多大企业,在积极拥抱AI之後,反而过头来重新蹲马步,盘点和梳理手上的大数据,甚至乾脆重新建置资料搜集机制、整合更多资料管道和来源,重新设计资料工作流程,建置新一代的资料湖或云端资料仓储,都是为了储备AI武器需要的数据弹药库。
不过,企业手上的资料越多,越广,越多元,就会面临资料治理(Data Governance) 的新课题。
如玉山金控在2020年完成核心系统转换後,就成立了资料治理小组,由玉山金控科技长张智星担任小组召集人,成员横跨全金控,为了实践资料治理,甚至不惜推动大规模组织改造,就是解决AI高度内化後的资料治理需求。
不只是天生高度数据化的金融业为了AI而展开资料治理,就连制造业也都要拥抱资料治理。
像是友达光电,花了7年时间,一步一步,从自动化发展到智能化的智慧制造,早从2015年展开大数据蒐集工程开始,在工厂内部署了2万多个IoT感测器,蒐集机台及周围环境的大量数据,将生产流程全面数位化,来建置完整的资料商城,隔年完成大数据平台,累积够多资料後,在2017年进行AI概念验证。2018年,友达开始善用大数据和AI技术来强化制造和管理,也将智慧制造导入到研发、供应链智慧化管理等。
到了2021年10月,友达上线的AI模型数突破2,000支。友达内部甚至发展出了一个Al市集平台,上面有各厂团队自行开发的AI应用,从设备检测维修、AOI+ AI缺陷检测、电脑视觉侦测、制程品质监控、异常侦测到智能节能等。
AI发展高度成熟後,友达在2021年订定下一个五年的数位转型计画,资料治理正是关键第一步。友达IT或数位部门为了推动资料治理,要重新盘点、梳理资料,确保各部门或工厂,甚至不同供应商资料定义一致性,包括资料型态与栏位等,就是要将以前每一个单点的数据流程全面打通,相互串连,来实现数位全流程的自动化或智慧化。
还有更多企业,都在这2年开始投入或资料治理,像中华电信在2022年中,公开了三层架构的资料治理战略,就是为了解决资料使用3大痛点,包括了巨量资料查询不易、资料品质不一,以及资料存取权限欠缺统一标准问题。这是很多企业AI扩大规模时常见的痛点。
而Line与雅虎日本整并後在首次联合技术大会中,公开了自家超大规模资料平台IU和搭配的机器学习平台MLU的最新变革,就是为了解决资料治理需求。
IU支援了Line内部超过200项服务,储存了400PB的HDFS资料,超过4万个Hive表格,每天要执行15万个任务,但是,这麽庞大又复杂的资料应用需求下,的资料流程越来越复杂,一旦发生问题,想要找出资料间的关系,越来越困难。Line的对策,就是打造资料血统机制,来落实资料治理。
「可以掌握资料间的关联,就可以很容易知道如何管理庞大资料,来提高再利用效率,更可以在安全和治理的角度下,来使用这些资料。」Line技术长Tomohiro Ikebe透露了,资料血统上线後最大的效益。这项功能已经成为Line内部79个服务和部门天天都要用的功能。
两大云端巨头也嗅到这股资料治理需求潮,Google和AWS先後在2022年各自的年会上,都不约而同都聚焦云端资料仓储和云端大数据分析领域,将资料治理视为主打特色之一。
从指标企业的经验可以看到AI高度发展後,资料治理需求也更加重要,技术厂商也看上这股需求抢推新工具,随着更多企业想要重用AI,整合各类型资料,势必得更加落实资料治理的实践。
相关报导