分析可以很简单,但若想要针对巨量的数据进行分析,不仅考验数据分析师对于Python, SQL资料库等软体操作,同时也考验分析师对于产业的domain know-how的熟悉。
我们的日常生活中,「分析」其实相当普遍,每天我们都会运用简单的数据分析来帮助我们决策。例如:比较不同交通工具与路段状况后决定行程的路线,又或着是综合考量价格、品质、评价等资讯后,选择购买哪一品牌的产品。
然而,商业中使用的数据量远比起生活中的更加庞大且复杂。每一个看似简单的问题背后,其实可能涉及无数数据的相互关联。若希望能够从根本处获得商业洞察并解决问题,就必须仰赖分析人员的协助,这也是为什么数据分析看似简单,但市场上的分析人员仍是供不应求。
数据分析人员的三大困难
如果你也想踏进分析领域,成为数据伙伴之一,那么这篇文章将是不错的参考之一。从事数据分析的工作需要具备许多的软硬实力,而初学者在踏入该领域时经常会遇到以下三大挑战。
1.不具备该领域的产业知识
分析人员在到手一个专案时,脑海中必须思考的两大问题是:「我要解决什么问题?」以及「为了解决这个问题我需要具备哪些数据?」
这两个问题的回答都十分仰赖分析人员是否具备相关的产业知识(Domain know-how)。产业知识涵盖的范围非常广泛,只要是行业或是职业中的细节都算是产业知识的一环,包括但不限于产业的市场环境、产品销售通路、产业法规等等。
假设老板希望可以了解为什么最近线上商店的销售增长缓慢,而实体店与第三方平台销售依然强劲的原因。在不了解零售产业通路的数据分析人员,可能仅考量到消费者购买行为、竞争动态、行销成效等,而却忽略了线上与线下的物流情况,导致未能正确判断与解决问题。
另外一个则是将会影响到对于商业洞察的判断。数据分析专案最终要产出是透过数据(Data)结合个人具备的产业知识(Domain know-how)所产生的商业洞察(Business Insights)。这些洞察见解最终需要回归到各个部门进行实际的改善优化。
若不具备该产业的相关知识,最终在提出商业洞察时,也可能会无法识别问题根源、提出有效的假设,导致改善后没有得到预期的成果,即便调整了策略,始终无法有效解决问题。
2.分析工具难以上手
数据分析人员通常需要处理巨量数据,因此需要许多工具来帮助处理与呈现数据,主要会区分为数据库、程式语言与可视化报表三大类工具:
- 数据库:如SQL和NoSQL数据库,用来处理资料的搜集、清洗与转换。
- 程式语言:如Python和R语言,用于数据分析、计算关键指标,与利用机器学习建立模型,预测未来趋势。
- 可视化报表:如Power BI、Tableau,用于呈现最终的分析结果,并提出相对的商业洞察,与各个部门协作讨论。
初学者经常会面临市面上工具众多,却不知道该如何挑选的窘境,建议可以根据心仪的JD描述中,优先选择学习工作上会使用到的工具,并将该项技能打磨得更加熟练。
3.获取与准备数据
对于数据分析人员来说,数据就像是石油,没有足够的原料就难以使车子向前迈进。数据的搜集是分析的基础,初学者容易面临的困境在于难以找到合适的数据来源。
除了公司内部的数据资料库外,分析人员有时也会利用API和网路爬虫的方式,在互联网上获取所需的数据资料,其他还有像是使用政府资料开放平台、Kaggle等网站,获取整理好的开放资料作为辅助数据。
然而当好不容易从多个不同的平台和系统中,辛辛苦苦取得所需要的数据时,数据分析人员会面临到的第二个挑战就是,收集到的数据往往格式多样、标准不一,可能还会出现缺失值、噪音等问题,吸引会需要大量的清洗整理等工作。
如何克服挑战?
在这三大痛点中,相对容易的是硬实力的强化,从学习基本的语言到如何实际应用在专案上,市面上已有许多免费或付费的资源可供学习,能有效补强技术能力上的不足。
其次则是产业知识的累积,可以透过阅读相关文献、参与产业活动来累积,当然最好且最好掌握的资源还是来自观察与请教内部的同事。
然而,最为困难的则是第三点,即外部数据的搜集与取得。如何找到可靠的数据来源、建立有效的资料收集管道等,都是数据分析者面临的挑战之一。
尽管初学者在数据分析领域会遇到种种困难,但只要能够清楚自己的目标与方向,懂得善用网路与身旁的资源,并持续精进自我、克服挑战,都能够在这个领域中有更出色的表现。
如果你也喜欢数据,欢迎追踪我们的社群,一起来享受玩数据吧!
IG: https://www.instagram.com/araliadata/
FB: https://www.facebook.com/Araliadata