Tại sao không nên phụ thuộc hoàn toàn vào Excel hay Google Sheets?
Tomorrow Marketers – Đầu năm 2021, chính phủ Anh thông báo có gần 16000 ca dương tính với Covid không hề được ghi nhận tại đất nước này, và tất cả là do spreadsheet gây ra. Chính phủ Anh sử dụng một phiên bản cũ của Excel (.xls), nơi lưu trữ dữ liệu có số dòng rất hạn chế, để theo dõi các ca lây nhiễm. Và khi phòng nghiên cứu gửi thêm nhiều file .csv về kết quả test, Excel spreadsheet mà chính phủ Anh sử dụng đạt tới hạn mức, không thể thêm vào những ca nhiễm khác nữa.
Bất kể bạn là data analyst hay CTO, sau khi nghe xong câu chuyện trên, bạn có thể ngay lập tức muốn đi cảnh báo mọi người rằng: “Đây là lý do tại sao chúng ta nên ngừng lưu trữ dữ liệu trong spreadsheet!”. Hành động này không hề khó hiểu.
Tuy nhiên, chúng ta cũng cần lật lại vấn đề rằng: Tại sao giới công nghệ biết sẽ thật tệ nếu dùng spreadsheet để lưu trữ thông tin, nhưng ngoài kia vẫn còn rất nhiều người đang sử dụng nó?
Thực ra, bản chất vấn đề không nằm ở spreadsheet – một công cụ hỗ trợ đơn thuần, mà nằm ở cách doanh nghiệp tiếp cận với công nghệ dữ liệu.
Trong bài viết dưới đây, hãy cùng tìm hiểu về lý do mà spreadsheet vẫn được ưa chuộng bất chấp sự hạn chế nhiều mặt của nó, và làm sao để việc áp dụng những công nghệ dữ liệu tân tiến trở nên đơn giản hơn với doanh nghiệp.
1. Tại sao spreadsheet được ưa chuộng?
Các doanh nghiệp startup cần hành động nhanh, cần lập chiến lược, thực thi, biết rằng cái gì hiệu quả và cái gì không, sau đó ngay lập tức điều chỉnh. Họ cần giải pháp dữ liệu mà có thể thiết lập nhanh chóng, có thể chia sẻ với mọi người trong team, và scale được (scale về cả data size và độ phức tạp trong sử dụng) mà không cần quá nhiều yêu cầu kỹ thuật.
Vì lý do này, một spreadsheet dễ tiếp cận, dễ sử dụng, hấp dẫn các chủ doanh nghiệp, nhà quản lý hơn bao giờ hết. Bất kể ai, từ CEO tới nhân viên đều có thể nắm trong tay data và làm việc với chúng trên Excel hay Google Sheet. Hầu như chẳng có learning curve nào khi sử dụng spreadsheet cả.
Đọc thêm: 4 giai đoạn Analytics theo giai đoạn phát triển của doanh nghiệp
2. Tuy nhiên, quá phụ thuộc vào spreadsheet, doanh nghiệp gặp bất lợi gì?
Dưới đây là một số hạn chế của spreadsheet khi được tận dụng như công cụ lưu trữ dữ liệu, nơi ghi chú thông tin và công cụ phân tích dữ liệu.
Spreadsheet không thể xử lý các tập dữ liệu lớn
Như cách mà chính phủ Anh rút ra bài học xương máu, cứ bỏ hết dữ liệu vào một spreadsheet, có ngày spreadsheet đó sẽ gặp lỗi. Theo lý thuyết thì một spreadsheet không thể chứa quá 1 triệu hàng dữ liệu, nhưng nhiều người dùng nhận thấy rằng, tập data nhỏ hơn con số 1 triệu đó vẫn có thể gây ra lỗi loading hay lag như thường.
Và thật không may là spreadsheet sẽ chẳng bao giờ báo trước mức giới hạn của nó cho bạn. Cách duy nhất để bạn phát hiện ra spreadsheet gặp lỗi là khi nó thực sự lag, tự động tắt,… lúc đó thì mọi thứ đã trở nên thật tồi tệ rồi.
Khó để phát hiện ra sự thay đổi của dữ liệu
Nếu làm việc với một data platform, bạn có thể biết được những thay đổi của dữ liệu, tính tới phiên bản hiện tại mà mình đang thấy. Hầu hết sự thay đổi là kết quả của việc chạy các tập lệnh (script) trên data, hoặc input process được tích hợp trong data platform. Tập lệnh được ghi nhận rất minh bạch: bạn có thể rà soát lại các lệnh để tìm ra đáp án chính xác cho việc dữ liệu được thay đổi như thế nào và vào lúc nào.
Tuy nhiên, với spreadsheet, cố gắng tìm hiểu xem dữ liệu đã được thao tác như thế nào gần như là một việc không thể. Đúng là bạn có thể làm thêm một sheet nữa, và yêu cầu mọi người ghi lại mọi thay đổi vào đó, nhưng thật phiền toái khi mà người dùng phải duy trì cập nhật hàng tá file theo cách thủ công. Một là tốn thời gian, hai là rất dễ xuất hiện sai sót khi nhập liệu.
Sử dụng spreadsheet, doanh nghiệp không có một nguồn thông tin đồng nhất (no single source of truth)
Một trong những vấn đề đáng quan ngại nhất của spreadsheet là siloed data (tình trạng dữ liệu bị cô lập, chỉ một phòng ban có thể truy cập). Siloed data là kẻ thù lớn nhất của nhiệm vụ tạo ra một nguồn thông tin đồng nhất trong doanh nghiệp.
Không khó để giải thích nguyên nhân gây ra tình trạng siloed data. Lấy một ví dụ đơn giản, phòng Marketing nhận về dữ liệu từ phòng Product, phòng Marketing bỏ những dữ liệu đó vào một spreadsheet và sử dụng chúng. Cùng lúc đó, một người của bộ phận Finance thu thập những dữ liệu tương tự, nhưng không hoàn toàn giống, từ hệ thống kiểm kê. Và những người khác trong bộ phận Finance bắt đầu sử dụng tập data đó để làm việc.
Lúc này, cả Marketing và Finance đều tin rằng spreadsheet của họ là source of truth. Nhưng thực tế, họ đang làm việc với data khác nhau, cũng có nghĩa rằng mỗi bộ phận sử dụng nhiều nguồn để trả lời cùng một câu hỏi, đưa ra đáp án khác nhau và không biết đáp án nào mới là đúng.
Source of truth không thể là một file bị mắc kẹt trong ổ cứng của người dùng. Nó phải được tiếp cận bởi toàn bộ doanh nghiệp.
3. Không phải spreadsheet, doanh nghiệp xử lý dữ liệu bằng công cụ nào?
Một hệ thống dữ liệu có thể khắc phục hoàn toàn những nhược điểm của spreadsheet. Hệ thống dữ liệu giống như một nhà máy sản xuất, dữ liệu được sản sinh, tự động dẫn truyền qua các đường ống tới kho lưu trữ, và trực quan hoá thành dashboard theo thời gian thực. Hệ thống dữ liệu gồm 4 thành phần cơ bản như sau:
- Data Collector: là các công cụ, phần mềm sản xuất ra dữ liệu và lưu trữ dữ liệu trong quá trình vận hành doanh nghiệp. Ví dụ: Nếu doanh nghiệp quản lý khách hàng bằng phần mềm CRM, thì CRM là nơi sản xuất & lưu trữ dữ liệu. Nếu doanh nghiệp dùng Google Form để thu thập thông tin khách hàng và xuất ra Google Spreadsheet, thì Google Form là nơi sản xuất, còn Google Spreadsheet là nơi lưu trữ dữ liệu khách hàng.
- Data Pipeline: Giống như một ống dẫn nước, Data pipeline là công cụ dẫn dữ liệu lưu trữ từ các nguồn khác nhau về một nơi duy nhất là Data Warehouse.
- Data Warehouse: là nơi lưu trữ tất cả dữ liệu của doanh nghiệp, nơi lưu trữ đó có thể là hệ thống riêng của doanh nghiệp (on-premise). Doanh nghiệp cũng có thể lựa chọn giải pháp Database-as-a-Service (DBaaS) – dịch vụ được quản lý bởi các nhà cung cấp cloud như Google Cloud, AWS…
- Data Mining Tool: là các công cụ giúp xử lý dữ liệu, để biến dữ liệu thô thành các thông tin hữu ích cho doanh nghiệp. Sau khi có nhóm dữ liệu này, doanh nghiệp có thể trực quan hoá dữ liệu thành các dashboard, báo cáo quản trị giúp ích cho việc vận hành hàng ngày.
Để tìm hiểu sâu hơn về cách xây dựng hệ thống dữ liệu và biết cách áp dụng cho chính doanh nghiệp của mình, hãy tham khảo khóa học Data System của Tomorrow Marketers. Khóa học Data System sẽ giúp bạn hiểu rõ:
- Cấu trúc của hệ thống dữ liệu nội bộ: Hiểu rõ các thành phần của một hệ thống dữ liệu hoàn chỉnh.
- Tư duy xây dựng quy trình và số hoá quy trình kinh doanh nhằm thu thập được dữ liệu qua thời gian
- Tư duy xây dựng đường ống dữ liệu và nhà kho dữ liệu, giúp doanh nghiệp chuẩn hoá dữ liệu từ sớm.
- Tư duy khai thác dữ liệu để xây dựng các dashboard & báo cáo quản trị, cung cấp bức tranh toàn cảnh của kinh doanh và giám sát hoạt động.
Tham gia khoá học để khai thác hiệu quả mọi tiềm năng của dữ liệu ngay hôm nay!
Bài viết được biên soạn bởi Tomorrow Marketers, xin vui lòng không sao chép dưới mọi hình thức.
The post Tại sao không nên phụ thuộc hoàn toàn vào Excel hay Google Sheets? appeared first on Tomorrow Marketers.
source https://blog.tomorrowmarketers.org/tai-sao-khong-nen-phu-thuoc-hoan-toan-vao-excel-hay-google-sheet/
Nhận xét
Đăng nhận xét