Tóm tắt: Trong bài trước, lớp thu thập dữ liệu và tiền xử lý đã được giới thiệu. Sau khi có được dữ liệu đã được xử lí, phân tích dữ liệu là bước cần thiết kế tiếp. Phân tích dữ liệu là một phần quan trọng để một doanh nghiệp thành công. Khi dữ liệu được sử dụng hiệu quả, nó sẽ giúp doanh nghiệp ra quyết định tốt hơn cho các hoạt động trong tương lai của mình. Có nhiều loại phân tích dữ liệu sẽ được giới thiệu trong bài viết này như phân tích tương quan, phân tích thống kê, phân tích mô tả, phân tích phân phối, phân tích chẩn đoán, phân tích dự báo, phân tích đề xuất, v.v. Tất cả chúng được liên kết với nhau và xây dựng dựa trên nhau. Có thể từ loại đơn giản nhất đến phức tạp hơn. Loại phân tích càng phức tạp; càng có giá trị hơn.

1. Phân tích thống kê

(Nguồn: BeingDatum)

Phân tích thống kê là quá trình thu thập, khám phá và trình diễn một lượng lớn dữ liệu để khám phá các xu hướng cơ bản. Lưu ý rằng từ khóa ở đây là “thống kê”. Thống kê được áp dụng hàng ngày – trong nghiên cứu, công nghiệp, học tập – để giúp cho các quyết định trở nên khoa học hơn. Một vài ứng dụng của thống kê:

  • Các nhà sản xuất sử dụng số liệu thống kê để dệt thành các loại vải đẹp, nhằm mang lại sự phát triển vượt bậc cho ngành hàng không và giúp các nghệ sĩ guitar tạo nên những bản nhạc hay.
  • Các nhà nghiên cứu giữ cho trẻ em khỏe mạnh bằng cách sử dụng số liệu thống kê để phân tích dữ liệu từ quá trình sản xuất vắc-xin vi-rút, đảm bảo tính nhất quán và an toàn.
  • Các công ty truyền thông sử dụng số liệu thống kê để tối ưu hóa tài nguyên mạng, cải thiện dịch vụ và giảm bớt sự gián đoạn của khách hàng bằng cách hiểu rõ hơn về các yêu cầu của khách hàng
  • Các cơ quan chính phủ trên toàn thế giới dựa vào số liệu thống kê để hiểu rõ về quốc gia, doanh nghiệp và người dân của họ.

Phương pháp thống kê truyền thống đã được sử dụng từ rất lâu. Tuy nhiên, dữ liệu của internet vạn vật (IoT) làm cho số liệu thống kê có giá trị hơn và mạnh mẽ hơn. Máy tính thống kê ngày càng trở nên cần thiết cho các nhà thống kê ngày nay.

2. Phân tích tương quan

Phân tích tương quan Là một phương pháp thống kê dùng để đánh giá độ mạnh của mối quan hệ giữa hai biến định lượng. Mối tương quan cao có nghĩa là hai hoặc nhiều biến có mối quan hệ chặt chẽ với nhau, trong khi mối tương quan yếu mô tả rằng mối liên hệ giữa hai biến hầu như không liên quan. Nói cách khác, đó là quá trình nghiên cứu độ mạnh giữa các mối quan hệ với dữ liệu có sẵn. Tương quan rất hữu ích vì nếu mối quan hệ tương quan giữa hai biến chặt chẽ, hành vi trong tương lai có thể được dự đoán. Hệ số tương quan là một cách để cho thấy mối quan hệ giữa các biến mạnh mẽ như thế nào. Hệ số tương quan có giá trị từ -1 đến 1. “0” là nghĩa không có mối quan hệ nào giữa các biến, trong khi -1 và 1 có nghĩa là có một mối tương quan nghịch hoặc thuận hoàn hảo. Chiều của mối quan hệ được biểu thị bằng dấu của hệ số; Dấu + biểu thị mối quan hệ thuận và dấu – chỉ mối quan hệ nghịch. Mối quan hệ tương quan có thể được mô tả dưới dạng một biểu đồ hoặc ma trận như ví dụ dưới đây

(Ví dụ về phân tích tương quan của máy chiller được phân tích bởi Daviteq research and developement team)

Ma trận trên cho thấy ví dụ về mối tương quan giữa từng tính năng của máy Chiller trong nhà máy. Nó cho biết tính năng nào ảnh hưởng đến mức tiêu thụ năng lượng điện của máy làm lạnh (máy chiller). Từ kết quả đó, một phương pháp tối ưu hóa điện năng tốt hơn cho máy làm lạnh sẽ được xem xét và đề xuất. Nó dẫn đến việc giảm năng lượng điện trong sản xuất. Nói chung, bằng cách phát hiện mối tương quan giữa tất cả các tính năng, nó giúp nhà sản xuất tối ưu hóa tài nguyên tốt hơn.

3. Phân tích mô tả

Thống kê mô tả được sử dụng để miêu tả các tính năng cơ bản của dữ liệu nghiên cứu. Nó cung cấp những tóm tắt đơn giản về mẫu dữ liệu và các đo lường. Cùng với những biểu đồ đơn giản, nó tạo thành nền tảng của hầu như mọi phân tích định lượng dữ liệu. Với thống kê mô tả, dữ liệu có thể được mô tả với nhiều thứ nguyên khác nhau. Thống kê mô tả chỉ đơn giản là mô tả những gì đang diễn ra trong dữ liệu của chúng ta.

Thống kê mô tả được sử dụng để trình bày mô tả định lượng. Trong sản xuất, chúng ta có thể có rất nhiều phép đo. Thống kê mô tả giúp đơn giản hóa lượng lớn dữ liệu theo cách trừu tượng dễ quan sát. Nói cách khác, thống kê mô tả biến dữ liệu thành 1 bản tóm tắt đơn giản. Mặc dù thống kê mô tả có thể có những hạn chế, nhưng nó cung cấp một bản tóm tắt mạnh mẽ có thể cho phép so sánh giữa các đơn vị. Có 3 loại phân tích mô tả phổ biến bao gồm phân bố, xu hướng trung tâm và phân tán.

a. Phân bố

Phân phối là bản tóm tắt tần suất của các giá trị riêng lẻ hoặc phạm vi các giá trị của một biến. Một trong những cách phổ biến nhất để mô tả dữ liệu một biến là sử dụng tần số. Tùy thuộc vào từng biến cụ thể, tất cả các giá trị dữ liệu có thể được biểu diễn hoặc dữ liệu có thể được nhóm thành các danh mục ưu tiên trước. Phân bố dạng tần số có thể được mô tả theo hai cách, dưới dạng bảng hoặc biểu đồ. Phân bố dạng tần số có thể được mô tả như trong một biểu đồ như trong hình bên dưới. Loại biểu đồ này thường được gọi là histogram.

(Ví dụ về phân bố của các biến máy làm lạnh chiller thể hiện bằng histogram plot)

Nó là một ý tưởng tốt để sử dụng histogram trong việc tóm tắt hình dạng sự phân bố của các biến. Phân tích này cũng giúp cho việc kiểm tra các giá trị ngoại lại hoặc kiểm tra lại dữ liệu thu được.

b. Xu hướng tập trung

Xu hướng trung tâm của phân phối là nhằm thể hiện ước tính về “trung tâm” của phân phối. Xu hướng trung tâm nhằm cung cấp mô tả chính xác về toàn bộ dữ liệu. Nó là 1 giá trị đơn lẻ đại diện cho tính tiêu biểu nhất của dữ liệu thu nhập được. Thuật ngữ ” number crunching” được sử dụng để minh họa khía cạnh này. Có ba loại ước lượng chính về xu hướng trung tâm: Trung bình, Trung vị, Yếu vị.

(Nguồn: ResearchGate)

c. Sự phân tán

Trong thống kê, xu hướng trung tâm cho một giá trị duy nhất đại diện cho toàn bộ giá trị; tuy nhiên, xu hướng trung tâm không thể mô tả quan sát đầy đủ. Phép đo độ phân tán giúp chúng ta nghiên cứu sự biến thiên của bộ dữ liệu. Theo nghĩa thống kê, phân tán có hai ý nghĩa: thứ nhất, nó đo lường sự biến động của chính đặc tính của chúng và thứ hai, nó đo lường sự biến động xung quanh giá trị trung bình. Nếu sự khác biệt giữa giá trị thu được và giá trị trung bình cao thì độ phân tán sẽ cao. Nếu không, nó sẽ thấp. Các nhà nghiên cứu sử dụng kỹ thuật này vì nó xác định độ tin cậy của giá trị trung bình. Sự phân tán cũng giúp những nhà nghiên cứu trong việc so sánh hai hoặc nhiều chuỗi. Có hai thước đo phổ biến của độ phân tán, phạm vi (range) và độ lệch chuẩn (standard deviation). Phạm vi chỉ đơn giản là giá trị cao nhất trừ đi cho giá trị thấp nhất. Độ lệch chuẩn là một ước tính chính xác và chi tiết hơn về độ phân tán bởi vì một giá trị ngoại lai có thể làm sai lệch phạm vi (range).

4. Phân tích chuẩn đoán

(Nguồn: Governance Analytics)

Đây là bước phức tạp tiếp theo trong phân tích dữ liệu. Phân tích chẩn đoán mô tả các kỹ thuật để tìm hiểu việc “tại sao điều này lại xảy ra?”. Khi đánh giá dữ liệu đã được mô tả, các công cụ phân tích chẩn đoán sẽ giúp cho một nhà phân tích để đi sâu vào tìm hiểu nguyên nhân gốc rễ của vấn đề. Nó giúp mang lại giá trị từ việc thu thập dữ liệu bằng cách đặt những câu hỏi phù hợp và đi sâu vào bộ dữ liệu để tìm câu trả lời. Nó bao gồm các quy trình như khám phá dữ liệu, khai thác dữ liệu, tương quan, drill down and drill through.

Phân tích chẩn đoán là một trong những cách khám phá thông tin chi tiết từ dữ liệu của mình và làm cho dữ liệu đó mang lại giá trị cho chúng ta. Có vô số cách để đặt câu hỏi về dữ liệu. Do đó, hãy tập trung vào câu hỏi nào là phần quan trọng nhất trong sản xuất. Mục tiêu của tất cả các phân tích phải là thông tin phù hợp hơn, điều này sẽ dẫn đến các quyết định có giá trị hơn và hiểu biết đầy đủ hơn trong nhà máy.

5. Phân tích dự đoán

Phân tích dự đoán là một nhánh của phân tích nâng cao. Phân tích dự đoán tất cả là về dự báo. Các mô hình dự đoán có thể ước tính một số lượng có thể định lượng được hoặc một thời điểm mà điều gì đó có thể xảy ra. Các mô hình dự đoán thường sử dụng nhiều loại dữ liệu khác nhau để đưa ra dự đoán.

Bất kỳ ngành nào cũng cần phân tích dự đoán để giúp giải quyết các vấn đề khó khăn và mở ra các cơ hội mới. Điều đầu tiên là phân tích dự đoán có thể giúp cải thiện các hoạt động của nhà máy. Mô hình dự đoán có thể giúp việc quản lý tài nguyên. Ví dụ, than được sử dụng trong máy hơi nước. Từ đó giúp máy móc / thiết bị hoạt động hiệu quả hơn. Thứ hai, nó giúp nhà sản xuất giảm thiểu rủi ro. Nó giúp dự báo khi nào một phần của máy sẽ bị hỏng. Do đó, kỹ sư có thể bảo trì nó đúng thời hạn. Bằng cách dự đoán bảo trì, nó giúp giảm thời gian ngừng hoạt của nhà máy.

Đối với các nhà sản xuất, xác định các yếu tố dẫn đến việc giảm chất lượng và lỗi sản xuất là rất quan trọng, cũng như tối ưu hóa các bộ phận, nguồn lực dịch v. Lenovo là một nhà sản xuất đã sử dụng phân tích dự đoán để hiểu rõ hơn về các yêu cầu bảo hành – một sáng kiến dẫn đến việc giảm 10 đến 15% chi phí bảo hành.

6. Phân tích đề xuất

Phân tích đề xuất là một loại phân tích dữ liệu — sử dụng công nghệ – để giúp các doanh nghiệp đưa ra quyết định tốt hơn thông qua việc phân tích dữ liệu. Cụ thể, phân tích mô tả bao gồm thông tin về các tình huống hoặc vấn đề có thể xảy ra, các nguồn lực sẵn có, hiệu suất trong quá khứ và hiệu suất hiện tại, đồng thời đề xuất một lộ trình hành động hoặc chiến lược cho tương lai. Nó có thể được sử dụng để đưa ra quyết định về bất kỳ thời điểm nào, từ ngắn hạn đến lâu dài. Đối lập với phân tích đề xuất là phân tích mô tả, kiểm tra các quyết định và kết quả sau thực tế.

(Ví dụ về phân tích đề xuất của máy làm lạnh)

Phân tích đề xuất dựa trên các kỹ thuật trí tuệ nhân tạo, chẳng hạn như học máy để hiểu từ dữ liệu thu được. Sức mạnh học máy giúp nó có thể xử lý một lượng lớn dữ liệu được thu thập bởi các thiết bị IoT. Khi dữ liệu mới được thêm vào, chương trình máy tính sẽ tự động điều chỉnh để sử dụng nó. Phân tích đề xuất hoạt động gần giống với một loại phân tích dữ liệu khác, phân tích dự đoán, đã được giới thiệu ở trên. Tuy nhiên, nó còn đi xa hơn: Sử dụng ước tính của phân tích dự đoán về những gì có thể xảy ra, từ đó có thể đề xuất ra những việc cần thực hiện. Ví dụ về máy làm lạnh, bất cứ khi nào giá trị mới đến, chương trình máy tính có thể tính toán giá trị tiêu thụ năng lượng nên là bao nhiêu.

Kết luận

Trong bài viết này, một số kiểu phân tích dữ liệu được giới thiệu. Mỗi loại phân tích dữ liệu này được kết nối và phụ thuộc vào nhau ở một mức độ nhất định. Mỗi kiểu phân tích trong số đó được sử dụng cho một mục đích khác nhau và cung cấp thông tin chi tiết khác nhau. Vì vậy, điều quan trọng là phải hiểu và sử dụng đúng các loại phân tích này. Trong phần tiếp theo, chúng ta sẽ tìm hiểu cách áp dụng học máy và xây dựng một mô hình để đạt được lợi ích. Nếu bạn có bất kỳ câu hỏi nào, vui lòng liên hệ với chúng tôi theo địa chỉ Email: info@daviteq.com.

 

Tham khảo trích dẫn: