Tóm tắt: Trong bài viết trước, những lợi ích của học máy đã được giới thiệu. Câu hỏi đặt ra là làm thế nào để có thể áp dụng kỹ thuật này vào sản xuất? Sơ đồ dưới đây trình bày các bước cơ bản về cách áp dụng kỹ thuật học máy. Mục đích của bài viết này chủ yếu giới thiệu hai bước cơ bản đầu tiên: Thu thập dữ liệu và làm sạch dữ liệu. Cách lấy dữ liệu thô sẽ được thảo luận trong phần đầu tiên. Tiếp theo, dữ liệu thô thường sẽ không đầy đủ, không nhất quán và có khả năng chứa một số nhiễu (ngoại lệ). Vì lý do đó, làm sạch dữ liệu sẽ là bước cần thiết. Và cách làm thế nào để xử lý dữ liệu bị thiếu sẽ được giới thiệu ở phần kế tiếp.

Sơ đồ các bước cơ bản của máy học trong sản xuất

1. Thu thập dữ liệu

1.1 Kiến trúc hệ thống IOT để thu thập dữ liệu

Mặc dù mọi hệ thống IoT đều khác nhau, nhưng nền tảng cho mỗi kiến ​​trúc Internet of Things cũng như luồng quy trình dữ liệu chung của nó gần như giống nhau. Trước hết, nó bao gồm “Things”, là các đối tượng được kết nối với Internet nhờ các cảm biến và bộ nhúng để có thể cảm nhận được môi trường xung quanh và thu thập thông tin sau đó được chuyển đến các cổng IoT(“IoT gateways”). Giai đoạn tiếp theo bao gồm các hệ thống thu thập dữ liệu IoT và các cổng thu thập khối lượng lớn dữ liệu chưa được xử lý, chuyển nó thành các luồng kỹ thuật số, lọc và  tiền xử lý để sẵn sàng cho việc phân tích. Lớp thứ ba được đại diện bởi các thiết bị chịu trách nhiệm xử lý thêm và phân tích nâng cao dữ liệu. Lớp này cũng là nơi các công nghệ hiển thị và học máy có thể được áp dụng. Sau đó, dữ liệu được chuyển đến trung tâm dữ liệu (có thể là trên đám mấy hoặc lưu dữ liệu ở máy cục bộ) Đây là nơi dữ liệu được lưu trữ, quản lý và phân tích chuyên sâu để có được những thông tin chi tiết hữu ích .

Kiến trúc hệ thống IoT để thu thập dữ liệu

1.2 Công nghệ dây và không dây

Hệ thống IoT có thể dùng kết nối có dây, không dây hoặc kết hợp cả hai để thiết lập hệ thống. Kết nối có dây có độ tin cậy và tốc độ cao nhưng thiếu tính di động, chi phí triển khai cao, dễ bị hư hỏng cáp và khó khăn với khả năng mở rộng hệ thống trong khi kết nối không dây thì tiện lợi, khu vực giám sát lớn và giá cả lợi thế nhưng thời lượng pin ngắn, tốc độ chậm hơn, cấu hình phức tạp và phạm vi tín hiệu hạn chế.

Kết nối có dây là thuật ngữ đề cập đến bất kỳ phương tiện vật lý nào chứa cáp. Các loại cáp có thể là dây đồng, cáp xoắn đôi hoặc cáp quang. Mạng có dây được sử dụng để mang các dạng tín hiệu điện khác nhau từ đầu này đến đầu kia. Giao tiếp có dây được chia thành hai loại là “internal communication” như I2C, SPI và “external communication” như Ethernet, RS-232, RS-485, UART, USART, USB.

Kết nối không dây là kết nối bằng sóng điện từ (sóng vô tuyến hoặc sóng hồng ngoại). Tất cả các thiết bị không dây sẽ có ăng-ten hoặc cảm biến. Công nghệ không dây đang phát triển nhanh chóng và ngày càng đóng vai trò quan trọng trong cuộc sống của con người trên toàn thế giới. Các công nghệ và nhiều thiết bị khác nhau đang được phát triển để đáp ứng với việc sử dụng mạng không dây ngày càng tăng. Các công nghệ truy cập không dây thường được chia thành các loại, dựa trên tốc độ và khoảng cách: Mạng khu vực cá nhân không dây (WPAN), Mạng cục bộ không dây (WLAN), Mạng khu vực đô thị không dây (WMAN) và Mạng diện rộng không dây (WWAN) [6]. Đối với giao tiếp không dây, có nhiều công nghệ khác nhau. Bảng sau đây cho thấy sự so sánh giữa các công nghệ điển hình về các giá trị tần số, tốc độ dữ liệu, phạm vi, mức sử dụng điện và chi phí.

Bảng so sánh giữa các công nghệ không dây điển hình

1.3 Mạng IoT không dây Sub – Ghz

1.3.1 Mạng không dây Sub – Ghz

Đối với tất cả những người sử dụng công nghệ IoT, việc phân biệt giữa các băng tần ISM sub-GHz và 2,4 GHz là 1 sự quan trọng trong việc quyết định sử dụng công nghệ không dây. Theo Behrtech, so với băng tần 2.4Ghz, băng tần sub-Ghz có phạm vi xa hơn nhiều, ít nhiễu sóng vô tuyến bên ngoài hơn, tiết kiệm điện hơn và chi phí cơ sở hạ tầng ít hơn. Mạng cảm biến Sub-Ghz là ứng dụng điển hình của công nghệ sub-Ghz. Kiến trúc hệ thống của mạng không dây sub-Ghz bao gồm cảm biến không dây và bộ điều phối / thu không dây kết nối theo kiểu sao như hình bên dưới.

Cấu trúc hệ thống của mạng cảm biến Sub-Ghz

1.3.2 Mạng Sigfox

Miền IoT được mô tả đặc trưng bởi nhiều ứng dụng mà yêu cầu giao tiếp băng thông tần số thấp trên một phạm vi rộng, với chi phí thấp và năng lượng thấp. Mạng diện rộng năng lượng thấp (LPWAN) đáp ứng các yêu cầu này bằng cách sử dụng tần số vô tuyến sub-GHz (thường là 433 hoặc 868 MHz) với phạm vi truyền dẫn từ 1 đến 50 km. Do đó, một trạm cơ sở có thể bao phủ một khu vực rộng lớn và có thể hỗ trợ số lượng lớn các thiết bị kết nối vào (hơn 1000 thiết bị trên mỗi trạm). Các miền nổi bật là chuẩn Sigfox và LoRaWAN.

Sigfox sử dụng “differential binary phase-shift keying” (DBPSK) và “the Gaussian frequency shift keyin”  (GFSK) cái mà cho phép giao tiếp bằng băng tần vô tuyến sử dụng trong môi trường Công nghiệp, Khoa học và Y tế thường dùng 868MHz ở Châu Âu và 902MHz ở Mỹ. Sigfox đã hợp tác với một số công ty trong ngành LPWAN như Texas Instruments, Silicon Labs và ON Semiconductor. Tiêu chuẩn hiện tại cho giao tiếp Sigfox hỗ trợ tới 140 uplink message mỗi ngày, mỗi cái có thể mang tải trọng 12 octet với tốc độ dữ liệu lên đến 100 bit mỗi giây. Mạng Sigfox bao gồm các đối tượng (thiết bị người dùng), cổng sigfox hoặc trạm cơ sở, sigfox cloud và máy chủ ứng dụng. Các đối tượng của mạng Sigfox được kết nối với Gateway bằng cấu trúc liên kết hình sao.Kết nối đã được bảo mật giữa sigfox gateways và sigfox clound. Clound giao tiếp với các máy chủ bằng các giao thức khác nhau như SNMP, MQTT, HTTP, IPv6, v.v.tùy theo các ứng dụng.

Kiến trúc mạng Sigfox

1.3.3 Mạng LoRaWAN

Ngoài Sigfox, LoRaWAN là một công nghệ LPWA phổ biến khác. Đặc điểm kỹ thuật mạng LoRaWAN® là một giao thức mạng năng lượng thấp, một mạng lưới giao thức có diện tích lớn để kết nối không dây tới những pin được sử dụng để khởi động “thing” với mạng trong khu vực, quốc gia hoặc toàn cầu và nhắm tới mục tiêu chính của Internet of Things (IoT) như “bi-directional communication”, tính bảo mật, tính di động và bản địa hóa. LoRaWAN sử dụng cấu trúc liên kết hình sao vì nó tăng tuổi thọ pin khi kết nối tầm xa được sử dụng.

Kiến trúc mạng LoRaWan

2. Tiền xử lí dữ liệu

Sau khi thu thập dữ liệu thông qua thiết bị IOT, dữ liệu thô thường chứa nhiều vấn đề như thiếu giá trị, ngoại lai, đặc tính thừa,. tiền xử lí rất quan trọng để có được dữ liệu phục vụ cho việc khai thác thông tin:

  • Chuẩn hóa dữ liệu
  • Phát hiện dữ liệu bị thiếu
  • Detect and process abnormally value
  • Encode feature
  • Reduce redundant feature

2.1 Tiêu chuẩn hóa và chuẩn hóa dữ liệu

(Nguồn: Harshit Kumar)

Các biến được đo lường ở các thang đo khác nhau không đóng góp như nhau vào phân tích và cuối cùng có thể tạo ra sai lệch. Tiểu chuẩn hóa một đặc tính xung quanh giái trị 0 với độ lệch chuẩn là 1 rất quan trọng khi chúng ta so sánh các phép đo có các đơn vị khác nhau. Ví dụ: tiêu chuẩn hóa dữ liệu trong phạm vi giá trị từ 0 – 1000 đến 0 – 1 làm giảm đáng kể độ lệch khi dữ liệu được sử dụng để phân tích.

Tương tự, mục tiêu của việc chuẩn hóa dữ liệu là thay đổi các giá trị của các đặc tính trong tập dữ liệu thành một tỷ lệ chung, mà không làm sai lệch sự khác biệt trong phạm vi giá trị. Đối với học máy, tất cả các tập dữ liệu không nhất thiết yêu cầu chuẩn hóa. Chỉ nên chuẩn hóa dữ liệu khi các đặc tính bị lệch giá trị. Ví dụ, hãy xem xét tập dữ liệu của một máy có nhiệt độ (0 – 100 ° C) và áp suất (0 – 9 atm). Vì 2 đối tượng kiểu dữ liệu nằm trong phạm vi khác nhau, các phân tích có thể bị ảnh hưởng như hồi quy tuyến tính đa biến. Những thông tin về kiểu dữ liệu khi lệch nhau như vậy sẽ ảnh hưởng đến các kết quả phân tích. Chuẩn hóa dữ liệu để tạo giá trị trong cùng một phạm vi nhằm giảm độ lệch.

2.2 Nhận dạng giá trị bị thiếu

Do lỗi kết nối hoặc lỗi đến từ thiết bị, dữ liệu thu được bị thiếu là một vấn đề khá phổ biến. Mặc dù cách đơn giản nhất là xóa giá trị bị thiếu, nhưng cách tiếp cận này không hợp lý vì nó có thể dẫn đến mất mát rất lớn của cả tập dữ liệu và hậu quả có thể là giảm độ chính xác của các thuật toán máy học. Vì lý do đó, phương pháp imputation là cách phổ biến nhất để xử lý giá trị bị thiếu. Phương pháp Imputation biến đổi dữ liệu gốc thành dữ liệu hoàn chỉnh trước khi đào tạo mô hình hoặc thực hiện tác vụ phân tích dữ liệu. Ưu điểm của phương pháp này là nó có thể được sử dụng với bất kỳ thuật toán phân loại nào và cũng có thể xử lý một số lượng lớn các giá trị bị thiếu. Hai phương pháp truyền thống là single imputation và multiple imputation. Việc sử dụng phương pháp nào còn phụ thuộc nhiều vô tập dữ liệu. Nhìn chung thì phương pháp single imputation có lợi thế về thời gian hơn so với multiple imputation.

2.3 Phát hiện ngoại lai

(Nguồn: sklearn)

Lý do tại sao có ngoại lệ trong sản xuất thường đến từ lỗi đo lường hoặc lỗi thiết bị. Nhiều ứng dụng yêu cầu phải có khả năng quyết định xem một quan sát mới thuộc cùng một phân phối với các quan sát hiện có (nó là một inlier) hay nên được coi là ngoại lai (outlier). Giá trị ngoại lai thường được định nghĩa là một giá trị nằm xa giá trị bình thường. Do sự khác biệt rất lớn giữa giá trị bình thường và giá trị ngoại lai, giá trị ngoại lai có thể dẫn đến sai lệch trong đo lường thực tế và cũng có thể gây ra một vấn đề lớn trong thống kê. Các yếu tố ngoại lai nên được xem xét cẩn thận. Thông thường, chúng có thể chứa thông tin có giá trị. Trước khi loại bỏ, nên cố gắng hiểu tại sao tập dữ liệu lại chứa các ngoại lệ. Nói một cách tổng quát, các yếu tố ngoại lai có thể tốt hoặc xấu.

2.4 Mã hóa đặc tính

(Nguồn: Dzone)

Trong các dự án máy học, một phần quan trọng trong các kỹ thuật xử lí đặc tính. Các đặc tính chứa các giá trị phân loại rất phổ biến. Tuy nhiên, thuật toán học máy  chỉ có thể đọc các giá trị số. Điều cần thiết là phải mã hóa các đặc tính phân loại thành các giá trị số. Hai kỹ thuật phổ biến nhất là Ordinal Encoding và One-Hot Encoding.

2.5 Chọn lọc đặc tính

(Nguồn: KDnuggets)

Trong học máy và thống kê, chọn lọc đặc tính, còn được gọi là lựa chọn biến, lựa chọn thuộc tính hoặc lựa chọn tập hợp con của biến, là quá trình chọn một tập hợp con của các đặc tính có liên quan để sử dụng trong xây dựng mô hình máy học. Vấn đề mà nhiều người gặp là xác định các đặc tính có liên quan từ một tập hợp dữ liệu và loại bỏ các đặc tính không liên quan, ít quan trọng hơn hoặc không đóng góp nhiều vào biến mục tiêu để đạt được độ chính xác tốt hơn cho mô hình máy học. Các đặc tính không liên quan hoặc có liên quan một phần có thể tác động xấu đến hiệu suất của mô hình.Điểm quan trọng của một đặc tính có thể cung cấp thông tin hữu ích như:

Điểm quan trọng của đặc tính có thể cung cấp thông tin chi tiết về tập dữ liệu. Điểm số tương đối có thể làm nổi bật các đặc tính nào có thể liên quát nhất tới biến mục tiêu, các đặc tính nào ít liên quan hơn. Điều này có thể được giải thích bởi miền giá trị và có thể được sử dụng làm cơ sở để thu thập hoặc phân biệt dữ liệu.

Điểm quan trọng của tính năng có thể cung cấp thông tin chi tiết về mô hình. Hầu hết các điểm số quan trọng được tính bằng các mô hình dự đoán trên các tập dữ liệu. Việc kiểm tra điểm quan trọng cung cấp thông tin chi tiết về mô hình cụ thể đó và các tính năng nào là quan trọng và ít quan trọng nhất đối với mô hình khi nó đưa ra dự đoán. Đây là một kiểu diễn giải mô hình có thể được thực hiện cho những mô hình có hỗ trợ tính năng này.

Tầm quan trọng của tính năng có thể được sử dụng để cải thiện mô hình dự đoán. Điều này có thể đạt được bằng cách sử dụng điểm quan trọng để chọn các đặc tính cần xóa (điểm thấp nhất) hoặc giữ lại các đựac tính đó (điểm cao nhất). Đây là một loại lựa chọn đặc tính và có thể đơn giản hóa bài toán đang được mô hình hóa, tăng tốc quá trình tạo mô hình (xóa các đặc tính sẽ làm giảm chiều của tập dữ liệu) và trong một số trường hợp, sẽ cải thiện hiệu suất của mô hình.

3. Kết luận

Trong bài viết này, cách mà thu thập dữ liệu và xử lý dữ liệu đã được giới thiệu. Những kỹ thuật này rất quan trọng trong quá trình ứng dụng máy học. Trong phần tiếp theo, nhiệm vụ phân tích dữ liệu sẽ được đề cập. Nếu bạn có bất kỳ câu hỏi nào, vui lòng liên hệ với chúng tôi theo địa chỉ Email: info@daviteq.com

Cảm ơn vì đã đọc bài viết này!