1. Giới thiệuTrong mạng neural, mô hình mạng neural tích chập (CNN) là 1 giữa những mô hình để dấn dạng với phân mô hình ảnh. Trong đó, xác định đối tượng người sử dụng và nhận dạng khuôn mặt là một trong số những nghành mà CNN được thực hiện rộng rãi.CNN phân một số loại hình hình ảnh bằng cách lấy 1 hình hình ảnh đầu vào, cách xử trí và phân loại nó theo các hạng mục nhất quyết (Ví dụ: Chó, Mèo, Hổ, ...). Máy tính xách tay coi hình ảnh đầu vào là một trong mảng pixel và nó phụ thuộc vào độ sắc nét của hình ảnh. Dựa trên độ sắc nét hình ảnh, máy vi tính sẽ thấy H x W x D (H: Chiều cao, W: Chiều rộng, D: Độ dày). Ví dụ: Hình ảnh là mảng ma trận RGB 6x6x3 (3 ở đấy là giá trị RGB).
Bạn đang xem: Convolutional neural network là gì
Về kỹ thuật, quy mô CNN nhằm training với kiểm tra, từng hình ảnh đầu vào sẽ gửi nó qua một loạt các lớp tích chập với các bộ thanh lọc (Kernals), tổng hợp lại các lớp được kết nối tương đối đầy đủ (Full Connected) và áp dụng hàm Softmax nhằm phân loại đối tượng có giá bán trị xác suất giữa 0 và 1. Hình dưới đây là toàn cục luồng CNN để cách xử trí hình hình ảnh đầu vào và phân các loại các đối tượng dựa trên giá bán trị.
Xem xét 1 ma trận 5 x 5 có mức giá trị px là 0 và 1. Ma trận cỗ lọc 3 x 3 như hình bên dưới.
Sau đó, lớp tích chập của ma trận hình hình ảnh 5 x 5 nhân cùng với ma trận cỗ lọc 3 x 3 call là "Feature Map" như hình bên dưới.
Xem thêm: Kết Quả Bóng Đá C1 Hôm Qua
Sự phối kết hợp của 1 hình ảnh với các bộ lọc khác nhau có thể thực hiện các vận động như phát hiện nay cạnh, làm cho mờ và làm cho sắc nét bằng phương pháp áp dụng các bộ lọc. Ví dụ bên dưới đây cho biết hình ảnh tích chập không giống nhau sau lúc áp dụng những Kernel không giống nhau.
3. Bước nhảy - StrideStride là số pixel đổi khác trên ma trận đầu vào. Khi stride là 1 thì ta dịch rời các kernel 1 pixel. Lúc stride là 2 thì ta di chuyển các kernel đi 2 pixel và liên tiếp như vậy. Hình bên dưới là lớp tích chập chuyển động với stride là 2.
4. Đường viền - PaddingĐôi lúc kernel không tương xứng với hình hình ảnh đầu vào. Ta gồm 2 lựa chọn:
Chèn thêm các số 0 vào 4 đường giáp ranh biên giới của hình ảnh (padding).Cắt giảm hình ảnh tại hồ hết điểm không cân xứng với kernel.5. Hàm phi con đường - ReLUReLU viết tắt của Rectified Linear Unit, là một hàm phi tuyến. Với áp ra output là: ƒ (x) = max (0, x).Tại sao ReLU lại quan liêu trọng: ReLU ra mắt tính phi con đường trong ConvNet. Vì dữ liệu trong trái đất mà bọn họ tìm phát âm là những giá trị con đường tính không âm.

Có một số hà phi tuyến khác như tanh, sigmoid cũng có thể được áp dụng thay đến ReLU. Hầu như người ta thường dùng ReLU do nó có năng suất tốt.6. Lớp gộp - Pooling LayerLớp pooling sẽ giảm sút số lượng tham số khi hình hình ảnh quá lớn. Không gian pooling còn gọi là lấy mẫu nhỏ hoặc lấy mẫu xuống làm cho giảm form size của mỗi map nhưng vẫn duy trì lại thông tin quan trọng. Những pooling có thể có nhiều loại không giống nhau:Max PoolingAverage PoolingSum PoolingMax pooling lấy bộ phận lớn độc nhất từ ma trận đối tượng, hoặc lấy tổng trung bình. Tổng tất cả các bộ phận trong map gọi là sum pooling