Tân Hưng Hà
Miễn phí vận chuyển đơn hàng từ 1.000.000 VNĐ
Computer Vision - Machine Vision - Vision system

Computer vision – Thị giác máy tính và ứng dụng của công nghệ computer vision trong thực tiễn

By Administrator
December 28, 2023, 9:29 am0 lượt xem
Computer vision – Thị giác máy tính và ứng dụng của công nghệ computer vision trong thực tiễn

Computer vision là gì?

Computer vision, hay thị giác máy tính, là một lĩnh vực khoa học máy tính liên quan đến việc xử lý và hiểu thông tin từ hình ảnh và video. Thị giác máy tính sử dụng các thuật toán để trích xuất các đặc trưng từ dữ liệu hình ảnh, chẳng hạn như đường viền, góc và màu sắc. Các đặc trưng này sau đó được sử dụng để xác định các đối tượng, thực hiện các nhiệm vụ phân loại và theo dõi chuyển động.

Hãy tưởng tượng bạn đang đi bộ trên đường và nhìn thấy một chiếc ô tô đang đến gần. Bạn có thể ngay lập tức nhận ra chiếc ô tô đó là màu gì, loại xe gì và đang đi theo hướng nào. Bạn làm điều này bằng cách sử dụng thị giác của mình để phân tích các thông tin từ hình ảnh chiếc ô tô.

Tuy nhiên, đối với máy tính, hình ảnh chiếc ô tô giống như những hình ảnh khác, là một mảng các pixel, các giá trị hay các mã code thể hiện sắc độ khác nhau của các màu đỏ, màu lục và màu xanh dương. Từ những năm thuộc thập niên 50s, các nhà khoa học đã đối mặt với thách thức tạo ra công nghệ có thể phân biệt những hình ảnh, video có khả năng phân tích như thị giác của con người. Và đây là thời điểm mà lĩnh vực Computer vision – thị giác máy tính ra đời, trở thành một trong những chủ đề nghiên cứu được quan tâm nhất về khoa học máy tính và trí thông minh nhân tạo AI.

Đến nay, sau nhiều thập kỷ trôi qua, con người đã đạt được nhiều thành tựu trong nghiên cứu và phát triển công nghệ Computer vision – thị giác máy tính và ứng dụng trong nhiều lĩnh vực sản xuất và công nghiệp, giúp tự động hóa nhiều tác vụ. Những nền tảng phần mềm xử lý có thể hiểu và mô tả được nội dung dữ liệu trực quan.

Computer vision hoạt động theo cách tương tự như thị giác, được thực hiện từ cả phần cứng và phần mềm. Phần cứng là hệ thống camera cùng máy tính được điều khiển bởi nền tảng phần mềm giúp thực hiện yêu cầu. Máy tính sử dụng các thuật toán để phân tích các thông tin từ hình ảnh và video, chẳng hạn như màu sắc, đường viền, góc và độ tương phản. Các thông tin này sau đó được sử dụng để xác định các đối tượng, thực hiện các nhiệm vụ phân loại và theo dõi chuyển động.

Dưới đây là một số ví dụ về ứng dụng của computer vision trong thực tế:

Nhận dạng khuôn mặt: Computer vision được sử dụng để nhận dạng khuôn mặt của con người, chẳng hạn như trong các ứng dụng bảo mật và nhận dạng khách hàng. Ví dụ, khi bạn sử dụng điện thoại thông minh để mở khóa bằng khuôn mặt, máy ảnh của điện thoại sẽ sử dụng computer vision để xác định khuôn mặt của bạn.

Nhận dạng đối tượng: Computer vision được sử dụng để xác định các đối tượng trong hình ảnh, chẳng hạn như trong các ứng dụng phân loại sản phẩm và tự lái xe. Ví dụ, khi bạn sử dụng ứng dụng mua sắm trực tuyến để tìm kiếm một sản phẩm, máy tính sẽ sử dụng computer vision để xác định sản phẩm trong hình ảnh bạn tải lên.

Theo dõi chuyển động: Computer vision được sử dụng để theo dõi chuyển động của các đối tượng trong video, chẳng hạn như trong các ứng dụng theo dõi hành động và theo dõi đối tượng. Ví dụ, khi bạn xem video thể thao, máy tính sẽ sử dụng computer vision để theo dõi chuyển động của các cầu thủ trên sân.

Nhập liệu tự động: Bạn đã bao giờ tự hỏi làm thế nào các ứng dụng nhận dạng văn bản tự động có thể đọc và hiểu văn bản trong hình ảnh? Đó là nhờ thị giác máy tính. Thị giác máy tính được sử dụng để trích xuất các đặc trưng từ văn bản trong hình ảnh, chẳng hạn như đường viền, khoảng cách và góc. Các đặc trưng này sau đó được sử dụng để xác định các ký tự và từ.

Tự lái xe: Thị giác máy tính là một thành phần quan trọng của công nghệ tự lái xe. Thị giác máy tính được sử dụng để giúp xe nhận biết các đối tượng trong môi trường xung quanh, chẳng hạn như xe khác, người đi bộ và vật thể trên đường.

Hệ thống giám sát: Thị giác máy tính được sử dụng trong các hệ thống giám sát để phát hiện các hoạt động bất thường. Ví dụ, thị giác máy tính có thể được sử dụng để phát hiện các đối tượng di chuyển bất thường trong một khu vực, chẳng hạn như một người đang xâm phạm.

Computer vision là một lĩnh vực đang phát triển nhanh chóng với nhiều ứng dụng tiềm năng. Thị giác máy tính có thể giúp chúng ta hiểu thế giới xung quanh tốt hơn và tạo ra các ứng dụng mới và sáng tạo.

 

Sơ lược về lịch sử hình thành và phát triển computer vision

Lịch sử của thị giác máy tính có thể được bắt nguồn từ những năm 1950, khi các nhà khoa học máy tính bắt đầu nghiên cứu cách tạo ra các hệ thống có thể hiểu và xử lý thông tin từ hình ảnh. Một trong những bước đột phá đầu tiên trong lĩnh vực này là vào năm 1957, khi David Marr và John Evans phát triển lý thuyết về thị giác máy tính dựa trên các nghiên cứu về thị giác của con người.

Trong những năm 1960 và 1970, thị giác máy tính đã phát triển thành một lĩnh vực nghiên cứu chính thức với sự ra đời của các tạp chí và hội nghị chuyên ngành. Một số ứng dụng thị giác máy tính đầu tiên đã được phát triển trong thời kỳ này, chẳng hạn như hệ thống nhận dạng chữ viết và hệ thống giám sát.

Trong những năm 1980, thị giác máy tính đã trải qua một giai đoạn phát triển mạnh mẽ nhờ sự phát triển của các máy tính mạnh mẽ hơn và các thuật toán mới. Một số ứng dụng thị giác máy tính quan trọng đã được phát triển trong thời kỳ này, chẳng hạn như hệ thống nhận dạng khuôn mặt và hệ thống phân loại hình ảnh.

Trong những năm 1990, thị giác máy tính đã tiếp tục phát triển với sự ra đời của các kỹ thuật học máy. Học máy đã giúp các hệ thống thị giác máy tính trở nên chính xác và hiệu quả hơn.

Trong những năm 2000 và 2010, thị giác máy tính đã trở thành một lĩnh vực quan trọng với nhiều ứng dụng thực tế. Một số ứng dụng thị giác máy tính phổ biến hiện nay bao gồm tự lái xe, nhận dạng đối tượng và giám sát.

Một số cột mốc quan trọng trong lịch sử thị giác máy tính bao gồm:

  • 1951: Nhà khoa học máy tính người Mỹ David Marr đề xuất một mô hình lý thuyết về cách con người nhận thức hình ảnh. Mô hình này đã có ảnh hưởng sâu sắc đến sự phát triển của thị giác máy tính.
  • 1966: Dự án "Summer Vision" được bắt đầu tại MIT do Seymour Papert và Marvin Minsky thực hiện. Dự án này đã tạo ra một số thành tựu quan trọng trong thị giác máy tính, bao gồm phát triển các thuật toán phân tích hình ảnh và nhận dạng mẫu, là nền tảng của công nghệ rule-based AI.
  • 1970: Nhận dạng chữ viết được phát triển thành một lĩnh vực nghiên cứu chính trong thị giác máy tính.
  • 1979: nhà khoa học Nhật Bản Kunihiko Fukushima đã đề xuất neocognitron – hệ thống computer vision được xây dựng dựa theo nền tảng nghiên cứu khoa học thần kinh được thực hiện trên vỏ não về thị giác của con người. Neocognitron không thể thực hiện nhiệm vụ phức tạp, nhưng lại là một trong những phát triển quan trọng nhất của computer vision.
  • 1980: Thị giác máy tính bắt đầu được ứng dụng trong các lĩnh vực thực tế, chẳng hạn như kiểm tra chất lượng và giám sát.
  • 1990: Học máy bắt đầu được áp dụng rộng rãi trong thị giác máy tính.
  • 2000: Thị giác máy tính bắt đầu được ứng dụng trong các lĩnh vực mới, chẳng hạn như tự lái xe và thực tế ảo.

 

Cuộc cách mạng học sâu – Deep learning

Học sâu (Deep Learning) là một nhánh của học máy (Machine Learning) sử dụng các mạng nơ-ron nhân tạo (neural networks) có nhiều layer ẩn để học các mối quan hệ phức tạp trong dữ liệu. Học sâu đã đạt được những thành tựu đáng kinh ngạc trong nhiều lĩnh vực, bao gồm thị giác máy tính, xử lý ngôn ngữ tự nhiên, và trí tuệ nhân tạo tổng quát.

Trong thập niên 80s của thế kỷ trước, nhà khoa học người Pháp Yan LeCun và các công sự đã giới thiệu mang Neuron LeNet, hệ thống AI lấy cảm hứng từ Neocognitron của nhà khoa học Nhật Bản Kunihiko Fukushima. Phương pháp thực hiện của hệ thống AI là một CNN gồm nhiều layer tế bào thần kinh nhân tạo, cá thành phần toán học mô phỏng gần giống các hoạt động của phiên bản sinh học.

CNN hoạt động bằng cách sử dụng các bộ lọc (filter) để trích xuất các đặc trưng từ dữ liệu hình ảnh. Bộ lọc là các khối nhỏ của các nơ-ron được kết nối với nhau. Mỗi bộ lọc được thiết kế để tìm kiếm một loại đặc trưng cụ thể trong dữ liệu hình ảnh.

CNN bao gồm các thành phần sau:

  • Bộ lọc (filter): Bộ lọc là các ma trận số học được thiết kế để tìm kiếm các mẫu nhất định trong dữ liệu.
  • Biến đổi tích chập (convolutional operation): Biến đổi tích chập là một phép toán toán học được sử dụng để áp dụng bộ lọc cho dữ liệu.
  • Layer pooling: Layer pooling là một layer giảm kích thước dữ liệu bằng cách lấy các phép tính trung bình hoặc tối thiểu của các khu vực dữ liệu.
  • Layer full connection: Layer full connection là một layer kết nối tất cả các nơ-ron trong một layer với tất cả các nơ-ron trong layer tiếp theo.

Cách thức hoạt động của CNN

CNN hoạt động bằng cách sử dụng các bộ lọc để trích xuất các đặc trưng từ dữ liệu hình ảnh. Các bộ lọc được áp dụng cho dữ liệu hình ảnh bằng cách sử dụng biến đổi tích chập. Biến đổi tích chập là một phép toán toán học được sử dụng để tính toán giá trị của mỗi điểm trong dữ liệu hình ảnh dựa trên các điểm xung quanh của nó.

Sau khi các bộ lọc được áp dụng cho dữ liệu hình ảnh, các đặc trưng được trích xuất được chuyển đến layer pooling. Layer pooling là một layer giảm kích thước dữ liệu bằng cách lấy các phép tính trung bình hoặc tối thiểu của các khu vực dữ liệu.

Cuối cùng, các đặc trưng được giảm kích thước được chuyển đến layer full connection. Layer full connection là một layer kết nối tất cả các nơ-ron trong một layer với tất cả các nơ-ron trong layer tiếp theo.

Layer full connection sử dụng các hàm kích hoạt (activation function) để tính toán giá trị của mỗi nơ-ron trong layer. Hàm kích hoạt là một hàm toán học được sử dụng để giới hạn giá trị của các nơ-ron trong mạng thần kinh.

Các giá trị của các nơ-ron trong layer full connection được sử dụng để đưa ra kết quả của CNN. Kết quả có thể là một phân loại, một số hoặc một giá trị thực.

 

Những ứng dụng thực thế của computer vision

Sau nhiều thập kỷ nghiên cứu và phát triển, computer vision đã trở thành xu hướng mới trong thời kỳ Tự động hóa hiện nay. Các ứng dụng của computer vision trải rộng từ cuộc sống đời thường cho đến hoạt động công nghiệp và sản xuất đòi hỏi nhiều yếu tố phức tạp.

Chúng ta có thể dễ dàng nhận thấy ứng dụng của computer vision trong đời thường như công nghệ nhận dạng khuôn mặt được tích hợp trong những chiếc smartphone, nhiều dòng máy tinh cá nhân (laptop, PC) cũng đang dần được sử dụng. Google sử dụng để giúp người dùng tìm kiếm các đối tượng và cảnh vật như “con mèo” hoặc “bình minh” trong Gallery của bạn. Một ví dụ khác là Adobe Lightroom CC sử dụng machine Learning đẻ tăng cường chi tiết của cá hình ảnh được phóng lớn.

Chuyển sang các lĩnh vực chuyên biệt hơn, Computer vision đang được ứng dụng phổ biển trong sản xuất và công nghiệp. Với nhiều ứng dụng đa dạng như Đọc barcode tự động với tốc độ cao, nhận diện và kiểm tra chất lượng tem nhãn, Xác định NG/ OK trong quy trình kiểm tra chất lượng sản phẩm, xác định pass/ fail, tích hợp với robot để thực hiện tác vụ Pick and place… các ứng dụng này giúp các nhà máy giảm được đáng kể lượng nhân công, tăng gấp bội năng suất làm việc với độ chính xác cao hơn.

 

Những hạn chế của Computer Vision – thị giác máy tính

Một hạn chế của thị giác máy tính là nó có thể bị ảnh hưởng bởi nhiễu. Nhiễu là bất kỳ sự gián đoạn nào trong một hình ảnh hoặc video có thể làm sai lệch kết quả của hệ thống thị giác máy tính. Nhiễu có thể do nhiều yếu tố gây ra, chẳng hạn như ánh sáng yếu, vật thể che khuất hoặc các vấn đề kỹ thuật với máy ảnh.

Một hạn chế khác của thị giác máy tính là nó có thể khó xử lý các hình ảnh và video phức tạp. Ví dụ, một hệ thống thị giác máy tính có thể gặp khó khăn trong việc xác định một đối tượng trong một nền phức tạp hoặc trong việc phân biệt giữa các đối tượng có hình dạng hoặc kích thước tương tự.

Hạn chế thứ ba của thị giác máy tính là nó có thể dễ bị lừa dối. Các nhà nghiên cứu đã phát triển các kỹ thuật để lừa dối hệ thống thị giác máy tính bằng cách tạo ra các hình ảnh và video giả mạo. Các hình ảnh và video giả mạo này có thể được sử dụng để tạo ra thông tin sai lệch hoặc để thực hiện các hành vi bất hợp pháp.

 

Bài viết liên quan

  • Ecom
    Delivery

    Miễn phí vận chuyển

  • Ecom
    Support 24/7

    Hỗ trợ kỹ thuật

  • Ecom
    Gift voucher

    Quà tặng hấp dẫn

  • Ecom
    Refund

    Bảo hành & Đổi hàng

  • Ecom
    Secure payment

    Thanh toán đa dạng

Nhận thông tin sản phẩm & ưu đãi

Để lại Email của bạn để nhận nhiều ưu đãi lớn.