Monocular Vision
Công nghệ Theo dõi Vị trí và Định vị sử dụng Monocular Vision
Monocular Vision là công nghệ thị giác máy tính sử dụng một camera duy nhất để thu thập và phân tích hình ảnh. Ngược lại với nó là công nghệ Stereo Vision, sử dụng hai camera để đo độ sâu và phản ánh vào việc định vị.
Monocular Vision là gì?
Monocular vision là công nghệ thị giác sử dụng camera đơn để thu thập thông tin hình ảnh 2D. Công nghệ này rất đơn giản và có thể dễ dàng triển khai chỉ với một camera đơn thông thường, nên được sử dụng trong nhiều lĩnh vực. Do tính dễ áp dụng, nó được sử dụng rộng rãi trong nhiều lĩnh vực công nghiệp khác nhau. Monocular vision được sử dụng trong nhiều lĩnh vực như nhận dạng và theo dõi đối tượng, lái xe tự động, robot học, v.v. Ví dụ, trong lĩnh vực nhận dạng đối tượng, công nghệ sử dụng thuật toán deep learning để nhận dạng và theo dõi các đối tượng trong chuỗi hình ảnh Monocular đã trở nên phổ biến. Ngoài ra, trong lĩnh vực lái xe tự động, nó được sử dụng để nhận diện làn đường, đèn giao thông, biển báo, người đi bộ trên đường và ước tính vị trí, tốc độ của các phương tiện xung quanh để vận hành an toàn.
Đặc điểm nổi bật của RTLS sử dụng Monocular Vision
Công nghệ Monocular Vision sử dụng camera đơn nên chi phí cần thiết để xây dựng hệ thống tương đối thấp. So với camera stereo, camera đơn có đơn giá thấp hơn, cho phép xây dựng RTLS ở quy mô lớn hoặc khu vực rộng lớn với chi phí rẻ hơn các công nghệ khác. Ngoài ra, khi kết hợp với công nghệ học máy, nó cho phép ước tính vị trí chính xác dựa trên dữ liệu đã học trước đó. Điều này đảm bảo độ chính xác cao, và việc sử dụng công nghệ deep learning mới nhất giúp việc học có thể thực hiện được với lượng dữ liệu nhỏ, từ đó giảm chi phí xây dựng và vận hành. RTLS sử dụng Monocular Vision không cần Thẻ (Tag), mang lại hiệu quả tiết kiệm chi phí lớn so với RTLS truyền thống. Việc không cần thiết bị Tag riêng biệt đồng nghĩa với việc lắp đặt và vận hành đơn giản, tính tương thích cao với các cơ sở hạ tầng hiện có, giúp việc triển khai dễ dàng hơn. Hơn nữa, vì không cần lắp đặt thiết bị nhận tín hiệu từ Tag (Anchor), khả năng tận dụng không gian được tăng lên, từ đó nâng cao hiệu quả của cơ sở hạ tầng.
Định vị bằng Monocular Vision hoạt động như thế nào?
Phát hiện đối tượng (Object Detection)
Trong RTLS dựa trên Vision, công nghệ nhận dạng đối tượng Deep Learning được sử dụng để theo dõi đối tượng trong hình ảnh. Đây là một thuật toán trí tuệ nhân tạo được huấn luyện để nhận biết và phân loại các vật thể khác nhau trong hình ảnh. Hiện tại, nó có thể nhận diện khoảng 80 loại vật thể và có thể huấn luyện thêm để nhận diện nhiều loại hơn theo yêu cầu của khách hàng.
Biến đổi phối cảnh (Perspective Transform)
Bằng cách sử dụng biến đổi phối cảnh (Perspective transform), một điểm cụ thể trên hình ảnh 2D có thể được chuyển đổi thành tọa độ trong thế giới thực. Để làm được điều này, một ma trận camera được cấu thành bằng cách sử dụng các tham số nội và ngoại của camera, và ma trận này được sử dụng để chuyển đổi các điểm trên hình ảnh 2D thành các điểm trong không gian thực.
RTLS sử dụng Monocular Vision khác với RTLS sử dụng Stereo Vision như thế nào?
Monocular Vision và Stereo Vision hoạt động cơ bản khác nhau. Monocular Vision chỉ sử dụng một camera để theo dõi vị trí đối tượng, trong khi Stereo Vision sử dụng hai camera và vị trí đối tượng được theo dõi bằng thông tin thị sai từ hai camera. Monocular Vision có thể được triển khai với chi phí tương đối thấp, lắp đặt và bảo trì đơn giản. Tuy nhiên, vì chỉ theo dõi vị trí đối tượng bằng hình ảnh 2D được cung cấp từ camera, độ chính xác và độ tin cậy có thể tương đối thấp hơn. Mặt khác, Stereo Vision có tổng chi phí cao hơn Monocular Vision, bao gồm cả chi phí áp dụng và lắp đặt do độ phức tạp về phần cứng, đồng thời việc xử lý phần mềm cũng phức tạp hơn. Ngay cả khi xử lý cùng một hình ảnh, Stereo Vision RTLS yêu cầu tài nguyên tính toán lớn hơn Monocular Vision RTLS để tính toán thị sai. Do đó, việc lựa chọn công nghệ nào để triển khai RTLS có thể được quyết định dựa trên mục đích sử dụng và ngân sách.
Ưu điểm chính của Monocular Vision
Chi phí tương đối rẻ
Vì Monocular Vision chỉ sử dụng một camera nên chi phí cấu hình phần cứng rẻ. Ngoài ra, do sử dụng một cảm biến hình ảnh duy nhất, việc xử lý phần mềm tương đối đơn giản và sức mạnh tính toán yêu cầu thấp, có thể triển khai với phần cứng cấu hình thấp.
Ít hạn chế về lắp đặt
Monocular Vision có thể theo dõi vị trí và chuyển động của vật thể bất kể camera được lắp đặt ở đâu. Điều này có nghĩa là các lĩnh vực có thể áp dụng rất đa dạng. Ví dụ như theo dõi vị trí trong nhà, phát hiện và theo dõi người đi bộ của xe tự lái, theo dõi vận động viên trong các trận thi đấu thể thao, v.v.
Ứng dụng đa dạng
Công nghệ này có thể theo dõi đối tượng chỉ với một camera, nên việc lắp đặt và bảo trì đơn giản và chi phí tương đối rẻ. Nhờ đó, nó có thể được áp dụng cho nhà thông minh, robot, ô tô, v.v., những thứ được sử dụng nhiều trong cuộc sống hàng ngày.
Giải pháp ORBRO được hiện thực hóa bằng Monocular Vision
Kết nối chính xác dữ liệu vị trí thời gian thực của tài sản và nhân lực với RTLS dựa trên Monocular Vision, và tìm hiểu các giải pháp tiêu biểu cho từng hiện trường.

Quản lý luồng xe trong bãi đỗ xe theo thời gian thực để giảm ùn tắc
Nắm bắt vị trí xe và hiệu quả theo từng không gian theo thời gian thực bằng công nghệ AI tối ưu hóa cho bãi đỗ xe để điều chỉnh luồng đỗ xe.
Tìm hiểu thêm
Phát hiện chuyển động của người đi bộ theo thời gian thực để ngăn ngừa tai nạn giao lộ
Nhận diện người đi bộ xung quanh vạch kẻ đường bằng công nghệ phát hiện dựa trên AI và tự động cảnh báo tình huống nguy hiểm cho phương tiện.
Tìm hiểu thêm
Tự động thống kê tồn kho tài sản thép và phân tích dòng chảy
Tự động ghi lại tồn kho thép cuộn và thép tấm theo thời gian bằng AI và phân tích trực quan dòng chảy tài sản.
Tìm hiểu thêm
Phát hiện hành vi nguy hiểm theo thời gian thực để ứng phó ngay lập tức với an toàn trường học
Phát hiện các dấu hiệu bạo lực hoặc té ngã của học sinh theo thời gian thực thông qua phân tích video AI và gửi thông báo ngay lập tức cho quản trị viên.
Tìm hiểu thêm