/2023_11_25_638365259637395311_machine-learning-bia.jpg)
/2023_10_23_638336727407364330_387133158_3490347241187257_5929032012602395664_n.jpg)
/2023_10_23_638336727407364330_387133158_3490347241187257_5929032012602395664_n.jpg)
Machine learning là gì? Tất tần tật những điều bạn cần biết về machine learning
Machine Learning hiện đang là một chủ đề được rất nhiều người quan tâm trong thời gian gần đây. FPT Shop sẽ giúp bạn tìm hiểu xem machine learning là gì? Phân loại về machine và những khái niệm cơ bản liên quan đến machine learning để bạn có thể nắm rõ hơn.
Machine learning đang là một thuật ngữ được rất nhiều người nhắc tới trong thời gian gần đây. Bên cạnh AI (trí tuệ nhân tạo), Machine learning đang được ứng dụng rất nhiều trong các lĩnh vực tại thời điểm hiện nay. Hãy cùng FPT Shop tìm hiểu thêm về machine learning là gì nhé!
Machine learning là gì?
Tính cho tới thời điểm hiện nay, đã có rất nhiều khái niệm về về machine learning, nhưng chung quy lại thì machine learning sẽ có khái niệm như sau:
Machine learning (ML) hay có nghĩa tiếng Việt máy học, là một trong những nhánh của AI (trí tuệ nhân tạo), đây là lĩnh vực nghiên cứu nhằm cho phép máy tính có được khả năng tự cải thiện chính bản thân của chúng dựa vào những dữ liệu mẫu đã được lập sẵn (training data) hoặc là từ kinh nghiệm của chúng (những gì chúng đã được học và được trải nghiệm). Machine learning là công cụ có thể tự động dự đoán tình huống hoặc tự đưa ra quyết định mà không cần bất cứ ai lập trình theo dữ liệu cụ thể.
Bài toán về machine learning thường sẽ được chia ra thành hai loại hình là dự đoán hoặc phân loại. Các bài toán mà công cụ machine learning thường dự đoán là dự đoán về giá nhà đất hay giá xe… Những bài toán phân loại thường sẽ là nhận diện chữ viết tay hoặc có thể dùng để nhận diện đồ vật…
Quy trình làm việc với machine learning (Machine learning workflow)
Machine learning workflow sẽ giúp bạn thấy rõ quy trình cụ thể để làm việc với máy học (machine learning) là như thế nào. Hãy nhìn vào quy trình phía bên dưới đây.
Cụ thể, các bước ở trong machine learning workflow sẽ diễn ra như sau:
- Thu thập dữ liệu (Data collection): bạn cần phải có một bộ dữ liệu (dataset) để cho máy tính có thể học được, bộ dữ liệu này có thể lấy từ những đã được công bố trước đó hoặc tự thu thập chúng ở bất kỳ đâu. Lưu ý là bộ dữ liệu này phải được thu thập từ những nguồn chính thống, làm như vậy thì dữ liệu mới có độ chính xác, từ đó máy tính sẽ học được một cách đúng nhất và có được hiệu quả cao hơn.
- Tiền xử lý (Preprocessing): ở bước này, bạn cần phải chuẩn hóa dữ liệu, loại bỏ tất cả những thuộc tính không quan trọng, gán nhãn toàn bộ dữ liệu, mã hóa những đặc trưng, trích xuất những đặc trưng sau khi, rút gọn bộ dữ liệu nhưng vẫn phải đảm bảo chất lượng kết quả… Bước làm này gây ra tốn thời gian tỉ lệ thuận với lượng dữ liệu mà bạn sở hữu. Bước 1 và bước 2 thường sẽ chiếm khoảng hơn 70% tổng số thời gian bạn thực hiện các bước trong machine learning workflow.
- Huấn luyện mô hình (Training model): bước này chính là bước để bạn huấn luyện cho máy tính những mô hình hay chính là để cho máy học trên những dữ liệu mà bạn đã thu thập và qua bước xử lý dữ liệu.
- Đánh giá mô hình (Evaluating model): sau khi bạn đã huấn luyện xong mô hình cho máy tính, chúng ta cần phải sử dụng những mức độ đo lường để đánh giá tổng quan mô hình, tùy thuộc vào từng mức độ đo lường khác nhau mà mô hình đã sử dụng cũng sẽ được đánh giá là tốt hay không. Nếu độ chính xác của mô hình có thể đạt được trên 80% thì sẽ được cho là mô hình tốt.
- Cải thiện (Improve): sau khi đã đánh giá xong mô hình, những mô hình có độ chính xác không quá tốt (dưới 80%) thì cần phải được chạy lại, chúng ta sẽ làm lại từ bước số 3, cho tới khi đạt được độ chính xác (80% trở lên) đúng như kỳ vọng. Tổng thời gian thực hiện của 3 bước cuối chiếm khoảng 30% tổng thời gian của các bước.
Phân loại Machine learning
Có rất nhiều phương pháp để phân loại các loại machine learning, tuy nhiên, machine learning thường sẽ được phân ra thành hai loại chính là:
- Supervised learning: học có giám sát
- Unsupervised learning: học không giám sát
Ngoài ra, machine learning cũng có thể phân làm thành những loại sau:
- Semi-supervised learning: học bán giám sát
- Reinforce learning: học củng cố/tăng cường
- Deep learning: học sâu
Tuy nhiên, trong bài viết này FPT Shop sẽ chỉ đề cập đến hai phương pháp phân loại phổ biến nhất là: học có giám sát và học không giám sát.
Học có giám sát (supervised learning)
Học có giám sát có nghĩa là bạn cho máy tính của mình học những dữ liệu đã được dán nhãn (label), hiểu theo cách khác, với mỗi đầu vào X1, chúng ta sẽ thu được nhãn Y1 tương ứng.
Học không giám sát (Unsupervised learning)
Học không giám sát là cho máy tính được học trên hệ thống dữ liệu không được dán nhãn, các thuật toán trong machine learning sẽ tìm được ra sự tương quan của dữ liệu, từ đó mô hình hóa dữ liệu hay có thiểu là là làm cho máy tính học những kiến thức, hiểu sâu về dữ liệu, từ đó máy tính có thể tự phân loại những dữ liệu về sau thành nhiều nhóm, lớp (clustering) giống nhau mà máy tính đã được học hoặc giảm bớt số chiều dữ liệu (dimension reduction).
Một số khái niệm cơ bản
Dataset (hay còn được gọi là data corpus hoặc data stock): là tệp dữ liệu ở dạng nguyên bản chưa qua bất kỳ xử lý nào mà bạn đã thu thập được tại bước data collection. Trong một dataset sẽ gồm có nhiều data point.
Data point: nghĩa là điểm dữ liệu, mỗi một điểm dữ liệu sẽ biểu diễn cho một biến quan sát. Mỗi một data point sẽ có nhiều đặc trưng riêng hay các thuộc tính khác nhau, và được chia thành hai loại: dữ liệu dạng số (numerical) và dữ liệu dạng không phải số (ví dụ như một chuỗi dữ liệu) (non-numerical/categorical). Data point thường được biểu diễn thành các dòng tương ứng, mỗi dòng sẽ có 1 hoặc nhiều dữ liệu (đó chính là những đặc trưng).
Test data và Training data: thường thì dataset sẽ được chia ra thành 2 tập này, training data sử dụng để huấn luyện mô hình, còn test data thì dùng để dự đoán các kết quả và đánh giá thang điểm cho mô hình. Thường tỷ lệ chia ra giữa hai tập tập training data và test data sẽ là 8/2.
Features vector: có nghĩa là vector đặc trưng, mỗi một vector này sẽ biểu diễn một điểm dữ liệu (data point) ở trong dataset. Mỗi một vector sẽ có n chiều biểu diễn với những đặc trưng của điểm dữ liệu, mỗi đặc trưng được biểu diễn là một chiều khác nhau và bắt buộc phải là dữ liệu dạng số. Hầu hết những mô hình này chỉ có thể huấn luyện được từ những vector đặc trưng này, do đó tệp dataset này cần chuyển về dạng một tệp những vector đặc trưng (features vectors).
Model: là những mô hình được dùng để luyện tập trên một tệp training data theo thuật toán của mô hình đó. Từ đó, mô hình mới có thể dự đoán được hoặc đưa ra những quyết định dựa trên những kiến thức mà chúng đã được học.
Ứng dụng của Machine learning
Machine learning đang được ứng dụng rất nhiều trong đời sống hiện nay và ở trong rất nhiều lĩnh vực:
- Mạng máy tính
- Khoa học vũ trụ
- Quảng cáo
- Tự động hóa
- Robotics
- Hóa học
- Xử lý ngôn ngữ tự nhiên
- Thị giác máy tính
- Tài chính – ngân hàng
- Sinh học
- Nông nghiệp
- Tìm kiếm, trích xuất thông tin
Và cũng có rất rất nhiều các lĩnh vực khác có thể áp dụng được công cụ machine learning, thậm chí machine learning còn tỏ ra rất hiệu quả, hơn hẳn con người trong nhiều lĩnh vực mà chúng được áp dụng.
Một ví dụ đơn giản như việc dự báo thời tiết hàng ngày, người ta sẽ dùng một loạt các phép tính và thông qua những quan sát, ghi nhận về hiện tượng thời tiết trong quá khứ để có thể dự báo được thời tiết cho những ngày hôm sau. Tuy nhiên, sẽ như thế nào nếu có thể có cực kỳ nhiều quan sát được thực hiện một cách nhanh chóng, thậm chí có thể lên tới hàng triệu, hoặc hàng tỉ quan sát mà con người không thể nào làm được?
Khi này, việc sử dụng công cụ machine learning để cho máy tính biết được những quan sát đã được ghi nhận ở trong quá khứ, chúng sẽ dự đoán được thời tiết của những ngày hôm với độ chính xác được đánh giá là cao hơn rất nhiều so với dự đoán của con người.
Chính vì sự phổ biến và mức độ hiệu quả của công cụ machine learning, việc bạn biết tới nó và học về machine learning chính là một lợi thế rất lớn trong thời đại 4.0 như hiện nay.
Tạm kết
Thông qua bài viết này, FPT Shop đã chỉ cho bạn những kiến thức về machine learning, ứng dụng của nó. Hãy cùng theo dõi FPT Shop để biết thêm những kiến thức mới mẻ nhé.
Xem thêm:
- Không thể bỏ qua 8 lợi ích của Internet làm thay đổi đời sống xã hội hiện đại
- Activate Windows Search là gì? Cách tăng tốc độ tìm kiếm trên máy tính Windows vô cùng đơn giản
Máy tính bảng đang dần trở thành một thiết bị công nghệ vô cùng cần thiết cho cuộc sống hàng ngày của mọi người khi chúng rất tiện dụng để làm việc mọi lúc mọi nơi mà không cần phải mở chiếc laptop ra để làm việc. Tại FPT Shop, những chiếc Apple IPad đang được mở bán với giá cả cực ưu đãi, giúp cho các bạn có thể dễ dàng rinh về cho mình một thiết bị tiện lợi phục vụ cho công việc và đời sống của bạn.
Xem thêm máy tính bảng Apple