paint-brush
16 bộ dữ liệu Sklearn tốt nhất để xây dựng mô hình học máytừ tác giả@datasets
30,890 lượt đọc
30,890 lượt đọc

16 bộ dữ liệu Sklearn tốt nhất để xây dựng mô hình học máy

từ tác giả Open Datasets Compiled by HackerNoon12m2023/04/15
Read on Terminal Reader

dài quá đọc không nổi

Sklearn là một mô-đun Python dành cho máy học được xây dựng trên SciPy. Nó là duy nhất do có nhiều thuật toán và dễ sử dụng. Dữ liệu cung cấp năng lượng cho các thuật toán máy học và scikit-learning. Sklearn cung cấp bộ dữ liệu chất lượng cao được sử dụng rộng rãi bởi các nhà nghiên cứu, học viên và những người đam mê.
featured image - 16 bộ dữ liệu Sklearn tốt nhất để xây dựng mô hình học máy
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Dữ liệu cung cấp năng lượng cho các thuật toán học máy và scikit-learning hoặc sklearning cung cấp bộ dữ liệu chất lượng cao được sử dụng rộng rãi bởi các nhà nghiên cứu, học viên và những người đam mê. Scikit-learning (sklearn) là một mô-đun Python dành cho máy học được xây dựng trên SciPy. Nó là duy nhất do có nhiều thuật toán, dễ sử dụng và tích hợp với các thư viện Python khác.

“Bộ dữ liệu Sklearn” là gì?

Bộ dữ liệu Sklearn được đưa vào như một phần của scikit-learning ( sklearning ), vì vậy chúng được cài đặt sẵn với thư viện. Do đó, bạn có thể dễ dàng truy cập và tải các tập dữ liệu này mà không cần phải tải xuống riêng lẻ.


Để sử dụng một tập dữ liệu cụ thể, bạn chỉ cần nhập tập dữ liệu đó từ mô-đun sklearn.datasets và gọi hàm thích hợp để tải dữ liệu vào chương trình của mình.


Các bộ dữ liệu này thường được xử lý trước và sẵn sàng sử dụng, giúp tiết kiệm thời gian và công sức cho những người thực hành dữ liệu, những người cần thử nghiệm các mô hình và thuật toán máy học khác nhau.

Danh sách đầy đủ các bộ dữ liệu trong Thư viện Sklearn

  1. diên vĩ
  2. Bệnh tiểu đường
  3. chữ số
  4. Linnerud
  5. Rượu
  6. Ung thư vú Wisconsin
  7. nhà ở Boston
  8. Khuôn mặt Olivetti
  9. nhà ở California
  10. MNIST
  11. Thời trang-MNIST
  12. make_classification
  13. make_regression
  14. make_blobs
  15. make_moons và make_circles
  16. Make_sparse_coded_signal

Bộ dữ liệu Sklearn được cài đặt sẵn (đồ chơi)

1. diên vĩ

Bộ dữ liệu này bao gồm các phép đo chiều dài đài hoa, chiều rộng đài hoa, chiều dài cánh hoa và chiều rộng cánh hoa của 150 bông hoa diên vĩ, thuộc 3 loài khác nhau: setosa, versicolor và virginica. Bộ dữ liệu hoa diên vĩ có 150 hàng và 5 cột, được lưu trữ dưới dạng khung dữ liệu, bao gồm một cột cho loài của mỗi loài hoa.


Các biến bao gồm:


  • Sepal.Length - Sepal.length đại diện cho chiều dài của sepal tính bằng centimet.
  • Sepal.Width - Sepal.width đại diện cho chiều rộng của sepal tính bằng centimet.
  • Petal.Length - Petal.length đại diện cho chiều dài của cánh hoa tính bằng centimet.
  • Loài - Biến loài đại diện cho loài hoa diên vĩ, với ba giá trị có thể có: setosa, versicolor và virginica.


Bạn có thể tải tập dữ liệu mống mắt trực tiếp từ sklearn bằng hàm load_iris từ mô-đun sklearn.datasets.


 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())


Mã để tải tập dữ liệu Iris bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html ngày 27/3/2023.

2. Bệnh tiểu đường

Bộ dữ liệu sklearn này chứa thông tin về 442 bệnh nhân mắc bệnh tiểu đường, bao gồm các phép đo nhân khẩu học và lâm sàng:

  • Tuổi
  • giới tính
  • Chỉ số khối cơ thể (BMI)
  • huyết áp trung bình
  • Sáu phép đo huyết thanh trong máu (ví dụ: cholesterol toàn phần, cholesterol lipoprotein mật độ thấp (LDL), cholesterol lipoprotein mật độ cao (HDL)).
  • Một phép đo định lượng về sự tiến triển của bệnh tiểu đường (HbA1c).


Có thể tải bộ dữ liệu về Bệnh tiểu đường bằng cách sử dụng hàm load_diabetes() từ mô-đun sklearn.datasets.


 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())


Mã để tải tập dữ liệu Bệnh tiểu đường bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset ngày 28/3/2023.

3. chữ số

Bộ dữ liệu sklearn này là tập hợp các chữ số viết tay từ 0 đến 9, được lưu trữ dưới dạng hình ảnh thang độ xám. Nó chứa tổng cộng 1797 mẫu, với mỗi mẫu là một mảng hình dạng 2D (8,8). Có 64 biến (hoặc tính năng) trong tập dữ liệu sklearn chữ số, tương ứng với 64 pixel trong mỗi hình ảnh chữ số.


Tập dữ liệu Digits có thể được tải bằng hàm load_digits() từ mô-đun sklearn.datasets.


 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)


Mã để tải tập dữ liệu Chữ số bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/datasets/toy_dataset.html#optical-recognition-of-handwrite-digits-dataset ngày 29/3/2023.


4. Linnerud

Bộ dữ liệu Linnerud chứa các phép đo thể chất và sinh lý của 20 vận động viên chuyên nghiệp.


Bộ dữ liệu bao gồm các biến sau:


  • Ba biến thể của bài tập thể chất - chống cằm, ngồi dậy và bật nhảy.
  • Ba biến số đo sinh lý - mạch, huyết áp tâm thu và huyết áp tâm trương.


Để tải tập dữ liệu Linnerud bằng Python bằng sklearn:


 from sklearn.datasets import load_linnerud linnerud = load_linnerud()


Mã để tải tập dữ liệu linnerud bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud ngày 27/3/2023.

5. Rượu

Bộ dữ liệu sklearn này chứa kết quả phân tích hóa học của các loại rượu vang được trồng ở một khu vực cụ thể của Ý, để phân loại các loại rượu vang theo đúng loại của chúng.


Một số biến trong tập dữ liệu:


  • Rượu bia
  • axit malic
  • Tro
  • Độ kiềm của tro
  • magie
  • Tổng số phenol
  • Flavanoid


Tập dữ liệu Wine có thể được tải bằng hàm load_wine() từ mô-đun sklearn.datasets.


 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names


Mã để tải tập dữ liệu Chất lượng rượu bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset ngày 28/3/2023.

6. Ung thư vú Bộ dữ liệu Wisconsin

Bộ dữ liệu sklearn này bao gồm thông tin về các khối u ung thư vú và ban đầu được tạo ra bởi Tiến sĩ William H. Wolberg. Bộ dữ liệu được tạo ra để hỗ trợ các nhà nghiên cứu và học viên máy học phân loại khối u thành ác tính (ung thư) hoặc lành tính (không ung thư).


Một số biến có trong tập dữ liệu này:


  • số ID
  • Chẩn đoán (M = ác tính, B = lành tính).
  • Bán kính (giá trị trung bình của khoảng cách từ tâm đến các điểm trên chu vi).
  • Kết cấu (độ lệch chuẩn của các giá trị thang độ xám).
  • Chu vi
  • Khu vực
  • Độ nhẵn (sự thay đổi cục bộ về độ dài bán kính).
  • Độ gọn (chu vi^2 / diện tích - 1,0).
  • Độ lõm (mức độ nghiêm trọng của các phần lõm của đường viền).
  • Điểm lõm (số phần lõm của đường viền).
  • Đối diện
  • Kích thước Fractal ("xấp xỉ đường bờ biển" - 1).


Bạn có thể tải bộ dữ liệu Wisconsin về Ung thư vú trực tiếp từ sklearn bằng cách sử dụng hàm load_breast_cancer từ mô-đun sklearn.datasets.


 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())


Mã để tải bộ dữ liệu Ung thư vú Wisconsin bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html ngày 28/3/2023.


Bộ dữ liệu Wisconsin về ung thư vú

Bộ dữ liệu Sklearn trong thế giới thực

Bộ dữ liệu sklearn trong thế giới thực dựa trên các vấn đề trong thế giới thực, thường được sử dụng để thực hành và thử nghiệm các thuật toán và kỹ thuật học máy bằng thư viện sklearn trong Python.

7. nhà ở Boston

Bộ dữ liệu Nhà ở Boston bao gồm thông tin về nhà ở trong khu vực Boston, Massachusetts. Nó có khoảng 506 hàng và 14 cột dữ liệu.


Một số biến trong tập dữ liệu bao gồm:


  • TỘI PHẠM - Tỷ lệ tội phạm bình quân đầu người theo thị trấn.
  • ZN - Tỷ lệ đất ở được quy hoạch cho các lô trên 25.000 bộ vuông.
  • INDUS - Tỷ lệ mẫu đất kinh doanh phi bán lẻ trên mỗi thị trấn.
  • CHAS - Biến giả sông Charles (= 1 nếu đường giáp sông; 0 nếu ngược lại).
  • NOX - Nồng độ oxit nitric (phần trên 10 triệu).
  • RM - Số phòng trung bình trên một căn nhà.
  • TUỔI - Tỷ lệ các đơn vị sở hữu chủ sở hữu được xây dựng trước năm 1940.
  • DIS - Khoảng cách có trọng số đến năm trung tâm việc làm ở Boston.
  • RAD - Chỉ số khả năng tiếp cận các đường cao tốc xuyên tâm.
  • THUẾ - Thuế suất bất động sản toàn giá trị cho mỗi $10.000.
  • PTRATIO - Tỷ lệ học sinh-giáo viên theo thị trấn.
  • B - 1000(Bk - 0,63)^2 trong đó -Bk là tỷ lệ người da đen theo thị trấn.
  • LSTAT - Tỷ lệ phần trăm địa vị thấp hơn của dân số.
  • MEDV - Giá trị trung bình của những ngôi nhà do chủ sở hữu cư ngụ tính bằng $1000.


Bạn có thể tải tập dữ liệu Nhà ở Boston trực tiếp từ scikit-learning bằng cách sử dụng hàm load_boston từ mô-đun sklearn.datasets.


 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())


Mã để tải tập dữ liệu Nhà ở Boston bằng sklearn. Lấy ra từ https://scikit-learn.org/0.15/modules/generated/sklearn.datasets.load_boston.html ngày 29/3/2023.

số 8. Khuôn mặt Olivetti

Bộ dữ liệu Khuôn mặt Olivetti là tập hợp các hình ảnh thang độ xám của khuôn mặt người được chụp từ tháng 4 năm 1992 đến tháng 4 năm 1994 tại Phòng thí nghiệm AT&T. Nó chứa 400 hình ảnh của 10 cá nhân, với mỗi cá nhân có 40 hình ảnh được chụp ở các góc độ và điều kiện ánh sáng khác nhau.


Bạn có thể tải bộ dữ liệu Olivetti Faces trong sklearn bằng cách sử dụng hàm fetch_olivetti_faces từ mô-đun bộ dữ liệu.


 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target


Mã để tải bộ dữ liệu Olivetti Faces bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_olivetti_faces.html ngày 29/3/2023.

9. nhà ở California

Bộ dữ liệu sklearn này chứa thông tin về giá trị nhà ở trung bình, cũng như các thuộc tính cho các vùng điều tra dân số ở California. Nó cũng bao gồm 20.640 phiên bản và 8 tính năng.


Một số biến trong tập dữ liệu:


  • MedInc - Thu nhập trung bình trong khối.
  • HouseAge - Tuổi trung bình của các ngôi nhà trong khối.
  • AveRooms - Số phòng trung bình cho mỗi hộ gia đình.
  • AveBedrms - Số phòng ngủ trung bình của mỗi hộ gia đình.
  • Dân số - Dân số khối.
  • AveOccup - Công suất hộ gia đình trung bình.
  • Vĩ độ - Vĩ độ của khối theo độ thập phân.
  • Kinh độ - Kinh độ của khối theo độ thập phân.


Bạn có thể tải tập dữ liệu Nhà ở California bằng cách sử dụng hàm fetch_california_housing từ sklearn.


 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target


Mã để tải bộ dữ liệu Nhà ở California bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html ngày 29/3/2023.

10. MNIST

Bộ dữ liệu MNIST phổ biến và được sử dụng rộng rãi trong các lĩnh vực học máy và thị giác máy tính. Nó bao gồm 70.000 hình ảnh thang độ xám của các chữ số viết tay từ 0–9, với 60.000 hình ảnh để đào tạo và 10.000 để kiểm tra. Mỗi hình ảnh có kích thước 28x28 pixel và có một nhãn tương ứng biểu thị các chữ số mà nó đại diện.


Bạn có thể tải tập dữ liệu MNIST từ sklearn bằng mã sau:


 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')


Lưu ý: Tập dữ liệu MNIST là một tập hợp con của tập dữ liệu Digits.


Mã để tải tập dữ liệu MNIST bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml ngày 30/3/2023.


11. Thời trang-MNIST

Bộ dữ liệu Fashion MNIST do Zalando Research tạo ra để thay thế cho bộ dữ liệu MNIST ban đầu. Bộ dữ liệu Fashion MNIST bao gồm 70.000 hình ảnh thang độ xám (tập huấn luyện 60.000 và tập kiểm tra 10.000) mặt hàng quần áo.


Hình ảnh có kích thước 28x28 pixel và đại diện cho 10 loại mặt hàng quần áo khác nhau, bao gồm áo phông/áo, quần tây, áo chui đầu, váy, áo khoác, xăng đan, áo sơ mi, giày thể thao, túi xách và bốt đến mắt cá chân. Nó tương tự như bộ dữ liệu MNIST ban đầu, nhưng với các nhiệm vụ phân loại khó khăn hơn do sự phức tạp và đa dạng hơn của các mặt hàng quần áo.


Bạn có thể tải tập dữ liệu sklearn này bằng hàm fetch_openml.


 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')


Mã để tải bộ dữ liệu Fashion MNIST bằng sklearn. Đã lấy từ__ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ vào ngày 30/3/2023.

Bộ dữ liệu Sklearn đã tạo

Bộ dữ liệu sklearn đã tạo là bộ dữ liệu tổng hợp, được tạo bằng thư viện sklearn trong Python. Chúng được sử dụng để thử nghiệm, đo điểm chuẩn và phát triển các mô hình/thuật toán học máy.

12. make_classification

Hàm này tạo tập dữ liệu phân loại n lớp ngẫu nhiên với số lượng mẫu, tính năng và tính năng thông tin được chỉ định.


Đây là mã ví dụ để tạo tập dữ liệu sklearn này với 100 mẫu, 5 tính năng và 3 lớp:


 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)


Mã này tạo ra một tập dữ liệu với 100 mẫu và 5 tính năng, với 3 lớp và 3 tính năng cung cấp thông tin. Các tính năng còn lại sẽ dư thừa hoặc nhiễu.


Mã để tải tập dữ liệu make_classification bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification ngày 30/3/2023.

13. make_regression

Hàm này tạo tập dữ liệu hồi quy ngẫu nhiên với số lượng mẫu, tính năng và nhiễu được chỉ định.


Đây là mã ví dụ để tạo tập dữ liệu sklearn này với 100 mẫu, 5 tính năng và mức độ nhiễu là 0,1:


 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)


Mã này tạo tập dữ liệu có 100 mẫu và 5 tính năng, với độ nhiễu là 0,1. Biến mục tiêu y sẽ là một biến liên tục.


Mã để tải tập dữ liệu make_regression bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression ngày 30/3/2023.

14. make_blobs

Hàm này tạo một tập dữ liệu ngẫu nhiên với số lượng mẫu và cụm được chỉ định.


Đây là mã ví dụ để tạo tập dữ liệu sklearn này với 100 mẫu và 3 cụm:


 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)


Mã này tạo tập dữ liệu có 100 mẫu và 2 tính năng (tọa độ x và y), với 3 cụm được đặt ở giữa tại các vị trí ngẫu nhiên và không có nhiễu.


Mã để tải tập dữ liệu make_blobs bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs ngày 30/3/2023.

15. make_moons make_circles

Các hàm này tạo các bộ dữ liệu có ranh giới phi tuyến tính, hữu ích để thử nghiệm các thuật toán phân loại phi tuyến tính.


Đây là mã ví dụ để tải bộ dữ liệu make_moons:


từ sklearn.datasets nhập make_moons

X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)


Mã này tạo ra một tập dữ liệu với 1000 mẫu và 2 tính năng (tọa độ x và y) với ranh giới phi tuyến tính giữa hai lớp và với 0,2 độ lệch chuẩn của nhiễu Gaussian được thêm vào dữ liệu.


Mã để tải tập dữ liệu make_moons bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons ngày 30/3/2023.


Đây là mã ví dụ để tạo và tải tập dữ liệu make_circles:


 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)


Mã để tải tập dữ liệu make_circles bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles ngày 30/3/2023.

16. make_sparse_coded_signal

Chức năng này tạo ra một bộ dữ liệu tín hiệu được mã hóa thưa thớt, hữu ích để thử nghiệm các thuật toán cảm biến nén.


Đây là mã ví dụ để tải tập dữ liệu sklearn này:


 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)


Mã này tạo ra một bộ dữ liệu tín hiệu được mã hóa thưa thớt với 100 mẫu, 50 tính năng và 10 nguyên tử.


Mã để tải tập dữ liệu make_sparse_coded_signal bằng sklearn. Lấy ra từ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal ngày 30/3/2023.


Các trường hợp sử dụng phổ biến cho Bộ dữ liệu Sklearn

Bộ dữ liệu Sklearn được cài đặt sẵn (đồ chơi)

diên vĩ - Bộ dữ liệu sklearn này thường được sử dụng cho các nhiệm vụ phân loại và được sử dụng làm bộ dữ liệu chuẩn để thử nghiệm các thuật toán phân loại.


Bệnh tiểu đường - Bộ dữ liệu này chứa thông tin y tế về bệnh nhân tiểu đường và được sử dụng cho các nhiệm vụ phân loại và hồi quy trong phân tích chăm sóc sức khỏe.


chữ số - Bộ dữ liệu sklearn này chứa hình ảnh của các chữ số viết tay và thường được sử dụng cho các nhiệm vụ nhận dạng mẫu và phân loại hình ảnh.


Linnerud - Bộ dữ liệu này chứa dữ liệu về thể lực và y tế của 20 vận động viên và được sử dụng phổ biến để phân tích hồi quy đa biến.


Rượu - Bộ dữ liệu sklearn này chứa các phân tích hóa học về rượu vang và thường được sử dụng cho các nhiệm vụ phân loại và phân cụm.


Ung thư vú Wisconsin - Bộ dữ liệu này chứa thông tin y tế về bệnh nhân ung thư vú và thường được sử dụng cho các nhiệm vụ phân loại trong phân tích chăm sóc sức khỏe.

Bộ dữ liệu Sklearn trong thế giới thực

nhà ở Boston - Bộ dữ liệu sklearn này chứa thông tin về nhà ở ở Boston và thường được sử dụng cho các tác vụ hồi quy.


Khuôn mặt Olivetti - Bộ dữ liệu này chứa các hình ảnh thang độ xám của khuôn mặt và thường được sử dụng cho các nhiệm vụ phân loại hình ảnh và nhận dạng khuôn mặt.


nhà ở California - Bộ dữ liệu sklearn này chứa thông tin về nhà ở tại California và thường được sử dụng cho các tác vụ hồi quy.


MNIST - Bộ dữ liệu này chứa hình ảnh của các chữ số viết tay và thường được sử dụng cho các nhiệm vụ phân loại hình ảnh và nhận dạng mẫu.


Thời trang-MNIST - Bộ dữ liệu sklearn này chứa hình ảnh của các mặt hàng quần áo và thường được sử dụng cho các tác vụ nhận dạng mẫu và phân loại hình ảnh.

Bộ dữ liệu Sklearn đã tạo

make_classification - Tập dữ liệu này là tập dữ liệu được tạo ngẫu nhiên cho các tác vụ phân loại nhị phân và đa lớp.


make_regression - Tập dữ liệu này là tập dữ liệu được tạo ngẫu nhiên cho các tác vụ hồi quy.


make_blobs - Tập dữ liệu sklearn này là tập dữ liệu được tạo ngẫu nhiên cho các tác vụ phân cụm.


make_moons make_circles - Các bộ dữ liệu này là các bộ dữ liệu được tạo ngẫu nhiên cho các nhiệm vụ phân loại và thường được sử dụng để thử nghiệm các bộ phân loại phi tuyến.


make_sparse_coded_signal - Tập dữ liệu này là tập dữ liệu được tạo ngẫu nhiên cho các tác vụ mã hóa thưa thớt trong xử lý tín hiệu.

Suy nghĩ cuối cùng

Bộ dữ liệu Sklearn cung cấp một cách thuận tiện để các nhà phát triển và nhà nghiên cứu kiểm tra và đánh giá các mô hình máy học mà không cần phải thu thập và xử lý trước dữ liệu theo cách thủ công.


Chúng cũng có sẵn cho mọi người tải xuống và sử dụng miễn phí.


Hình ảnh chính của bài viết này được tạo thông qua mô hình Khuếch tán ổn định AI của HackerNoon bằng cách sử dụng dấu nhắc 'bộ dữ liệu mống mắt'.


Danh sách tập dữ liệu khác:

  1. Bộ dữ liệu Excel
  2. Bộ dữ liệu máy ảnh
  3. Bộ dữ liệu R


L O A D I N G
. . . comments & more!

About Author

Open Datasets Compiled by HackerNoon HackerNoon profile picture
Open Datasets Compiled by HackerNoon@datasets
A library of open datasets for data analytics/machine learning compiled by HackerNoon.

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...