paint-brush
딥 러닝 모델 구축 및 훈련을 위한 10가지 최고의 Keras 데이터 세트~에 의해@datasets
3,311 판독값
3,311 판독값

딥 러닝 모델 구축 및 훈련을 위한 10가지 최고의 Keras 데이터 세트

너무 오래; 읽다

Keras는 복잡한 신경망 모델을 구축하고 훈련하는 과정을 단순화하는 고급 API를 제공합니다. 사전 구축된 다양한 레이어와 기능을 통해 개발자는 딥 러닝 모델을 쉽게 구축하고 훈련할 수 있습니다. Keras는 훈련 및 추론을 위한 GPU 가속도 지원하므로 연구 및 산업 애플리케이션 모두에서 널리 사용됩니다.
featured image - 딥 러닝 모델 구축 및 훈련을 위한 10가지 최고의 Keras 데이터 세트
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Keras는 복잡한 신경망 모델을 구축하고 훈련하는 과정을 단순화하는 고급 API를 제공합니다. 사전 구축된 다양한 레이어와 기능을 통해 개발자는 최적화 알고리즘을 사용하여 대규모 데이터 세트에서 딥 러닝 모델을 쉽게 구축하고 훈련할 수 있습니다. Keras는 훈련 및 추론을 위한 GPU 가속도 지원하므로 연구 및 산업 애플리케이션 모두에서 널리 사용됩니다.


"Keras 데이터세트"란 무엇인가요?

Keras 데이터세트는 Keras 라이브러리와 함께 사전 설치된 사전 처리된 데이터세트입니다. 이러한 데이터 세트는 이미지 분류, 텍스트 분류 및 회귀와 같은 다양한 작업에 대한 모델을 벤치마킹하기 위해 딥 러닝 커뮤니티에서 일반적으로 사용됩니다. 개발자는 이러한 데이터 세트를 활용하여 다양한 딥 러닝 모델을 실험하고 성능을 쉽게 비교할 수 있습니다.


이 기사에서는 전 세계 개발자와 연구원이 액세스할 수 있는 딥 러닝 모델 구축 및 훈련을 위한 최고의 Keras 데이터 세트를 살펴봅니다.

Keras 데이터세트 목록


1. MNIST

MNIST 데이터 세트는 기계 학습 및 컴퓨터 비전 분야에서 널리 사용되고 널리 사용됩니다. 이는 손으로 쓴 숫자 0~9의 회색조 이미지 70,000개로 구성되며, 훈련용 이미지 60,000개, 테스트용 이미지 10,000개입니다. 각 이미지의 크기는 28x28픽셀이며 해당 이미지가 나타내는 숫자를 나타내는 해당 라벨이 있습니다.


이 데이터세트는 다음에서 다운로드할 수 있습니다. 캐글 또는 다음에서 로드됨 케라스 :


 tf.keras.datasets.mnist.load_data(path="mnist.npz")

2. CIFAR-10

CIFAR-10 데이터 세트는 10개 클래스의 60,000개의 32x32 컬러 이미지로 구성되며 클래스당 이미지는 6,000개입니다. 여기에는 총 50,000개의 훈련 이미지와 10,000개의 테스트 이미지가 있으며, 각각 10,000개의 이미지가 포함된 5개의 훈련 배치와 1개의 테스트 배치로 다시 나뉩니다.


이 데이터세트는 다음에서 다운로드할 수 있습니다. 캐글 또는 다음에서 로드됨 케라스 :


 tf.keras.datasets.cifar10.load_data()

삼. CIFAR-100

CIFAR-100 데이터세트에는 100개 클래스에 60,000개(50,000개의 훈련 이미지와 10,000개의 테스트 이미지)의 32x32 컬러 이미지가 있으며, 클래스당 600개의 이미지가 있습니다. 100개의 클래스는 20개의 슈퍼클래스로 그룹화되며, 해당 클래스를 나타내는 미세한 레이블과 해당 클래스가 속한 슈퍼클래스를 나타내는 대략적인 레이블이 있습니다.


이 데이터세트는 다음에서 다운로드할 수 있습니다. 캐글 또는 다음에서 로드됨 케라스 :


 tf.keras.datasets.cifar100.load_data(label_mode="fine")

4. 패션-MNIST

Fashion MNIST 데이터세트는 원래 MNIST 데이터세트를 대체하기 위해 Zalando Research에서 생성되었습니다. Fashion MNIST 데이터세트는 의류 품목에 대한 70,000개의 회색조 이미지(60,000개의 훈련 세트와 10,000개의 테스트 세트)로 구성됩니다.


이미지 크기는 28x28픽셀이며 티셔츠/상의, 바지, 풀오버, 드레스, 코트, 샌들, 셔츠, 운동화, 가방, 발목 부츠 등 10가지 종류의 의류 품목을 나타냅니다. 이는 원래 MNIST 데이터세트와 유사하지만 의류 항목의 복잡성과 다양성으로 인해 분류 작업이 더 까다로워졌습니다.


이 데이터세트는 다음에서 다운로드할 수 있습니다. 캐글 또는 다음에서 로드됨 케라스 :


 tf.keras.datasets.fashion_mnist.load_data() 


패션-MNIST 이미지

5. IMDB

IMDB 데이터 세트는 일반적으로 감정 분석 작업에 사용되며, 여기서 목표는 콘텐츠에 따라 리뷰를 긍정적 또는 부정적으로 분류하는 것입니다. 이는 인터넷 영화 데이터베이스 웹 사이트의 50,000개 영화 리뷰(훈련 세트 25,000개 및 테스트 세트 25,000개) 모음으로 구성되며 긍정적인 리뷰와 부정적인 리뷰로 균등하게 나뉩니다.


이 데이터 세트의 각 리뷰는 전처리되어 정수 시퀀스로 변환된 텍스트 문서입니다. 여기서 각 정수는 리뷰의 단어를 나타냅니다. 어휘 크기는 데이터 세트에서 가장 자주 사용되는 10,000개의 단어로 제한되며 덜 자주 사용되는 단어는 특수한 "알 수 없는" 토큰으로 대체됩니다.


이 데이터세트는 다음에서 다운로드할 수 있습니다. 캐글 또는 다음에서 로드됨 케라스 :


 tf.keras.datasets.imdb.load_data( path="imdb.npz", num_words=None, skip_top=0, maxlen=None, seed=113, start_char=1, oov_char=2, index_from=3, **kwargs )

6. 보스턴 하우징

보스턴 주택 데이터세트에는 보스턴 지역의 주택에 대한 정보가 포함되어 있습니다. 이 정보는 각 인스턴스에 대한 속성을 포함하는 506개의 인스턴스(404개 훈련 및 102개 테스트 인스턴스)로 구성됩니다.


속성에는 주거지당 평균 방 수, 1인당 범죄율, 도시당 비소매 사업 면적 비율과 같은 정량적 변수와 범주형 변수가 혼합되어 있습니다.


이 데이터세트는 다음에서 다운로드할 수 있습니다. 캐글 또는 다음에서 로드됨 케라스 :


 tf.keras.datasets.boston_housing.load_data( path="boston_housing.npz", test_split=0.2, seed=113 )

7. 와인 품질

와인 품질 데이터세트에는 적포도주와 백포도주 샘플에 대한 정보가 포함되어 있습니다. 이 데이터 세트의 목표는 pH, 밀도, 알코올 함량, 구연산 함량과 같은 화학적 특성을 기반으로 와인의 품질을 분류하는 것입니다.


이 데이터 세트의 변수는 다음과 같습니다.


  • 고정 산도(Fixed Acidity) – 와인의 고정 산도(g/dm^3)로 표시됩니다.
  • 휘발성 산도(Volatile Acidity) – 와인에 들어 있는 휘발성 산의 양으로 g/dm^3으로 표시됩니다.
  • 구연산 - 와인에 함유된 구연산의 양으로 g/dm^3으로 표시됩니다.
  • 잔류 설탕: 와인에 남아 있는 설탕의 양으로, g/dm^3으로 표시됩니다.
  • 염화물 - 와인에 함유된 염화물의 양으로, g/dm^3으로 표시됩니다.
  • 유리 이산화황 - 와인에 함유된 유리 이산화황의 양으로 mg/dm^3으로 표시됩니다.
  • 총 이산화황 - 와인에 함유된 총 이산화황의 양으로, mg/dm^3 단위로 표시됩니다.
  • 밀도 - g/cm^3으로 표시되는 와인의 밀도입니다.
  • pH - 와인의 pH 수준.
  • 황산염 - 와인에 함유된 황산염의 양으로 g/dm^3으로 표시됩니다.
  • 알코올 - 와인의 알코올 함량을 % vol로 표시합니다.
  • 품질(Quality) - 와인의 품질 등급(0~10점)입니다.


데이터세트를 다운로드할 수 있습니다. 여기 , 또는 Keras에서 로드할 수 있습니다.


 from keras.datasets import wine_quality (X_train, y_train), (X_test, y_test) = wine_quality.load_data(test_split=0.2, seed=113)

8. 로이터 뉴스와이어

Reuters Newswire 데이터 세트는 원본 Reuters 데이터 세트의 사전 처리된 버전으로, 텍스트는 정수 시퀀스로 인코딩됩니다. 30,979 단어의 어휘와 11,228개의 뉴스 기사로 구성되어 있습니다.


각 기사는 "옥수수", "원유", "수익" 및 "인수"와 같은 46가지 주제 중 하나로 분류됩니다.


다음에서 데이터세트를 다운로드할 수 있습니다. 캐글 또는 다음에서 로드할 수 있습니다. 케라스 :


 tf.keras.datasets.reuters.load_data(path="reuters.npz",num_words=None,skip_top=0, maxlen=None,test_split=0.2,seed=113,start_char=1,oov_char=2,index_from=3,**kwargs)

9. 피마 인디언 당뇨병

이 데이터 세트는 나이, 임신 횟수, 혈당 수준, 혈압, 피부 두께, BMI 및 인슐린 수준과 같은 피마 인디언 여성에 대한 의료 데이터로 구성됩니다. Pima Indians Diabetes 데이터 세트의 Keras 버전에는 8개의 입력 변수와 1개의 출력 변수가 있는 768개의 샘플이 포함되어 있습니다.


Pima Indians 당뇨병 데이터 세트는 다음에서 다운로드할 수 있습니다. 캐글 , 또는 Keras에서 로드할 수 있습니다.


 from tensorflow.keras.datasets import pima_indians_diabetes (x_train, y_train), (x_test, y_test) = pima_indians_diabetes.load_data()

10. 개 대 고양이

개 vs 고양이 데이터세트는 개와 고양이의 라벨이 지정된 이미지 25,000개와 각 클래스의 이미지 12,500개로 구성됩니다. 이러한 이미지는 크기와 품질이 다양한 다양한 소스에서 수집되었습니다.


다음에서 데이터세트를 다운로드할 수 있습니다. 캐글 , 또는 Keras에서 로드할 수 있습니다.


 # Import the necessary Keras libraries: from keras.preprocessing.image import ImageDataGenerator # Set the paths to the training and validation directories: train_dir = 'path/to/train' validation_dir = 'path/to/validation' # Define an ImageDataGenerator object to perform data augmentation and normalization: train_datagen = ImageDataGenerator(rescale=1./255, rotation_range=40, width_shift_range=0.2, height_shift_range=0.2, shear_range=0.2, zoom_range=0.2, horizontal_flip=True) # Use flow_from_directory to load directory data in Keras: validation_datagen = ImageDataGenerator(rescale=1./255) train_generator = train_datagen.flow_from_directory(train_dir, target_size=(150, 150), batch_size=32, class_mode='binary') validation_generator = validation_datagen.flow_from_directory(validation_dir, target_size=(150, 150), batch_size=32, class_mode='binary') # The flow_from_directory yields preprocessed image batches and labels as DirectoryIterator.


위의 코드에서는 데이터 증대를 사용하여 과적합을 방지하는 데 도움이 되는 훈련 이미지의 변형을 생성하고 있습니다. 검증 데이터는 확장되지 않습니다.


개 대 고양이 이미지

Keras 데이터세트의 일반적인 사용 사례

MNIST - 필기 숫자 인식.


CIFAR-10 - 이미지의 객체 인식.


CIFAR-100 - 이미지의 객체 인식(CIFAR-10보다 더 세밀함).


패션-MNIST - 의류 품목 인식.


IMDB - 영화 리뷰에 대한 감성 분석.


보스턴 하우징 - 주택가격의 회귀.


와인 품질 - 와인의 품질 분류.



로이터 뉴스와이어 - 뉴스 기사의 주제 분류.


피마 인디언 당뇨병 - 피마 인디언 여성의 당뇨병의 이진 분류.


개 대 고양이 - 개와 고양이 이미지의 이진 분류.

마지막 생각들

Keras 데이터세트는 머신러닝 실무자와 연구자에게 귀중한 리소스입니다. 이를 통해 데이터 수집 및 전처리에 소요되는 시간과 노력을 절약하고 모델 개발 및 실험에 더 집중할 수 있습니다.


이러한 Keras 데이터세트는 누구나 무료로 다운로드하여 사용할 수 있습니다.



더 많은 데이터 세트 목록:

  1. Power Bi 데이터 세트
  2. 시계열 데이터 세트
  3. 지리공간 데이터세트
  4. 포옹 데이터 세트
  5. R 데이터세트