Yapay Zeka

Ücretsiz 25 Makine Öğrenmesi Veriseti

Yapay zeka ve machine learning yani makine öğrenmesi alanında çalışmak isteyen kişilerin en büyük ihtiyaç duyduğu şeylerden biri de hiç şüphesiz datasetler. Çünkü machine learning konusu neredeyse tamamen datasetler üzerinden gidiyor. Çünkü siz elinizdeki verilere göre yapay zekayı eğitir ve sonrasında yeni bir veri için tahminde bulunmasını istersiniz. Yapılan her epoch yani eğitim süreci için bir datasetin işlenmesi gerekmekte, yapay zeka verdiğiniz datasete göre işlem ve tahmin etmekte. Bu yazımda ise işte bu dataset bulma konusunda yaşanan sıkıntılara can suyu gibi gelebilecek 25 tane tamamen ücretsiz dataset paylaşıcam, bu sayede sizde elinizdeki dataset sayısını arttırabilir ve daha anlamlı sonuçlar elde edebilirsiniz. E hadi başlayalım ! 🙂

  • Wine Quality: Portekiz’in kuzeyinde bulunan kırmızı ve beyaz şarap örneklerinin özelliklerinin tanımlandığı bu dataset ile özellikle kimyasal testlerle şarap kalitesini modellemek isteyen kişiler için çok kullanışlı olacaktır. Bu datasette 4.898 örnek (instance) bulunmaktadır.
  • Default Of Credit Card Clients: Bu dataset ile Tayvan’daki insanların kredi kartı alımlarını, kredi kartı limitlerini, geçmiş ödemelerinin miktarlarını, hesap özeti tutarları gibi daha birçok konuda veri bulabilir ve 30 000 instance arasından classification ve regression işlemlerinizi yapabilirsiniz. Sadece Tayvan’daki kişiler arasından oluşturulduğu için yerel bi dataset hazırlanmış diyebiliriz fakat 30.000 instance bulunduğu için yabana da atmamak gerek.
  • US Centus Data: Amerika Birleşik Devletleri’nin 1990 nüfus sayımının bir parçası olarak hazırlanmış ve yaş, gelir, medeni hal, asker sayısı, eğitim durumu gibi toplamda 68 farklı kategori hakkında veri bulunmaktadır. Bu veri setinde de toplamda 2.458.285 instance bulunmaktadır.
  • Enron Dataset: Yaklaşık 150 kişinin e-posta verilerinin içerdiği bu veri setini mevcut e-posta araçlarını geliştirmek veya e-postanın şu anda nasıl kullanıldığını anlamak isteyen araştırmacılar için hazırlanmıştır. Datasetin 7 Mayıs 2015’ten önce yayınlanan sürümleri yayından kaldırılmış fakat şu anda yayınlanan sürümünün toplam boyutu 423 MB’tır. Ne kadar instance bulunabileceğini siz hesaplayın 🙂
  • Amazon Reviews: Amazon web sitesinde ürünlere yapılan yorumlara ilişkin hazırlanan bu veri setiyle Amazon’daki ürünlere yönelik classification ve regression işlemlerinizi yapabilirsiniz. Veri setinin toplam boyutu tam 20 GB ve toplamda 142.8 milyon yorum bulunmaktadır. Kullanıcı bazlı sıralanması sebebiyle daha kolay ve anlamlı sonuçlar elde edebilirsiniz.
  • 20 News Group: 20 Haber Grubu veri seti, yaklaşık 20.000 haber grubu belgesinden oluşan ve neredeyse 20 farklı haber grubu arasında eşit bir şekilde bölümlenmiş bir koleksiyondur.Veriler, her biri farklı bir konuya karşılık gelen 20 farklı haber grubuna ayrılmıştır. Haber gruplarının bazıları birbirleriyle çok yakından ilgilidir.
  • Quandl: Hisse senedi fiyatlarını veya ekonomik göstergeleri tahmin etmek için modeller oluşturmak için faydalı olan harika bir ekonomik ve finansal veri kaynağı olan Quandl 400.000’den fazla kişinin ekonomik ve finansal verileri kullanılarak hazırlanmıştır. Veri setini indirmek için öncelikle üye olmanız gerekmekte. Sonrasında listelenen kategorilere göre istediğiniz veri setini indirebilirsiniz.
  • Dünya Bankası Açık Verisi: Dünya bankası’na ait olan bu veri seti ile ülke bazlı finansal raporlarla hazırlanmış bu veri setini ücretsiz bir şekilde indirebilir ve finansal analizlerinizi yapabilirsiniz. Ayrıca yine Dünya Bankası’na ait olan diğer veri setlerine (Microdata Library, Databank, Opendata Catalog vs) erişim sağlayabilirsiniz.
  • IMF Data: Uluslararası Para Fonu (IMF) tarafından hazırlanmış bu veri setinde uluslararası finans, döviz rezervleri, borç oranları, emtia fiyatları ve yatırımlarla ilgili verileri bulabilirsiniz. Ayrıca veri setini kategorilendirilmiş bir şekilde ayrı ayrı olarak da indirebilirsiniz.
  • ImageNet: Yeni algoritmalar için bu fiili görüntü veri kümesi, her bir düğümün yüzlerce ve binlerce görüntü tarafından gösterildiği WordNet hiyerarşisine göre düzenlenmiştir. Bu veri setinde de toplamda 14.197.122 tane resim verisi bulunmaktadır.
  • Introducing Open Images Dataset: Google’ın açık bir şekilde paylaştığı, Google Images arama sonuçlarına göre Creative Commons kapsamında bulunan bu veri setinde 6.000’den fazla kategoriye ayrılmış toplamda yaklaşık 9 milyon URL bulunmaktadır.
  • Indoor: Toplam 67 kategori, kategori başı 100 resim ve toplamda 15.620 resim bulunan bu veri setini kullanarak resim üzerinden analizler yapabilirsiniz. Veri setinin toplam boyutu 2,4 GB’dır ve sadece araştırma amaçlı kullanılması gerekmektedir, ticari kullanım hakkı verilmemektedir.
  • Multidomain Sentiment Analysis Dataset: Amazon alışveriş sitesinde yapılan geri bildirimlere göre hazırlanmış bu veri seti sayesinde duygu analizleri yapabilirsiniz. Veri setinin toplam boyutu 1,9 GB’dır.
  • IMDB Reviews: Dünyanın en büyük film/dizi analiz sitelerinin başında gelen IMDB’de filmlere yapılan geri bildirim ve yorumlara göre hazırlanmış bu veri setinde 25.000’in üzerinde film kullanılmıştır. Veri setini hazırlayan Andrew Maas adlı bi yapay zeka uzmanı ve yapay zeka dünyasında baya ünlü diyebilirim.
  • Sentiment 140: Dünyanın en büyük mikroblog sitesi olan Twitter’da atılan tweetler ve tweetlere yapılan yorumlardaki smilelere göre hazırlanmış bu veri setini ne yazık ki açık kaynak olarak geliştirilmiyor fakat yine de en azından sosyal medya hakkında önemli analizler yapabilirsiniz. Ayrıca bu veri seti için hazırlanmış bir de Google grubu var, sorularınızı ve aklınıza takılanları gruba üye olarak yazabilirsiniz.
  • MNIST: El yazısı ile rakam sınıflandırması için hazırlanmış olan bu veri setinde 60.000 örnek resim bulunmaktadır. Tek bir CPU üzerinde yönetilebilirken sinir ağlarını garanti altına almak için yeterince karmaşık olduğu için derin öğrenme için iyi bir giriş veri kümesi olarak kabul edilir.
  • CIFAR: CIFAR veri seti CIFAR 10 ve CIFAR 100 olmak üzere 2 farklı şekilde yayınlanmaktadır.CIFAR10 veri setinde 10, CIFAR100 veri setinde ise 100 farklı sınıfta toplamda 60.000 adet resim bulunmaktadır. Bu resimlerin 50.000 tanesi eğitim ve 10.000 tanesi test görüntüsü şeklindedir.
  • Youtube 8M: Bu veri setinin 4 farklı versiyonu bulunmaktadır.
    • Haziran 2019 versiyonunda 230.000 insan tarafından doğrulanmış segment etiketi,
    • Mayıs 2018 versiyonunda 6.1 milyon video,
    • Şubat 2017 sürümünde 7 milyon video,
    • Eylül 2016 versiyonunda ise 8.2 milyon video bulunmaktadır.
  • Food Environment Atlas: Yiyecek ortam faktörleri – mağaza / restoran yakınlığı, yiyecek fiyatları, yiyecek ve beslenme yardımı programları ve toplum özellikleri gibi – yiyecek seçimlerini ve diyet kalitesini etkilemek için etkileşime girer. Araştırma, bu etkileşimlerin karmaşıklığını belgelemeye başlıyor, ancak nedensel ilişkileri ve etkili politika müdahalelerini tanımlamak için daha fazlasına ihtiyaç var. Atlas’ın hedefleri, gıda seçimlerinin ve diyet kalitesinin belirleyicileri hakkındaki araştırmaları teşvik etmek için gıda ortamı göstergelerine ilişkin istatistikleri bir araya getirmek ve bir toplumun sağlıklı gıdaya erişebilme yeteneğine ve bunu yapmadaki başarısına mekansal bir bakış sağlamaktır.
  • Chronic Disease: Bu tamamen bi veri seti değil aslında, veri seti kümesi. Satır başında belirttiğim linke gittiğinizde göreceğiniz üzere kronik hastalıklar üzerine hazırlanmış toplamda 19 tane veri seti arasından istediğiniz birini indirip makine öğrenmesi ile anlamlı analizler yapabilirsiniz.
  • The US National Center for Education Statistics: Buda tıpkı Chronic Disease gibi veri seti kümesi sayfasıdır. Dünyanın dört bir yanında bulunan eğitim kurumlarındaki eğitim demografisine ait veri setleri bulabilir ve istediğiniz birini indirerek analizler yapabilirsiniz.
  • Berkeley DeepDrive: İnsansız araçlar üzerine analizler yapabilmek amacıyla hazırlanmış bu veri setinde farklı zaman ve hava koşullarında yaklaşık 1.100 saatlik sürüş deneyimlerine ait 100.000’den fazla video içermektedir. Veri setini indirebilmek için öncelikle üye olmanız gerekmekte, sonrasında kullanıcı portalı üzerinden indirebilirsiniz.
  • Baidu Apolloscapes: Otonom sürüşler için simülasyon yapabilmeyi kolaylaştıran bu veri seti sayesinde otonom sürüş animasyonları ile ilgili analiz ve değerlendirmeler yapabilirsiniz. Veri seti başlıca zorluklar, özerk bir aracın diğer araçlar, bisikletler veya yayalar ile çevrili yollarda gezinmesi sırasında ortaya çıkan güvenlik hususlarını içerir.
  • Oxford’s Robotic Car: Oxford RobotCar Dataset, bir yıldan fazla bir süre boyunca yakalanan Oxford üzerinden sabit bir rotanın 100’den fazla tekrarını içerir. Veri seti, inşaat ve yol çalışmaları gibi uzun vadeli değişikliklerin yanı sıra birçok farklı hava, trafik ve yaya kombinasyonunu içermektedir. Her bir test ve ortam için ayrı bi veri seti hazırlanmıştır. Bu veri setini de indirebilmek için öncelikle üye olmanız gerekmektedir.
  • Traffic Sign Recognition: Belçika’daki Flanders bölgesindeki binlerce trafik işaretinden 10.000’den fazla trafik işareti ek açıklaması içeren bu veri sayesinde trafik ışık ve işaretlerini tespit edebilir ve bu tespitler üzerine analizler yapabilirsiniz.

Evet veri setlerimiz şimdilik bu kadar. Tabi makine öğrenmesi için hazırlanmış veri setleri sadece bunlarla sınırlı değil, daha belki de yüzlerce veri seti var, tabi bunların bazıları ücretli bazıları ise ücretsiz. Bende makine öğrenmesi üzerinde çalışmalar yapan biri olarak bu konuda araştırmalarımız devam etmektedir, elde ettiğim bilgi ve kaynakları yayınlamaya devam edeceğim inşallah. Okuyan herkese teşekkür ederim, hayırlı günler..

Skorumuz:
Oy Vermek İçin Tıklayın
[Toplam: 0 Ortalama: 0]

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu