你是否需要大量的資料來檢驗你的APP性能? 最簡單的方法是從網上免費資料存儲庫下載資料樣本。 但這種方法最大的缺點是資料很少有獨特的內容並且不一定能達到預期的結果。 以下是70多家可以獲得免費大資料存儲庫的網站。
Wikipedia:Database :向感興趣的使用者提供所有可用的內容的免費副本。 可以得到多種語言的資料。 內容連同圖片可以下載。
Common crawl 建立並維護一個所有人都可以訪問的開放的網路。 這個資料保存在亞馬遜s3bucket中,要求者可能花費一些錢來訪問它。
Common crawl :建立並維護一個開放的網路,向所有人開放。
EDRM File Formats Data Set:由381個資料夾200種檔案格式組成。
Apache Mahout TLP專案創建一個可擴展的機器學習演算法。 Mahout有許多免費的和付費的語料庫語料。
EDRM Enron Email Data Set v2由安然公司郵件資訊和附件組成,存在兩組可下載的壓縮檔中:XML和PST。
ClueWeb09用來支援資訊檢索和相關人類語言技術研究的資料庫。 它包含了從2009年1月到2月間收集的大約10億個網頁,包含10種語言。 資料庫被若干TREC會議的追蹤檢測使用。
DMOZ –最大的、最全面的人工編輯的開放式網站目錄。 它收集了不同類型的網站連結。 Dmoz是互聯網搜尋引擎的一個主要來源。
theinfo.org –這是一個大資料集網站,在這裡學者、設計師、演出者等可以交流技巧和竅門,一起開發和共用工具,並開始整合他們獨有的專案。
Project Gutenberg 提供超過36000免費電子書的下載,可以下載到個人電腦、Kindle, Android, iOS or 或其他可擕式設備。
Million song data set:與tracks 和演出者有關的資料
AWS (Amazon Web Services) Public Data Sets:提供了可以無縫融入AWS(亞馬遜網路服務)雲應用的公共資料集的集中存儲庫。
BigML big list of public data sources.
Bioassay data:研究文章「生物測定資料的虛擬篩選」,由Amanda Schierz編寫,有21個生物測定資料集(活性/非生理活性成分),可以下載。
Bitly 1.usa.gov data:匿名點擊政府連結
Canada Open Data:有許多政府和地理空間的資料集的試點專案
Canada Open Data:許多政府和地理空間資料集的試點專案。
Causality Workbench:資料存儲庫
Corral Big Data repository:在德克薩斯高級計算中心,提供以資料為中心的技術。
Data Source Handbook:公開資料指南
Datacatalogs.org:來自美國、歐盟、加拿大、CKAN以及其他的公開政府資料
Data.gov.uk:英國的公共可用資料(London datastore也是)
Data.gov/Education:對於教育資料資源的主要指南,包括高價值的資料集、資料視覺化、課堂資源、創建自公開資料的應用程式以及其他。
DataMarket:視覺化的世界經濟、社會、自然和工業,擁有來自聯合國,世界銀行,歐盟統計局和其他重要資料提供者的一億時間序列。
Datamob:可以很好利用的公開資料
DataSF.org:可向City & County of San Francisco, CA.購買的資料集資訊交流中心
DataFerrett:一個用來訪問和使用The Data Web的資料採礦工具,許多網上美國政務資料集的集合。
EconData:大量經濟學的時間序列,由許多美國政府機構編制。
Enron Email Dataset:來自大約150個使用者的資料,這些使用者大多數是安然公司高級管理人員
Europeana Data:包含2000萬文字,圖片,視頻開放的中繼資料,以及由歐洲數位圖書館收集的聲音,對於歐洲文化遺產內容值得信賴的、全面的資源。
Europeana Data:
FEDSTATS:一個美國統計資料的綜合資源以及更多
FIMI repository for frequent itemset mining:工具和資料集
Financial Data Finder at OSU:大型財務資料集目錄
GDELT:關於事件、位置和音調的全球資料,被英國衛報形容為「生命、宇宙和一切的大資料歷史」
GEO (GEO Gene Expression Omnibus):一個支援MIAME相容資料提交的基因表達/分子豐度資訊庫,一個精心策劃的網上資源,用於基因表達資料的流覽,查詢和檢索。
GeoDa Center:地理和空間資料
Google ngrams datasets:來自數Google掃描的百萬書籍文本
Grain Market Research:財務資料,包括股票、期貨等
Hilary Mason research-quality Big Data sets收集許多文本和圖片資料集
HitCompanies Datasets:HitCompanies隨機取樣的1萬個英國公司全面的資料,採用人工智慧/機器學習進行自動更新。
ICWSM-2009 dataset:包含2008年8月1日到10月1日之間的4400萬個博文
Infochimps:一個資料開放的目錄和集合,允許分享、出售和下載關於任何內容的資料。
Investor Links:包含財物資料
KDD Cup center:資料、工作表和結果
Kevin Chai list of datasets:文本、SNA和其他領域
KONECT:科布倫茨網路收集,擁有大量各種類型的網路資料集,以便在網路挖掘領域進行研究。
Linking Open Data 工程,免費向所有人提供資料
MIT Cancer Genomics gene expression datasets and publications:來自麻省理工Whitehead Center用於基因組研究
ML Data:歐盟Pascal2網路資料儲存庫
NASDAQ Data Store:提供市場資料
National Government Statistical Web Sites:來自大約70個網站的資料、報告、統計年鑒、新聞和其他,包括非洲、歐洲、亞洲和拉丁美洲的國家。
National Space Science Data Center (NSSDC):美國國家航空航天局的資料集,包含行星探索、空間和太陽物理學、生命科學、天體物理學以及其他方面。
Open Data Census:評估世界各地的開放資料的狀態。
OpenData from Socrata:允許訪問超過10000個資料集,包括商業、教育、政府和娛樂
Open Source Sports:大量運動資料庫,包括棒球、足球、籃球和曲棍球
Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因組有關的出版物資料庫
Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.
qunb:一個用來發現和視覺化的資料資料的平臺
Robert Schiller data:住房建築、股票市場和更多的來自于他的書 Irrational Exuberance的資料
SMD: Stanford Microarray Database,存儲來自微陣列實驗的原始的和標準的資料
Jerry Smith dataset collection:財經、政府、機器學習、科學和其他資料
SourceForge.net Research Data:包含大約10萬個專案和超過100萬註冊使用者的活動的歷史和現狀的統計資料的專案管理網站。
StatLib,卡內基梅隆大學資料檔案
STATOO Datasets part 1和 STATOO Datasets part 2
Time Series Data Library
Visual Analytics Benchmark Repository.
UCI KDD Database Repository :適用于機器學習和知識發現研究的大資料集
UCI Machine Learning Repository.
UCR Time Series Data Archive:提供資料集、論文、連結和代碼
United States Census Bureau.
Wikiposit:一個(虛擬的)融合了來自許多不同網站的資料(大多數是金融的),允許使用者合併來自不同來源的資料
Wolfram Alpha disease and patient level dat.
Yahoo Sandbox datasets:語言、圖表、評級、廣告與行銷、競賽
Yelp Academic Dataset:30家大學的250個最接近商業的所有資料和評論,為學生和學者來探討和研究
199IT編譯自HTTP://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/
(責任編輯:mengyishan)