Большие данные или хранилище данных: что выбрать?
Воспользоваться Hadoop (HDFS) или реляционной СУБД (RDBMS)?На прошлой неделе я обозначил разницу между большими данными и хранилищем данных: большие данные – это Hadoop, а хранилище данных – это РСУБД. Подробности можно прочитать в моей статье. Сегодня я хотел бы проиллюстрировать на примерах, в каких случаях предпочтителен Hadoop, а в каких – хранилище данных.Рассмотрим 4 фактора:Структура данных.Объем данных.Неструктурированные данные.Schema-on-Read (схема при чтении).1. Структура данных: простая или сложнаяЕсли все 100 файлов имеют одинаковую структуру, например, все они состоят из одних и тех же 10 столбцов, то лучше поместить их в Hadoop. Затем мы сможем использовать Hive, Spark, Presto, R или Python * для анализа данных – например, для поиска закономерностей в данных, выполнения ста…





