Big Data: o que é e como armazenar e gerenciar
O Big Data (“Grande Dado”, em tradução livre) é o termo usado para se referir à imensa quantidade de dados presentes em armazenamento, estruturados ou não, que possuem potencial para ser usado como informação.
Vale lembra que dado e informação não são a mesma coisa: dado é qualquer coisa armazenada digitalmente, enquanto que informação é o conjunto de dados organizados de forma coesa, algo compreensível e, portanto, utilizável.
Quando se fala em Big Data, é comum se referenciar também aos três “V” que o caracterizam: o imenso volume de dados em armazenamento; a grande variedade encontrada em meio a esses dados e a velocidade com que os dois primeiros aumentam em decorrência do tempo.
Volume
O imenso volume de dados é causado pela também grande quantidade de fontes nas quais esses dados são colhidos. Eles podem ser oriundos de um experimento científico, da saída lógica de sensores, da internet das coisas ou de uma simples rede social.
Variedade
Outra dificuldade é a imensa variedade encontrada no Big Data. Os dados podem até ser parecidos, mas a informação é muito distinta. Números, imagens, palavras, sinais específicos de equipamentos, linguagens, áudio, vídeo e tantos outros são classificações simplórias se pensarmos na quantidade de variações encontradas dentro de um armazenamento.
Velocidade
Imagine a base de dados de uma central de atendimento telefônico. Em um único dia, a base é acrescentada de informações sobre novas chamadas com dezenas (às vezes centenas) de informações em um único registro. Imagine agora ao longo de meses ou anos.
A consequência que vem sendo notada é o armazenamento indiscriminado de dados. Um Big Data gera grande custo para ser mantido, embora não dê o retorno que poderia dar, caso fosse melhor aproveitado.
Essa é a pergunta que muitos empresários estão se fazendo: como posso administrar e usufruir desse Big Data?
Como armazenar
A tecnologia do armazenamento vem evoluindo a passos largos para acompanhar a demanda por espaço e o crescimento na complexidade e tamanho dos arquivos. Cada vez que a resolução de um arquivo de vídeo é melhorada, por exemplo, o espaço ocupado por esses arquivos cresce vertiginosamente.
É preciso espaço físico para armazenar esses arquivos. Isso pode ser feito de várias maneiras, afinal existem diferentes tipos de mídias, mas não dá para colocar os arquivos corporativos em pen drives ou hard drives comuns.
Para esse fim, precisamos do conceito de storage – nome dado para o armazenamento em grande escala. São servidores criados e configurados especificamente para guardar da melhor forma possível os dados gerados diariamente.
Escolher de que forma os dados serão guardados não é tarefa simples. Convém procurar pessoal especializado no assunto para ajudar a definir qual a modalidade que irá melhor atender a demanda dentro do custo disponível.
O storage iSCSI, por exemplo, é uma modalidade que utiliza um protocolo chamado SCSI para organizar diferentes pontos de armazenamento gerenciando tudo pela rede. É uma modalidade mais comum em empresas de pequeno porte por possuir um bom custo-benefício.
Já os storages NAS (network - attached storage) trabalham como servidores dedicados de armazenamento dentro da rede da empresa. Fácil de instalar e de gerenciar, essa modalidade pode ser configurada de uma intuitiva interface web, facilitado o trabalho de empresas que não estão inseridas no mundo de TI, mas precisam de uma infraestrutura robusta e confiável.
Outra modalidade de armazenamento é a utilização do storage DAS (direct-attached storage), o qual não utiliza a rede, mas sim uma conexão física local entre servidor de aplicação e servidor de armazenamento. Essa modalidade é especialmente útil para quem precisa de velocidade na gravação e na leitura de dados. Também é importante para quem tem limitações na rede e não quer prejudicar outras atividades em detrimento do armazenamento.
Deixamos para o final para falarmos da modalidade conhecida como storage SAN (storage area network),uma estrutura em rede normalmente baseada em fibra ótica. Nessa modalidade, é criada uma estrutura especialmente dedicada ao armazenamento.
Essa rede de alto desempenho permite velocidade de leitura e gravação sem comprometer a rede comum de usuários. Nesse caso, é preciso atenção na hora de escolher tanto o hardware quando o software a serem utilizados, pois cada fabricante possui uma matriz de compartilhamento indicando quais equipamentos e versões são os mais indicados para cada estrutura.
É a modalidade mais utilizada ultimamente por reunir vantagens sobre as outras topologias. Entre elas destacamos:
- Maior capacidade de armazenamento;
- Possibilidade de ampliar a capacidade sem realizar desligamentos;
- Facilidade de acesso às informações;
- Não compete com a rede de usuários, já que utiliza rede dedicada.
Claro que todas essas vantagens têm um preço maior quando comparadas com as outras topologias e, por isso, é sempre prudente realizar um projeto que combine o custo com a necessidade real por espaço, velocidade, redundância ou escalabilidade.
Leia mais sobre: Armazenamento de Dados
Tudo o que o usuário precisa se informar sobre armazenamento de dados.
SUPORTE
Técnicos Especializados
Nossa equipe é altamente qualificada para atender a sua necessidade.