Um CELFI dedicado à Teoria da Informação nas suas vertentes computacionais e biológicas
O primeiro CELFI será constituído na Cidade Universitária de Buenos Aires e incluirá como infra-estrutura edilícia o IFIBYNE e o novo Pavilhão Zero+Infinito
A temática de pesquisa girará ao redor da Teoria da Informação em suas vertentes computacionais (manejo de BigData, Cloud Computing) e biológicas (bioinformática, genômica e neurociências). O Centro conformará uma associação sinérgica com a Faculdade de Ciências Exatas da UBA (Exatas-UBA) e, especialmente, com o Departamento de Computação, de Ciências da Atmosfera e dos Oceanos e o Instituto de Cálculo. Nessa Faculdade, onde também estão os Departamentos de Química, Biologia, Física, Matemática e Geologia, se encontra a maior concentração institucional de pesquisadores, responsáveis por aproximadamente 15% da produção científica da Argentina. Além disso, 20% dos estudantes do país obtêm, anualmente, o título de Doutor na Exatas-UBA.
Fundamentação da temática do Centro
Nas últimas décadas houve uma explosão em nossa capacidade de adquirir, armazenar e processar dados em um volume y diversidade sem precedentes. Contudo, nossa habilidade para extrair conhecimento a partir desses dados é limitada, as técnicas que foram desenvolvidas são ad-hoc e os esforços estão, em sua maioria, compartimentados por aplicação. A ciência dos dados incorpora elementos da ciência da computação e da matemática com o objetivo de desenvolver e aplicar técnicas que permitam a extração sistemática de conhecimento de grande volume de dados heterogêneos.
Este CELFI dedicado à Ciência dos Dados terá como objetivo desenvolver fundamentos, ferramentas e métodos de extração de conhecimento a fim de auxiliar no avance das ciências, tanto das exatas como das humanas, e do setor produtivo, tanto público como privado, por meio da sintetização das distintas experiências que serão adquiridas a partir da resolução concreta de problemas aplicados.
A humanidade vem gerando conhecimento a partir de dados desde seu início, mas hoje temos uma situação nova e única. Por mais que desde os anos 60 a computação venha se mostrando como a disciplina capaz de processar e dar valor a dados digitais, a singularidade deste momento está relacionada ao volume e à heterogeneidade dos dados disponíveis e à disponibilidade da capacidade de cômputo para processar-los. Esta mudança de escala apresenta, ao mesmo tempo, uma oportunidade e um desafio que a ciência dos dados pretende abordar a partir dos avanços recentes e da gestão de novos desenvolvimentos tecnológicos nos campos da eletrônica, computação e matemática.
Contamos com sistemas que administram dados de diferentes tipos, desde estruturados (como aqueles armazenados nas bases de dados) passando também pelos semi-estruturados (incluindo tudo o que está disponível na web, em formato de texto livre, imagem e som), até aqueles provenientes da crescente quantidade de sensores de dados físicos e de redes sociais. Vemos desenvolvendo novas técnicas analíticas baseadas em avanços importantes em matemática aplicada, estatística, mineração de dados, inteligência artificial e algorítmica. Contamos com um hardware sofisticado que permite a paralelização massiva em processadores multi-core, a acumulação de dados precisos em tempo real, por meio de sensores robustos e econômicos, e que apresenta pouca limitação em termos de armazenamento de curto e longo prazo. Finalmente, contamos com a virtualização por meio de cloud computing que permite alcançar soluções com distintos níveis de magnitude.
Como devem estar conjugados todos esses elementos para que se possa gerar um avanço da ciência, da indústria e da sociedade em geral? Atualmente, esta pergunta está sendo explorada por diversas comunidades de maneira isolada. Vale a pena destacar o exemplo da bioinformática, cuja definição é justamente a aplicação de tecnologia de computadores para a gestão e análise de dados biológicos. No entanto, há muitas outras disciplinas que já não podem ser pensadas fora do contexto da ciência dos dados, como as ciências climáticas, dos materiais, genômica, a engenharia em suas diversas subdisciplinas, etc. A indústria também vem se dedicando agressivamente a este tema no que seria a business intelligence ou analytics.
A pergunta sobre como extrair conhecimento de grandes volumes heterogêneos de dados é central para a ciência dos dados. A resposta, por sua vez, incorpora elementos da ciência da computação e da matemática aplicada, incluindo bases de dados e data warehousing, cômputo de alto rendimento, algorítmica, inteligência artificial, mineração de dados, métodos numéricos, estatística, investigação operativa, engenharia de software, visualização e modelado.