Bom dia, ontem a noite eu li a notícia mais interessante dos últimos meses. Uma notícia que mostra a evolução de um dos países emergentes com uma das maiores populações do mundo. Eu li o case, que vocês vão usar como exemplo. O primeiro caso de Big Data relacionado à Dados Eleitorais na Índia.
O contrário do resto do mundo, eles não tem dados demográficos e perfis socioeconômicos. No projeto eles tiveram que fazer tudo do zero, foram processados milhões de PDF's. Para vocês terem ideia de como esse projeto foi desafiador, a Índia é um país tão desorganizado que não existe nenhum documento equivalente ao CPF ou o SSN. Se você fizer um empréstimo na Índia, o gerente do banco vai visitar à sua casa e apenas emprestam pequenas quantidades de dinheiro. Um banco da Índia pode ter a mesma pessoa repetida na base de dados como um cliente diferente centenas de vezes. Quando o Milind Chitgupakar me mostrou os padrões dos documentos que eles precisavam processar e bater com outras centenas de bases diferentes, em diferentes formatos, eu achei que seria quase impossível cruzar toda essa informação, num período tão curto de tempo. Basicamente esse projeto usou Perl, Java, PostgreSQL e Hadoop. Foram 8TB de dados processados num cluster de Hadoop com 64 nodes e também no PostgreSQL(basicamente procedures escritas em Perl). Esse é um tremendo case para toda comunidade Open Source, e eu estou muito contente com os resultados. http://epaper.metroindia.com/story.aspx?id=4593&boxid=98266432&ed_date=2014-5-15&ed_code=820009&ed_page=2#.U3SduZLSCm4.twitter http://epaperbeta.timesofindia.com/Article.aspx?eid=31809&articlexml=Hyd-startup-cobbles-up-Indias-first-poll-data-15052014014040 http://www.thehindubusinessline.com/news/politics/india-elections-big-data-throws-up-interesting-trivia/article6011219.ece http://dataconomy.com/big-data-complexity-and-indias-election/ http://www.informationweek.in/informationweek/news-analysis/295826/hyderabad-analytics-startup-builds-india-largest-electoral-repository-814-crore-voters http://www.moneylife.in/business-wire-news/hyderabads-analytics-start-up-modak-analytics-builds-indias-largest-ever-big-data-repository-of-electoral-data/39233.html http://www.cxotoday.com/story/hyderabads-analytics-start-up-builds-big-data-repository-of-electoral-data/ https://www.youtube.com/watch?v=9JuqPvuCp30 -dom -- Daniel de Oliveira Mantovani Business Analytic Specialist Perl Evangelist /Astrophysics hobbyist. +55 11 9 8538-9897 XOXO =begin disclaimer Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ SaoPaulo-pm mailing list: SaoPaulo-pm@pm.org L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> =end disclaimer