Machine learning or data science entered mainstream consciousness when Google’s AlphaGo defeated the top human grandmaster of Go, Lee Sedol, in January 2016. The game of Go is infinitely more complicated than chess. AlphaGo used its neural network to compete within itself as the game progress to come up with the best move. This is superior to algorithmic brute force method used by IBM’s Deep Blue to defeat chess master Gary Kasparov in 1997.

This is a breakthrough that came one whole decade earlier than what experts had expected. The success of AlphaGo means that machine learning can be used for complicated situations such as trading, business, and even solving the problems of disease. The missing question is who can come up with the next AlphaGo. This is where competition for data science will come in useful.

1. Data-Driven

Data-Driven is a US based data science competition organizer which works with non-profit organization to solve humanity’s issues. Data-Driven will test the mettle of the data scientist by first finding a problem that can be solved through data.

Data Driven Data Science Competition

Source: Data-Driven

Data scientists will give data at the initial time frame (e.g. Year 2015 data of blood donors) and see if the scientist can create a statistical model that would provide the nearest  answer to the end point (e.g. Year 2017 blood donation results). If the statistical model is  good, then it would be implemented by the organization to predict future events (e.g.  Year 2019 blood donation outcome).

2. Kaggle

While Data-Driven has a lofty philanthropic goal of working with non-profits, Kaggle is creating data science competition for corporations to solve corporate problems. Kaggle was founded by Anthony Goldboom in Melbourne, Australia in 2010. Goldboom moved it to  San Francisco in 2011 after it received US$11 million of Series A funding.

Kaggle Competition

Source: Kaggle

Thus, Kaggle is able to provide good incentives for participants who can solve  complex problems for companies and universities. For instance, Google is giving away US$100,000 in parts to the top five teams that can help it to label YouTube videos accurately.

Videos can be from entertainment to educational and everything in between. If there is  a music lesson on YouTube compared to a video on Modafinil benefits and drawbacks,  the kernel would be able identify and tag its category properly. Most people don’t want to see a health supplement video when the tag says music videos and vic versa. Google is inviting data scientists of all levels from students to professionals across the globe to solve this classification problem.

In order to facilitate that, Google gave the YT-8M V2 dataset which contains over 7  million YouTube video with 450,000 hours of videos. In other cases, participants get  good jobs as data scientists when they have proven that they have the skills.


One classic advice by an interviewed Go grandmaster is not to be too concerned  about the individual  moves would turn out to be. Instead, players should  use their intuition and that good  positions look good. For now, it turns out  that humans  are helping computers build that intuition with data science.


